Tích hợp lược đồ sử dụng phương pháp học bayes và ánh xạ ngữ nghĩa

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -o0o - LÊ NHƯ HIỀN ĐỀ TÀI: TÍCH HỢP LƯỢC ĐỒ SỬ DỤNG PHƯƠNG PHÁP HỌC BAYES VÀ ÁNH XẠ NGỮ NGHĨA LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Kim Anh HÀ NỘI - 2010 LỜI CAM ĐOAN Tôi xin cam đoan luận văn công trình nghiên cứu riêng Các kết nêu luận văn trung thực, có nguồn gốc rõ ràng, không chép toàn văn công trình khác Tác giả luận văn: Lê Như Hiền LỜI CẢM ƠN Tôi xin gửi lời biết ơn sâu sắc đến cô giáo, PGS.TS Nguyễn Kim Anh trực tiếp hướng dẫn, giúp đỡ, định hướng để thực hoàn thành luận văn tốt nghiệp Tôi xin gửi lời cám ơn tới thầy, cô giáo Viện Công nghệ thông tin Truyền thông - Trường Đại học Bách khoa Hà Nội trang bị cho kiến thức quý báu suốt trình học tập trường Tôi xin gửi lời cám ơn tới Viện đào tạo Sau đại học - Trường Đại học Bách khoa Hà nội tạo điều kiện giúp đỡ thời gian học tập nghiên cứu Cuối cùng, muốn nói lời cám ơn tới gia đình, người thân, bạn bè đồng nghiệp Trường Đại học Công Nghiệp Hà Nội nơi công tác bên cạnh động viên, khích lệ suốt trình nghiên cứu hoàn thành luận văn Hà Nội, ngày 28 tháng 10 năm 2010 Tác giả luận văn: Lê Như Hiền DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Phân loại tích hợp Hình 1.2: Phân loại đầu vào tích hợp Hình 1.3: Phân loại sản phẩm tích hợp Hình 1.4: Các chiến lược tích hợp Hình 1.5: Ví dụ đồng âm Hình 1.6: Ví dụ về đồng nghĩa Hình 1.7: Chuyển đổi thuộc tính thực thể Hình 1.8: Một lược đồ dư thừa Hình 1.9: Khả dễ hiểu: a) Lược đồ A b) Lược đồ B Hình 1.10: Kiến trúc tích hợp Hình 2.1: Đối sánh lược đồ Hình 2.2: Một ví dụ lược đồ SQL XSD Hình 2.3: Kiến trúc tổng thể toán đối sánh lược đồ Hình 2.4: Các phương pháp tiếp cận đối sánh lược đồ Hình 2.5: Đánh giá hệ thống đối sánh Hình 3.1: Phần đậm biểu thị ảnh hưởng ngưỡng tới sai số phân lớp Hình 3.2: Quy tắc Bayes cho lớp với thiệt hại định sai khác Hình 3: Đồ thị phần đại diện cho trọng số thuộc tính riêng Hình 3.4: Đồ thị lưu lượng tối đa chi phí tối thiểu để tìm đối sánh lược đồ tối ưu Hình 4.1: Lược đồ S1 S2: Nguồn liệu sinh viên đại học sau đại học Hình 4.2: Lược đồ S12, tích hợp S1 S2 Hình 4.3: Các lược đồ tích hợp phần: thực thể ER giả định, giao nhau, rời Hình 4.4: Kiến trúc đề xuất để khám phá USRs Hình 4.5: Hai mối quan hệ ER: R1 R2 Hình 4.6: Hai lựa chọn cuối tích hợp lược đồ DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các phương pháp tiếp cận chuyển đổi lược đồ Bảng 2.1: Sự khác phương pháp tiếp cận đối sánh lược đồ Bảng 2.2: Một ví dụ đối sánh dựa mối quan hệ số lượng phần tử Bảng 2.3: Bảng hệ số tương tự phần tử Bảng 4.1: Bảng thật thay mối quan hệ ngữ nghĩa sinh viên Bảng 4.2: Kết hợp mối quan hệ ngữ nghĩa đối tượng lược đồ Bảng 4.3: Phụ thuộc thuộc tính mối quan hệ ER Bảng 4.4: Phụ thuộc đối tượng lược đồ loại Bảng 4.5: Kết hợp quan hệ ngữ nghĩa có lược đồ tích hợp DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Thuật ngữ Ý nghĩa DTD Document Type Definition OWL Web Ontology Language XSD XML Schema Definition SQL Schema Query Language RDF Relation Database File ER Entity Relation USR Uncertain Sematic Relationship CSDL Cơ sở liệu MỤC LỤC MỞ ĐẦU Chương 1: TỔNG QUAN VỀ TÍCH HỢP LƯỢC ĐỒ 1.1 Bài toán tích hợp 1.1.1 Tích hợp lược đồ 1.1.2 Tích hợp liệu 1.2 Phân loại tích hợp lược đồ 1.3 Các bước tích hợp lược đồ 1.3.1 Tiền tích hợp 10 1.3.2 Đối sánh lược đồ 12 1.3.3 Giải xung đột lược đồ 14 1.4.4 Trộn tái cấu trúc 16 1.4 Kiến trúc tích hợp 18 1.5 Tổng kết chương 19 Chương 2: BÀI TOÁN ĐỐI SÁNH LƯỢC ĐỒ 20 2.1 Đối sánh lược đồ 20 2.2 Bài toán đối sánh lược đồ 21 2.2.1 Lược đồ 22 2.2.2 Đầu vào (Input) 23 2.2.3 Đầu (Output) 23 2.3 Mô hình kiến trúc tổng thể 24 2.4 Các phương pháp tiếp cận đối sánh lược đồ 25 2.4.1 Phân loại đối sánh lược đồ 25 2.4.2 Đối sánh mức lược đồ (Schema-level matchers) 26 2.4.3 Đối sánh mức thể (Instance-level matchers) 29 2.4.4 Đối sánh lai 29 2.4.5 Các hệ thống đối sánh lược đồ 29 2.4.6 Các hệ số mặc định toán đối sánh 34 2.5 Các phương pháp đánh giá hệ thống đối sánh 35 2.6 Tổng kết chương 36 Chương 3: ĐỐI SÁNH LƯỢC ĐỒ SỬ DỤNG PHƯƠNG PHÁP HỌC MÁY BAYES VỚI SỰ LỰA CHỌN ĐẶC TRƯNG 37 3.1 Phương pháp học Bayes 37 3.1.1 Phân lớp Bayes 38 3.1.2 Phân lớp xác suất hậu nghiệm cực đại 38 3.1.3 Phân lớp cực tiểu rủi ro 41 3.2 Hệ thống đối sánh lược đồ sử dụng phương pháp học Bayes 42 3.2.1 Phương pháp tiếp cận 42 3.2.2 Bài toán 44 3.2.3 Từ điển thuộc tính hàm trọng số 45 3.2.4 Tối ưu đối sánh lược đồ 46 3.3 Lựa chọn đặc trưng 49 3.3.1 Thông tin hỗ trợ (Mutual Information) 50 3.3.2 Gia lượng thông tin (Information Gain) 51 3.3.3 Tỷ số khả (Likelihood ratio) 51 3.4 Tổng kết chương 52 Chương 4: TÍCH HỢP LƯỢC ĐỒ DỰA TRÊN ÁNH XẠ NGỮ NGHĨA KHÔNG CHẮC CHẮN 54 4.1 Phương pháp tiếp cận 54 4.2 Tích hợp lược đồ dựa ánh xạ ngữ nghĩa 56 4.2.1 Mối quan hệ ngữ nghĩa 56 4.2.2 Trộn lược đồ 58 4.3 Tích hợp lược đồ không chắn 58 4.3.1 Mối quan hệ ngữ nghĩa không chắn 58 4.3.2 Khám phá USRs 61 4.3.3 Phụ thuộc quan hệ ngữ nghĩa 63 4.3.4 Trộn lược đồ 67 4.4 Tổng kết chương 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO Khái niệm lý thuyết Shafer hàm gọi hàm gán xác suất (BPA), gán khối lượng xác suất cho biến cố Tập hợp tất biến cố gọi khung suy xét (frame of discernment) biểu diễn Θ Trong trường hợp này, Θ tập hợp quan hệ ngữ nghĩa xác định mục 4.2, tức { , , , , , } Các biến cố tương ứng với tập Θ Chẳng hạn, tập hợp { , } biểu diễn biến cố “quan hệ ngữ nghĩa tương đương giao nhau” m ({ , }) khối lượng xác suất hỗ trợ giả định xác cho biến cố Định nghĩa (Gán xác suất (BPA)) Một hàm m: 2Θ → [0, 1] gọi gán xác suất khi: - m (φ ) = - ∑ A⊆ Θ m( A) = Từ hàm BPA, tính toán độ tin cậy (Belief) đáng tin cậy (Plausibility) tập A Θ Bel(A) = ∑ m( B ) (4.1) B⊆ A PI(A) = ∑ m( B ) (4.2) B ⊆ Θ, B ∩ A ≠φ Độ tin cậy A tổng tất khối lượng xác suất gán cho tập A Ví dụ, cho A tập ( , ) Nếu gán khối lượng xác suất cho tập ( ) làm tăng độ tin cậy biến cố có chứa Trong thực tế, có vài chứng hỗ trợ cho biến cố "quan hệ ngữ nghĩa tương đương", chứng tăng độ tin cậy trường hợp "quan hệ ngữ nghĩa tương đương không tương thích" Đáng tin cậy A = ( , ) tổng tất khối lượng xác suất tương thích với ( , ) Ví dụ, khối lượng xác suất gán ( , ) A đáng tin cậy, không làm tăng độ tin cậy nó, 59 mối quan hệ rời Những định nghĩa dùng để định nghĩa cách hình thức USR: Định nghĩa (Mối quan hệ ngữ nghĩa không chắn (USR)) Mối quan hệ ngữ nghĩa không chắn hai đối tượng lược đồ A B cặp (Θ, m), Θ = { , , , , , } m BPA Có thể trình bày kiểu USRs ví dụ sau đây, để lý thuyết Shafer đủ để biểu diễn cho tất USRs tìm thấy tích hợp lược đồ Ví dụ (Mối quan hệ chắn) Một mối quan hệ ngữ nghĩa chắn trường hợp đặc biệt USR, tất khối lượng xác suất gán cho mối quan hệ ngữ nghĩa đơn Ví dụ, BPA m ({ }) = có nghĩa chắn mối quan hệ tương đương Ví dụ (Mối quan hệ xác suất) Có thể dùng m để gán xác suất cho quan hệ thay Một BPA m({ })= 0.4, m ({ }) = 0.6 có nghĩa xác suất rời 0.4, xác suất không tương thích 0.6 Ví dụ (Mối quan hệ không cụ thể) Trong nhiều trường hợp, hạn chế Θ, tức để loại trừ số mối quan hệ Nếu biết hai đối tượng không tương đương mối quan hệ ngữ nghĩa thứ tập mối quan hệ ngữ nghĩa thứ hai, tương ứng BPA m ({ , , , }) = Ví dụ ( Sự thiếu hiểu biết phần) 60 Khi có vài thông tin trợ giúp cho quan hệ nhiều khẳng định phần độ tin cậy chúng Ví dụ, BPA m({ })=0.2, m((Θ))=0.8 nghĩa có số chứng hai đối tượng tương đương không chắn Trong trường hợp m không xác định xác suất Một toán điển hình với xác suất khó khăn đánh giá giá trị xác số chúng Các BPA biểu diễn ví dụ mềm dẻo tương ứng với độ tin cậy Bel({ }) = 0.2 đáng tin cậy Pl({ }) = xác định khoảng tin cậy [0.2, 1] mối quan hệ tương đương Ví dụ (Không biết hoàn toàn) Xem xét trường hợp mà thông tin hai đối tượng không muốn so sánh chúng Điều có ích để so sánh phần lược đồ phần 4.3.1 Có thể biểu diễn thiếu hiểu biết cách sử dụng BPA sau: m((Θ)) = 4.3.2 Khám phá USRs Khái niệm USR định nghĩa trực giác, đồng thời hỗ trợ lý thuyết biết tốt Sau kiến trúc để khám phá USRs đưa ví dụ đối sánh lược đồ hai thực thể S1 S2 Như phương pháp mô tả phần 4.2, so sánh đối tượng lược đồ thực nhóm chuyên gia chuyên ngành đặc trưng Tuy nhiên, để hỗ trợ cho tính không chắn cố hữu đối sánh lược đồ, chuyên gia đưa USRs Ánh xạ hai đối tượng lược đồ tính cách tập hợp kết tất chuyên gia có Kiến trúc minh họa hình 4.4 Sự kết hợp USRs đạt cách dùng qui tắc kết hợp Dempster, lấy hai BPAs khung suy xét Θ đầu vào [24] Dùng quy tắc này, kết hợp độ tin cậy chuyên gia tin đồng thời dựa lý 61 thuyết chắn dễ cài đặt Đối với tập A Θ, kết hợp hai độ tin cậy (được định nghĩa BPAs m1 m2) định nghĩa là: (4.3) Quy tắc dùng để kết hợp USRs tạo nên hai chuyên gia Sự kết hợp độ tin cậy n chuyên gia thu cách áp dụng lặp n-1 lần Sau áp dụng quy tắc, xảy trường hợp vài quan hệ ngữ nghĩa hỗ trợ lượng nhỏ khối lượng xác suất Trong trường hợp này, định để xử lý để giữ quan hệ hỗ trợ khối lượng xác suất có ý nghĩa Ngưỡng dùng cho mục đích Điều có ích để cải tiến hiệu làm giảm lực lượng không gian biến cố cho phép không khảo sát quan hệ ngữ nghĩa gần không Tuy nhiên, phần không tìm hiểu làm để chọn ngưỡng tập trung vào lý thuyết phương pháp Nói chung, ngưỡng tìm thấy thực nghiệm cài đặt người dùng Kiến trúc có nhiều đặc trưng mong muốn: (a) Sự cài đặt tập trung vào chuyên gia, tác tử mềm độc lập bé, (b) có khả mở rộng chuyên gia bị xóa thêm vào nhóm mà không phức tạp gì, (c) dễ song song hóa chuyên gia chạy phần cứng chuyên dụng khác nhau, (d) chuyên gia mô-đun phần mềm, trang bị công cụ phân tích liệu chúng người dùng, giao diện Yêu cầu chuyên gia đầu USRs Quy tắc Dempster dùng chúng không mâu thuẫn với Vì vậy, chuyên gia người kết hợp với tác tử mềm để cải tiến chất lượng việc tích hợp lược đồ lớn, nhờ sử dụng quy tắc Dempster kết hợp Nếu chuyên gia 62 người biết xác định số mối quan hệ chắn, độ tin cậy chuyên gia khác không xem xét, không nói chuyên gia USR người sai Đồng thời, chuyên gia người cho đóng góp họ lên số phần lược đồ, giả sử tác tử mềm so sánh đối tượng lược đồ lại Điều thực hoàn toàn số đối tượng không muốn so sánh Không biết hoàn toàn không ảnh hưởng đến kết hợp độ tin cậy chuyên gia khác Hình 4.4: Kiến trúc đề xuất để khám phá USRs 4.3.3 Phụ thuộc quan hệ ngữ nghĩa Hai quan hệ ER phải có tên giống chúng mẫu chung đặc biệt S1.reg đại diện cho mẫu lớn nhiều Do đó, ba chuyên gia mô tả mục 4.3.2 đưa USRs giống đưa sinh viên Điều kết hợp khối lượng xác suất cao gán cho rời giao nhau, m({ , }) = 4/5 Bởi phần lại lựa chọn thay có khối lượng xác suất nhỏ, an tâm giả định m({ , })= Giả định đưa m({ , }) = thực thể sinh viên Cuối cùng, giả sử chuyên gia người cụ thể hóa quan hệ ngữ nghĩa thực thể khóa học giả định siêu tập, m({ }) = 1, tức S1.course S2.course Trong trộn lược đồ, sản sinh USRs cần kết hợp lại Bảng 4.2 minh họa cho tất kết hợp Xét hàng thứ hai bảng, S1.course S2.course, S1 reg S2 reg S1.student 63 S2.student Quan hệ giao hai quan hệ reg ER quy định có mẫu chung S1.reg S2.reg, tức có mẫu chung S1.student S2.student kết hợp với mẫu chung S1.course S1.course Nhưng theo hàng thứ hai bảng, thực thể sinh viên rời mẫu chung Vì vậy, kết hợp mối quan hệ ngữ nghĩa hàng thứ hai bảng không hợp lệ Bảng 4.2: Kết hợp mối quan hệ ngữ nghĩa đối tượng lược đồ course, reg student Ví dụ biểu thị phụ thuộc hữu quan hệ ngữ nghĩa mối quan hệ ER mối quan hệ ngữ nghĩa thực thể liên kết ER ngược lại tập trung quan hệ nhị nguyên ER Ví dụ xem xét hết phụ thuộc chúng trình bày bảng 4.3 tất kết hợp hợp pháp Bảng xem xét trường hợp chung hai mối quan hệ ER: Mối quan hệ ER R1 liên kết thực thể A1 B2 mối quan hệ ER R2 liên kết thực thể A2 B2 (Hình 4.5) Cột thứ bảng quy định cụ thể mối quan hệ ngữ nghĩa thực thể A1 A2 cột thứ hai quy định cụ thể mối quan hệ ngữ nghĩa B1 B2 Cột thứ ba xem xét mối quan hệ ngữ nghĩa có R1 R2 Hình 4.5: Hai mối quan hệ ER: R1 R2 Ở ví dụ trước, mối quan hệ giao S1.reg S2.reg khả năng, trường hợp A1 A2, B1 64 B2 tạo mẫu cho S2.course S1.course, S2.student S1.student hàng bảng 4.3 xác định trường hợp mối quan hệ ngữ nghĩa hợp pháp R1 R2 tạo mẫu cho S2.reg S1.reg không tương thích rời Vậy thì, quan hệ giao chúng không hợp lệ Bảng 4.3: Phụ thuộc thuộc tính mối quan hệ ER 65 Trong số trường hợp, quan hệ ngữ nghĩa R1 R2 hợp pháp điều kiện lực lượng thỏa mãn, ví dụ có A1 R1 A2, A2 B2, R2 lực lượng R1 R2 (hàng bảng 4.3) Bảng 4.4: Phụ thuộc đối tượng lược đồ loại Ngoài phụ thuộc quan hệ ngữ nghĩa quan hệ ER quan hệ ngữ nghĩa thực thể ER liên kết với chúng có phụ thuộc quan hệ ngữ nghĩa kiểu cấu trúc Xét ví dụ sau: Quan hệ ER S1.tch tập S2.tch không chắn quan hệ ngữ nghĩa S1.reg S2.tch hai chúng liên kết định danh người định danh khóa học S1.reg có tập mẫu lớn S2, quan hệ tương đương giả định tập loại trừ Như vậy, từ so sánh S1.reg S2.tch nhóm chuyên gia định hỗ trợ tập hợp { , , } mối quan hệ ngữ nghĩa Tuy nhiên, S1.reg S2.tch không tương thích, dựa cấu trúc S1 S1.tch subsumes S2.tch, mối quan hệ giao siêu giả định S1.reg S2.tch loại trừ Vậy thì, S1.reg S2.tch phải không tương thích Sự hạn chế quan hệ tổng quát bảng 4.4, tất kết hợp hợp pháp quan hệ ngữ nghĩa ba đối tượng A, B C có kiểu cấu trúc xác định Đối tượng B C thuộc lược đồ nên quan hệ ngữ nghĩa chúng bắt nguồn từ cấu trúc lược đồ Mối quan hệ ngữ nghĩa A, B A, C khám phá đối sánh lược đồ Trong ví 66 dụ S1.reg S2.tch, A tạo mẫu cho S2.tch B, C cho S1.tch S1.reg tương ứng Nếu quan hệ ngữ nghĩa S2.tch S1.tch S2.tch S1.reg chắn dựa bảng 4.4, S1.reg S2.tch rời không tương thích 4.3.4 Trộn lược đồ Bảng 4.5: Kết hợp quan hệ ngữ nghĩa có lược đồ tích hợp Mục trước so sánh sinh viên đối tượng lược đồ reg, đạt tập hợp quan hệ ngữ nghĩa có chúng, BPAs biểu diễn phân phối độ tin cậy Đặc biệt, hai đối tượng lược đồ sinh viên reg rời giao Điều bảng 4.2 Bây giả sử S1.course S2.course S1.tch mối quan hệ S1.staff S2.staff S2.tch quan hệ chắn, với xác suất 0.7 với xác suất 0.3 Có thể xây dựng bảng đầy đủ (bảng 4.5), phần mở rộng bảng 4.2, biểu diễn tất kết hợp mối quan hệ ngữ nghĩa tất cặp đối tượng lược đồ Bảng 4.5 tập trung đối tượng tương thích Mỗi hàng bảng cuối tương ứng để tích hợp lược đồ có thể, quan hệ ngữ nghĩa xác định tích hợp lược đồ phần, giống biểu diễn hình 4.3 Ví dụ, lược đồ tích hợp (a) bảng 4.5 thực thể sinh viên tương đương, trong tích hợp lược đồ (b) S1.staff subsumes S2.staff Dựa bảng tạo lược đồ tương ứng Các lược đồ tương ứng với hàng (a) (b) bảng 4.5 minh họa hình 4.6 67 Hình 4.6: Hai lựa chọn cuối tích hợp lược đồ Các BPA đạt kết hợp tất USRs dẫn xác định m ((a), (c), (e)) = 0,7 m ((b), (d), (f)) = 0,3 Độ tin cậy tương ứng tính thuyết phục tính dễ dàng nhờ sử dụng (4.1) (4.2) Ý nghĩa BPA phản ánh không chắn tích hợp phần Tập hợp {(a), (b), (c), (d), (e), (f)}, với BPA gọi lược đồ tích hợp không chắn sản phẩm cuối phương pháp tiếp cận tích hợp lược đồ Từ tích hợp lược đồ không chắn xây dựng lại tất USRs tạo trước Ví dụ, trước tập hợp quan hệ { , } hai thực thể sinh viên gán khối lượng xác suất Giá trị đạt từ lược đồ tích hợp không chắn cách thêm vào với tất xác suất gán cho tổ hợp tất các lược đồ tích hợp S1.student 68 S2.student S1.student S2.student Điều tương ứng với tất hàng bảng 4.5, tức tất lược đồ Một cách tương tự, giả sử tất khối lượng gán cho tổ hợp lược đồ S1.staff S1.staff S2.staff đạt 0.7, S2.staff thu 0.3 4.4 Tổng kết chương Chương trình bày phương pháp tích hợp lược đồ, cách tiếp cận quản lý tính không chắn cố hữu đối sánh lược đồ tự động hỗ trợ sáu loại quan hệ ngữ nghĩa đối tượng lược đồ Nghiên cứu không phân tích độ phức tạp tính toán Tuy nhiên nhận hai nguyên nhân tính không hiệu liên quan tới tính không chắn là: - Sự kết hợp USR tạo chuyên gia Thật vậy, phức tạp giải thuật tạo qui tắc kết hợp Dempster hàm mũ khung suy xét phải xét tất tập trường hợp xấu Tuy nhiên khung suy xét chứa phần tử, độ phức tạp tổ hợp bị chặn hàm số nhỏ - Sự tích hợp tạo phương pháp mà chúng hàm mũ số đối tượng lược đồ Tuy nhiên thực tiễn đầu tập hợp phương pháp lược đồ mà phương pháp có khả Số lược đồ đưa phương pháp định trước Việc sử dụng ngưỡng thích hợp làm giảm số lược đồ mà không làm thông tin có ý nghĩa 69 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn nghiên cứu tích hợp lược đồ sử dụng phương pháp học Bayes ánh xạ ngữ nghĩa Các kết đạt là: - Trình bày cách có hệ thống kiến thức liên quan đến vấn đề tích hợp lược đồ, tập trung nghiên cứu sâu bốn bước coi bước cốt lõi vấn đề đối sánh lược đồ - Trình bày lý thuyết Bayes hệ thống đối sánh lược đồ sử dụng học máy Bayes (Automatch), lựa chọn đặc trưng thống kê thuật toán mạng lưu lượng tối đa chi phí tối thiểu để tìm đối sánh tối ưu thuộc tính hai lược đồ nhằm giải vấn đề tồn ứng dụng CSDL - Trình bày phương pháp tích hợp lược đồ tổng thể quản lý tính không chắn cố hữu đối sánh lược đồ tự động hỗ trợ sáu loại quan hệ ngữ nghĩa đối tượng lược đồ nhằm tìm nguyên nhân gây tính không chắn tích hợp lược đồ Một số hướng nghiên cứu sau tiếp tục phát triển: - Tiếp tục cài đặt thử nghiệm phương pháp đối sánh lược đồ sử dụng phương pháp học Bayes - Xây dựng tích hợp lược đồ tổng thể phương pháp tích hợp lược đồ sử dụng ánh xạ ngữ nghĩa không chắn trình bày luận văn - Nghiên cứu thêm số phương pháp tích hợp lược đồ tổng thể tiếp cận khác 70 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Kim Anh (2004), Nguyên lý hệ sở liệu, NXB ĐHQGHN, Hà Nội Ngô Văn Quân (2006), Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch (Luận văn Thạc sĩ Công nghệ Thông tin), Trường ĐHBK Hà Nội, Hà Nội Tiếng Anh R Ahuja, T Magnanti, J Orlin (1993), Network Flows: Theory, Algorithms, and Applications, Prentice Hall, USA Algorithmic Solutions Software GmbH (2001), The LEDA Users Manual Version 4.2.1, Saarbruecken, Germany C Batini, M Lenzerini, S Navathe (1986), “A Comparative Analysis Methodologies for Database Schema Integration”, ACM Computing Surveys, 18(4), pp 323-364 J Berlin, A Motro (2002), “Database Schema Matching Using Machine Learning with Feature Selection”, In Proceedings of the 14th CAiSE, pp 452-466 S Castano, V Antonellis (1999), “A schema analysis and reconciliation tool environment for heterogeneous databases”, In Proceedings of the International Database Engineering and Applications Symposium, pp 53-62 S Conrad, M Höding, G Saake, I Schmitt, C Türker (1997), “Schema Integration with Integrity Constraints”, Lecture Notes in Computer Science 1271, pp 200-214 D H Hai (2006), Schema Matching and mapping-based Data Intergration (PhD Thesis), Department of Computer Science, Universität Leipzig, Germany 10 R Hull, R King (1998), “Semantic Database Modeling: Servey, Applications, and Research Issues”, ACM Computing Surveys, 19(3), pp 201-260 11 M Keulen, A Keijzer , W Alink (2005), “A Probabilistic XML Approach to Data Integration”, In Proceedings of the 21st International Conference on Data Engineering, pp 459-470 12 W Li, C Clifton (1994) “Semanticintegration in heterogeneous databases using neural networks”, In Proceedings of 20th International Conference on Very Large Data Bases, pp 1-12 13 W Li, C Clifton (2000), “Semint: A tool for identifying attribute correspondences in heterogeneous databases using neural networks”, Data and Knowledge Engineering, 33(1), pp 49-84 14 J Madhavan, P Bernstein, E Rahm (2001), “Generic schema matching with Cupid”, In Proceedings of the 27th International Conference on Very Large Databases, pp 49-58 15 M Magnani, N Rizopoulos, P McBrien, D Montesi (2005), “Schema Integration based on Uncertain Sematic Mappings”, Lecture Notes in Computer Science 3716, pp 31-46 16 D Maier, M Vardi, J Ullman (1984), “On the Foundations of the Universal Relation Model”, ACM Transaction on Database systems, 9(2), pp 283-308 17 P McBrien, A Poulovassilis (2003), “Data integration by bi-directional schema transformation rules”, Proceedings of the 19th International Conference on Data Engineering, pp 227-238 18 S Melnik, H Garcia-Molia, E Rahm (2002), “Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching”, In Proceedings of the 18th International Conference on Data Engineering, pp 117-128 19 T Mitchell (1997), Machine Learning, McGraw-Hill Press, USA 20 C Parent, S Spaccapietra (1998), “Database Intergration: An Overview of Issues and Approaches”, Communications of the ACM, 41(5), pp 166-177 21 J Pearl (1988), Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, Morgan Kaufmann Publishers Inc, USA 22 N Rizopoulos (2004), “Automatic discovery of semantic relationships between schema elements”, In Proceedings of the 6th International Conference on Enterprise Information Systems, pp 3-8 23 N Rizopoulos, P McBrien (2005), “A general approach to the generation of conceptual model transformations”, In Proceedings of the 17th CAiSE, LNCS, pp 326-341 24 G Shafer (1976), A mathematical theory of evidence, Princeton University Press, USA 25 J Ullman (1988), Principles of Database and Knowledge base Systems, Vol I, Computer Science Press, USA ... trung nghiên cứu phương pháp tích hợp lược đồ dựa vào phương pháp học Bayes Ngoài luận văn trình bày phương pháp tích hợp lược đồ tổng thể dựa ánh xạ ngữ nghĩa không chắn Ý nghĩa khoa học thực tiễn... tâm chiến lược tích hợp lược đồ là: Lược đồ chọn để tích hợp, thứ tự tích hợp, khả tích hợp toàn lược đồ hay tích hợp phần lược đồ Ngoài khả tài yếu tố để lựa chọn chiến lược tích hợp Theo C.Batini... 1.2 Phân loại tích hợp lược đồ Có ba cách để phân loại phương pháp luận tích hợp lược đồ: Tích hợp lược đồ mô tả giải thuật tích hợp hai loại tích hợp lược đồ lại phân loại đầu vào giải thuật

Tích hợp lược đồ sử dụng phương pháp học bayes và ánh xạ ngữ nghĩa

Thông tin tài liệu

Từ khóa liên quan

Mục lục

BÌA

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

MỤC LỤC

MỞ ĐẦU

CHƯƠNG 1

CHƯƠNG 2

CHƯƠNG 3

CHƯƠNG 4

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan