Bài giảng tích hợp dữ liệu và XML chương 09 Đối sánh lược đồ

8 413 1
Bài giảng tích hợp dữ liệu và XML  chương 09 Đối sánh lược đồ

Đang tải... (xem toàn văn)

Thông tin tài liệu

04/04/2013 Nội dung Giới thiệu Khái niệm lược ñồ Bài toán ñối sánh lược ñồ Đối sánh lược ñồ Phân loại phương pháp ñối sánh Nguyễn Hồng Phương Email: phuong.nguyenhong@hust.edu.vn Site: http://is.hut.edu.vn/~phuongnh Bộ môn Hệ thống thông tin Viện Công nghệ thông tin Truyền thông Đại học Bách Khoa Hà Nội Vấn ñề không thống ngữ nghĩa Ứng dụng ñối sánh lược ñồ Giới thiệu Giới thiệu (tiếp) Lược ñồ cấu trúc siêu liệu, mô tả liệu ñược lưu trữ, truy cập thông dịch người dùng ứng dụng Ngoài khía cạnh kĩ thuật liên quan ñến quản trị liệu (như ñịnh dạng trường, kiểu liệu), lược ñồ thể khía cạnh ngữ nghĩa mở rộng (nội dung nghĩa liệu): giá trị ñược phép, cardinality, ràng buộc toàn vẹn tham chiếu Một số ngôn ngữ lược ñồ: SQL (Structure Query Language) biểu diễn lược ñồ quan hệ DTD (Document Type Definition) XSD (XML Schema Definition) biểu diễn lược ñồ tài liệu XML OWL (Ontology Web Language) biểu diễn ontology Nhiều ứng dụng, kho liệu, mediating website, khai phá liệu, quản trị liệu ngang hàng,… cần tích hợp liệu từ nhiều nguồn ñể hỗ trợ câu truy vấn khả phân tích Tiến trình này, gọi tích hợp liệu, nhắm ñến việc cung cấp khung nhìn ñồng quán, gọi sơ ñồ tổng thể (global schema) Trên thực tế, việc tích hợp liệu thường ñược thực tăng trưởng cách bắt ñầu với sơ ñồ tổng thể ñơn giản thêm nguồn liệu vào cần Giới thiệu (tiếp) Ví dụ: ñối sánh lược ñồ ñể tích hợp liệu Việc tích hợp nguồn liệu vào sơ ñồ tổng thể ñược thực thông qua hai bước: ñối sánh: lược ñồ nguồn ñược so sánh với lược ñồ tổng thể ñể xác ñịnh phần tử tương ñồng phần tử khác biệt chuyển ñổi liệu: sinh truy vấn ñề chuyển ñổi liệu thể từ lược ñồ nguồn sang lược ñồ tổng thể S Client •Id •First •Last •Home •Phone S GS (cũ) Customer •CID •Name •Address Client •Id •First •Last •Home •Phone GS (mới) Customer •CID •Name •Address •Phone A) Đối sánh lược ñồ 04/04/2013 Giới thiệu (tiếp) Ví dụ: ñối sánh lược ñồ ñể tích hợp liệu (tiếp) Id … First Last Kristen Smith … Home Việc nhận diện cặp tương quan ngữ nghĩa hai lược ñồ ñược biết ñến ñối sánh lược ñồ Phone Hurley St 123 … … CID … … Name Kristen Smith Address Hurley St … … Phone 123 … INSERT INTO GS(CID, Name, Address, Phone) SELECT Id, Concat(First, Last), Home, Phone FROM S B) Chuyển ñổi liệu Khái niệm lược ñồ Khái niệm lược ñồ (tiếp) Lược ñồ hữu ñịnh dạng ngôn ngữ khác nhau: SQL, UML, DTD, XSD, OWL,… SQL cho phép ñịnh nghĩa lược ñồ cho CSDL quan hệ, truy vấn thao tác liệu lưu trữ lược ñồ XSD mô tả cấu trúc tài liệu XML Thành phần xủa XSD phần tử, thuộc tính kiểu OWL thường ñược sử dụng ñể ñặc tả ontology web ngữ nghĩa Ontology nhắm ñến việc khái niệm hóa tri thức miền hỗ trợ biểu diễn cách giàu ngữ nghĩa giới thực CSDL lược ñồ tài liệu OWL cung cấp cấu trúc dựa XML ñể ñịnh nghĩa lớp, mối quan hệ chúng, thuộc tính, miền giá trị chúng Miền giá trị thuộc tính kiểu liệu nguyên tố lớp ñã ñược ñịnh nghĩa.Các lớp OWL có thể hiện, lưu trữ tài liệu XML Khái niệm lược ñồ (tiếp) 10 Khái niệm lược ñồ (tiếp) Một cách tổng quát, lược ñồ ñược ñịnh nghĩa ñơn giản tập phần tử ñược nối với cấu trúc ñó Ví dụ: Với lược ñồ quan hệ, bảng cột phần tử lược ñồ; mối quan hệ bảng, cột ràng buộc tham chiếu bảng cấu trúc lược ñồ 11 Với lược ñồ XSD, phần tử lược ñồ gồm phần tử XML thuộc tính; cấu trúc lược ñồ gồm mối quan hệ phần tử phần tử ñược xác ñịnh kiểu phức hợp Với OWL, lớp thuộc tính phần tử lược ñồ; mối quan hệ lớp mối quan hệ lớp với thuộc tính hình thành cấu trúc lược ñồ 12 04/04/2013 Bài toán ñối sánh lược ñồ Thông tin ñầu vào Vấn ñề ñối sánh lược ñồ ñược phát biểu sau: Cho hai lược ñồ S1 S2, tìm cặp phần tử tương ứng phù hợp S1 S2, khai thác tất thông tin có lược ñồ, liệu thể nguồn phụ trợ Nếu hai phần tử ñược cho tương ñồng, không nên có tương ñồng hai phần tử với phần tử thứ khác mà chất lượng ñối sánh tốt Cần khai thác triệt ñể thông tin có ñể hiểu ñược ngữ nghĩa phần tử lược ñồ, từ ñó phát tương ñồng chúng Thông tin lược ñồ: tên phần tử, mô tả, kiểu liệu, cấu trúc lược ñồ, mối quan hệ khác phần tử Dữ liệu thể hiện: nhiều ứng dụng, liệu thể sẵn có cho lược ñồ Thông tin bổ trợ: tất thông tin khai thác ñể phát tương ñồng phần tử lược ñồ ñồng nghĩa, phân cấp, từ ñiển,… 13 Thông tin 14 Thông tin (tiếp) Cho hai lược ñồ S1 S2, thao tác ñối sánh trả ánh xạ chúng, kết việc ñối sánh Ánh xạ tập hợp phần tử ánh xạ, tương ứng; tương ứng xác ñịnh xác phần tử S1 tương ứng với phần tử S2 Mỗi tương ứng có biểu thức ánh xạ, xác ñịnh cách mà phần tử S1 S2 liên quan với Biểu thức ánh xạ Về ngữ nghĩa, sử dụng quan hệ ñẳng hướng ñơn giản, quan hệ thuật ngữ, quan hệ hướng tập, hàm (hàm nối, hàm toán học) Biểu thức ánh xạ có hàm ngược, ví dụ ánh xạ 1:1; ánh xạ ngược Phần lớn kỹ thuật ñối sánh lược ñồ tự ñộng dựa heuristic nên khó mô hình hóa toán học xác 15 4.1 Một số cách phân loại Phân loại phương pháp ñối sánh 4.1 4.2 4.3 4.4 4.5 4.6 16 Lược ñồ vs thể hiện: xem xét thông tin Một số cách phân loại Đối sánh dựa lược ñồ Đối sánh dựa thể Đối sánh hướng tái sử dụng Tiếp cận kết hợp Match cardinality mức lược ñồ siêu liệu (tên phần tử, kiểu liệu, thuộc tính,…) liệu thể (nội dung liệu) Phần tử vs cấu trúc: so sánh phần tử lược ñồ (như thuộc tính) kết hợp phần tử với cấu trúc Ngôn ngữ vs ràng buộc: tiếp cận ngôn ngữ (so sánh tên, mô tả text phần tử) tiếp cận dựa ràng buộc (ràng buộc ñịnh nghĩa phần tử kiểu liệu, tính nhất, khóa,…) 17 18 04/04/2013 4.1 Một số cách phân loại Sơ ñồ phân loại Tái sử dụng vs không tái sử dụng sử dụng thông tin bổ trợ: từ ñiển, lược ñồ tổng thể, ñịnh ñối sánh trước ñây, ñầu vào người dùng Instance-based Schema-based Element Structure Lai vs tổng hợp Bộ ñối sánh kết hợp số tiếp cận riêng Linguistic Constraint- Constraintbased based •Names •Descriptions •… •Types •Keys •… •Parents •Children •Leaves •… Element Structure Reuse-oriented Schema •Name Linguistic Constraint- spaces based •Schema libraries •… •Keywords •Word frequency •… •Thesauri •Previous match results •… •Value pattern and ranges •… 20 19 4.2 Đối sánh dựa lược ñồ Mapping Tiếp cận dựa ngôn ngữ Chỉ xem xét thông tin lược ñồ Dựa tính biểu ñạt ngôn ngữ lược ñồ, thông tin bao gồm thuộc tính khác phần tử lược ñồ (tên, mô tả, kiểu liệu, ràng buộc,…) mối quan hệ chúng (ràng buộc tham chiếu, is-a/part-of) Khai thác tính chất dựa text phần tử: tên, mô tả Sự tương ñồng tên ñược ñánh giá cách so sánh chuỗi tên (ngữ pháp) ý nghĩa chúng (ngữ nghĩa) 21 Tiếp cận dựa ngôn ngữ (tiếp) 22 Tiếp cận dựa ngôn ngữ (tiếp) Đối sánh tên ngữ pháp: túy so sánh hai chuỗi tên ñối sánh chuỗi xác không gian tên, phản ánh ngữ nghĩa ñối sánh chuỗi xấp xỉ: tên tên viết tắt Vd: Customer Cust Một số thuật toán: Đối sánh tên ngữ nghĩa: dựa mối quan hệ thuật ngữ: ñồng nghĩa, phân cấp,… Cần có nguồn thông tin bổ trợ từ ñiển, ontology, bảng từ ñồng nghĩa, từ ñiển ña ngôn ngữ WordNet,… Hiện tượng từ ña nghĩa? EditDistance: quy hoạch ñộng; số thao tác soạn thảo ñể biến chuỗi thành chuỗi N-Gram: Diagram, TriGram SoundEx: tính toán tương ñồng ngữ âm tên từ mã SoundEx chúng 23 24 04/04/2013 Tiếp cận dựa ràng buộc Tiếp cận dựa ngôn ngữ (tiếp) Về mô tả phần tử Các ràng buộc: khai báo kiểu liệu, giá trị cho phép, miền giá trị, tính nhất, tùy chọn,… Nên có bảng so sánh cho kiểu liệu, ví dụ: string varchar,… coi ñoạn text, tài liệu kỹ thuật xử lý ngôn ngữ tự nhiên, kỹ thuật tìm kiếm thông tin 26 25 Tiếp cận mức cấu trúc Tiếp cận mức cấu trúc (tiếp) Khai thác mối quan hệ phần tử ñối sánh kết hợp phần tử xuất cấu trúc Một số kiểu quan hệ dựa khả mô hình hóa ngôn ngữ lược ñồ Xem xét phần tử lân cận ñể ước lượng tương ñồng: nút cha, nút con, nút lá,… is-a/part-of chứa ñựng ràng buộc tham chiếu 27 4.3 Đối sánh dựa thể 28 4.3 Đối sánh dựa thể (tiếp) Xem xét liệu thể ñể ñịnh phần tử tương quan Kỹ thuật ñược sử dụng trường hợp Vấn ñề lượng liệu lớn kỹ thuật khai phá liệu: làm sạch, trích chọn ñặc trưng,… Có thông tin mức lược ñồ Dữ liệu bán cấu trúc Không có thông tin lược ñồ =>Trích rút/khôi phục lược ñồ Kỹ thuật bổ sung làm tăng tính xác cho kỹ thuật dựa lược ñồ 29 30 04/04/2013 Tiếp cận mức cấu trúc Tiếp cận mức phần tử Đối với thuộc tính dựa text, kỹ thuật tìm kiếm thông tin: tìm từ khóa, chủ ñề dựa tần suất tương ñối từ kết hợp từ thể thuộc tính Xem xét thể nhiều thuộc tính lúc Sự kết hợp thuộc tính: lớn Đối với thuộc tính số chuỗi chiều dài liệu, kiểu liệu, miền giá trị, trung bình, phân bố giá trị, ràng buộc khóa, tần suất ký tự,… 32 31 4.4 Đối sánh hướng tái sử dụng Tái sử dụng dựa lược ñồ Tái sử dụng phần lược ñồ phần tương quan ñã ñược xác ñịnh trước ñó Sử dụng tất thông tin bổ trợ ñể cải thiện trình ñối sánh Các tên ñã ñược sử dụng chung ñược ñịnh nghĩa trì từ ñiển tổng thể không gian tên Khai thác thêm ñặc ñiểm khác lược ñồ: kiểu liệu, khóa, ràng buộc Vấn ñề: tổ chức khác khó chấp nhận dùng chung không gian tên, từ ñiển chung,… 33 Tái sử dụng dựa ánh xạ 34 4.5 Tiếp cận kết hợp Khai thác mối quan hệ tương ñồng ñã ñược ñịnh từ trước 35 Kết hợp nhiều cách tiếp cận Hybrid matcher: tích hợp cách tiếp cận lại Composite matcher: kết hợp kết ñối sánh ñộc lập 36 04/04/2013 4.6 Match cardinality 4.6 Match cardinality (tiếp) Một phần tử lược ñồ S1 (hoặc S2) tham gia vào 0, nhiều tương quan kết ñối sánh Một nhiều phần tử S1 ñối sánh với nhiều phần tử S2 ñối sánh mức phần tử: 1:1, 1:n, n:1 ñối sánh mức cấu trúc: n:m Ví dụ Cardian lity Phần tử S1 Phần tử S2 Biểu thức ánh xạ 1:1 Price Cost Price = Cost n:1 FirstName, LastName Name Concat(FirstName, LastName) = Name 1:n Name FirstName, LastName Split(Name) = {FirstName, LastName} n:m P.PersName, P.DeptNo D.DeptNo, D.DeptName A.Person, SELECT P.PersName, A.Department D.DeptName FROM P, D WHERE P.DeptNo = D.DeptNo = {A.Person, A.Department} 37 Vấn ñề không thống ngữ nghĩa 38 Vấn ñề không thống ngữ nghĩa Nguồn thông tin không thống Lược ñồ liệu không thống Để hiểu ngữ nghĩa phần tử: tên phần tử, kiểu liệu, giá trị cho phép, cấu trúc lược ñồ, nhóm phần tử Thông tin: không ñầy ñủ, không ñáng tin cậy Lược ñồ ñược phát triển ñộc lập nhiều người, với nhận thức giới thực khác nhau, mục ñích khác Một số ví dụ: Các tên giống chưa ñã biểu diễn ngữ nghĩa; tên khác ñịnh khái niệm giới thực Tên phần tử ñược mã hóa viết tắt Ràng buộc toàn vẹn ñược quy ñịnh chương trình truy cập liệu, không ñược khai báo mức lược ñồ Phần tử ñược mô hình hóa nhiều mức ñộ khác nhau: thông tin ñịa ñược chia thành phố, mã vùng, thành phố lược ñồ này, lại trường lược ñồ khác 39 40 Ứng dụng ñối sánh lược ñồ Vấn ñề không thống ngữ nghĩa Dữ liệu thể cung cấp thêm nội dung ý nghĩa phần tử lược ñồ; nhiên, thông tin không quán, khác CSDL khác nhau: "F", "Female" giới tính nữ sử dụng ñơn vị khác (Euro Dollar,…), ñịnh dạng khác nhau,… Có thể chứa lỗi tả,… 41 Tích hợp lược ñồ liệu Thương mại ñiện tử Web ngữ nghĩa Quản trị mô hình 42 04/04/2013 Lời hay ý ñẹp "Không có ñường dài ñối với kẻ bước ñi thong thả Không có thành công xa vời ñối với kiên nhẫn làm việc" Jean de La Bruyère 43 44

Ngày đăng: 23/01/2016, 00:40

Tài liệu cùng người dùng

Tài liệu liên quan