CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ

Kinh Tế - Quản Lý - Kinh tế - Thương mại - Kỹ thuật TS. VŨ ĐỨC QUẢNG NHÀ XUẤT BẢN ĐÀ NẴNG CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ MỤC LỤC Danh mục các thuật ngữ ................................................. 7 Bảng các ký hiệu, từ viết tắt ........................................... 8 Danh sách Bảng .............................................................. 9 Danh sách Hình vẽ........................................................ 10 Mở đầu .......................................................................... 11 Chương 1: Tập mờ và phân bố khả năng ................ 19 1. Biểu diễn tập mờ và phân bố khả năng .................... 19 2. Các đặc trưng của tập mờ ......................................... 21 3. Nguyên lý mở rộng của Zadeh ................................. 23 4. Các phép toán trên tập mờ ........................................ 24 4.1. Các phép toán tập hợp ........................................... 24 4.2. Các phép toán quan hệ........................................... 25 4.3. Các phép toán logic ............................................... 31 5. Kết luận chương 1 .................................................... 32 Chương 2: Tổng quan về cơ sở dữ liệu hướng đối tượng mờ ........................................................................................ 33 1. Giới thiệu .................................................................. 33 2. Thông tin không hoàn hảo trong mô hình hóa CSDL. 35 2.1. Thông tin sai lệch ................................................. 36 2.2. Thông tin không chính xác .................................... 36 2.3. Thông tin không chắc chắn.................................... 37 3. Mô hình cơ sở dữ liệu hướng đối tượng mờ ............ 38 3.1. Đối tượng mờ......................................................... 38 3.2. Lớp mờ .................................................................. 40 3.3. Mối quan hệ đối tượnglớp mờ.............................. 42 3.4. Các phân cấp thừa kế mờ ...................................... 49 3.4.1. Phân cấp thừa kế trong các lớp ngoại diên......... 50 3.4.2. Phân cấp thừa kế trong các lớp nội hàm ............ 51 3.4.3. Đa thừa kế mờ .................................................... 53 3.5. Mô hình lớp đối tượng mờ .................................... 54 3.6. Biểu diễn cơ sở dữ liệu hướng đối tượng mờ........ 56 4. Kết luận chương 2 .................................................... 59 Chương 3: Phụ thuộc hàm mờ và các dạng chuẩn của lược đồ cơ sở dữ liệu hướng đối tượng mờ ..................... 60 1. Phụ thuộc hàm mờ và các luật suy dẫn .................... 60 1.1. Sự tương tự của hai giá trị thuộc tính .................... 60 1.2. Phụ thuộc hàm mờ trong lớp đối tượng ................ 63 1.3. Tách các thuộc tính kiểu bộ theo phụ thuộc hàm mờ..65 1.4. Các luật suy dẫn trên các phụ thuộc hàm mờ........ 66 1.5. Khóa của lớp đối tượng mờ ................................... 68 2. Phụ thuộc phương thức............................................. 70 3. Phép tách lớp đối tượng mờ không mất thông tin.... 71 4. Chuẩn hóa lớp đối tượng mờ.................................... 72 4.1. Các dạng chuẩn đối tượng mờ............................... 72 4.1.1. Dạng chuẩn đối tượng mờ 1 (1FONF) ............... 73 4.1.2. Dạng chuẩn đối tượng mờ 2 (2FONF) ............... 75 4.1.3. Dạng chuẩn đối tượng mờ 3 (3FONF) ............... 77 4.2. Chuẩn hóa lớp đối tượng mờ................................. 78 4.2.1. Thuật toán chuẩn hóa lớp về 1FONF ................. 78 4.2.2. Thuật toán chuẩn hóa lớp về 2FONF ................. 82 4.2.3. Thuật toán chuẩn hóa lớp về 3FONF ................. 85 5. Kết luận chương 3 .................................................... 88 Chương 4: Truy vấn cơ sở dữ liệu hướng đối tượng mờ ........................................................................................ 89 1. Sự tương tự của hai đối tượng mờ............................ 89 1.1. Sự tương tự của hai đối tượng trong cùng một lớp mờ ........................................................................................ 89 1.2. Sự tương tự của hai đối tượng mờ thuộc hai lớp khác nhau: lớp cha và lớp con...................................................... 90 2. Truy vấn CSDL hướng đối tượng mờ ...................... 92 2.1. Đại số kết hợp mờ.................................................. 93 2.1.1. Các mẫu kết hợp mờ........................................... 93 2.1.2. Các phép toán kết hợp mờ .................................. 96 2.2. Giá trị chân lý của các mẫu kết hợp mờ................ 99 2.2.1. Mối quan hệ đối tượnglớp ................................. 99 2.2.2. Mối quan hệ kết nhập mờ ................................. 100 2.2.3. Mối quan hệ tổng quát hóa mờ......................... 102 2.2.4. Mối quan hệ kết hợp mờ................................... 103 2.3. Ví dụ về truy vấn dữ liệu hướng đối tượng mờ... 104 3. Kết luận chương 4 .................................................. 107 Chương 5: Phụ thuộc hàm đối tượng mờ .............. 108 1. Giới thiệu ................................................................ 108 2. Một số khái niệm cơ bản ........................................ 110 2.1. Các khái niệm về đồ thị ....................................... 110 2.2. Lược đồ cơ sở dữ liệu hướng đối tượng mờ........ 111 2.3. Quan hệ mờ.......................................................... 112 2.4. Phép kết nối ngoài mờ đầy đủ ............................. 114 3. Phụ thuộc hàm đối tượng mờ ................................. 117 4. Quan hệ mờ biểu diễn một bộ phận của trạng thái s(S) .............................................................................. 122 5. Các dạng phụ thuộc hàm đối tượng mờ ................. 127 6. Các FOFD không chuẩn tắc và đồ thị lược đồ mờ phân nhánh ......................................................................... 134 7. Các luật suy dẫn cho các FOFD cục bộ ................. 138 8. Các luật suy dẫn cho các FOFD toàn cục............... 140 8.1. Luật phản xạ ........................................................ 140 8.2. Luật tách .............................................................. 142 8.3. Luật tăng trưởng .................................................. 143 8.4. Luật hợp ............................................................... 147 8.5. Luật bắc cầu ......................................................... 149 8.6. Luật tựa bắc cầu................................................... 153 9. Kết luận chương 5 .................................................. 155 Kết luận....................................................................... 156 Tài liệu tham khảo chính của tác giả .......................... 158 Tài liệu tham khảo của cac tác giả khác..................... 160 7CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ DANH MỤC CÁC THUẬT NGỮ Đại số kết hợp mờ Fuzzy association algebra Độ bao hàm ngữ nghĩa Semantic inclusion degree Đồ thị lược đối tượng mờ Fuzzy object schema Graph Đồ thị lược đồ mờ Fuzzy schema Graph Giá trị chân lý Truth value Kết hợp mờ Fuzzy association Không gian ngữ nghĩa Semantic space Mẫu kết hợp mờ Fuzzy association pattern Mối quan hệ nhị nguyên Binary relationship Mối quan hệ thừa kế Inheritance relationship Mối quan hệ đối tượnglớp ObjectClass relationship Mối quan hệ kết hợp mờ Fuzzy association relationship Mối quan hệ kết nhập mờ Fuzzy aggregation relationship Mối quan hệ tổng quát hóa Fuzzy generalization relationship Phân cấp thừa kế mờ Fuzzy inheritance hierarchy Phụ thuộc hàm mờ Fuzzy functional dependency Quan hệ giống nhau Resemblance relation 8TS. VŨ ĐỨC QUẢNG BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL (Database) Cơ sở dữ liệu ODMG (Object Database Management Group) Nhóm quản trị CSDL đối tượng, tổ chức đề xuất mô hình ODMG và ngôn ngữ OQL OID (Object Identifier) Định danh đối tượng OODB (Object Oriented Database) Cơ sở dữ liệu hướng đối tượng FOODB (Fuzzy Object Oriented Database) Cơ sở dữ liệu hướng đối tượng mờ SQL (Structured Query Language) Ngôn ngữ truy vấn có cấu trúc NF2 (Non-First Normal Relational Database Model ) Mô hình dữ liệu quan hệ không ở 1NF FOFD (Fuzzy Object Functional Dependency) Phụ thuộc hàm đối tượng mờ UML (Unified Modeling Language) Ngôn ngữ mô hình hợp nhất FONF (Fuzzy Object Normal Form) Dạng chuẩn đối tượng mờ 9CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ DANH SÁCH BẢNG Bảng 1.1. Một quan hệ giống nhau ...............................26 Bảng 5.1. Một quan hệ mờ biểu diễn các đối tượng...113 Bảng 5.2. Các quan hệ giống nhau..............................114 Bảng 5.3. Một quan hệ mờ được kết nối từ R ext(O3) và Rext(r2) ...............................................................................117 Bảng 5.4: Một quan hệ mờ được tham chiếu bởi f .....128 Bảng 5.5: Các quan hệ mờ được tham chiếu bởi FOFD không chuẩn tắc với đồ thị FOFD phân nhánh...................136 Bảng 5.6: Quan hệ mờ Rfo ...........................................142 Bảng 5.7: Một quan hệ mờ biểu diễn trạng thái lược đồ được tham chiếu bởi FOFD g1 ............................................146 Bảng 5.8: Một quan hệ mờ biểu diễn trạng thái lược đồ được tham chiếu bởi FOFD g2 ............................................146 10TS. VŨ ĐỨC QUẢNG DANH SÁCH HÌNH VẼ Hình 1.1. Giá, nhân và lát cắt α của tập mờ F .............. 22 Hình 1.2. Hàm thuộc của số mờ “gần Y”...................... 29 Hình 1.3. Hàm thuộc của số mờ “tối thiểu Y”. ............. 30 Hình 1.4. Hàm thuộc của số mờ “tối đa Y” .................. 30 Hình 2.1. Đồ thị lược đồ mờ của CSDL Nguồn nhân lực..57 Hình 2.2. Đồ thị lược đồ đối tượng mờ của CSDL Nguồn nhân lực ................................................................................. 58 Hình 4.1. Mối quan hệ kết hợp mờ ............................. 104 Hình 5.1. Đồ thị lược đồ mờ của cơ sở dữ liệu hướng đối tượng mờ.............................................................................. 109 Hình 5.2. Một đồ thị lược đồ mờ của CSDL hướng đối tượng mờ.............................................................................. 116 Hình 5.3. Sự nhập nhằng của phụ thuộc hàm đối tượng mờ ........................................................................................ 119 Hình 5.4. Một phụ thuộc hàm đối tượng mờ .............. 121 Hình 5.5. Đồ thị lược đồ mờ của CSDL hướng đối tượng mờ và trạng thái lược đồ mờ phân nhánh ........................... 136 Hình 5.6. Một đồ thị lược đồ mờ của CSDL hướng đối tượng mờ.............................................................................. 141 Hình 5.7. Sự vi phạm tính chất toàn ánh của FOFD thu được bởi luật bắc cầu........................................................... 150 11CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ MỞ ĐẦU Các hệ thống và mô hình dữ liệu như quan hệ, mạng, phân cấp đã phát triển thành công nghệ cơ sở dữ liệu, đặc biệt là mô hình dữ liệu quan hệ do Codd E. F. đề xuất vào năm 1970. Những kết quả nghiên cứu đạt được trên mô hình này không những tạo nền tảng về lý thuyết CSDL, mà còn mang tính ứng dụng cao với hàng loạt hệ quản trị CSDL thương mại ra đời vào cuối thập niên 70 và đầu thập niên 80 như Oracle, SQL, DB2, … Tuy nhiên, chúng vẫn tồn tại một số hạn chế khi các ứng dụng đòi hỏi CSDL được thiết kế và cài đặt ở mức phức tạp hơn. Ví dụ, các CSDL thiết kế cho hệ thống để giải quyết những bài toán trong công nghiệp, các thực nhiệm khoa học, truyền thông, các hệ thống thông tin địa lý và hệ thống đa phương tiện với sự tích hợp âm thanh, hình ảnh, ... Những chương trình ứng dụng phức tạp thường có các yêu cầu và các đặc trưng khác so với các ứng dụng thương mại truyền thống như cấu trúc của các đối tượng phức tạp hơn, các giao tác có khoảng thời gian tồn tại dài hơn, các kiểu dữ liệu mới để lưu trữ các đối tượng phức tạp của thế giới thực, nhất là cần định nghĩa được các tác vụ phù hợp cho những ứng dụng xác định. Các mô hình CSDL hướng đối tượng được đề xuất để giải quyết các vấn đề phức tạp của những hệ thống ứng dụng đó. Tiếp cận hướng đối tượng tạo ra tính mềm dẻo để xử lý các yêu cầu mà không bị hạn chế bởi các kiểu dữ liệu và tậng dụng các ngôn ngữ truy vấn sẵn có trong các hệ thống CSDL truyền thống. Tuy nhiên, trong thực tế, dữ liệu của đối tượng không 12TS. VŨ ĐỨC QUẢNG phải lúc nào cũng bao gồm những thông tin đầy đủ và chính xác. Vì vậy, người ta mong muốn có những mô hình CSDL cho phép biểu diễn, thao tác trên những thông tin không chắc chắn, không chính xác nhằm thể hiện được thế giới thực một cách xác thực hơn. Mô hình cơ sở dữ liệu quan hệ truyền thống và các mở rộng liên quan đến việc xử lý, biểu diễn dữ liệu không chắc chắn, không chính xác của nó vẫn không đáp ứng yêu cầu trong việc đặc tả các đối tượng phức hợp với thông tin không chắc chắn, không chính xác. Chẳng hạn, mở rộng mô hình CSDL quan hệ không ở dạng chuẩn 1 (còn gọi là mô hình dữ liệu quan hệ NF2) bởi Yazici và các cộng sự 43 cho phép biểu diễn và thao tác trên dữ liệu không chắc chắn, phức tạp trong các cơ sở dữ liệu. Các phép toán đại số quan hệ, ngôn ngữ truy vấn dữ liệu có cấu trúc tựa SQL cũng được đưa ra trong mô hình này. Mô hình dữ liệu quan hệ NF2 mở rộng có khả năng đáp ứng một số yêu cầu ứng dụng phức tạp, chẳng hạn các hệ thống tự động văn phòng, các hệ thống phục hồi thông tin và các hệ thống CSDL chuyên gia. Hạn chế của mô hình dữ liệu quan hệ NF2 mở rộng liên quan đến việc biểu diễn các mối quan hệ phức hợp giữa các đối tượng và các thuộc tính, không hỗ trợ các khái niệm cơ bản của phương pháp hướng đối tượng như phân cấp lớp, thừa kế, lớp chalớp con. Vì vậy, để đặc tả dữ liệu không chắc chắn và các thuộc tính có giá trị phức hợp cũng như các mối quan hệ phức tạp giữa các đối tượng, các nghiên cứu gần đây đã tập trung vào việc xây dựng các mô hình cơ sở dữ liệu hướng đối tượng với thông tin không chắc 13CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ chắn, không chính xác gọi chung là mô hình CSDL hướng đối tượng mờ. Hiện này, trên thế giới đã có nhiều cách tiếp cận khác nhau để giải quyết vấn đề nêu trên. Zacari và Milano (1990) 47 lần đầu tiên giới thiệu về thông tin không đầy đủ (chẳng hạn như các giá trị null) trong các CSDL hướng đối tượng, trong đó phân biệt lược đồ không đầy đủ và các đối tượng với thông tin không đầy đủ. Từ đó, việc hợp nhất thông tin không đầy đủ và không chắc chắn trong các cơ sở dữ liệu hướng đối tượng đã nhận được sự quan tâm ngày càng nhiều, trong đó tính mờ được xem xét ở cả mức thể hiện đối tượng và mức phân cấp lớp. Dựa trên quan hệ tương tự, George và các đồng nghiệp (1996) 21 sử dụng khái niệm phạm vi giá trị của thuộc tính để biểu diễn tập các giá trị cho phép của thuộc tính của lớp. Độ thuộc thành viên của đối tượng thuộc vào lớp phụ thuộc vào mức độ bao hàm của các giá trị thuộc tính của đối tượng trong phạm vi giá trị của thuộc tính trong lớp. Các phân cấp lớp mạnh hay yếu được xác định dựa trên sự tăng hay giảm đều theo độ thuộc thành viên của một lớp con vào trong các lớp cha của nó. Mô hình CSDL hướng đối tượng mờ được G. Bordogna và các cộng sự (1999) 20 đề xuất bằng cách mở rộng mô hình đối tượng dựa trên đồ thị. Mức độ mờ được biểu diễn bởi các từ chỉ mức độ, chẳng hạn như {rất thấp, thấp, trung bình, cao, rất cao}, nó có thể được kết hợp với thể hiện mối quan hệ cũng như mối quan hệ giữa một đối tượng với một lớp. Các lớp mờ và các phân cấp lớp mờ cũng được mô tả trong CSDL. Một mô hình cơ sở dữ liệu UFO (Uncertainly and 14TS. VŨ ĐỨC QUẢNG Fuzziness in an Object-Oriented) được đề xuất bởi Gyseghem và de Caluwe (1998) 23 để biểu diễn thông tin không chắc chắn và mờ lần lượt theo lý thuyết tập mờ và tập mờ tổng quát. Hành vi và cấu trúc của đối tượng có thể được xác định không đầy đủ cho phép đặc tả được các thể hiện của các đối tượng một cách tự nhiên như trong thế giới thực. Các dạng thừa kế như thừa kế bộ phận, thừa kế theo điều kiện và đa thừa kế cũng được hỗ trợ trong các phân cấp mờ. Dựa trên lý thuyết khả năng, tính không rõ ràng và không chắc chắn được biểu diễn trong các phân cấp lớp bởi Dubois, Prade và Rossazza (1991) 16, trong đó, phạm vi giá trị của thuộc tính lớp con được xác định bằng cách giới hạn phạm vi giá trị của thuộc tính lớp cha, mức độ bao hàm của một lớp con vào trong một lớp cha phụ thuộc vào mức độ bao hàm giữa các phạm vi giá trị của các thuộc tính. Ở trong nước, Cao Hoàng Trụ (2001) 48 giới thiệu một mô hình hướng đối tượng mờ và không chắc chắn, trong đó mỗi tính chất lớp (một thuộc tính hoặc một phương thức) có thể chứa các tập mờ như một họ các phân bố xác suất, độ thuộc thành viên của lớp và khả năng sử dụng các tính chất lớp được xác định bởi cận trên và cận dưới của xác suất. Trên cơ sở mô hình CSDL được đề xuất, tác giả đã sử dụng ngôn ngữ lập trình logic hướng đối tượng mờ FRIL++ để xây dựng một lược đồ CSDL mờ ứng dụng. Trở ngại lớn nhất trong việc phát triển các hệ thống CSDL hướng đối tượng mờ đó là chưa có một mô hình dữ liệu chuẩn đầy đủ hay cơ sở toán học thống nhất cho việc biểu diễn và xử lý dữ liệu đối tượng mờ. Như đã đề cập ở trên, các nghiên cứu 15CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ về mô hình CSDL hướng đối tượng mờ chủ yếu tập trung vào việc mở rộng mô hình dữ liệu rõ đã có theo các cách tiếp cận khác nhau và cho phép biểu diễn, thao tác trên dữ liệu mờ. Do đó, các mô hình CSDL mờ này cũng chỉ thống nhất trên một tập các khái niệm chung nhất (tập lõi) trong mô hình hạt nhân của ODMG 11, 12. Có thể thấy rằng, các kết quả nghiên cứu trên CSDL hướng đối tượng mờ luôn được xem xét với một mô hình cụ thể, các kết quả này sẽ giải quyết cho một lớp các bài toán với một tập con các khái niệm, tính chất đặc trưng hướng đối tượng đã được cài đặt trên mô hình. Như vậy, việc chọn lựa một mô hình dữ liệu để nghiên cứu các vấn đề trong CSDL hướng đối tượng mờ là rất quan trọng. Mô hình CSDL hướng đối tượng mờ với dữ liệu được biểu diễn bởi phân bố khả năng được đề xuất bởi ZongMin Ma 51, ngoài việc đảm bảo các khái niệm, tính chất cốt lõi của mô hình CSDL hướng đối tượng rõ, nó còn giải quyết được tương đối đầy đủ tính mờ của đối tượng, lớp, tính mờ trong mối quan hệ giữa đối tượng và lớp, giữa lớp cha và lớp con. Vì vậy, chúng tôi sử dụng mô hình này để thực hiện các nghiên cứu về các phụ thuộc dữ liệu của các đối tượng mờ. Trong cơ sở dữ liệu quan hệ mờ, các công trình nghiên cứu về các phụ thuộc dữ liệu tương đối đầy đủ, có thể kể đến các kết quả của Raij K. V. S. N và Mazumdar 34, của Bhattachajee T. K và Mazumdar 9. Dựa trên khái niệm phụ thuộc hàm mờ, các nghiên cứu của nhóm tác giả Chen G. Q, Kerre E. E, và Vandenbulcke J. liên quan đến các dạng chuẩn lược đồ quan hệ mờ, thuật toán tách lược đồ quan hệ về các dạng chuẩn mờ, 16TS. VŨ ĐỨC QUẢNG thuật toán tìm bao đóng, … được triển khai một cách cụ thể và khá sâu sắc 13, 14. Tương tự như trong CSDL quan hệ, các nhà thiết kế CSDL hướng đối tượng cũng cần có kỹ thuật thiết kế dạng chuẩn để giải quyết các vấn đề tiềm ẩn liên quan đến sự dư thừa dữ liệu cũng như đảm báo tính nhất quán trong hệ thống CSDL. Từ những năm 1980 đến nay đã có nhiều tiếp cận khác nhau trong việc chuẩn hóa các lớp đối tượng trong các lược đồ CSDL hướng đối tượng rõ, các dạng chuẩn đối tượng được đề xuất dựa trên phụ thuộc hàm giữa các thuộc tính trong lớp với các dạng chuẩn tương tự như các dạng chuẩn trong CSDL quan hệ 7, 8, 24, 42 hoặc được chuẩn hóa dựa trên các ràng buộc trong lược đồ CSDL như ràng buộc phụ thuộc đường dẫn, phụ thuộc cục bộ, phụ thuộc toàn cục 41. Có thể thấy, phụ thuộc dữ liệu là nền tảng lý thuyết để xác định các dạng chuẩn của lược đồ CSDL nhằm hạn chế đến mức thấp nhất sự dư thừa dữ liệu, nguyên nhân chính phá vỡ tính toàn vẹn dữ liệu trong các hệ thống CSDL. Một cách tự nhiên, chúng ta cũng cần có những nghiên cứu sâu sắc về phụ thuộc dữ liệu trong CSDL hướng đối tượng mờ nhằm hỗ trợ cho việc thiết kế các CSDL ứng dụng cũng như đảm bảo tính toàn vẹn dữ liệu trong việc cập nhật dữ liệu. Nội dung cuốn sách tập trung trình bày các nghiên cứu về các phụ thuộc dữ liệu trong CSDL hướng đối tượng mờ. Các vấn đề liên quan đến mục tiêu nghiên cứu được chúng tôi trình bày trong cuốn sách này bao gồm: Nghiên cứu sự tương tự ngữ nghĩa (thông tin) giữa hai dữ liệu mờ với nhiều kiểu dữ liệu khác nhau được cung cấp bởi 17CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ mô hình CSDL hướng đối tượng. Tiếp theo, nghiên cứu các dạng phụ thuộc dữ liệu trong CSDL hướng đối tượng với dữ liệu mờ được biểu diễn theo phân bố khả năng, cụ thể đó là các phụ thuộc dữ liệu giữa các thuộc tính trong một lớp đối tượng và các phụ thuộc dữ liệu giữa các đối tượng trong lược đồ cơ sở dữ liệu hướng đối tượng mờ. Nghiên cứu, đề xuất các dạng chuẩn đối tượng mờ và các giải thuật chuẩn hóa lớp đối tượng về các dạng chuẩn để giải quyết các dị thường dữ liệu khi cập nhập dữ liệu, nhằm đảm bảo tính toàn vẹn dữ liệu trong CSDL hướng đối tượng mờ. Nghiên cứu đề xuất phương thức tính giá trị chân lý của các mẫu kết hợp mờ trong đại số kết hợp mờ. Từ đó, đánh giá độ tin cậy của kết quả truy vấn trên CSDL hướng đối tượng mờ theo đại số kết hợp mờ. Bố cục của cuốn sách được tổ chức như sau: Phần mở đầu, năm chương và phần kết luận. Chương 1 trình bày khái quát về các kiến thức toán học làm nền tảng cho việc nghiên cứu cơ sở dữ liệu mờ cũng như xây dựng các mô hình cơ sở dữ liệu mờ. Nội dung cụ thể của chương này gồm: các khái niệm, các phép toán cơ bản của tập mờ, phân bố khả năng và phương thức tính độ tương tự ngữ nghĩa của hai giá trị mờ. Chương 2 trình bày một cách tổng quan về cơ sở dữ liệu hướng đối tượng mờ. Quan trọng hơn, trong chương này trình bày cụ thể mô hình cơ sở dữ liệu hướng đối tượng với dữ liệu mờ được biểu diễn bởi phân bố khả năng, trong đó đề cập đến 18TS. VŨ ĐỨC QUẢNG các khái niệm về đối tượng mờ, lớp mờ, phân cấp thừa kế mờ và mô hình lớp mờ. Phần cuối của chương giới thiệu hai cách biểu diễn lược đồ cơ sở dữ liệu hướng đối tượng mờ theo đồ thị lược đồ mờ và đồ thị lược đồ đối tượng mờ. Chương 3 giới thiệu các nghiên cứu về phụ thuộc dữ liệu trong lớp đối tượng mờ. Dựa vào độ đo độ tương tự ngữ nghĩa giữa hai giá trị mờ mở rộng trên quan hệ giống nhau để xác định mức độ tương tự ngữ nghĩa giữa hai giá trị thuộc tính của hai đối tượng với các kiểu dữ liệu khác nhau và định nghĩa khái niệm phụ thuộc hàm cho các thuộc tính của lớp, các dạng chuẩn đối tượng mờ, xây dựng thuật toán chuẩn hóa lớp đối tượng để đưa về các dạng chuẩn lớp đối tượng. Chương 4 trình bày cách thức xác định giá trị chân lý của các mẫu kết hợp mờ trong đại số kết hợp mờ. Trên cơ sở đó, việc truy vấn cơ sở dữ liệu hướng đối tượng dựa theo đại số kết hợp mờ cũng được chỉ ra, độ tin cậy của kết quả truy vấn được thể hiện qua giá trị chân lý của mẫu kết hợp mờ kết quả. Chương 5 nghiên cứu về phụ thuộc hàm đối tượng xác định các ràng buộc giữa các thuộc tính và các kiểu đối tượng trong một cơ sở dữ liệu hướng đối tượng mờ. Chúng được xem như một trong các công cụ để nhận biết đối tượng trong cơ sở dữ liệu hướng đối tượng mờ, hỗ trợ cho việc truy vấn dữ liệu và kiểm tra tính toàn vẹn dữ liệu trong các CSDL ứng dụng. Nội dung cụ thể bao gồm: khái niệm phụ thuộc hàm đối tượng mờ, các dạng phụ thuộc hàm đối tượng khác nhau trong một trạng thái lược đồ cơ sở dữ liệu và các luật suy dẫn cho phụ thuộc hàm đối tượng mờ. 19CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ Chương 1 TẬP MỜ VÀ PHÂN BỐ KHẢ NĂNG 1. Biểu diễn tập mờ và phân bố khả năng Năm 1965, Lofti Zadeh công bố bài báo “Tập mờ” trên Tạp chí Information and Control (Zadeh, 1965). Ý tưởng nổi bật của khái niệm tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thông tin mờ, không chắc chắn như trẻ, nhanh, cao-thấp, xinh đẹp.., ông đã tìm ra cách biểu diễn nó bằng một khái niệm toán học, được gọi là tập mờ, như là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển. Cho U là một tập hợp và F là một tập con của U. Một phần từ x của U có thuộc F hay không, có thể mô tả bởi một hàm thuộc F μ : Trong tập con mờ, hàm thuộc của một phần tử nào đó của F không chỉ nhận giá trị trong {0, 1} mà có thể nhận giá trị trong khoảng 0, 1. Định nghĩa 1.1 45: Cho U là một vũ trụ các đối tượng (sau đây gọi tắt là vũ trụ), một tập mờ F trên U xác định bởi hàm thuộc 1,0: →UF μ , gán cho mỗi phần tử x của U một độ thuộc )(xF μ để chỉ độ thuộc của x vào tập mờ F. Tập mờ F được biểu diễn dưới dạng:    = 0 1 )(xF μ Nếu x ∈ F Nếu Fx ∉ 20TS. VŨ ĐỨC QUẢNG Định nghĩa 1.2 45: Tập mờ F được gọi là chuẩn nếu tồn tại ít nhất một phần tử x ∈ U sao cho .1)( =xF μ Định nghĩa 1.3 45: Tập mờ F của vũ trụ U là lồi nếu và chỉ nếu ∀ x1, x2 ∈ U và λ ∈0, 1 sao cho μF(λx1 + (1 - λ)x2) ≥ min(μF(x1), μF(x2)). Định nghĩa 1.4 49: Một tập mờ F lồi và chuẩn của vũ trụ U được gọi là một số mờ. Một giá trị mờ xác định trên U có thể được đặc tả bởi một tập mờ F trong U với một hàm thuộc 1,0: →UF μ . Ví dụ 1.1: Cho U là tập các tiền lương 2.0 triệu đồng, 2.5 triệu đồng, 4.0 triệu đồng, 3.5 triệu đồng và 5.0 triệu đồng. Một giá trị mờ tiền lương “cao” có thể được mô tả bởi tập mờ F là tập hợp các tiền lương “cao” như sau: F = {0.52.0 triệu đồng, 0.6 2.5 triệu đồng, 0.84.0 triệu đồng, 0.73.5 triệu đồng, 1.05.0 triệu đồng} Trong đó, μF(2.0 triệu đồng) = 0.5, μF(2.5 triệu đồng) = 0.6, μF(3.5 triệu đồng) = 0.7, μF(4.0 triệu đồng) = 0.8, μF(5.0 triệu đồng) = 1. Khi μF(xi) được xem như là độ đo khả năng mà một biến X nhận giá trị xi, ở đây, X có các giá trị trong U, một giá trị mờ được mô tả bởi phân bố khả năng πX 50. })(,...,)(,)({ 2211 nnXXXX xxxxxx π π π π = Ở đây, Uxx iiX ∈),( π biểu thị khả năng mà X nhận giá trị })(,...,)(,)({ 2211 nnFFF xxxxxxF μ μ μ= ), 21CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ xi. Cho FX , π lần lượt là biểu diễn phân bố khả năng và tập mờ cho một giá trị mờ, khi đó FX = π 34. 2. Các đặc trưng của tập mờ Những đặc trưng quan trọng của một tập mờ F của U là những đặc trưng chỉ rõ nó khác với tập con thông thường của U. Định nghĩa 1.5 1: Giá của F, ký hiệu supp(F), là tập các phần tử có giá trị hàm thuộc lớn hơn 0. Có nghĩa là supp(F) = {x ∈ U 0)( >xF μ }. Định nghĩa 1.6 1: Chiều cao của F, ký hiệu h(F), là giá trị hàm thuộc lớn nhất mà một phần tử của U thuộc F. h(F) = )(sup xFUx μ∈ . Định nghĩa 1.7 1: Hạt nhân của F, ký hiệu, ker(F), là tập các phần tử có giá trị hàm thuộc bằng 1: ker(F) = {x ∈ U 1)( =xF μ }. Khi tập U là hữu hạn, ta còn đặc trưng tập mờ F của U bởi lực lượng của nó, chỉ rõ độ thuộc tổng thể mà các phần tử của U thuộc F. Định nghĩa 1.8 1 Lát cắt α của F là tập các phần tử mà có giá trị hàm thuộc lớn hơn α (lớn hơn hoặc bằng α), trong đó 0 ≤ α < 1 (0 < α ≤ 1) được gọi là lát cắt α mạnh (yếu) của F, được ký hiệu lần lượt như sau: })({ α μ α >∈=+ xUxF F })({ α μ α ≥∈= xUxF F Định nghĩa 1.9 1: Lực lượng của tập mờ F của U được 22TS. VŨ ĐỨC QUẢNG xác định như sau: ∑ ∈ = Ux F xF )( μ . Nếu F là tập con thông thường của U, chiều cao của nó bằng 1; nó được chuẩn hóa và đồng nhất với giá và hạt nhân của nó; lực lượng của nó chính là số phần tử của tập hợp theo định nghĩa cổ điển. Ví dụ 1.2: Gọi U là tập các nước, chẳng hạn U = {Anh, Pháp, Mỹ, Nhật, Italia, Thụy Sĩ}, được ký hiệu theo thứ tự là A, P, M, N, I, T là tập các nước có thể là nơi cư trú của một cá nhân cho trước. Ta có thể định nghĩa các tập mờ với hàm thuộc tương ứng với những mong muốn cư trú của cá nhân: F1 = {0.8A, 0.7P, 0.6M, 0.5N, 0.4I, 0.9T} Ta có: h(F1) = 0.9, supp(F1) = U, ker(F1) = ∅, F1 = 4.0. Tập mờ F1 thể hiện các nước đều được chấp nhận cư trú nhưng với thứ tự ưu tiên khác nhau. F2 = {1.0A, 0.7P, 0M , 0N + 0I, 1.0T} Ta có: h(F2) = 1 (tập mờ F2 được chuẩn hóa), supp(F2) = {A, P, T}, ker(F2) = {A, T}, F2 = 2.7. Tập mờ F2 thể hiện việc chọn A hay T để cư trú, chấp nhận P có chừng mực hơn. Hình 1.1: Giá, nhân và lát cắt α của tập mờ F 23CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 3. Nguyên lý mở rộng của Zadeh Nguyên lý mở rộng được giới thiệu bởi Zadeh (1975) đã được coi là một trong những ý tưởng cơ bản nhất của lý thuyết tập mờ. Bằng cách cung cấp một phương pháp tổng quát, nguyên lý mở rộng đã được sử dụng rộng rãi để mở rộng các khái niệm toán học không mờ. Ý tưởng là tạo ra một tập mờ từ một số tập mờ đã cho thông qua một ánh xạ. Nguyên tắc mở rộng của Zadeh cũng có thể được gọi là nguyên tắc tối đa-tối thiểu. Gọi X1, X2, ..., Xn và Y là các tập thông thường, f là ánh xạ từ X1 x X2 x ... x Xn đến Y sao cho y = f(xl, x2, ..., xn), P(Xi) và P(Y) lần lượt là tập lũy thừa (tập các tập con) của Xi và Y(0 ≤ i ≤ n). Ở đây, P(Xi) = {CC ⊆ Xi} và P (Y) = {DD ⊆ Y}. Khi đó f tạo ra một ánh xạ từ P(X1) x P(X2) x ... x P(Xn) đến P(Y) với f(C1, C2, ..., Cn) = {f (xl, x2, ..., xn) xi ∈ Ci, 0 ≤ i ≤ n}, trong đó Ci ⊆ Xi, 0 ≤ i ≤ n Đặt F(Xi) là lớp của tất cả các tập mờ trên Xi, tức là F(Xi) = {}, 0 ≤ i ≤ n và F(Y) là lớp của tất cả các tập mờ trên Y, tức là F(Y) = {}, khi đó f tạo ra ánh xạ từ F(X1) x F(X2) x ... x F(Xn) đến F(Y) sao cho với mọi Ai ∈ F(Xi), f(Al , A2, ..., An) là một tập mờ trên Y với f(A1, A2, ..., An)(y) = 1 1 1 2 2 ( 1, 2,..., ) , , 1,2,..., 1 sup (min( ( ), ( ),..., ( )), ( )) 0, ( ) A A An n f x x xn y xi Xi i n x x x f y f y μ μ μ − = ∈ = −  ≠ ∅    = ∅ 24TS. VŨ ĐỨC QUẢNG 4. Các phép toán trên tập mờ 4.1. Các phép toán tập hợp Tương tự như lý thuyết tập hợp, trên tập mờ cũng có một số phép toán như: bằng nhau, giao, hợp, phần bù, chứa, … 1. Các phép toán này được định nghĩa sao cho chúng tương đương với các phép toán cổ điển của lý thuyết tập hợp khi các hàm thuộc chỉ lấy những giá trị 0 hoặc 1. Định nghĩa 1.10 1: Cho F1 và F2 là hai tập mờ trên vũ trụ U với hàm thuộc lần lượt là 21 , FF μ μ . (1): F1 bằng F2, ký hiệu F1 = F2, nếu )()(, 21 xxUx FF μ μ =∈∀ . (2): F1 chứa F2, ký hiệu F1 ⊇ F2, nếu )()(, 21 xxUx FF μ μ ≥∈∀ . (3): Hợp của hai tập mờ F1 và F2 của U, ký hiệu F1 ∪ F2, là một tập mờ trên U với hàm thuộc xác định bởi: Uxxxx FFFF ∈∀=∪ )),(),(max()( 2121 μ μ μ . (4): Giao của hai tập mờ F1 và F2 của U, ký hiệu F1 ∩ F2, là một tập con mờ trên U với hàm thuộc xác định bởi: Uxxxx FFFF ∈∀=∩ )),(),(min()( 2121 μ μ μ . (5): Phần bù của một tập mờF1, ký hiệu 1F , là một tập mờ trên U với hàm thuộc được xác định bởi: Uxxx FF ∈∀−= ),(1)( 11 μ μ . Tương tự như lý thuyết tập hợp cổ điển, các phép toán tập hợp trong lý thuyết tập mờ thỏa mãn các tính chất sau. Cho F1, F2, F3 là các tập mờ trên vũ trụ U: (1) Luật giao hoán: F1 ∪ F2 = F2 ∪ F1; F1 ∩ F2 = F2 ∩ F1. (2) Luật kết hợp: F1 ∪ (F2 ∪ F3 ) = (F1 ∪ F2 ) ∪ F3 ; F1 ∩ (F2 ∩ F3 ) = (F1 ∩ F2 ) ∩ F3; ), ), ), 25CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ (3) Luật phân phối:F1 ∪ (F2 ∩ F3 ) = (F1 ∪ F2 ) ∩ (F1 ∪ F3 ); F1 ∩ (F2 ∪ F3 ) = (F1 ∩ F2 ) ∪ (F1 ∩ F3 ); (4) Luật hấp thụ: F1 ∪ (F1 ∩ F2 ) = F1; F1 ∩ (F1 ∪ F2 ) = F1; (5) Luật lũy đẳng: F1 ∪ F1 = F1; F1 ∩ F1 = F1; (6) Luật de Morgan 2121 FFFF ∩=∪ ; 2121 FFFF ∪=∩ 4.2. Các phép toán quan hệ Các định nghĩa của các phép toán quan hệ cho các tập mờ cơ bản liên quan đến các số đo độ gần nhau giữa các tập mờ và các giá trị ngưỡng cho trước. Vì vậy, khái niệm độ tương tự ngữ nghĩa được sử dụng để định nghĩa các phép toán quan hệ trên tập mờ. Định nghĩa 1.11 50: Với U = { x1, x2, …, xn} là một vũ trụ hữu hạn, πA và πB là hai dữ liệu mờ trên U dựa trên phân bố khả năng, mức độ πA bao hàm ngữ nghĩa πB, ký hiệu SID(πA, πB), được xác định như sau: SID(πA, πB) = ∑∑ = = ∈ n i iBiA n i iBUx xxxi 11 )())(,)((min π π π Ví dụ 1.3: Cho vũ trụ U = {a, b, c, d, e, f, g, h, i, j, g}. π1 = {0.4a, 0.7 b, 1.0c, 1.0d, 0.8e, 0.5f} và π2 = {0.5b, 0.8c, 1.0d; 1.0e; 0.8f, 0.6g, 0.4h} là hai dữ liệu mờ trên U. Khi đó, mức độ π1 bao hàm ngữ nghĩa π2 được xác định như sau: SID(π1, π2) = (0.0 + 0.5 + 0.8 + 1.0 + 0.8 + 0.5 + 0.0 + 0.0 + 0.0 + 0.0)(0.5 + 0.8 + 1.0 + 1.0 + 0.8 + 0.6 + 0.4) = 3.65.1 = 0.706. Tương tự, mức độ π2 bao hàm ngữ nghĩa π1 là SID(π2, π1) = 3.64.4 = 0.818. ) 26TS. VŨ ĐỨC QUẢNG Với một quan hệ giống nhau Res (Resemblance relation) trên miền U, α (0≤ α ≤ 1) là một giá trị ngưỡng trên Res, mức độ πA bao hàm ngữ nghĩa πB theo quan hệ Res được xác định như sau: SIDα(πA, πB) = (1.1) Trong đó, một quan hệ giống nhau Res trên U là một ánh xạ: U × U  0,1 thỏa mãn hai tính chất sau: (1) ∀ x ∈ U, Res(x, x) = 1 (tính phản xạ) (2) ∀ x, y ∈ U, Res(x, y) = Res(y, x) (tính đối xứng) Ví dụ 1.4: Cho π1 = {1.0a, 0.95b, 0.9c} và π2 = {0.95a, 0.9b, l.0d, 0.3e} là hai dữ liệu mờ trên miền U = {a, b, c, d, e, f} và Res là một quan hệ giống nhau trên U (như Bảng 1.1). Một giá trị ngưỡng α = 0.9 của quan hệ giống nhau Res. Khi đó: SIDα(π1, π2) = {0.95 + 0.9 + 0.9}{0.95 + 0.9 + 1.0 + 0.3} = 0.873, SIDα(π2, π1) = {0.95 + 0.9 + 0.9}{1.0 + 0.95 + 0.9} = 0.965, Bảng 1.1: Một quan hệ giống nhau Định nghĩa 1.12 50: Với πA và πB là hai dữ liệu mờ, mức ∑∑ == ≥∈ n i iBjAiB n i xxsUxx xxx jiji 11 ),(Re; , )())(),((min π π π αRes ), Res a b c d e f a 1.0 0.1 0.4 0.3 0.1 0.1 b 1.0 0.2 0.3 0.2 0.2 c 1.0 0.95 0.5 0.3 d 1.0 0.3 0.1 e 1.0 0.4 f 1.0 ) 27CÁC PHỤ THUỘC DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ độ tương tự ngữ nghĩa giữa hai dữ liệu mờ πA và πB , ký hiệu SE(πA, πB) và được xác định như sau: SE(πA, πB) = min(SID(πA, πB), SID(πB, πA)) Ví dụ 1.5: Mức độ tương tự ngữ nghĩa giữa hai dữ liệu mờ π1 và π2 trong Ví dụ 1.3 là SE(π1, π2) = min(0.706, 0.818) = 0.706. Mức độ tương tự ngữ nghĩa giữa hai dữ liệu mờ πA và πB theo quan hệ giống nhau Res được xác định như sau: SEα(πA, πB) = min(SIDα(πA, πB), SIDα(πB, πA)) (1.2) Ví dụ 1.6: Mức độ tương tự ngữ nghĩa giữa hai dữ liệu mờ π1 và π2 trong Ví dụ 1.4 là SEα(π1, π2) = min(0.873, 0.965) = 0.873. Cho A và B là các tập mờ trên cùng vũ trụ U hữu hạn với hàm thuộc lần lượt là μA, μB và một ngưỡng β. Các phép toán quan hệ trong tập hợp mờ bao gồm: (1) A ≈β B nếu SE(A, B) ≥ β; (2) A ≈β B nếu SE(A, B) < β; (3) A >β B nếu SE(A, B) > β và max(supp(A)) > max(supp(B)); (4) A β B; (6) A ≤β B nếu A ≈β B hoặc A