Tiểu luận môn Toán cho khoa học máy tính LÝ THUYẾT TẬP THÔ & ỨNG DỤNG

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH TOÁN NGUYỄN HẢI TOÀN CH1301110 HUỲNH THANH VIỆT CH1301114 TRỊNH NAM VIỆT CH1301115 TP HCM, tháng 10 năm 2014 NHẬN XÉT CỦA GVHD LÝ THUYẾT TẬP THÔ & ỨNG DỤNG Lý thuyết tập thô và ứng dụng 2 Lý thuyết tập thô và ứng dụng LỜI CẢM ƠN Nhóm em xin chân thành cảm ơn thầy TS.Dương Tôn Đảm đã truyền đạt kiến thức cũng như giới thiệu các tài liệu quí báu và tạo điều kiện thuận lợi để cho nhóm em thực hiện xong bài thu hoạch này. Nhóm học viên CH-08 3 Lý thuyết tập thô và ứng dụng LỜI MỞ ĐẦU Hiện nay, Lý thuyết tập thô cung cấp cho nhiều nhà nghiên cứu và phân tích dữ liệu với nhiều kỹ thuật trong khai phá dữ liệu như là các khái niệm đặc trưng bằng cách sử dụng một số dữ kiện. Nhiều nhà nghiên cứu đã sử dụng lý thuyết tập thô trong các ứng dụng như phân biệt thuộc tính, giảm số chiều, khám phá tri thức, và phân tích dữ liệu thời gian. Lý thuyết tập thô đã chứng minh được tiềm năng lớn trong suy diễn, do đó. Bài thu hoạch này, nhóm em thực hiện thuật toán tìm tập rút gọn của một bảng quyết định từ đó chọn được các thuộc tính cần thiết đưa vào xây dựng cấu trúc cây quyết định để chọn thuộc tính phân nhánh tối ưu, làm cho cây có chiều cao nhỏ nhất. 4 Lý thuyết tập thô và ứng dụng MỤC LỤC 5 Lý thuyết tập thô và ứng dụng Chương 1 CÁC KHÁI NIỆM CƠ BẢN 1.1 Hệ thống thông tin và tập thô 1.1.1 Hệ thống thông tin Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp). Bảng này được gọi là một hệ thống thông tin. Hình thức hơn, hệ thống thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính. Với mỗi u ∈U và a∈A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. Nếu gọi I a là tập tất cả giá trị của thuộc tính a, thì u(a) ∈ I a với mọi u∈U. Bây giờ, nếu B = {b 1 , b 2 , ,b k } ⊆ A, ta ký hiệu bộ các giá trị u(b i ) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(b i ) = v(b i ), với mọi i =1, 2, , k. 1.1.2 Quan hệ không phân biệt được Xét hệ thống thông tin S = (U, A), với mỗi tập thuộc tính B ⊆ A tạo ra một quan hệ hai ngôi trên U, ký hiệu IND(B) IND(B) = {(u,v) ∈U ×U | u(a) = v(a),∀a ∈ B} IND(B) được gọi là quan hệ B_không phân biệt được. Dễ kiểm chứng đây là một quan hệ tương đương trên U. Với mọi đối tượng u U, lớp tương đương của u trong quan hệ IND(B) được kí hiệu bởi [u]B. Tập thương xác định bởi quan hệ IND(B) được ký hiệu U/IND(B) hay U/B, tức là U/IND(B) = U/B = {[u]B | u U} 6 Lý thuyết tập thô và ứng dụng Ví dụ 1.1 Xét hệ thống thông tin cho ở bảng 1.1 U Đau đầu Đau cơ Nhiệt độ Cúm x 1 Không Có Cao Có x 2 Có Không Cao Có x 3 Có Có Rất cao Có x 4 Không Có Bình thường Không x 5 Có Không Cao Không x 6 Không Có Rất cao Có Bảng 1.1 Bảng dữ liệu bệnh cúm Trong đó: U = {x 1 , x 2 , x 3 , x 4 , x 5 , x 6 }. A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}. Trong bảng, các bệnh nhân x 2 , x 3 và x 5 không phân biệt được đối với thuộc tính Đau đầu, bệnh nhân x 3 và x 6 không phân biệt được đối với thuộc tính Đau cơ, Cúm và b ệnh nhân x 2 , x 5 không phân biệt được đối với thuộc tính Đau đầu, Đau cơ và Nhiệt độ. Do đó: IND({Đau đầu}) = {{x 1 , x 4 , x 6 },{x 2 , x 3 , x 5 }} IND({Đau cơ}) = {{x 1 , x 3 , x 4 , x 6 }, {x 2 , x 5 }}, IND({Nhiệt độ}) = {{x 1 , x 2 , x 5 }, {x 3 , x 6 }, {x 4 }}, 7 Lý thuyết tập thô và ứng dụng IND({Cúm}) = {{x 1 , x 2 , x 3 , x 6 }, {x 4 , x 5 }}, IND({Đau đầu, Đau cơ}) = {{x 1 , x 4 , x 6 }, {x 2 , x 5 }, {x 3 }}. Xét hệ thống thông tin S = (U, A), một quan hệ bộ phận p xác định trên họ {U/B| B ⊆ A} đ ược định nghĩa: nếu và chỉ nếu ∀P ∈U / P,∃Q j ∈U / Q : P ⊆ Q j . Khi đó ta nói Q là thô hơn P hay P là mịn hơn Q. 1.1.3 Tập thô Lý thuyết tập thô (Rough set) được đề xuất vào năm 1982 bởi Z.Pawlak. Lý thuyết này xây dựng phương pháp luận liên quan đến sự phân loại và phân tích không chắc chắn, thông tin và tri thức không đầy đủ và được coi là một trong những phương pháp tiếp cận đầu tiên không dựa trên thống kê trong phân tích dữ liệu.Khái niệm cơ bản của lý thuyết tập thô là xấp xỉ dưới và trên của một tập, sự xấp xỉ của không gian là hình thức phân loại tri thức liên quan đến miền quan tâm. Tập con được tạo ra bởi xấp xỉ dưới mô tả bởi các đối tượng là những thành phần chắc chắn của một tập, trong khi xấp xỉ trên được đặc trưng bởi các đối tượng có khả năng thuộc tập quan tâm. Mỗi tập con xác định thông qua xấp xỉ dưới và xấp xỉ trên được gọi là tập thô. Gần đây, lý thuyết tập thô trở thành một công cụ đánh giá trong xử lý các vấn đề khác nhau như trình bày tri thức không chắc chắn hoặc không chính xác, phân tích tri thức, đánh giá chất lượng và tính khả dụng của thông tin đối với tính nhất quán và sự có mặt các mẫu không theo thời gian, nhận dạng và đánh giá sự phụ thuộc thời gian, suy luận dựa trên sự không chắc chắn và thiếu thông tin dữ liệu. 8 i i Lý thuyết tập thô và ứng dụng Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, ký hiệu R = IND(B), ta có 2 tập con sau: (X), (X)lần lượt gọi là R-xấp xỉ dưới và R- xấp xỉ trên của tập X. Tập (X) bao gồm tất cả các phần tử của U chắc chắn thuộc vào X. Tập (X) bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc X ứng với quan hệ R. Từ hai tập xấp xỉ người ta định nghĩa các tập: Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và dưới của X có thể v iết lại: Trong trường hợp BN B (X) ≠ ∅, X được gọi là tập thô, ngược lại X được gọi là tập rõ. 9 Lý thuyết tập thô và ứng dụng Hình 1.1 Minh họa tập thô Đối với một hệ thống thông tin S = (U, A), B, D ⊆ A, ký hiệu R = IND(B), người ta gọi B-miền khẳng định dương của D là tập được xác định như sau: Rõ ràng POS B (D) là tập tất cả các đối tượng u sao cho với mọi v∈U mà u(B) = v(B) ta đều có u(D) = v(D) . Nói cách khác, POS B (D) ={u ∈U | u B ⊆ u D }. 1.1.4 Các tính chất của xấp xỉ Định lý 1.1. [34] Cho một hệ thống thông tin S = (U, A), ∀X, Y ⊆ U và B ⊆A, đặt R = IND(B). Khi đó: 10 [...]... không còn là một topo 2.6 Rút gọn tập thuộc tính dựa vào họ phủ tập thô Bài toán rút gọn tập thuộc tính là một bài toán quan trọng trong hệ thống thôngtin 31 Lý thuyết tập thô và ứng dụng nói chung, lý thuyết tập thô nói riêng Bài toán này thuộc lớp NP-khó là do sự tổ hợp các thuộc tính [1, 4] Trong hệ thống thông tin không đầy đủ, bài toán tìm rút gọn tối thiểu tập thuộc tính cũng vẫn thuộc lớp NP-khó.. .Lý thuyết tập thô và ứng dụng Tính chất (3L), (4L) và (8L) là những tính chất đặc trưng cho phép xấp xỉ dưới, điều đó có nghĩa là những tính chất khác của phép xấp xỉ dưới có thể suy dẫn từ ba tính chất này Tương tự, (3H), (4H) và (8H) là những tính chất đặc trưng của phép xấp xỉ trên 11 Lý thuyết tập thô và ứng dụng 1.1.5 Độ chính xác của xấp xỉ Cho một hệ thống thông tin S = (U, A), với mỗi tập. .. là bài toán mở 18 Lý thuyết tập thô và ứng dụng 2.1.2 Xấp xỉ phủ tập thô loại 2 Tương tự như xấp xỉ phủ tập thô loại 1, các tính chất quan trọng của xấp xỉ phủ tập thô loại 2 được công bố trong [37, 38, 40] Định nghĩa xấp xỉ phủ dưới tập thô loại 2 có cùng định nghĩa với xấp xỉ phủ dưới tập thô loại 1, sự khác biệt là ở xấp xỉ phủ trên.Mối quan hệ giữa xấp xỉ phủ dưới và xấp xỉ phủ trên tập thô loại... tỏ ra không hữu dụng trong mối quan hệ giữa xấp xỉ phủ dưới và xấp xỉ phủ trên loại 2 19 Lý thuyết tập thô và ứng dụng 2.1.3 Xấp xỉ phủ tập thô loại 3 20 Lý thuyết tập thô và ứng dụng a Sự phụ thuộc xấp xỉ phủ dưới và xấp xỉ phủ trên loại 3 Định lý 2.6 [38, 40] Cho C là phủ của U thì C và reduct(C) sinh ra cùng các phép xấp xỉ phủ dưới và xấp xỉ phủ trên loại 3 Định lý 2.7 [38, 40] Cho C1, C2 là hai... Tính chất ánh xạ đóng của ba phép xấp xỉ phủ trên ứng với phủ tựa điểm Mệnh đề 2.3 Cho C là một phủ của U Nếu C là phủ tựa điểm thì FH sinh bởi C thỏa tính chất: ∀ X,Y ⊆ U, X ⊆ Y ⇒ FH(X) ⊆ FH(Y) (tính đồng biến) 23 Lý thuyết tập thô và ứng dụng Chứng minh Từ định nghĩa của phủ tựa điểm và FH Nếu C là một phủ tựa điểm chúng ta có FH(X) = ∪{Md(x)| x ∈X} Dễ dàng thấy rằng 24 Lý thuyết tập thô và ứng dụng. .. thuộc lớp NP-khó Nhiều tác giả đã phát triển các giải thuật rút gọn tập thuộc tính trong lý thuyết tập thô cổ điển thành các giải thuật rút gọn tập thuộc tính cho các hệ thống thông tin không đầy đủ trên cơ sở phủ tập thô [8, 10, 16, 17] Việc xử lý một hệ thống thông tin không đầy đủ cũng được nhiều tác giả tiếp cận dựa trên họ phủ tập thô Đây là một hướng tiếp cận khá thú vị, có thể thấy qua ví dụ Giả... A), X, Y ⊆ A Chúng ta nói rằng tập thuộc tính Y phụ thuộc độ k∈[0,1] vào tập thuộc tính X, ký hiệu , với k được xác định như sau: Khi , chúng ta viết và được viết Dễ thấy rằng phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và là phụ thuộc hàm đã biết trong CSDL quan hệ 15 Lý thuyết tập thô và ứng dụng Chương 2 PHỦ TẬP THÔ Chương này nhóm em tìm hiểu sự mở rộng tập thô theo hướng thay đổi phân... dụng các kết quả ứng dụng của ánh xạ đóng vào các tập cơ sở dữ liệu 16 Lý thuyết tập thô và ứng dụng 2.1 Tính chất của xấp xỉ phủ loại 1, 2, 3 2.1.1 Xấp xỉ phủ tập thô loại 1 a Sự phụ thuộc xấp xỉ dưới và xấp xỉ trên loại 1 W Zhu và F.Y Wang [38] đã chỉ ra mối quan hệ giữa xấp xỉ phủ dưới và xấp xỉ phủ trên loại 1 thông qua các định lý Định lý 2.1 [38] Cho C1 và C2 là hai phủ của U, C1 và C2 sinh ra... {a,b,c} ≠ X 22 Lý thuyết tập thô và ứng dụng reduct(C ) = K 3 2.4 Tính chất ánh xạ đóng của ba phép xấp xỉ trên dựa vào phủ 2.4.1 Tính chất ánh xạ đóng của ba phép xấp xỉ phủ trên ứng với phủ đơn vị Mệnh đề 2.2 Cho C là một phủ của U, nếu C là (phủ) đơn vị thì FH sinh bởi C thỏa tính chất: ∀X,Y ⊆ U, X ⊆ Y ⇒ FH(X) ⊆ FH(Y) (tính đồng biến) và TH sinh bởi C thỏa: TH(TH(X)) = TH(X) (tính lũy đẳng) Chứng minh... với D Tập P ⊆ ∆ , Cov(P) ={Px| x∈U} thỏa Cov(P) ≤ U/D, nếu mọi phần tử thuộc P là cần thiết, có nghĩa là ∀Ci∈P, Cov(∆-{Ci})≤U/D là sai thì P được gọi là một rút gọn của D Tập tất cả các phần tử cần thiết trong ∆ tương ứng với D được gọi là nhân của ∆ ứng với D, ký hiệu CoreD(∆) Rút gọn tập thuộc tính của một hệ quyết định nhất 35 Lý thuyết tập thô và ứng dụng quán la một tập tối thiểu các thuộc tính . tháng 10 năm 2014 NHẬN XÉT CỦA GVHD LÝ THUYẾT TẬP THÔ & ỨNG DỤNG Lý thuyết tập thô và ứng dụng 2 Lý thuyết tập thô và ứng dụng LỜI CẢM ƠN Nhóm em xin chân. thuộc tính phân nhánh tối ưu, làm cho cây có chiều cao nhỏ nhất. 4 Lý thuyết tập thô và ứng dụng MỤC LỤC 5 Lý thuyết tập thô và ứng dụng Chương 1 CÁC KHÁI NIỆM CƠ BẢN 1.1 Hệ thống thông. liệu. 8 i i Lý thuyết tập thô và ứng dụng Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người

Tiểu luận môn Toán cho khoa học máy tính LÝ THUYẾT TẬP THÔ & ỨNG DỤNG

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CẢM ƠN

LỜI MỞ ĐẦU

Chương 1

CÁC KHÁI NIỆM CƠ BẢN

1.1.1 Hệ thống thông tin

1.1.2 Quan hệ không phân biệt được

1.1.3 Tập thô

1.1.4 Các tính chất của xấp xỉ

1.1.5 Độ chính xác của xấp xỉ

1.1.6 Bảng quyết định

1.1.7 Rút gọn và nhân

1.1.8 Ma trận phân biệt được và hàm phân biệt được

1.1.9 Luật quyết định

1.1.10 Phụ thuộc độ k

Chương 2

PHỦ TẬP THÔ

2.1 Tính chất của xấp xỉ phủ loại 1, 2, 3

2.1.1 Xấp xỉ phủ tập thô loại 1

2.1.2 Xấp xỉ phủ tập thô loại 2

2.1.3 Xấp xỉ phủ tập thô loại 3

2.2 Mối quan hệ giữa ba loại phủ tập thô

2.3 Một số tính chất về xấp xỉ phủ loại 2

2.4 Tính chấtánh xạ đóng của ba phép xấp xỉ trên dựa vào phủ

2.4.1 Tính chất ánh xạ đóng của ba phép xấp xỉ phủ trên ứng với phủ đơn vị

2.4.2 Tính chất ánh xạ đóng của ba phép xấp xỉ phủ trên ứng với phủ tựa điểm

Tài liệu cùng người dùng

Tài liệu liên quan