Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập thô và ứng dụng

55 468 1
Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập  thô và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 1 LỜI CẢM ƠN Để hoàn thành đồ án này tác giả đã nhận được sự chỉ bảo tận tình, cùng những yêu cầu nghiêm khắc của thầy giáo TS. Nguyễn Đức Thuần. Em xin bày tỏ lòng biết ơn sâu sắc tới thầy vì đã hướng dẫn và chỉ bảo tận tình để em có thể hoàn thành đồ án này. Em xin cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã giúp đỡ và tạo điều kiện cho em trong quá trình thực hiện đồ án cũng như trong toàn khóa học. Tác giả cũng xin chân thành cảm ơn tình cảm của bạn bè trong suốt quá trình học tập, rèn luyện tại trường Đại học Nha Trang. Nha Trang, tháng 06 năm 2011 Hàng Nguyên Huy Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 2 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 3 NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 4 MỤC LỤC LỜI CẢM ƠN 1 DANH MỤC BẢNG BIỂU 6 DANH MỤC HÌNH ẢNH 7 LỜI MỞ ĐẦU 8 CHƯƠNG 1 9 TÌM HIỂU LÝ THUYẾT TẬP THÔ 9 1.1) Hệ thống thông tin 9 1.2) Quan hệ không phân biệt được 9 1.3) Tập thô 11 1.4) Các tính chất của xấp xỉ 13 1.5) Độ chính xác của xấp xỉ 14 1.6) Bảng quyết định 15 1.7) Rút gọn và nhân 16 1.8) Ma trận phân biệt được và hàm phân biệt được 17 1.8.1) Ma trận phân biệt được 17 1.8.2) Hàm phân biệt được 18 1.9) Luật quyết định 19 1.10) Phụ thuộc độ k 20 1.11) Kết luận 21 CHƯƠNG 2 22 LUẬT KHẲNG ĐỊNH VÀ LUẬT PHỦ ĐỊNH 22 2.1) Giới thiệu 22 2.2) Các khái niệm cơ bản 23 2.2.1) Công thức 23 2.2.2) Độ chính xác và độ phủ của phân lớp 24 2.2.3) Luật nguyên tố 25 2.2.4) Luật khẳng định 25 Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 5 2.2.5) Luật loại trừ và luật phủ định 26 2.3) Một số kết quả đạt được 28 2.3.1) Luật khẳng định 28 2.3.2) Luật phủ định 30 2.3.3) Mở rộng luật phủ định 31 2.3.4) Luật tối thiểu 33 2.3.5) Mối tương quan giữa luật khẳng định và phủ định 35 2.4) Bài toán xác định loại luật 39 2.4.1) Phát biểu 39 2.4.2) Các dạng bài toán xác định loại luật 39 2.5) Kết luận 40 CHƯƠNG 3 41 CHƯƠNG TRÌNH THỬ NGHIỆM 41 3.1) Tổ chức dữ liệu 41 3.2) Các kết quả đạt được 42 3.2.1) Luật nguyên tố 42 3.2.2) Luật tối thiểu 43 3.2.3) Xác định luật 45 3.3) Kết luận và hướng phát triển đề tài 45 Tài liệu tham khảo 47 PHỤ LỤC 48 1) Bộ dữ liệu NTU Data 48 2) Các bộ dữ liệu UCI 50 Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 6 DANH MỤC BẢNG BIỂU Bảng 1.1: Bảng dữ liệu bệnh cúm 10 Bảng 1.2: Một hệ thông tin đơn giản 12 Bảng 1.3: Bảng quyết định 15 Bảng 1.4: Hệ thông tin dùng để minh họa ma trận phân biệt được 18 Bảng 1.5: Ma trận phân biệt được của hệ thông tin ở bảng 1.4 18 Bảng 1.6: Một hệ thông tin để tìm hàm phân biệt được 19 Bảng 1.7: Ma trận phân biệt được của hệ thông tin ở bảng 1.6 19 Bảng 1.8: Hệ thông tin dùng để minh họa phụ thuộc độ k 21 Bảng 2.1: Một hệ thống thông tin đơn giản 23 Bảng 2.2: Danh sách các thuộc tính của NTU Data 29 Bảng 2.3: Kết quả tìm luật khẳng định nguyên tố trên các bộ dữ liệu 30 Bảng 2.4: Kết quả tìm luật phủ định nguyên tố trên các bộ dữ liệu 31 Bảng 3.1: Bảng 2.1 sau khi được xử lý 41 Bảng 3.2: Kết quả sinh luật nguyên tố trên các bộ dữ liệu 43 Bảng 3.3: Kết quả sinh luật tối thiểu có 2 công thức trên các bộ dữ liệu 44 Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 7 DANH MỤC HÌNH ẢNH Hình 1.1: Minh họa tập thô 12 Hình 2.1: Giản đồ Venn cho luật khẳng định. 26 Hình 2.2: Giản đồ Venn cho luật loại trừ 26 Hình 2.3: Giản đồ Venn cho luật phủ định. 27 Hình 2.4: Giản đồ Venn cho các loại luật 28 Hình 2.5: Giản đồ Venn cho luật phủ định. 32 Hình 2.6: Giản đồ Venn cho luật phủ định mở rộng 33 Hình 2.7: Giản đồ Venn cho κ nhỏ nhưng độ trùng lắp lớn. 35 Hình 2.8: Giản đồ Venn cho α nhỏ nhưng độ trùng lắp lớn. 36 Hình 2.9: Giản đồ Venn cho độ trùng lắp nhỏ 36 Hình 3.1: Sơ đồ lớp lớp MyList 42 Hình 3.2: Giao diện chương trình sinh luật nguyên tố ứng với bộ dữ liệu Nursery 43 Hình 3.3: Giao diện chương trình sinh luật tối thiểu với bộ dữ liệu NTU Data 44 Hình 3.4: Giao diện chương trình kiểm tra luật 45 Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 8 LỜI MỞ ĐẦU Lý thuyết tập thô (rough set theory) – do Z. Pawlak đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi – đã thu hút được nhiều sự quan tâm nghiên cứu và được áp dụng ngày càng rộng rãi trong nhiều lĩnh vực. Lý thuyết này được phát triển trên một nền tảng toán học vững chắc và cung cấp những công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật… Hiện nay, có nhiều công trình nghiên cứu nhắm vào các hướng khai thác dữ liệu (data mining) và khám phá tri thức (knowledge discovery) từ dữ liệu thô để biến thành thông tin, từ thông tin thành tri thức và vận dụng tri thức đó vào cuộc sống. Một trong những hướng khai thác dữ liệu là dựa vào lý thuyết tập thô nhằm làm rõ các mối quan hệ của dữ liệu mang tính mơ hồ, phân lớp theo các thuộc tính quan trọng, tinh giảm dữ liệu thừa, phát sinh các luật quyết định… “Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập thô và ứng dụng” là đề tài em nghiên cứu dưới sự hướng dẫn của thầy giáo TS. Nguyễn Đức Thuần. Vì thời gian có hạn và kiến thức còn hạn chế nên đồ án còn nhiều thiếu sót, rất mong nhận được ý kiến đóng góp của thầy cô, bạn bè để em có thể hoàn thiện đề tài này. Đồ án gồm 3 chương: Chương 1 trình bày lý thuyết tập thô, chương 2 trình bày luật khẳng định và luật phủ định, chương 3 trình bày chương trình cài đặt thử nghiệm và cuối cùng là tài liệu tham khảo và phụ lục. Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 9 CHƯƠNG 1 TÌM HIỂU LÝ THUYẾT TẬP THÔ 1.1) Hệ thống thông tin Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp). Bảng này được gọi là một hệ thống thông tin. Hình thức hơn, hệ thống thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính. Với mỗi u U ∈ và a ∈ A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. Nếu gọi I a là tập tất cả giá trị của thuộc tính a, thì u(a) ∈ I a với mọi u ∈ U. Bây giờ, nếu B = {b 1 , b, , b k } ⊆ A, ta ký hiệu bộ các giá trị u(b i ) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(b i ) = v(b i ), với mọi i =1, 2, , k. 1.2) Quan hệ không phân biệt được Xét hệ thống thông tin S = (U, A), với mỗi tập thuộc tính B ⊆ A tạo ra một quan hệ hai ngôi trên U, ký hiệu IND(B) IND(B) = {( , ) | ( ) ( ), } u v U U u a v a a B ∈ × = ∀ ∈ IND(B) được gọi là quan hệ B_không phân biệt được. Dễ kiểm chứng đây là một quan hệ tương đương trên U. Với mọi đối tượng u ∈ U, lớp tương đương của u trong quan hệ IND(B) được kí hiệu bởi [u] B . Tập thương xác định bởi quan hệ IND(B) được ký hiệu U/IND(B) hay U/B, tức là U/IND(B)= U/B = {[u] B | u ∈ U}. Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 10 Ví dụ 1.1: Xét hệ thống thông tin cho ở bảng 1.1 U Đau đầu Đau cơ Nhiệt độ Cúm x 1 Không Có Cao Có x 2 Có Không Cao Có x 3 Có Có Rất cao Có x 4 Không Có Bình thường Không x 5 Có Không Cao Không x 6 Không Có Rất cao Có Bảng 1.1: Bảng dữ liệu bệnh cúm Trong đó: U = {x 1 , x 2 , x 3 , x 4 , x 5 , x 6 }. A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}. Trong bảng, các bệnh nhân x 2 , x 3 và x 5 không phân biệt được đối với thuộc tính Đau đầu, bệnh nhân x 3 và x 6 không phân biệt được đối với thuộc tính Đau cơ, Cúm và bệnh nhân x 2 , x 5 không phân biệt được đối với thuộc tính Đau đầu, Đau cơ và Nhiệt độ. Do đó: IND({Đau đầu}) = {{x 1 , x 4 , x 6 }, {x 2 , x 3 , x 5 }}, IND({Đau cơ}) = {{x 1 , x 3 , x 4 , x 6 }, {x 2 , x 5 }}, IND({Nhiệt độ}) = {{x 1 , x 2 , x 5 }, {x 3 , x 6 }, {x 4 }}, IND({Cúm}) = {{x 1 , x 2 , x 3 , x 6 }, {x 4 , x 5 }}, IND({Đau đầu, Đau cơ}) = {{x 1 , x 4 , x 6 }, {x 2 , x 5 }, {x 3 }}. [...]... i khi xét các lu t ph nh nguyên t thì lư ng thông nh t i thi u mà v trái có ch a f “không còn nhi u ý nghĩa”, vì v y ta lo i f ra kh i t p ng viên Tương t , n u ¬f → ¬D là lu t ph nh nguyên t thì cũng lo i f D a vào 2 nh n xét trên, tác gi xu t thu t toán Heuristic: Thu t toán tìm t t c lu t nguyên t và t p ng viên sinh các lu t t i thi u: u vào: H th ng thông tin S; L = {[a = v] | a ∈ A, v ∈ Va};... con c a RS 27 án t t nghi p GVHD: TS Nguy n Hình 2.4: Gi n Nh n xét: Các lu t kh ng nh dương và mi n ph 2.3) M t s k t qu 2.3.1) Lu t kh ng c Thu n Venn cho các lo i lu t nh và ph nh ư c nh tương ng v i mi n xác nh nghĩa trong t p thô t ư c nh a) Thu t toán xác nh t t c các lu t kh ng nh nguyên t u vào: H th ng thông tin S; L = {[a=v] | a∈A, v∈Va}; D = [d=value] u ra: P = {R ∈ L | R → D: Lu t kh ng nh... Nguy n c Thu n 1.3) T p thô Trong lý thuy t t p thô, bi u di n m t t p h p b ng tri th c ư c cho xác nh b i m t t p thu c tính, ngư i ta nh nghĩa hai phép x p x : Cho m t h th ng thông tin S = (U, A), v i m i t p con X ⊆ U và B⊆ A, ký hi u R = IND(B), ta có 2 t p con sau: R ( X ) = {u ∈ U | [ u ] B ⊆ X } R ( X ) = {u ∈ U | [u ]B ∩ X ≠ ∅} R ( X ), R( X ) l n lư t g i là R-x p x dư i và R- x p x trên c a... b n s hay l c lư ng c a m t t p h p Rõ ràng giá tr c a µ ( Z ij ), s ( Z ij ) c a lu t quy t nh Zij rơi vào o n 1   ,1 U  thu n ti n trong trình bày ký hi u |Zij| ư c s d ng thay cho X i ∩ Y j 1.10) Ph thu c k Cho h th ng thông tin S = (U, A), X, Y ⊆ A Chúng ta nói r ng t p k → k ∈ [0,1] vào t p thu c tính X, ký hi u X  Y , thu c tính Y ph thu c v i k ư c xác nh như sau: k= card ( POS X (Y... khái ni m cơ b n nh t trong lý thuy t t p thô như h th ng thông tin, b ng quy t bi t ư c, lu t quy t quy t nh nh, ph thu c nh, quan h không phân k… ây là cơ s chương ti p theo 21 ta tìm các lu t án t t nghi p GVHD: TS Nguy n c Thu n CHƯƠNG 2 LU T KH NG NH VÀ LU T PH NH 2.1) Gi i thi u Các phương pháp sinh lu t ư c phân thành hai l p: - L p các lu t t t nh (deteministic rules) và L p các lu t xác su t... r ng lu t kh ng nh và ph nh c a Tsumoto [2] Các k t qu 22 ư c ki m th tính án t t nghi p úng GVHD: TS Nguy n c Thu n n thông qua x lý m t s b d li u UCI và d li u h tr ch t lư ng d y và h c t i i h c Nha Trang C u trúc chương 2 g m các m c: M c 2 trình bày các khái ni m cơ s v t p thô, lu t kh ng qu m i nh, lu t ph nh; m c 3 trình bày m t s k t t ư c; m c 4 trình bày cách xác nh lo i lu t; m c 5 là... các ph n t c a U ch c ch n thu c vào X T p R ( X ) bao g m các ph n t c a U có kh năng ư c phân lo i vào nh ng ph n t thu c X ng v i quan h R T hai t p x p x ngư i ta nh nghĩa các t p: BNB(X) = R ( X ) − R ( X ) : B- mi n biên c a X POSB(X) = R ( X ) : B-vùng dương c a X NEGB(X) = U − R( X ) : B-vùng âm c a X Ký hi u t p thương c a IND(B) trên U là U/B, các x p x trên và dư i c a X có th vi t l i: R... u SV suy nghĩ, trao GV quan tâm t ch c các ho t i ng phát tri n tư duy sáng t o c a SV GV có ki n th c sâu r ng và c p nh t GV s d ng hi u qu các phương ti n d y h c (b ng vi t, èn chi u…) 6 GV th c hi n úng gi lên l p và k ho ch gi ng d y 7 GV có tác phong và cách ng x chu n m c 8 GV cho i m công b ng, ph n ánh úng năng l c c a SV 9 GV nhi t tình và có trách nhi m trong gi ng d y 10 GV gi i thi u 11... ⊆ RS ⇒ ¬R → ¬D là lu t ph nh (vô lý vì ¬R’ → ¬D là lu t ph nh t i thi u nên không th b công th c f) Trong các tính ch t trên ta chưa chú ý li u Nh ng nh n xét sau có xem xét n ý nghĩa thông tin c a d n ý nghĩa thông tin: Nh n xét 2.1: N u ph n trùng l p c a fS và D nh thì “kh năng” xu t hi n f trong các lu t t i thi u là nh Chú ý r ng ph n trùng l p nh nghĩa là c và ph phân l p κ chính xác phân l... tên và (1) ∨mij là bi u th c tuy n c a t t c các bi n c ∈ mij, n u mij ≠∅, (2) ∨mij = true, n u mij = ∅ và ui(D) = uj(D), (3) ∨mij = false, n u mij = ∅ và ui(D) ≠ uj(D) 18 án t t nghi p GVHD: TS Nguy n Ví d 1.8: Xét h thông tin S = (U, C ∪ D) c Thu n b ng 1.6 U = {o1, o2, o3, o4, o5}, C = {a, b, c, d}, D = {e} A B c d e o1 1 0 2 1 0 o2 0 0 1 2 1 o3 2 0 2 1 0 o4 0 0 2 2 2 o5 1 1 2 1 0 B ng 1.6: M t h thông . Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập thô và ứng dụng là đề tài em nghiên cứu dưới sự hướng dẫn của thầy giáo TS. Nguyễn Đức Thuần. Vì thời gian có hạn và kiến thức. luật phủ định 31 2.3.4) Luật tối thiểu 33 2.3.5) Mối tương quan giữa luật khẳng định và phủ định 35 2.4) Bài toán xác định loại luật 39 2.4.1) Phát biểu 39 2.4.2) Các dạng bài toán xác định. Luật khẳng định 25 Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần 5 2.2.5) Luật loại trừ và luật phủ định 26 2.3) Một số kết quả đạt được 28 2.3.1) Luật khẳng định 28 2.3.2) Luật phủ định

Ngày đăng: 29/07/2014, 18:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan