Tiểu luận môn Toán cho máy tính TÌM HIỂU VỀ LÝ THUYẾT TẬP THÔ VÀ TẠO CÂY QUYẾT ĐỊNH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN PHÒNG ĐT SĐH-KHCN&QHĐN TOÁN CHO MÁY TÍNH Tên đề tài: TÌM HIỂU VỀ LÝ THUYẾT TẬP THÔ VÀ TẠO CÂY QUYẾT ĐỊNH GVHD: PGS.TS Dương Tôn Đảm Học viên thực hiện: Trần Cảnh Khánh - CH1301093 TPHCM – 11/2014 Mục lục Giới thiệu 1 CHƯƠNG I LÝ THUYẾT TẬP THÔ 2 1.1 Hệ thông tin 2 1.2 Hệ quyết định 4 1.3 Quan hệ bất khả phân biệt (indiscernibility) 5 1.4 Các quan sát 7 1.5 Xấp xỉ tập hợp 7 1.5.1 Các khái niệm xấp xỉ trong tập thô 9 1.5.2 Tập thuộc tính rút gọn và tập thuộc tính lõi 12 1.5.3 Ma trận phân biệt 13 CHƯƠNG 2 THUẬT TOÁN CSD 15 CHƯƠNG 3 THUẬT TOÁN DTCRSCR 17 CHƯƠNG 4 CÀI ĐẶT VÀ THỬ NGHIỆM 19 4.1 Cài đặt tập thô 19 4.2 Cài đặt thuật toán Quick Reduct 25 4.3 Cài đặt thuật toán CSD 27 4.4 Cài đặt thuật toán DTCRSCR 30 4.5 Chương trình minh họa các thuật toán tạo cây quyết định 32 Tài liệu tham khảo 36 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 1 Giới thiệu Ngày nay, với sự phát triển của công nghệ thông tin, các cơ sở dữ liệu có kích thước ngày càng tăng và nhu cầu thu thập những thông tin hữu ích là vấn đề cấp thiết. Phương pháp phân lớp dựa trên cây quyết định là một trong những phương pháp tốt cho việc phân lớp so với mạng bayes và mạng nơ tron. Các thuật toán kinh điển như ID3, C4.5 sử dụng độ hỗn loạn và độ lợi thông tin làm tiêu chí chọn thuộc tính để xây dựng cây quyết định. Một các tiếp cận khác đang được phát triển là xây dựng cây quyết định dựa trên lý thuyết tập thô được Pawlak phát triển vào đầu thập niên 1980. Lý thuyết tập thô phát huy tác dụng cho các trường hợp dữ liệu không đầy đủ, không chính xác. Một ưu điểm đối với lý thuyêt tập thô so với hướng tiếp cận Bayes là không cần giả định về sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu. Trong bài báo cáo này tác giả trình bày thuật toán sinh cây quyết định bằng thuật toán CSD và DTCRSCR dựa trên lý thuyết tập thô. Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 2 CHƯƠNG I LÝ THUYẾT TẬP THÔ Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính. Lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn. Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đưa ra các xấp xỉ để biểu diễn các đối tượng không thể được phân lớp một cách chắc chắn bằng tri thức có sẵn. Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó. Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó. Các tập xấp xỉ là cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu. Các khái niệm cơ bản của tập thô  Hệ (bảng) quyết định/thông tin  Quan hệ bất khả phân biệt(indiscernibility)  Xấp xỉ tập hợp (set approximation)  Rút gọn và lõi (reducts and core)  Thành viên thô (rough membership)  Phụthuộc thuộc tính 1.1 Hệ thông tin Trong hầu hết các hệ quản trị cơ sở dữ liệu thông thường thì thông tin thường được biểu diễn dưới dạng các bảng, trong dó mỗi hàng biểu diễn thông tin về một đối tượng, mỗi cột biểu diễn thông tin về một thuộc tính của đối tượng. Từ đầu những năm 80 Pawlak đã định nghĩa một khái niệm mới là hệ thông tin (infomation system) như sau: Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 3 Hệ thông tin là một cặp S = (U, A) trong đó U là tập hữu hạn không rỗng các đối tượng, hay gọi là tập vũ trụ. A là tập hữu hạn không rỗng các thuộc tính sao cho a : U ->V a với mọi a  A. Tập V a được gọi là tập giá trị của thuộc tính a. IS là cặp (U, A)  „ U là tập khác rỗng các đối tượng.  „ A là tập hữu hạn các thuộc tính sao cho với mọi a  A: a : U ->V a  V a được gọi là tập trị của a. Ví dụ 1.1: Bảng dưới đây biểu diễn về một hệ thống thông tin của 5 đối tượng U={U1,U2,U3,U4,U5,U6,U7,U8,U9,U10,U11,U12,U13,U14} với tập thuộc tính. A ={Outlook, Temp, Humidity, Wind} Và miền giá trị cho từng thuộc tính là: o I Outlook ={sunny, overcast, rain} o I Temp = {hot, mild, cold} o I Humidity = {normal, high } o I Wind = {weak, strong} Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 4 Bảng 1: Hệ thống thông tin 1.2 Hệ quyết định Hệ thống này là một hình thức học giám sát. Các hệ thông tin theo loại này được gọi là các hệ quyết định. Một hệ quyết định là một hệ thông tin có dạng : S =       d  A là thuộc tính quyết định (có thể có nhiều thuộc tính quyết định). Các phần tử của A được gọi là thuộc tính điều kiện Ví dụ 1.2: Mô tả một bảng quyết định, với các thuộc tính điều kiện lấy ở Bảng 1 và thêm và thuộc tính quyết định “PlayTennis” Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 5 Trong đó: - U={U1,U2,U3,U4,U5,U6,U7,U8,U9,U10,U11,U12,U13,U14} - A ={Outlook, Temp, Humidity, Wind} Trong bài toán phân lớp thì thuộc tính quyết định chính là lớp của đối tượng cần xếp lớp. Trong ví dụ này thuộc tính quyết định PlayTennis có 2 giá trị là Yes và No. 1.3 Quan hệ bất khả phân biệt (indiscernibility)  Quan hệ tương đương  Quan hệ nhị phân RX xX sao cho: - phản xạ (xRx với mọi x) - đối xứng ( nếu xRy thì ỹ) - Bắc cầu (nếu xRy và y thì xRz).  Lớp tương đương của phần tử [x] R :xX chứa tất cả đối tượng yX sao cho xRy  Định nghĩa một quan hệ tương đương trên hệ thông tin Cho một hệ thông tin IS = (U;A), với tập thuộc tính BA có quan hệ tương đương tương ứng IND IS (B) = {(x,x’)  U 2 |a  B: a(x) = a(x’)} Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 6 IND IS (B) được gọi là quan hệ bất khả phân biệt theo B, nếu (x,x’) IND IS (B) thì x và x’ là không thể phân biệt nhau qua tập thuộc tính B. Các lớp tương đương của quan hệ bất khả phân biệt theo B được kí hiệu là [x] B . Ví dụ 1.2: Bảng hệ thông tin với PlayTennis là thuộc tính quyết định: Ta phân hoạch U như sau: Các tập con khác rỗng của thuộc tính điều kiện là:{Outlook}, {Temp}, {Humidity}, {Wind}, {Outlook, Temp}, {Outlook, Humidity}, {Outlook, Wind},{Temp, Humidity}, {Temp, Wind},{Humidity, Wind}, {Outlook, Temp, Humidity}, {Outlook, Temp, Wind}, {Outlook, Humidity, Wind}, {Temp, Humidity, Wind}, {Outlook, Temp, Humidity, Wind}. - IND({Outlook})={{U1, U2, U8, U9, U11},{U2,U7, U12, U13}, {U4, U5, U6, U10, U14}} - IND=({ Temp })={{U1, U2, U3, U13}, {U4, U8, U10, U11, U12,U14}, {U5, U6,U7,U9}} - IND=({Humidity })={{U1, U2, U3, U4, U8, U12, U14},{U5, U6, U7,U9, U10, U11, U13}} - IND=({Wind})={{U1, U3, U4, U5, U8, U9, U10}, {U2, U6, U7, U11, U12, U13, U14}} Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 7 - IND=({ Outlook, Temp })={{U1,U2},{U3, U13}, {U4, U10, U14}, {U5, U6}, {U7}, {U8, U11}, {U9}, {U12}} - IND=({ Outlook, Humidity })={{U1, U2, U8},{U3, U12}, {U4, U14}, {U5, U6, U10}, {U7, U13},{U9, U11}} 1.4 Các quan sát - Quan hệ tương đương dẫn đến một phân hoạch tập phổquát. - Có thể dùng các phân hoạch để tạo các tập con mới của tập phổ quát. - Các tập con thường được quan tâm có cùng giá trị thuộc tính điều kiện. - Tuy vậy một sốkhái niệm như“Walk” không thể được định nghĩa rõ ràng. 1.5 Xấp xỉ tập hợp Các tập xấp xỉ là cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu. Cho hệ thống thông tin .            Với các tri thức được cho bởi tập thuộc tính B, vấn đề đặt ra là liệu chúng ta có thể biểu diễn tập các đối tượng V bằng các tri thức có sẵn hay không? Hay nói cách khác, với tập thuộc tính B cho trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì tập các đối tượng X có thể được diễn đạt thông qua các lớp tương đương này như thế nào? Trong lý thuyết tập thô, để biểu diễn tập đối tượng V bằng tri thức có sẵn B người ta xấp xỉ chúng bởi hợp của một số hữu hạn các lớp tương tương của IND(B). Có 2 cách xấp xỉ đó là B-Xấp xỉ dưới của X, ký hiệu là BX và B-Xấp xỉ trên của tập X, ký hiệu là   . Các tập xấp xỉ này được định nghĩa như sau:            ,              - Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X - Tập    bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc X. Từ 2 tập xấp xỉ trên và xấp xỉ dưới của X, người ta định nghĩa các tập sau: Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 8 - Vùng B-biên của X:        : , chứa các đối tượng không thể phân lớp theo B. - Vùng B-ngoài của X, U -   , chứa các đối tượng chắc chắn được phân lớp không thuộc về X. - Một tập được gọi là thô (rough) nếu vùng biên của nó là rỗng, ngược lại tập là rõ. Ví dụ: Xét hệ thống thông tin biểu diễn các triệu chứng của cảm cúm như sau: Gọi tập đối tượng X = {x | Playtennis(x) = yes} = {U3, U4, U5, U7, U9, U10, U11, U12, U13} và A={ Outlook, Temp, Humidity } Ta có các lớp tương đương : IND=({ Outlook, Temp, Humidity })={{U1,U2}, {U3}, {U4, U14}, {U5, U6}, {U7}, {U8}, {U9}, {U10}, {U11}, {U12}, {U13}} Ta có các vùng xấp xỉ AX={ U3, U7, U9, U10, U11, U12, U13 }    BN A (X) = {U4, U5, U6, U14} [...]... 18 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 CHƯƠNG 4 CÀI ĐẶT VÀ THỬ NGHIỆM Các thuật toán được cài đặt trong chương trình:  Thuật toán ID3 tạo cây quyết định dựa trên độ lợi thông tin  Thuật toán CSD tạo cây quyết định dựa trên tập thô  Thuật toán DTCRSCR tạo cây quyết định dựa trên tập thô  Thuật toán thu gọn thuộc tính Quick Reduct Chương trình được cài đặt như sau:  Ngôn ngữ và. .. thuật toán tạo cây quyết định dựa vào 𝛽 ( 𝑎, 𝐶, 𝐷 ) nhỏ nhất để làm tiêu chí phân chia nút Thuật toán tạo cây quyết định dựa vào DTCRSCR như sau: Đầu vào: tập học S, tập thuộc tính điều kiện, thuộc tính quyết định Đầu ra: cây quyết định Bước 1: Tương ứng với tập học S, tính xấp xỉ trên và xấp xỉ dưới cho mỗi thuộc tính điều kiện tương ứng với mỗi phân hoạch Xi của của tập thuộc tính quyết định Sau đó, tính. .. toán tạo cây quyết định dựa vào CSD(a, C, D) lớn nhất để làm tiêu chí phân chia nút Thuật toán tạo cây quyết định dựa vào CSD như sau: Đầu vào: tập học S, tập thuộc tính Đầu ra: cây quyết định Bước 1: Tạo nút N cho cây quyết định Bước 2: Nếu tập tất cả các mẫu học của D có giá trị C, trả về cây có một nút duy nhất là nút gốc với nhãn C Bước 3: Nếu tập thuộc tính attribute_list là null thì trả về nút... Trang 27 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 /// Tính mức độ phân lớp của thuộc tính p với tập điều kiện C, thuộc tính quyết định d và tập dữ liệu U /// /// Thuộc tính đang xét để tính mức độ phân lớp /// Tập thuộc tính điều kiện C /// Thuộc tính quyết định d /// Tập dữ liệu... = 1,2,…,n sao cho ui hay uj thuộc về vùng C-dương của D Mij là tập tât cả thuộc tính điều kiện để phân lớp các đối tượng ui và uj vào các lớp khác nhau Giá trị  hàm ý cặp đối tượng ui và uj không phân biệt trên tập thuộc tính quyết định D Ví dụ 1.8: Xét bảng quyết định sau Trần Cảnh Khánh - CH1301093 Trang 13 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trong đó tập thuộc tính điều kiện... họa các thuật toán tạo cây quyết định Chương trình cung cấp các tính năng sau:  Chọn tập dữ liệu đã có sẵn từ UCI  Xem dữ liệu từ dữ liệu được chọn  Chọn thuật toán tạo cây quyết định như CSD, DTCRSCR, ID3 để tính Trần Cảnh Khánh - CH1301093 Trang 32 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Hình 4.1 Chạy thuật toán CSD trên dữ liệu "Play Tennis" Hình 4.2 Xem dữ liệu tập "Play Tennis"... thuộc tính để tạo cây quyết định, được định nghĩa: 𝑚 𝐶𝑆𝐷 ( 𝑎, 𝐶, 𝐷 ) = 𝛾 𝐶 𝐷 ∗ ∑ ∝ 𝐶 (𝑋 𝑖 ) 𝑖=1 Trong đó:  𝑎 ∈ 𝐶 ⊆ 𝐴, C là tập thuộc tính điều kiện và D là tập thuộc tính quyết định  Mỗi 𝑋 𝑖 là một lớp quyết định thứ i của tập U  𝛾 𝐶 𝐷 mức độ phụ thuộc của tập thuộc tính D vào C 𝑚  ∑ 𝑖=1 ∝ 𝐶 (𝑋 𝑖 ) thể hiện tổng độ chính xác phân lớp của thuộc tính C cho mỗi thuộc tính quyết định Về cơ bản thuật toán. . .Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 NEGB(X) = U - 𝐴𝑋 = {U1, U2, U8} Như vậy lớp quyết định PlayTennis là thô vì vùng biên khác rỗng 1.5.1 Các khái niệm xấp xỉ trong tập thô 1.5.1.1 Xấp xỉ dưới, xấp xỉ trên Cho bảng quyết định DT = (U, CD) và tập thuộc tính BC, X U Xấp xỉ trên và xấp xỉ dưới của tập X tương ứng với B, ký hiệu theo thứ tự là 𝐵𝑋 𝑣à 𝐵𝑋 được định nghĩa... hợp trong một hệ thông tin Trần Cảnh Khánh - CH1301093 Trang 12 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 1.5.2.1 Rút gọn và lõi: Tập thuộc tính R € C được gọi là một rút gọn của C nếu DT’=(U, R∪ D) là độc lập và POSR(D ) = POSC(D ) Một tập rút gọn là một tập con các thuộc tính duy trì các đặc tính cơ bản của tập dữ liệu gốc; do đó các thuộc tính không thuộc về một tập rút gọn là không... dừng của thuật toán:  Tất cả các đối tượng của tập học tại một bước tạo cây có cùng nhãn (bước 2)  Tập thuộc tính còn lại để để tạo cây quyết định là rỗng (bước 3)  Không có tập học Si thỏa mãn giá trị best_attribute là a Trần Cảnh Khánh - CH1301093 Trang 16 Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 CHƯƠNG 3 THUẬT TOÁN DTCRSCR Thuật toán DTCRSCR (Decision Tree Construction based on . giả trình bày thuật toán sinh cây quyết định bằng thuật toán CSD và DTCRSCR dựa trên lý thuyết tập thô. Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần. thuộc tính điều kiện Ví dụ 1.2: Mô tả một bảng quyết định, với các thuộc tính điều kiện lấy ở Bảng 1 và thêm và thuộc tính quyết định “PlayTennis” Tìm hiểu về lý thuyết tập thô và tạo cây quyết. trên tập thuộc tính quyết định D Ví dụ 1.8: Xét bảng quyết định sau Tìm hiểu về lý thuyết tập thô và tạo cây quyết định 2014 Trần Cảnh Khánh - CH1301093 Trang 14 Trong đó tập thuộc tính

Tiểu luận môn Toán cho máy tính TÌM HIỂU VỀ LÝ THUYẾT TẬP THÔ VÀ TẠO CÂY QUYẾT ĐỊNH

Thông tin tài liệu

Từ khóa liên quan

Mục lục

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

PHÒNG ĐT SĐH-KHCN&QHĐN

TOÁN CHO MÁY TÍNH

GVHD: PGS.TS Dương Tôn Đảm

Học viên thực hiện:

TPHCM – 11/2014

Giới thiệu

CHƯƠNG I LÝ THUYẾT TẬP THÔ

1.1 Hệ thông tin

1.2 Hệ quyết định

1.3 Quan hệ bất khả phân biệt (indiscernibility)

1.4 Các quan sát

1.5 Xấp xỉ tập hợp

1.5.1 Các khái niệm xấp xỉ trong tập thô

1.5.1.1 Xấp xỉ dưới, xấp xỉ trên

1.5.1.2 Miền biên, Miền ngoài

1.5.1.3 Một số tính chất của xấp xỉ tập hợp:

1.5.1.4 Bốn lớp cơ bản của tập thô

1.5.1.5 Độ chính xác của xấp xỉ

1.5.1.6 Các rút gọn

1.5.1.7 Phụ thuộc thuộc tính trong hệ thông tin

1.5.2 Tập thuộc tính rút gọn và tập thuộc tính lõi

1.5.2.1 Rút gọn và lõi:

1.5.3 Ma trận phân biệt

Tài liệu cùng người dùng

Tài liệu liên quan