Xây dựng chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô

Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc LỜI MỞ ĐẦU Trong thời đại ngày nay, việc tìm kiếm thông tin trên cơ sở dữ liệu khổng lồ, việc xử lý các thông tin rời rạc, không đầy đủ đang được rất nhiều người quan tâm. Có nhiều phương pháp để giải quyết các vấn đề trên, nhưng có một phương pháp đang được nhiều người nghiên cứu, đó là phương pháp tìm kiếm trên tập thô. Rất nhiều ứng dụng dựa trên ý tưởng của lý thuyết tập thô như phân tích dữ liệu y khoa, lượng giá điều phối hàng không, xử lý ảnh, nhận dạng, … Chính vì lý do trên nên sau khi học xong môn Khai phá dữ liệu và kho dữ liệu, em đã chọn đề tài “Xây dựng chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô”. Trong phạm vi bài thu hoạch này em xin trình bày tóm tắt những kiến thức đã học được về lý thuyết tập thô và viết một chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô bằng ngôn ngữ C#. Qua đây, em xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình hướng dẫn em môn học bổ ích và đầy ý nghĩa này. Em xin cảm ơn các bạn cùng khoá và các anh chị khoá trước đã giúp đỡ em tìm tài liệu và góp ư cho em hoàn thành tốt bài thu hoạch này! Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 1 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 2 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc MỤC LỤC NỘI DUNG PHẦN I: LÝ THUYẾT CƠ SỞ VỀ TẬP THÔ I.1. Giới thiệu về lý thuyết tập thô Lý thuyết tập thô được Z. Pawlak phát triển vào đầu thập niên 1980. Lý thuyết tập thô rất hiệu quả trong khai thác dữ liệu, tìm kiếm thông tin, hỗ trợ quyết định, máy học, các hệ cơ sở tri thức. Lý thuyết tập thô dựa trên giả thuyết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ. Chắc chắn là hầu hết cơ sở dữ liệu được sử dụng cho việc khai thác dữ liệu đều không hoàn thiện về dữ liệu, ví dụ như nhiễu, các giá trị không xác định hoặc lỗi do các thiết bị đo đạc không chính xác. Lý thuyết tập thô phát huy tác dụng cho các trường hợp như vậy vì tập thô là công cụ nhằm giải quyết sự gần đúng và các trường hợp quyết định không chắc chắn. Một ưu điểm của lý thuyết tập thô đối với hướng tiếp cận xác suất Bayes là không cần giả định về sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu Trong phần lý thuyết cơ sở về tập thô, em sẽ trình bày các khái niệm cơ bản của tập thô như sau: • Hệ thông tin / quyết định Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 3 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc • Quan hệ bất khả phân biệt • Xấp xỉ tập hợp • Rút gọn và lơi • Thành viên thô • Phụ thuộc thuộc tính I.2. Hệ thông tin / quyết định Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi dòng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp). Bảng này được gọi là một hệ thông tin. Hình thức hơn, hệ thông tin là một cặp S = (U, A) • Trong đó U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính. • Với mỗi u ∈ U và a ∈ A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. • Nếu gọi I a là tập tất cả giá trị của thuộc tính a, thì u( a) ∈ I a với mọi u ∈ U. Bây giờ, nếu B = {b 1 , b 2 , ,b k } ⊆ A, ta ký hiệu bộ các giá trị u(b i ) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi), với mọi i =1, 2, , k. Ví dụ 1: Một hệ thông tin đơn giản: Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 4 Độ tuổi Số buổi x1 16-30 50 x2 16-30 0 x3 31-45 1-25 x4 31-45 1-25 x5 46-60 26-49 x6 16-30 26-49 x7 46-60 26-49 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc Trong nhiều ứng dụng, ta thấy có 1 sự phân loại kết quả. Đó là sự mô tả tri thức bởi một thuộc tính đặc trưng phân biệt được gọi thuộc tính quyết định. Hệ thống này là một hình thức học có giám sát. Các hệ thông tin theo loại này được gọi là các hệ quyết định. Như vậy, một hệ quyết định là một hệ thông tin có dạng (U;A ∪ {d}), trong đó d ∉ A là thuộc tính quyết định. Các thành phần thuộc tính của A được gọi là các thuộc tính điều kiện hay gọi đơn giản là các thuộc tính. Thuộc tính quyết định có thể có nhiều hơn hai giá trị mặc dù thường gặp là thuộc tính nhị phân. Ví dụ 2: Một hệ thông tin có thêm thuộc tính quyết định (thi đậu) với hai khả năng kết quả có hoặc không: Trong đó: • U = {x1, x2, x3, x4, x5, x6, x7 } • A = {độ tuổi, số buổi, thi đậu}. Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 5 Độ tuổi Số buổi Thi đậu x1 16-30 50 có x2 16-30 0 không x3 31-45 1-25 không x4 31-45 1-25 có x5 46-60 26-49 không x6 16-30 26-49 có x7 46-60 26-49 không Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc • Trong bảng này, các bộ x3 và x4 cũng như x5 và x7 có cùng giá trị của các thuộc tính điều kiện (độ tuổi và số buổi) nhưng cặp x3 và x4 có kết quả thi đậu khác nhau trong khi cặp x5 và x7 có cùng kết quả thi đậu. I.3. Quan hệ bất khả phân biệt Một hệ quyết định thể hiện tri thức về các đối tượng trong thế giới thực. Tuy nhiên trong nhiều trường hợp bảng này có thể được tinh giảm do tồn tại ít nhất hai khả năng dư thừa thông tin sau đây: Nhiều đối tượng giống nhau hay không thể phân biệt với nhau lại được thể hiện lặp lại nhiều lần Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thì thông tin do hệ quyết định cung cấp mà chúng tâm sẽ không bị mất mát Một quan hệ nhị phân R ⊆ X x X được gọi là quan hệ tương đương khi có các tính chất sao: • Tính phản xạ (xRX với mọi x) • Tính đối xứng (nếu xRy thì yRx) • Tính bắc cầu (nếu xRy và yRz thì xRz) Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đối tượng có quan hệ R với x. Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B ⊆ A tạo ra một quan hệ hai ngôi trên U, ký hiệu IND(B): IND s (B) = {( u, v) ∈ U 2 | ∀a ∈ B, a(u) = a(v)} Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 6 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc IND s (B) được gọi là quan hệ bất khả phân biệt theo B. Dễ kiểm chứng đây là một quan hệ tương đương trên U. Với mọi đối tượng u ∈ U, lớp tương đương của u trong quan hệ IND s (B) được kí hiệu bởi [u]B. Thuật toán xác định lớp tương đương: Gọi O là tập các đối tượng Gọi B là tập các thuộc tính Gọi L là tập các lớp tương đương Thuật toán: Bước 1: L = Ø Bước 2: Nếu O = Ø thì thực hiện bước 5, ngược lại thực hiện bước 3 Bước 3: Xét x ∈ O, P = {x}, O = O \ {x} Với mọi phần tử y ∈ O, nếu x và y không thể phân biệt được qua tập thuộc tính B thì P = P ∪ {y}, O = O \ {y} L = L ∪ {P} Bước 4: Thực hiện bước 2 Bước 5: Kết thúc. Ví dụ 1: Xét hệ quyết định trên ví dụ 2 phần hệ thông tin / quyết định Với tập hợp {số buổi}, các bộ x3 và x4 thuộc cùng một lớp tương đương và bất khả phân biệt. Tương tự cho các bộ x5, x6 và x7 thuộc vào các lớp tương đương. Quan hệ tương đương IND trên các tập thuộc tính {độ tuổi},{số buổi}, {độ tuổi, số buổi} cho ta phân hoạch tập U như sau: IND({độ tuổi}) ={{x1,x2,x6}; {x3,x4}; {x5,x7}} IND({số buổi}) ={{x1}; {x2}; {x3,x4}; {x5,x6,x7}} IND({độ tuổi, số buổi }) ={{x1}; {x2}; {x3,x4}; {x5,x7}; {x6}} Ví dụ 2: Xét hệ quyết định sau: Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 7 U Đau đầu Đau cơ Nhiệt độ Cúm x1 Không Có Cao Có x2 Có Không Cao Có x3 Có Có Rất cao Có x4 Không Có Bình thường Không x5 Có Không Cao Không x6 Không Có Rất cao Có Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc Trong đó: U = {x1, x2, x3, x4, x5, x6}. A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}. Trong bảng, các bệnh nhân x2, x3 và x5 không phân biệt được đối với thuộc tính Đau đầu, bệnh nhân x3 và x6 không phân biệt được đối với thuộc tính Đau cơ, Cúm và bệnh nhân x2, x5 không phân biệt được đối với thuộc tính Đau đầu, Đau cơ và Nhiệt độ. Do đó: IND( {Đau đầu}) = {{x1, x4, x6},{x2, x3, x5}} IND( {Đau cơ}) = {{x1, x3, x4, x6}, {x2, x5}} IND( {Nhiệt độ}) = {{x1, x2, x5}, {x3, x6}, {x4}} IND( {Cúm}) = {{x1, x2, x3, x6}, {x4, x5}} IND( {Đau đầu, Đau cơ}) = {{x1, x4, x6}, {x2, x5}, {x3}} I.4. Xấp xỉ tập hợp Một quan hệ tương đương dẫn đến một phân hoạch phổ quát U. Có thể dùng phép phân hoạch để tạo các tập con mới của tập phổ quát. Các tập con thường được quan tâm là các tập con có cùng giá trị của thuộc tính quyết định. Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, Ký hiệu R = IND(B), ta có 2 tập con sau : BX = { x | [x] B ⊆ X } Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 8 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc và X = { x | [x] B ∩ X ≠ ∅} Trong đó BX, X lần lượt gọi là B-xấp xỉ dưới và B- xấp xỉ trên của tập X. Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X. Tập X bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc X ứng với quan hệ R. Từ hai tập xấp xỉ người ta định nghĩa các tập: BN B (X) = X - BX: B- miền biên của X. POS B (X) = BX: B-vùng dương của X. NEG B (X) = U - X: B-vùng âm của X. Trong trường hợp BN B (X) ≠ ∅, X được gọi là tập thô, ngược lại X được gọi là tập rõ. Các tính chất của xấp xỉ • B (X) ⊆ X ⊆ (X) • B (∅) = (∅) = ∅, B (U) = (U) = U • (X ∪ Y) = (X) ∪ (Y) • B (X ∩ Y) = B(X) ∩ B (Y) • X ⊆ Y ⇒ (X) ⊆ (X) và B(X) ⊆ B(Y) • B(X ∪ Y) ⊇ B(X) ∪ B(Y) • (X ∩ Y) ⊆ (X) ∩ (Y) Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 9 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS. Đỗ Phúc • B(- X) = - (X) • (- X) = - B(X) • B ( B(X)) = ( B(X)) = B(X) • ( (X)) = B( (X)) = (X) • Trong đó –X là ký hiệu của U-X Độ chính xác của xấp xỉ Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, đặt R = IND(B), đại lượng đo sự chính xác của tập xấp xỉ X đối với phân hoạch trên B là giá trị Trong đó card(X) = |X| là lực lượng (số phần tử) của tập X. Rõ ràng 0 ≤ α R (X) ≤ 1 . Nếu α R (X) = 1, ta nói X là chính xác đối với R, còn α R (X) < 1 thì X được gọi là thô đối với R. Thuật toán xác định xấp xỉ dưới: Gọi X là tập các đối tượng Gọi B là tập các thuộc tính Gọi B(X) là xấp xỉ dưới Thuật toán: Bước 1: Khởi tạo B(X) = Ø Xác định tập các phân hoạch P của tập vũ trụ U tạo bởi B Bước 2 : U1 = U Nếu U1 ≠ Ø thì thực hiện bước 3, ngược lại thực hiện bước 5 Bước 3: Xét x ∈ U1, tìm phân hoạch Pi ∈ P sao cho: x ∈ Pi Nếu Pi ⊆ X thì B(X) = B(X) ∪ Pi Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 10 [...]... năng xấp xỉ tập hợp trong một hệ thông tin I.5.1 Định nghĩa rút gọn Một rút gọn của hệ thông tin IS là một tập tối tiểu của các thuộc tính B ⊆ A sao cho INDS (B) = INDS (A) Một rút gọn là một tập tối tiểu các thuộc tính từ tập thuộc tính A, mà rút gọn này bảo toàn việc phân hoạch tập phổ quát U và vì thế bảo toàn khả năng phân lớp thay vì phải thực hiện với toàn bộ tập thuộc tính A Xét hệ thông tin A... rằng D phụ thuộc một phần (theo mức độ k) vào C, bằng tập thuộc tính C và k được gọi là mức độ phụ thuộc Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 28 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS Đỗ Phúc PHẦN II: CÀI ĐẶT CHƯƠNG TRÌNH TỰ ĐỘNG RÚT GỌN REDUCTS TỪ HỆ QUYẾT ĐỊNH II.1 Cài đặt chương trình II.1.1 Xây dựng chương trình đưa dữ liệu từ Datagridview vào file Text để lưu trữ public void WriteDataGridViewToFile(DataGridView... bỏ được của P nên tất cả các rút gọn của P đều chứa tập thuộc tính lõi Cao Thị Thuỳ Linh – MSHV: CH1101099 Trang 13 Bài thu hoạch môn KPDL và kho dữ liệu GVHD: PGS.TS Đỗ Phúc Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu với mọi tập thuộc tính B’ ⊂ B, B’ không là rút gọn của P Như vậy rút gọn hoàn toàn là tập thuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và được... s2 = s2 + ")"; txtpb _Reducts. Text = txtpb _Reducts. Text + s2; if (i mangreducts[j].Length && mangreducts[i].Contains(mangreducts[j])) { mangreducts[j] = mangreducts[j].Insert(0, "@");//con mangreducts[i] = mangreducts[i].Insert(0, "$");//cha flag2 = false; } else if (mangreducts[i].Length < mangreducts[j].Length && mangreducts[j].Contains(mangreducts[i]))... do bảng quyết định cung cấp vẫn không bị mất mát Với trường hợp thứ nhất, khái niệm lớp tương đương hiển nhiên cho ta một tiếp cận tự nhiên trong việc tinh giảm thông tin cần lưu trữ trong một hệ thông tin: chỉ cần sử dụng một đối tượng để đại diện cho mỗi lớp tương đương Trong phần này ta tập trung vào loại dư thừa thông tin thứ hai, đó là chỉ giữ lại những thuộc tính bảo toàn quan hệ bất khả phân... a,b,c,d λ b,c λ a,d I.5.3 Hàm phân biệt Hàm phân biệt fs của hệ thông tin S là một hàm bool của m biến bool a *1; …;a*m (ứng với các thuộc tính a1,…,am) và được định nghĩa như sau: fIS(a*1,…,a*m) = { cij* | 1 j i n, cij } trong đó cij* = {a* | a cij} Tập các đơn thức của fIS xác định tập các rút gọn của IS Lưu ý : • Các toán tử ∧ và ∨ sử dụng trong hàm phân biệt không phải là các toán tử Boolean vì chúng... Lưu ý rằng lõi có thể là tập rỗng, khi đó tập con của P với lực lượng bằng card(P) – 1 đều giữ nguyên khả năng phân loại của P Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập rút gọn của P Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc tính B ⊆ P giữ nguyên khả năng phân loại của P, hay IND(B) = IND(P) Dễ dàng thấy rằng, vì lõi của P là tập các thuộc tính không . tài Xây dựng chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô . Trong phạm vi bài thu hoạch này em xin trình bày tóm tắt những kiến thức đã học được về lý thuyết tập thô và. tóm tắt những kiến thức đã học được về lý thuyết tập thô và viết một chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô bằng ngôn ngữ C#. Qua đây, em xin chân thành cảm ơn PGS.TS có giám sát. Các hệ thông tin theo loại này được gọi là các hệ quyết định. Như vậy, một hệ quyết định là một hệ thông tin có dạng (U;A ∪ {d}), trong đó d ∉ A là thuộc tính quyết định. Các thành

Xây dựng chương trình tự động rút gọn Reducts từ hệ quyết định trong tập thô

Thông tin tài liệu

Từ khóa liên quan

Mục lục

PHẦN I: LÝ THUYẾT CƠ SỞ VỀ TẬP THÔ

I.1. Giới thiệu về lý thuyết tập thô

I.2. Hệ thông tin / quyết định

I.3. Quan hệ bất khả phân biệt

I.4. Xấp xỉ tập hợp

I.5. Rút gọn (Reducts)

PHẦN II: CÀI ĐẶT CHƯƠNG TRÌNH TỰ ĐỘNG

RÚT GỌN REDUCTS TỪ HỆ QUYẾT ĐỊNH

II.1. Cài đặt chương trình

II.2. Phụ lục

PHẦN III: THỬ NGHIỆM CHƯƠNG TRÌNH

III.1. Kết quả thực thi chương trình với hệ quyết định như sau:

III.2. Kết quả thực thi chương trình với hệ quyết định như sau:

III.3. Kết quả thực thi chương trình với hệ quyết định như sau:

III.4. Kết quả thực thi chương trình với hệ quyết định như sau:

III.5. Kết quả thực thi chương trình với hệ quyết định như sau:

III.6. Kết quả thực thi chương trình với hệ quyết định như sau:

Ví dụ 7 phần ma trận phân biệt

Tài liệu cùng người dùng

Tài liệu liên quan