Đang tải... (xem toàn văn)
Khai thác dữ liệu và ứng dụng
1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 3 I 3 I 3 I 3 ---- PHPHPHPHẦN 2N 2N 2N 2KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP 3NỘI DUNG1.Gii thiu2. Bài toán khai thác tập phổbiến3. Độ đo tính lý thú của LKH4GIỚI THIỆU Bài toán khai thác tập phổ biến là bài toán rất quan trọng lĩnh vực KTDL : vạch ra tính chất ẩn, quan trọng của tập DLTất cả các tập con của tập phổ biến đều làtập phổ biến Tập phổ biến tối đại, tập bao phổ biếnBài toán khai thác LKH là bài toán tìm tt ccác luật dạng X ⇒⇒⇒⇒ Y (X, Y ⊂ I và X ∩Y ={})thỏa mãn độ phổ biến và độ tin cậy tối thiểu supp (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minsuppconf (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minconf 5GIỚI THIỆUBài toán khai thác tp ph bin là bài toán tìm tt c các tp các hng mc S (hay tp phbin S) có đ ph bin tha mãn đ ph bin ti thiu minsupp supp(S) ≥≥≥≥minsuppCách giải quyết : dựa trên tính chất của tập phổbiếnTìm kiếm theo chiều rộng : Thuật toán Apriori (1994)Phát triển mẫu : Thuật toán FP-Growth (2000)Tìm kiếm trên CSDL hàng dọc : Thuật toán Charm (2002)6GIỚI THIỆU Các hạn chế của Thuật toán AprioriPhải duyệt CSDL nhiều lần Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần và tạo lượng lớn tập ứng viênVí dụ : Để tìm tập phổ biến i1 i2… i100 :• Số lần duyệt CSDL : 100• Số lượng ứng viên : 2100-1 = 1.27*1030!Vấn đề : tạo ứng viên và kiểm tra Có thể tránh việc tạo ứng viên hay không ? 7NỘI DUNG1. Giới thiệu2. Bài toán khai thác tp ph bin Thut toán FP-Growth3. Độ đo tính lý thú của LKH8THUẬT TOÁN FP-GROWTH1. BẢN CHẤTKhai thác tập phổ biến khôngsử dụng hàm tạo ứng viên.Nén CSDL thành cấu trúc cây FP (Frequent Patern)Duyệt đệ qui cây FP để tạo tập phổ biến 9THUẬT TOÁN FP-GROWTH2. QUI TRÌNHB0 : Thit lp cây FPB1 : Thiết lập cơ sở mẫu điều kiện (conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP).B2 : Thiết lập cây FP điều kiện (conditional FP tree) từ mỗi cơ sở mẫu điều kiện B3 : Khai thác đệ qui cây FP điều kiện vàphát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất -tạo ra tất cả các tổ hợp của mẫu phổ biến 10THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 60%TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1- hạngmục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Sắp xếp CSDL theo F-list. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p 11THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:1c:1a:1m:1p:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}12THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:2c:2a:2b:1m:1p:1m:1 13THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p{}f:3c:2a:2b:1m:1p:1m:1b:114THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa và thiết lập cây FPF-list=f-c-a-b-m-p{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 15Bài tập theo nhómTID Items1 {B,A,K}2 {K, B,C,A}3 {A,D,B}4 {A,B,E}5 {A,K,C}6 {A,B,C}7 {M,B,C}8 {B,C,D}9 {B,E}10 {A,E,M}11 {A,C,E,M}12 {A,D,E}• Thời gian : 10’• Trình bày kết quả ra giấy theo nhóm•Yêu cầu:1.Xây dựng cây FP từ CSDL bên với minsupp = 25% 2.Nếu Minsupp = 40% thì cây FP sẽ thay đổi như thế nào ?16Qui định trình bày bài nộp Bài tập nộp theo nhóm Ngày nộp : Tên nhóm : ( chỉ ghi tên các thành viên tham gia)– Thành viên 1:– Thành viên 2:– Thành viên 3:– …– Thành viên 7: Nội dung : 17B1 : Thiết lập cơ sở mẫu điều kiện Xây dng cơ s mu điu kin (Conditional pattern base)–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP–Duyệt cây FP theo kết nối của mỗi hạng mục phổ biến.–Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục để tạo cơ sở mẫu điều kiện18VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện Xây dng cơ s mu điu kin (Conditional pattern base)– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mục p– Duyệt cây FP theo kết nối của mỗi hng mc ph bin p.– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục p để tạo cơ sở mẫu điều kiện cho pCơ sở mẫu điều kiệnitem cond. pattern basep fcam:2, cb:1{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3 19 Xây dng cơ s mu điu kin (Conditional pattern base)– Tiếp tục vời mẫu phổ biến của cây FP : hạng mục m– Duyệt cây FP theo kết nối của mỗi hng mc ph bin m– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục m để tạo cơ sở mẫu điều kiện cho m{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3Cơ sở mẫu điều kiệnitem cond. pattern basem fca:2, fcab:1p fcam:2, cb:1VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện20 Xây dng cơ s mu điu kin (Conditional pattern base)– Tiếp tục với các mẫu phổ biến còn lại của cây FPCơ sở mẫu điều kiệnitem cond. pattern basec f:3a fc:3b fca:1, f:1, c:1m fca:2, fcab:1p fcam:2, cb:1{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện [...]... lần Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần và tạo lượng lớn tập ứng viên Ví dụ : Để tìm tập phổ biến i1 i2… i100 : • Số lần duyệt CSDL : 100 • Số lượng ứng viên : 2 100 -1 = 1.27*10 30 ! Vấn đề : tạo ứng viên và kiểm tra Có thể tránh việc tạo ứng viên hay không ? 41 ĐỘ ĐO TÍNH LÝ THÚ Độ đo mối tương quan Interest – X và Y tương quan nghịch, nếu Interest <1; Ngược lại X và Y tương... time(sec.) D1 FP-grow th runtime D1 Apriori runtime Data set T25I20D10K 32 VD : LUẬT KẾT HỢP 7 NỘI DUNG 1. Giới thiệu 2. Bài toán khai thác tp ph bin Thut tốn FP-Growth 3. Độ đo tính lý thú của LKH 8 THUẬT TỐN FP-GROWTH 1. BẢN CHẤT Khai thác tập phổ biến khơng sử dụng hàm tạo ứng viên. Nén CSDL thành cấu trúc cây FP (Frequent Patern) Duyệt đệ qui cây FP để tạo tập phổ biến ... 3 m 3 p 3 VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện 47 a)Tìm tất cả các tập ứng viên và tập phổ biến, tập phổ biến tối đại, tập phổ biến đóng sử dụng lần lượt thuật toán Apriori và thuật toán Fp-Growth. b)Liệt kê tất cả LKH thỏa mãn ngưỡng đã cho c)Tính độ đo Interest của các luật tìm được ở câu b) BÀI TẬP PHẦN 2 48 TÀI LIỆU THAM KHẢO 1. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without... để loại bớt/ hạn chế luật 2. Độ đo khách quan : o Độ phổ biến (supp) và độ tin cậy (conf) o Còn khoảng 20 độ đo khác 3. Độ đo chủ quan : o LKH là lý thú nếu là điều mới lạ, gây ngạc nhiên hoặc / và o Có khả năng ứng dụng 38 ĐỘ ĐO TÍNH LÝ THÚ Ví dụ 1: – Trong 5000 sinh viên • 3000 chơi bóng rổ • 3750 ăn ngũ cốc • 2000 chơi bóng rổ và ăn ngũ cốc – Luật KH : Chơi bóng rổ ⇒ Ăn ngũ cốc [40%, 66.7%] là... xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:2 c:2 a:2 b:1m:1 p:1 m:1 25 Dựa trên nguyên lý mở rộng mẫu phổ biến Dựa trên tính chất mở rộng mẫu : – Giả sử α là tập phổ biến trong CSDL, B là cơ sở mẫu điều kiện của α và β là một tập các hạng mục trong B. – Khi đó α ∪ β là tập phổ biến trong CSDL khi và chỉ khi β là phổ biến trong... lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:3 c:2 a:2 b:1m:1 p:1 m:1 b:1 14 THIẾT LẬP CÂY FP (B0) Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsupp = 3 1. Tìm tập phổ biến 1- hạng mục (duyệt CSDL 1 lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:4... lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F-list 3. Sắp xếp CSDL theo F- list. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p 11 THIẾT LẬP CÂY FP (B0) Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsupp = 3 1. Tìm tập phổ biến 1- hạng mục (duyệt CSDL 1 lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:1 c:1 a:1 m:1 p:1 TID... là 75% > 66.7%. – Lut KH : Chơi bóng r ⇒ ⇒⇒ ⇒ Khơng ăn ngũ cc [20%, 33.3%] có ý nghĩa thc tin hơn mc dù có đ supp và conf thp hơn basketball not basketball sum(row) cereal 2000 1750 3750 not cereal 1000 250 1250 sum(col.) 3000 2000 5000 5 GIỚI THIỆU Bài toán khai thác tp ph bin là bài tốn tìm tt c các tp các hng mc S (hay tp ph bin S) có đ ph bin tha mãn đ ph bin ti... sở mẫu điều kiện (conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP). B2 : Thiết lập cây FP điều kiện (conditional FP tree) từ mỗi cơ sở mẫu điều kiện B3 : Khai thác đệ qui cây FP điều kiện và phát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến 10 THIẾT LẬP CÂY FP (B0) Header Table Item frequency... lượng mỗi mẫu trong cơ sở mẫu : • f :2, c:3, a:2, m:2, b:1 và vi minsupp=3 -> c:3 ph bin trên cơ s mu điu kin ca p – Thit lp cây FP cho tp ph bin ca mu cơ s điu kin cho p p-conditional FP-tree {} Header Table Item frequency head c 3 c:3 minsupp = 3 37 ĐỘ ĐO TÍNH LÝ THÚ 1. Thế nào là luật hay, lý thú ? Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật. . 1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 3 I 3 I 3 I 3 ---- PHPHPHPHẦN 2N 2N 2N 2KHAI THÁC TẬP PHỔ. lượng ứng viên : 2100-1 = 1.27*1030!Vấn đề : tạo ứng viên và kiểm tra Có thể tránh việc tạo ứng viên hay không ? 7NỘI DUNG1. Giới thiệu2. Bài toán khai thác