Slide bài giảng môn khai phá dữ liệu: Chương 2: Khai phá luật kết hợp

48 174 0
Slide bài giảng môn khai phá dữ liệu: Chương 2: Khai phá luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP Giảng viên: ThS Nguyễn Vƣơng Thịnh Bộ môn: Hệ thống thông tin Hải Phòng, 2013 Thơng tin giảng viên Họ tên Nguyễn Vƣơng Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Thông tin học phần Tên học phần Khai phá liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín 02 tín Bộ mơn phụ trách Hệ thống thơng tin PHƢƠNG PHÁP HỌC TẬP, NGHIÊN CỨU  Nghe giảng, thảo luận, trao đổi với giảng viên lớp  Tự nghiên cứu tài liệu làm tập nhà PHƢƠNG PHÁP ĐÁNH GIÁ  SV phải tham dự 75% thời gian  Có 02 kiểm tra viết học phần (X = X2 = (L1 + L2)/2)  Thi kết thúc học phần hình thức trắc nghiệm khách quan máy tính (Z = 0.3X + 0.7Y) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4th Edition), Pearson Education Inc, 2004 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP 2.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 2.2 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT APRIORI 2.3 SINH LUẬT KẾT HỢP TỪ CÁC TẬP PHỔ BIẾN 2.4 TÌM TẬP PHỔ BIẾN VỚI GIẢI THUẬT FP - GROWTH 2.1 MỘT SỐ KHÁI NIỆM CƠ BẢN 2.1.1 Khái niệm mục (item) tập mục (item set)  Cho tập gồm n đối tượng I = {I1, I2, I3,…, In}, phần tử Ii ∈ I gọi mục (item) Một tập X ⊆ I gọi tập mục (item set)  Cho tập D = {T1, T2,…, Tm}, phần tử Tj ∈ D gọi giao dịch (transaction) tập I (Tj ⊆ I) Người ta gọi D sở liệu giao dịch (transaction database) Số giao dịch có D ký hiệu |D| Ví dụ: I = {A, B, C, D, E, F}, X = {A, D, E} tập mục Một sở liệu giao dịch D gồm tập Tj khác I: T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, E, F} T5 {A, B, C, E, F} Milk, Bread, Coke 10:05 Beer, Bread 10:12 Beer, Milk, Diaper, Bread 10:23 Beer, Milk, Diaper, Coke 10:15 Milk, Diaper, Coke 10:30 2.1.2 Độ hỗ trợ (support) ứng với tập mục “Độ hỗ trợ ứng với tập mục X xác suất xuất X sở liệu giao dịch D” Hoặc “Đỗ hỗ trợ ứng với tập mục X tỷ lệ giao dịch có chứa X tổng số giao dịch có sở liệu giao dịch D” C( X ) sup( X )  |D| Trong đó: C(X) số lần xuất X hay số giao dịch có chứa X Ví dụ: X = {A, E} C(X) = sup(X) = 4/5 = 80% T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, E, F} T5 {A, B, C, E, F} Các tập mục có độ hỗ trợ lớn giá trị ngưỡng minsup cho trước gọi tập phổ biến (frequent item set) 2.1.3 Luật kết hợp (Association Rule)  Cho hai tập mục X, Y ⊆ I, X ∩ Y = ϕ Luật kết hợp ký hiệu X → Y mối ràng buộc tập mục Y theo tập mục X, nghĩa X xuất sở liệu giao dịch kéo theo xuất Y với một tỷ lệ  Luật kết hợp đặc trưng bởi: Độ hỗ trợ luật: tỷ lệ (hay xác suất) xuất X Y giao dịch C( X  Y ) sup( X  Y )  sup( X  Y )  | D| Độ tin cậy luật: tỷ lệ giao dịch có chứa X Y so với giao dịch có chứa X C ( X  Y ) sup( X  Y ) conf ( X  Y )   C( X ) sup( X ) Trong đó: 10 C(X ∪ Y): Số giao dịch có chứa X Y C(X): Số giao dịch có chứa X BƢỚC 2: SINH TẬP PHỔ BIẾN (duyệt FP) (Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques) 34 Ứng với mục phổ biến Ii:  Xây dựng tập sở mẫu có điều kiện (conditional pattern base) Mỗi mẫu có điều kiện đƣờng nối từ đỉnh gốc tới đỉnh cha kề với đỉnh có chứa mục Ii Mỗi mẫu đƣợc gán trọng số với trọng số đỉnh có chứa mẫu Ii cuối đƣờng  Xây dựng FP có điều kiện (conditional FP-tree) dựa việc kết hợp mẫu có chung tiền tố (nếu có) Khi trọng số ứng với đỉnh tổng trọng số đƣợc ghép  Duyệt FP có điều kiện để sinh tập phổ biến có hậu tố Ii 35 Ví dụ 1: Cho sở liệu giao dịch D gồm giao dịch: TID 100 200 300 400 500 Items bought {f, a, c, d, g, i, m, p} {a, b, c, f, l, m, o} {b, f, h, j, o} {b, c, k, s, p} {a, f, c, e, l, p, m, n} Biết ngƣỡng minsup = 60% Hãy tìm tập phổ biến 36  Quét CSDL để tính số lần xuất (support count) ứng với mục: TID 100 200 300 400 500 Items bought {f, a, c, d, g, i, m, p} {a, b, c, f, l, m, o} {b, f, h, j, o} {b, c, k, s, p} {a, f, c, e, l, p, m, n} mincount = Item frequency f c a b m p  Loại bỏ mục phổ biến  Sắp mục giao dịch theo thứ tự giảm support count TID 100 200 300 400 500 37 Items bought {f, a, c, d, g, i, m, p} {a, b, c, f, l, m, o} {b, f, h, j, o} {b, c, k, s, p} {a, f, c, e, l, p, m, n} (ordered) frequent items {f, c, a, m, p} {f, c, a, b, m} {f, b} {c, b, p} {f, c, a, m, p} TID 100 200 300 400 500 Items bought {f, a, c, d, g, i, m, p} {a, b, c, f, l, m, o} {b, f, h, j, o} {b, c, k, s, p} {a, f, c, e, l, p, m, n} (ordered) frequent items {f, c, a, m, p} {f, c, a, b, m} {f, b} {c, b, p} {f, c, a, m, p} Đọc giao dịch ánh xạ vào FP: {} {} f:1 {f, c, a, b, m} {f, c, a, m, p} {} 38 f:2 c:1 c:2 a:1 a:2 m:1 m:1 b:1 p:1 p:1 m:1 Đọc giao dịch ánh xạ vào FP (tiếp) {} {} f:3 f:3 {f, b} c:1 {c, b, p} c:2 b:1 f:4 c:1 {f, c, a, m, p} c:2 b:1 a:2 a:2 39 {} m:1 b:1 m:1 b:1 p:1 m:1 p:1 m:1 b:1 c:3 p:1 a:3 Node-Link b:1 b:1 p:1 m:2 b:1 p:2 m:1 Cây FP hoàn chỉnh: {} Header Table Item head f c a b m p 40 f:4 c:3 c:1 b:1 a:3 b:1 p:1 m:2 b:1 p:2 m:1 {} Header Table f:4 Item head f c a b m p Mục p 41 c:3 c:1 b:1 a:3 b:1 p:1 m:2 b:1 p:2 m:1 Cơ sở mẫu có điều kiện Cây FP có điều kiện Tập phổ biến fcam:2, cb:1 {c:3} p:3, cp:3 m fca:2, fcab:1 {f:3, c:3, a:3} m:3, fm:3, cm:3, am:3, fcm:3, fam:3, cam:3 b fca:1, f:1, c:1 Null b:3 a fc:3 {f:3, c:3} a:3, fa:3, ca:3 c f:3 {f:3} c:3, fc:3 f Null Null f:3 Ví dụ 2: Cho sở liệu giao dịch D gồm giao dịch: Biết ngƣỡng minsup = 22% Hãy tìm tập phổ biến 42 Đếm số lần xuất mục theo thứ tự giảm dần: 43 Tập mục Số lần xuất I2 I1 I3 I4 I5 Giao dịch 44 Danh sách mục T100 I2, I1, I5 T200 I2, I4 T300 I2, I3 T400 I2, I1, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I2, I1, I3, I5 T900 I2, I1, I3 45 46 47 Q&A 48

Ngày đăng: 12/06/2018, 12:25

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan