Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao tt

26 232 0
Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỞ ĐẦU Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục đích khai phá luật kết hợp tìm mối quan hệ phần tử khác sở liệu Bài toán khai phá tập luật kết hợp gồm hai toán khai phá tập phổ biến sinh luật kết hợp Trong đó, tốn khai phá tập phổ biến thu hút nhiều nhà nghiên cứu nước giới quan tâm Nhưng khai phá tập phổ biến truyền thống thực tế nhiều hạn chế, không đáp ứng nhu cầu người sử dụng đánh giá quan trọng phần tử giao dịch hay sở liệu Để khắc phục hạn chế khai phá tập phổ biến truyền thống, nhiều nhà nghiên cứu đề xuất hình mở rộng tính đến mức độ quan trọng khác phần tử sở liệu như: khai phá tập phổ biến trọng số WFI; khai phá tập lợi ích cao - HUI Một thách thức khai phá tập phổ biến trọng số tập lợi ích cao tập phổ biến trọng số, tập lợi ích cao khơng tính chất đóng - tính chất làm giảm số lượng ứng viên sinh khơng gian tìm kiếm Hầu hết thuật tốn khai phá tập lợi ích cao sử dụng tính chất đóng lợi ích trọng số giao dịch – TWU Liu cộng cơng bố năm 2005 Tuy nhiên, ngưỡng TWU cao so với lợi ích thực tế tập phần tử, phát sinh số lượng lớn ứng viên không cần thiết, tiêu tốn thời gian khơng gian tìm kiếm Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài “Nghiên cứu phát triển hình, thuật tốn khai phá tập phần tử trọng số lợi ích cao” làm đề tài nghiên cứu cho luận án tiến sĩ Mục tiêu nghiên cứu - Nghiên cứu thuật toán khai phá tập phổ biến, tập phổ biến trọng số tập lợi ích cao Xây dựng hình, điều kiện, cấu trúc liệu nhằm giảm khơng gian tìm kiếm dựa sở để xây dựng thuật tốn khai phá tập phổ biến trọng số tập lợi ích cao TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN 1.1 Giới thiệu chung Khai phá tập phổ biến tìm tập phần tử số lần xuất lớn ngưỡng hỗ trợ tối thiểu (minsupp) Tuy nhiên, khai phá tập phổ biến hạn chế Thứ nhất, xử lý tất phần tử tầm quan trọng Thứ hai, giao dịch phần tử trạng thái xuất không xuất Rõ ràng hạn chế làm cho toán khai phá tập phổ biến truyền thống không phù hợp với sở liệu thực tế, ví dụ sở liệu siêu thị, mặt hàng tầm quan trọng hay giá khác nhau, số lượng mua mặt hàng giao dịch khác nhau,… Vì vậy, hình khai phá tập phổ biến phản ánh mối tương quan phần tử xuất sở liệu, không phản ánh ý nghĩa phần tử liệu Để khắc phục nhược điểm hai hình đưa ra: Tập phổ biến trọng số - WFI Tập lợi ích cao - HUI 1.2 Tập phổ biến Khai phá tập phổ biến trình tìm kiếm tập phần tử số lần xuất lớn ngưỡng cho trước sở liệu lớn R Agrawal, T Imielinski A Swami đề xuất năm 1993, xuất phát từ nhu cầu tốn phân tích liệu sở liệu giao dịch, để phát mối quan hệ tập hàng hóa bán siêu thị Việc xác định không phân biệt khác hàng hóa mà dựa vào xuất chúng Một số phương pháp khai phá tập phổ biến: - Phương pháp dựa quan hệ kết nối - Phương pháp sử dụng cấu trúc - Phương pháp tăng trưởng đệ quy dựa hậu tố - Một số phương pháp song song 1.3 Tập phổ biến trọng số Năm 1998, nhóm Ramkumar đưa hình khai phá tập phổ biến trọng số (Weight Frequent Itemsets – WFI) Trong đó, phần tử trọng số khác như: lợi ích, giá cả, độ quan trọng hay số lượng,…Một tập phần tử phổ biến trọng số giá trị trọng số chúng lớn ngưỡng cho trước Dựa hình nhiều thuật tốn khai phá tập phổ biến trọng số cơng bố Một số phương pháp khai phá tập phổ biến trọng số: - Thuật toán dựa khoảng trọng số - Thuật toán sử dụng bảng băm - Thuật toán dựa trọng số phổ biến xấp xỉ - Thuật toán dựa WIT 1.4 Đề xuất thuật toán khai phá mẫu phổ biến trọng số theo chiều dọc Dựa ưu điểm thuật toán VMDG khai phá tập phổ biến, đề xuất thuật toán khai phá tập phổ biến trọng số với tên gọi VMWFP (Vertical Mining of Weighted Frequent Patterns Using Diffset Groups) sử dụng cấu trúc Từ thuật toán VMWFP xây dựng thuật tốn song song PVMWFP hình chia sẻ nhớ Kết thử nghiệm sở liệu với 52 phần tử 3984 giao dịch sinh ngẫu nhiên để tiến hành so sánh thuật toán song song PVMWFP với thuật toán VMWFP kết Hình 1.1 Thởi gian thực (s) Hình 1.1 Kết so sánh PVMWFP VMWFP 150 100 50 90 80 70 Độ hỗ trợ (%) PVMWFP 60 50 VMWFP 1.5 Tập lợi ích cao Năm 2003 Chan cộng đưa hình khai phá tập lợi ích cao (High Utility Itemsets – HUI), để khắc phục hạn chế hình khai phá tập phổ biến tập phổ biến trọng số Trong hình cho phép người sử dụng đánh giá tầm quan trọng phần tử qua hai trọng số khác gọi lợi ích lợi ích ngồi Năm 2005, Ying Liu cộng đưa khái niệm lợi ích giao dịch trọng số tập phần tử X, ký hiệu TWU(X) tính tổng lợi ích giao dịch chứa tập phần tử X Đây giá trị tính chất đóng, tính chất đảm bảo TWU(X) nhỏ ngưỡng lợi ích tối thiểu tập X khơng khả sinh tập lợi ích cao chứa tập X Một thách thức khai phá tập lợi ích cao: - Tập lợi ích khơng tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật tốn khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao nhiều so với giá trị lợi ích thực tế tập phần tử Do vậy, số lượng ứng cử viên sinh lớn dẫn đến khơng gian tìm kiếm thời gian kiểm tra ứng viên chi phí cao Một số phương pháp khai phá tập lợi ích cao hiệu gần như: sử dụng danh sách lợi ích (utility-list) Liu (2012); bảng số kết hợp bảng ứng viên Guo (2013); ước tính lợi ích cặp phần tử xuất Philippe (2014); sử dụng dụng lợi ích (utility sub-tree) lợi ích cục (local utility) Zida (2016) THUẬT TỐN KHAI PHÁ TẬP LỢI ÍCH CAO DỰA TRÊN HÌNH CWU 2.1 hình hiệu khai phá tập lợi ích cao Đặt vấn đề Như biết, đa số thuật toán khai phá tập lợi ích cao phân tích sử dụng hình TWU làm sở để cắt tỉa tập ứng viên Với phần tử a, tập phần tử {X} tập phần tử a tiền tố {aX}, ta TWU({aX}) cận AU({aX}) Tương tự, TWU({X}) cận AU({X}) Ta thấy {X}  {aX} nên số giao dịch chứa {X} lớn số giao dịch chứa {aX} Vậy, TWU({X}) tổng lợi ích giao dịch chứa {X} lớn TWU({aX}) tổng lợi ích giao dịch chứa {aX} Trong thuật tốn khai phá tập lợi ích cao theo chiều sâu Giả sử, {aX} tất tập tiền tố phần tử a, {bX} tất tập tiền tố phần tử b Khi khai phá tập {bX} không chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận AU({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Từ phân tích trên, luận án đề xuất hình CWU (Candidate Weight Utility) thuật tốn HP khai phá tập lợi ích cao dựa hình nhằm giảm số lượng tập ứng viên [II] Đề xuất hình CWU Từ nhận xét trên, luận án đề xuất hình CWU để khắc phục nhược điểm hình TWU Định nghĩa 2.1 [II] Tập tiền tố phần tử It tập phần tử tập I mà đứng trước phần tử It: SetPrefix(It) = {∪ j ∈ I | j ≺ It} Định nghĩa 2.2 [II] Tiền tố tập phần tử thứ tự Y tập phần tử I đứng trước phần tử y1 tập Y, kí hiệu SetPrefix(Y) SetPrefix(Y) = {∪ j ∈ I | j ≺ y1} (2.1) Định nghĩa 2.3 [II] Lợi ích ứng viên trọng số (CWU – Candidate Weighted Utility) tập phần tử Y, ký hiệu CWU(Y) xác định sau:Đặt X = SetPrefix(Y), Nếu X =  ∑ Y Tj 𝑈(𝑋 ∩ 𝑇𝑗 , 𝑇𝑗 ) = Định nghĩa 2.4 [II] Khi CWU(Y) ≥ α với α ngưỡng tối thiểu lợi ích ứng viên cho trước, ta gọi Y tập lợi ích ứng viên trọng số cao (HCWU- High Candidate Weighted Utility) Ngược lại, Y gọi tập lợi ích ứng viên trọng số thấp (LCWU – Low Candidate Weighted Utility) Tính chất 2.1 [II] Cho tập phần tử thứ tự I, Yk-1,Yk thỏa mãn Yk-1  I, Yk  I Yk-1 tiền tố Yk Cụ thể: Yk-1 = {y1, y2,…, yk-1 | yi ≺ yi+1 với i=1 k-2} tiền tố tập Yk = {y1, y2,…, yk-1, yk | yi ≺ yi+1 với i=1 k-1} SetPrefix(Yk-1) = SetPrefix(Yk) Định lý 2.1 [II] Xét tập phần tử thứ tự, Yk tập k-phần tử, Yk-1 tập (k-1)-phần tử tiền tố Yk Nếu Yk  HCWUs Yk-1  HCWUs Đây tính chất đóng tập phần tử theo hình CWU Nghĩa là, CWU(Yk-1) < α CWU(Yk) < α Định lý 2.2 [II] Giả sử HCWUs gồm tập Y CWU(Y) ≥ α, HUs gồm tập Y AU(Y) ≥ α với α ngưỡng lợi ích tối thiểu cho trước Khi HUs  HCWUs Để khẳng định hình CWU số ứng viên hình TWU, luận án đưa hai bổ đề sau Mệnh đề 2.1 [II] Cho tập Y, ta ln CWU(Y) ≤ TWU(Y) Mệnh đề 2.2 [II] Cho HCWUs gồm tập Y CWU(Y) ≥ α HTWUs gồm tập Y TWU(Y) ≥ α, với α ngưỡng lợi ích tối thiểu cho trước, HCWUs  HTWUs 2.2 Thuật toán HP khai phá tập lợi ích cao dựa số hình chiếu hình CWU Trong phần này, luận án trình bày thuật toán HP cải tiến từ thuật toán PB Gou (2013) với số cải tiến sau: - Sử dụng kết hợp hai hình TWU CWU; - Sếp phần tử giao dịch giảm dần theo AU sau loại phần tử nhỏ ngưỡng lợi ích tối thiểu Một số cấu trúc sử dụng thuật toán: - Bảng ứng viên TCk gồm: tập k-phần tử, lợi ích ứng viên trọng số - CWU lợi ích thực tế tập ứng viên - AU 10 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X, vị trí p phần tử cuối tập X xuất giao dịch Tj U(X,Tj) Từ bảng số ITX gồm k-phần tử tính nhanh tập ứng viên gồm (k+1)-phần tử với tiền tố tập phần tử X - Bảng giao dịch lợi ích - UTi chứa giá trị lợi ích phần tử i giao dịch gồm: giao dịch Tj chứa i U(i, Tj) Sau tìm tất tập lợi ích cao với tiền tố phần tử i dựa vào bảng UTi tính CWU(Y) với phần tử i = ListItemPrefix(Y) Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán HP với thuật toán Two Phase, PB liệu T30I4D100K Mushroom Hình 2.1 Số lượng ứng viên Hình 2.2 Thời gian thực sinh T30I4D100K T30I4D100K 12 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X; vị trí p phần tử cuối tập X xuất giao dịch Tj; itutil(X, Tj) – giá trị lợi ích tập X giao dịch Tj; rutil(X, Tj) – giá trị lợi ích phần tử lại sau tập X giao dịch Tj Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán PPB-Miner với thuật toán HP [II] liệu T30I4D100K Mushroom Hình 2.5 so sánh thời gian thực khai phá tập lợi ích cao thay đổi ngưỡng lợi ích tối thiểu, Hình 2.6 so sánh số lượng ứng viên sinh tương ứng với ngưỡng lợi ích tối thiểu khác Hình 2.7 Hình 2.8 so sánh thời gian thực khai phá tập lợi ích cao số ứng viên sinh hai thuật tốn tương ứng với ngưỡng lợi ích tối thiểu khác liệu Mushroom Hình 2.5 Thời gian thực Hình 2.6 Số lượng ứng viên T30I4D100K sinh T30I4D100K 13 Hình 2.7 Thời gian thực Mushroom Hình 2.8 Số lượng ứng viên sinh Mushroom 2.4 Thuật toán CTU-PRO+ Thuật toán CTU-PRO+ [III] cho khai phá tập lợi ích cao cải tiến từ thuật toán CTU-PRO sử dụng hình CWU [II] giới thiệu phần 2.2 Thuật toán CTU-PRO+ sử dụng cấu trúc mẫu lợi ích nén, phần tử xếp tăng dần theo lợi ích AU để phần tử lợi ích cao tiền tố tập lợi ích khai phá trước Sau đó, giá trị CWU cập nhật lại cách trừ lợi ích tiền tố khai phá Một số cấu trúc Các phần tử CSDL đánh số 1, 2, 3,… theo thứ tự tăng dần theo AU  Bảng phần tử chung – GlobalItemTable gồm phần tử ứng viên lợi ích trọng số cao xếp tăng dần theo AU Trong bảng gồm: số (index), phần tử (item), lợi ích đơn vị phần tử (utility), tổng số lượng phần tử (quantity), lợi ích ứng viên trọng số (CWU), lợi ích thực tế phần tử (AU) trỏ trỏ đến gốc nhánh mẫu lợi ích nén chung (GlobalCUP-Tree) 14  Mỗi nút GlobalCUP-Tree bao gồm: số (index), mảng CWU tương ứng với giá trị lợi ích ứng viên trọng số tập, mảng trỏ chứa số lượng tương ứng phần tử giao dịch, trỏ trỏ đến nút anh em mức, trỏ trỏ đến nút cha  Mảng CWU[] = {T0, T1,…, Tn}, đó: Ti giá trị CWU tập phần tử từ nút số i đến nút chứa Ti  Tập I = {i1, i2,…, in} tập hợp phần tử HCWU giao dịch ánh xạ tương ứng với số GlobalItemTable sau chèn số index vào mẫu lợi ích nén, nút gốc nhánh trỏ trỏ PST phần tử i1 GlobalItemTable Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán CTU-PRO+ với thuật toán TwoPhase, CTU-PRO so sánh thời gian thực liệu T5N5D100K T10N5D100K với ngưỡng lợi ích tối thiểu khác Hình 2.9 Thời gian thực Hình 2.10 Thời gian thực T5N5D100K T10N5D100K 15 THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng cấu trúc hạn chế nút lưu trữ phần tử, dẫn đến khả nén không cao Hơn nữa, phần tử xếp giảm dần theo TWU nên số nút nhiều xếp giảm dần theo tần suất làm tốn không gian lưu trữ tìm kiếm Năm 2012, Liu cộng (2012) trình bày thuật tốn khai phá tập lợi ích cao khơng sinh viên ứng viên Trong thuật tốn nhóm tác giả sử dụng cấu trúc danh sách lợi ích (utility list) để lưu trữ thông tin tập phần tử thơng tin cắt tỉa khơng gian tìm kiếm Để khắc phục hạn chế cấu trúc tận dụng ưu điểm danh sách lợi ích, phần luận án trình bày cấu trúc mẫu lợi ích nén (CUP) kết hợp danh sách lợi ích, nút chứa tập phần tử danh sách lợi ích Cấu trúc cắt tỉa hiệu tập ứng viên làm giảm khơng gian tìm kiếm lưu trữ Trong phần tử xếp giảm dần theo tần suất xuất hiện, làm giảm số nút xuất so với việc xếp theo TWU tả cấu trúc CUP 16 Trong phần này, luận án trình bày khái niệm, cấu trúc CUP Quá trình xây dựng CUP tả chi tiết thuật tốn phần cuối Hình 3.1 Ví dụ nút CUP Ví dụ Hình 3.1, tả nút N CUP bao gồm: N.Itemset, N.IUtil, N.RUtil, N.TList, N.UList, N.Parent, N.Links N.Childs Trong đó, N.Itemsets tập phần tử nút, N.IUtil giá trị lợi ích N.Itemsets, N.RUTil lợi ích lại N.Itemsets, N.TList danh sách giao dịch chứa N.Itemsets, N.UList danh sách lợi ích phần tử N.Itemsets tương ứng với N.TList, N.Parent trỏ trỏ đến cha nút N, N.Links danh sách trỏ trỏ đến nút phần tử cây, N.Childs danh sách trỏ trỏ đến nút Q trình xây dựng CUP gồm bước tả sau: Để đơn giản luận án tả q trình chèn phần tử vào cây, phần tính tốn giá trị RUtil, TList, UList tả phần tả thuật tốn Bước 1, duyệt liệu lần để đếm độ hỗ trợ (support) tính TWU cho phần tử 17 Bước 2, duyệt giao dịch, đưa phần tử TWU lớn ngưỡng lợi ích tối thiểu vào danh sách Sau xếp phần tử giảm dần theo tần suất Bước 3, xây dựng CUP Thực chèn cách lưu giao dịch vào danh sách phần tử chèn danh sách phần tử vào nút gốc sau: Bước 3.1, kiểm tra nút N nút so sánh phần tử N.Itemset với phần tử danh sách chèn lại với khả xảy sau: - Nếu tất phần tử giống thêm tid vào TList - Nếu khơng nhiều phần tử giống tạo nút nút gồm: itemsets phần tử lại danh sách - Nếu nhiều phần tử giống nút N gồm phần giống nhau, phần tử khác lại nút N thành nút nút N, phần tử khác danh Thuật toán khai phá tập lợi HUI-Growth Sau xây dựng CUP tập lợi ích cao tìm phương pháp đệ quy tương tự thuật tốn FP-Growth Han (2000) Q trình khai phá tập lợi ích cao CUP duyệt từ lên dựa vào bảng HeaderTable Đầu tiên, lấy phần tử cuối bảng HeaderTable, dựa vào trỏ liên kết trỏ vào nút Ni để tìm mẫu điều kiện với hậu tố Chi tiết thuật tốn tả phía Kết thực nghiệm 18 Trong phần này, luận án so sánh kết thực thuật toán HUI-Growth [IV] với thuật toán: UP-Growth, HUI-Miner Kết thử nghiệm, Hình 3.2 Hình 3.3 so sánh thời gian thực với ngưỡng lợi ích khác với hai liệu Mushroom T40I4D100K Hình 3.2 Thời gian thực với liệu Mushroom Hình 3.3 Thời gian thực với liệu T40I4D100K 3.2 Điều kiện RTWU cho tỉa tập ứng viên Thuật tốn FHM nhóm Fournier-Viger (2014) hạn chế phép nối chi phí cao thuật tốn HUI-Miner dựa tính chất đóng TWU (Transaction-Weighted Utility) Đó là, khơng kết nối tập sinh chứa cặp (x, y) mà TWU(x, y) nhỏ ngưỡng lợi ích tối thiểu cho trước Tuy nhiên, phân tích TWU ngưỡng cao mức cần thiết Trong thuật toán FHM để giảm số lượng phép nối phương pháp cắt tỉa ước lượng giá trị lợi ích xuất (EUCP - Estimated Utility Co-occurrence Pruning) dựa cấu trúc ước lượng giá trị lợi ích xuất (EUCS - Estimated Utility Co-Occurrence Structure) Một cách cụ thể thuật toán FHM sử dụng EUCS để lưu trữ TWU tất cặp phần tử (a, b) Dựa vào tính chất đóng TWU, tất tập chứa cặp phần tử (a, b) TWU(ab) nhỏ ngưỡng lợi ích tối thiểu 19 khơng phải tập lợi ích cao để ngừng việc ghép nối danh sách lợi ích Tuy nhiên, thuật tốn FHM khai phá tập lợi ích cao theo chiều sâu Giả sử, phần tử xếp theo thứ tự từ điển, {aX} tất tập tiền tố phần tử a, {bX} tất tập tiền tố phần tử b Như vậy, tập chứa {bX} khơng chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận U({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Để khắc phục nhược điểm thuật toán FHM, luận án đề xuất cấu trúc RTWU (Retail Transaction-Weighted Utility), xây dựng thuật toán EAHUI-Miner sử dụng cấu trúc RTWU thuật tốn song song PEAHUI-Miner theo hình hạt mịn (fine-grain) từ thuật toán EAHUI-Miner Định nghĩa 3.1 [VI] Danh sách lợi ích mở rộng tập phần tử Px ký hiệu exLstPx định nghĩa danh sách phần tử, phần tử bao gồm bốn trường: tid, iutil, itemutil rutil, đó: - tid định danh giao dịch chứa Px iutil lợi ích tập phần tử P giao dịch tid chứa Px itemutil lợi ích phần tử x giao dịch tid chứa Px rutil lợi ích lại phần tử lại giao dịch tid chứa Px, tính từ phần tử sau phần tử x 20 Ngồi ra, danh sách lợi ích mở rộng tập Px trường sau: - sumiutils tổng lợi ích tập phần tử P giao dịch tid chứa Px sumitemutils tổng lợi ích phần tử x giao dịch tid chứa Px sumrutils tổng lợi ích lại giao dịch thứ tự tid chứa Px, bắt đầu tính từ phần tử sau phần tử x Định nghĩa 3.2 [VI] Giá trị lợi ích giao dịch lại cặp phần tử xy giao dịch Tj chứa cặp phần tử xy tổng lợi ích phần tử lại giao dịch thứ tự Tj tính từ phần tử x Kí hiệu RTWU(xy, Tj), [Tj\ SetPrefix(xy)] – giao dịch Tj chứa cặp phần tử xy bỏ phần tử đứng trước phần tử x Định nghĩa 3.3 [VI] Giá trị lợi ích giao dịch lại cặp phần tử xy CSDL tổng giá trị lợi ích giao dịch lại cặp phần tử xy giao dịch Tj chứa cặp phần tử xy CSDL Kí hiệu RTWU(xy) Định nghĩa 3.4 [VI] Cấu trúc RTWU xác định tập ba: (x; y; c) ∈ I x I x R Trong đó: - I tập phần tử thuộc sở liệu; 21 - x, y phần tử thuộc I (x đứng trước y theo cách xếp đó); R tập số thực c = RTWU(xy) Định lý 3.1 [VI] Cho hai tập Px, Py mở rộng tập P hai danh sách lợi ích mở rộng Px Py exLstPx exLstPy Nếu min(exLstPx.sumiutls, exLstPy.sumiutls) + RTWU(xy) < minUtil Pxy các tập mở rộng tập lợi ích thấp Dựa Định lý 3.1, luận án đề xuất cải tiến thuật toán FHM dựa cấu trúc RTWU, trình bày phần tiếp 3.3 Thuật tốn EAHUI-Miner dựa điều kiện RTWU Trong thuật tốn EAHUI-Miner gồm phần chính: - Xây dựng danh sách lợi ích mở rộng Khai phá tập lợi ích cao EAHUI-Miner Danh sách lợi ích mở rộng tập chứa phần tử xây dựng theo Định nghĩa 3.1 với tập P rỗng (nghĩa iutil=0) quét CSDL lần 3.3.1 Thuật toán song song PEAHUI-Miner Thuật toán PEAHUI-Miner xây dựng tảng OpenMP hỗ trợ lập trình song song mơi trường nhở chia sẻ Thuật toán song song phân tải động theo hình hạt mịn (finegrain) nhằm nâng cao khả cân tải tiến trình 22 3.3.2 Kết thực nghiệm  Số lượng ứng viên:Bảng 3.1 thể số lượng tập ứng viên hai thuật toán sinh Kết cho thấy thuật toán FHM sinh nhiều tập ứng viện so với thuật toán EAHUI-Miner Bảng 3.1 So sánh số lượng tập ứng viên Dataset minutil FHM EAHUI-Miner 10I4D100K 2500 153.016 125.647 10I4D100K 2500 153.016 125.647 Foodmart 1000 259.876 258.921 Mushroom 100K 1.588.018 1.587.927  Thời gian thực Thời gian thực thuật toán: EFIM, FHM EAHUI-Miner thể hình Hình 3.4, Hình 3.5, Hình 3.6 Hình 3.7 Kết cho thấy, thuật tốn EFIM thực nhanh sở liệu mà kích thước tập phần tử I nhỏ, hai thuật tốn FHM EAHUI-Miner thực nhanh thuật toán EFIM sở liệu mà kích thước tập phần tử I lớn Hình 3.4 Thời gian thực Hình 3.5 Thời gian thực Mushroom Foodmart 23 Hình 3.6 Thời gian thực Hình 3.7 Thời gian thực T10I4D100K T10I4D200K Hình 3.8 Hình 3.9 so sánh thời gian thực thuật toán EAHUI-Miner thuật toán song song PEAHUIMiner sở liệu T10I4D100K, T10I4D200K Hình 3.8 Thời gian thực Hình 3.9 Thời gian thực T10I4D100K T10I4D200K 24 KẾT LUẬN KIẾN NGHỊ Kết luận án: Với mục tiêu xây dựng hình, cấu trúc liệu thuật toán nhằm nâng cao hiệu thuật toán khai phá tập phổ biến trọng số tập lợi ích cao Luận án đạt kết sau: hình lợi ích ứng viên trọng số (CWU – Candidate Weighted Utility) [II] dựa phân tích cho thấy hình TWU nhiều thuật toán sử dụng để cắt tỉa ứng viên khơng hiệu đánh giá ngưỡng cao nhiều so với giá trị lợi ích thực tế Từ hình CWU đề xuất hai thuật tốn khai phá tập lợi ích cao HP [II] sử dụng số hình chiếu, CTU-PRO+ [III] sử dụng cấu trúc cho số lượng ứng viên thời gian thực nhanh so với số thuật toán Cấu trúc RTWU (Remaining Transaction-Weighted Utility) dựa giá trị lợi ích giao dịch lại kết hợp với danh sách lợi ích mở rộng cặp phần tử cho cắt tỉa tập ứng viên Phân tích thuật tốn FHM [26] cho thấy để làm giảm chi phí kết nối (join) danh sách lợi ích dựa vào lưu trữ giá trị TWU cặp phần tử Tuy nhiên, hình TWU đánh giá khơng hiệu cho cắt tỉa ứng viên Do đó, luận án đề xuất cấu trúc RTWU làm giảm chi phí kết nối tập ứng viên Dựa cấu trúc RTWU, đề xuất thuật toán EAHUI-Miner [VI] 25 khai phá tập lợi ích cao thuật toán song song PEAHUIMiner [VI] khai phá tập lợi ích cao cho kết thực nghiệm số lượng tập ứng viên thời gian thực nhanh sở liệu thưa nhiều giao dịch Thuật toán song song PPB khai phá tập lợi ích cao kết hợp số hình chiếu, danh sách lợi ích phương pháp lưu trữ giá trị lợi ích phần tử giao dịch để tính nhanh giá trị iutil rutil danh sách lợi ích Cấu trúc mẫu lợi ích nén (CUP) kết hợp với danh sách lợi ích [IV] Mỗi nút CUP lưu trữ tập phần tử danh sách lợi ích Các phần tử xếp giảm dần theo tần suất xuất cho số nút Để khai phá tập lợi ích cao CUP, luận án đề xuất thuật toán HUI-Growth [IV] Thuật toán VMWFP [I] khai phá tập phổ biến lợi ích cao dựa cấu trúc diffset Từ thuật tốn VMWFP cho thấy nhóm, lớp nhóm xử lý độc lập Do đó, luận án đề xuất thuật toán song song PVMWFP [I] hình chia sẻ nhớ Hướng phát triển Luận án tập trung vào bước quan trọng khai phá luật kết hợp khai phá tập phổ biến trọng số tập lợi ích 26 cao Cụ thể, đề xuất hình, cấu trúc, thuật tốn song song khai phá tập phổ biến trọng số tập lợi ích cao sở liệu giao dịch Tuy nhiên, khối lượng liệu ngày lớn phức tạp, cần cấu trúc thuật tốn phù hợp Do vậy, luận án tiếp tục hướng nghiên cứu sau:  Nghiên cứu hình, cấu trúc thuật tốn hiệu khai tập phổ biến trọng số tập lợi ích cao  Đưa kỹ thuật khai phá liệu mờ vào thuật toán đề xuất  Cài đặt, thử nghiệm thuật toán tảng lập trình Hadoop hình Map-Reduce cho toán liệu lớn ...2 Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao làm đề tài nghiên cứu cho luận... Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật toán khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao. .. T10N5D100K 15 THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng

Ngày đăng: 05/10/2018, 12:21

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • Chương 1. Tổng quan về khai phá tập phổ biến

    • 1.1. Giới thiệu chung

    • 1.2. Tập phổ biến

    • 1.3. Tập phổ biến có trọng số

    • 1.4. Đề xuất thuật toán khai phá mẫu phổ biến có trọng số theo chiều dọc

    • 1.5. Tập lợi ích cao

    • Chương 2. Thuật toán Khai phá tập lợi ích cao dựa trên mô hình CWU

      • 2.1. Mô hình hiệu quả khai phá tập lợi ích cao

        • a. Đặt vấn đề

        • b. Đề xuất mô hình CWU

        • 2.2. Thuật toán HP khai phá tập lợi ích cao dựa trên chỉ số hình chiếu và mô hình CWU

          • a. Một số cấu trúc được sử dụng trong thuật toán:

          • b. Kết quả thực nghiệm

          • 2.3. Thuật toán song song PPB khai phá tập lợi ích cao dựa trên chỉ số hình chiếu và danh sách lợi ích

            • a. Một số cấu trúc được sử dụng trong thuật toán PPB gồm:

            • b. Kết quả thực nghiệm

            • 2.4. Thuật toán CTU-PRO+

              • a. Một số cấu trúc

              • b. Kết quả thực nghiệm

              • Chương 3. Thuật toán khai phá tập lợi ích cao trên cây danh sách lợi ích và điều kiện RTWU

                • 3.1. Cấu trúc dữ liệu hiệu quả cho khai phá tập lợi ích cao

                  • a. Mô tả cấu trúc cây CUP

                  • b. Quá trình xây dựng cây CUP gồm các bước được mô tả như sau:

                  • c. Thuật toán khai phá tập lợi HUI-Growth

                  • d. Kết quả thực nghiệm

                  • 3.2. Điều kiện RTWU cho tỉa tập ứng viên

                  • 3.3. Thuật toán tuần tự EAHUI-Miner dựa trên điều kiện RTWU

                    • 3.3.1. Thuật toán song song PEAHUI-Miner

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan