THUT TOAN KHAI THAC TP PH BIN t c

Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000208 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Nguyễn Duy Hàm1, Võ Đình Bảy2, Nguyễn Thị Hồng Minh3 Bộ mơn Tốn Tin học, Trường Đại học An ninh Nhân dân Khoa Công nghệ Thông tin, Trường Đai học Công nghệ TP.HCM Khoa Sau đại học, Đại học Quốc gia Hà Nội duyham@gmail.com, bayvodinh@gmail.com, minhnth@gmail.com TÓM TẮT: Khai thác tập phổ biến để tìm mối quan hệ item (mục) sở liệu (CSDL) toán quan trọng khai thác liệu Bên cạnh khai thác tập phổ biến từ CSDL truyền thống, khai thác tập phổ biến CSDL trọng số CSDL số lượng nhận nhiều quan tâm từ nhóm nghiên cứu Tuy nhiên, nghiên cứu khai thác CSDL mà mục khơng có mối quan hệ với Trong báo này, chúng tơi đề xuất tốn khai thác tập phổ biến CSDL số lượng có phân cấp item, đồng thời đề xuất thuật toán để giải toán áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS lưu trữ tidset itemset Kết thực nghiệm cho thấy thuật toán sử dụng cấu trúc MBiS hiệu mặt thời gian xử lý Từ khóa: CSDL số lượng, CSDL có phân cấp mục, tập phổ biến, itemsets I GIỚI THIỆU Khai thác tập phổ biến tốn quan trọng khai thác liệu nói chung Từ tập phổ biến người ta khai thác luật kết hợp, gom cụm hay phân lớp, v.v Do đó, tốn khai thác tập phổ biến nhiều nhóm nghiên cứu giới quan tâm [1-11] Khai thác tập phổ biến trọng số hữu ich FWUI (frequent weighted utility itemsets) đề xuất lần năm 2008 [4] Sau Vo đồng [12] đề xuất sử dụng hướng tiếp cận khai thác theo CSDL chiều dọc với lần đọc liệu Hàm đồng [9, 10] đề xuất cấu trúc khai thác tập phổ biến CSDL số lượng, đề xuất đạt số kết định Tuy nhiên nghiên cứu chưa đặt mục vào mối quan hệ khách quan Bài tốn khai thác luật kết hợp dựa khai thác tập phổ biến CSDL có phân cấp mục đề xuất lần năm 1995 Han đồng [5], tác giả đưa định nghĩa CSDL có nhiều cấp item, đề xuất toán khai thác luật kết hợp CSDL dạng với ngưỡng hỗ trợ Trong [6,7] đưa đề xuất khai thác tập phổ biến với nhiều ngưỡng hỗ trợ khác Vo đồng [8] đề xuất hướng tiếp cận CSDL chiều dọc với lần đọc CSDL cho hiệu tốt thời gian xử lý Tuy nhiên, nay, nghiên cứu CSDL có phân cấp mục đề cập đến CSDL nhị phân, chưa quan tâm đến CSDL số lượng với mục có trọng số, giao dịch thể số lượng mục Trong báo này, chúng tơi đề xuất tốn “Khai thác tập phổ biến CSDL số lượng có phân cấp mục”, đồng thời đưa thuật toán để giải toán Đây toán chưa đặt trước Phần lại báo cấu trúc sau: Phần II, trình bày nghiên cứu liên quan Một số định nghĩa trình bày phần III Phần IV đưa thuật toán khai thác hiệu CSDL số lượng có phân cấp mục Kết thực nghiệm trình bày phần V Phần VI trình bày kết luận hướng phát triển II KIẾN THỨC CƠ BẢN VÀ CÁC NGHIÊN CỨU LIÊN QUAN A Khai thác tập phổ biến CSDL số lượng Khan đồng [4] đưa toán khai thác tập phổ biến trọng số hữu ích FWUI (frequent weight utility itemsets) từ CSDL số lượng Nhóm tác giả đề xuất độ đo trọng số hữu ích giao dịch twu (transaction weight utility) độ hỗ trợ trọng số hữu ích wus (weight utility support) Đồng thời đưa “framework” để khai thác FWUI dựa độ đo đề xuất Theo đó, twu giao dịch tk xác định theo công thức sau: twu(tk) = ∑ ∈ Trong đó, số lượng mục ij giao dịch tk, wj trọng số mục ij, phần tử có mặt giao dịch tk (1) tổng số lượng Tiếp theo, wus itemset X tính theo cơng thức: wus(X) = ∑ ∈ ∑ ∈ (2) Vo đồng [12] đề xuất hướng tiếp cận theo thuật toán Eclat [2] với lần đọc liệu, với việc đề xuất cấu trúc MWIT-tree mở rộng IT-tree [2] Mỗi nút WIT-tree gồm thành phần tidset(X), X, wus(X) 680 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Hàm đồng [9] đề xuất cấu trúc MByS cải tiến cấu trúc DBV[3], MByS bao gồm đoạn byte khác liên tiếp biểu diễn tidset itemset dạng bit vecto Đồng thời nhóm đề xuất cấu trúc MByS-tree khai thác FWUI với lần đọc liệu Hàm đồng [10] đề xuất cấu trúc MBiS cải tiến khác DBV[3], MBiS bao gồm đoạn bit liên tiếp biểu diễn tidset itemset dạng bit vecto Đồng thời, nhóm tác giả đề xuất cấu trúc MBiS-tree khai thác FWUI với lần đọc liệu B Khai thác tập phổ biến CSDL có phân cấp mục Han đồng [5] đề xuất toán khai thác tâp phổ biến CSDL có phân cấp mục sử dụng hướng tiếp cận Apriori Đồng thời đề xuất sử dụng chung ngưỡng hỗ trợ cho tất mục khai thác CSDL truyền thống Cách tiếp cận không hiệu tốn thời gian đọc CSDL Liu đồng [6] đề xuất tiếp cận khác với việc khai thác tập phổ biến với nhiều ngưỡng hỗ trợ khác Cách tiếp cận thực tế, CSDL có phân cấp mục cha mức có giá trị ảnh hưởng khác Tseng đồng [7] đề xuất hướng tiếp cận sử dụng FP-tree với thuật toán FP-Growth khai thác tập phổ biến với nhiều ngưỡng hỗ trợ Cách tiếp cận tốt với hai lần đọc CSDL, nhiên trình duyệt FP-tree lại tốn nhiều thời gian Vo đồng [8] sử dụng hướng tiếp cận Eclat với việc đề xuất cấu trúc GIT-tree mở rộng ITtree với lần đọc CSDL Bước thêm mục cha vào CSDL, bước thứ hai, đọc CSDL để chuyển CSDL sang chiều dọc Sau sử dụng cấu trúc GIT-tree để khai thác tập phổ biến Một số nghiên cứu khác thời gian gần khai thác CSDL có phân cấp item theo thời gian [13], hay khai thác mẫu phổ biến phân cấp [14] từ sinh luật kết hợp phân cấp với ngưỡng phổ biến theo hai tiếp cận Aprriori hay FP-Growth Các nghiên cứu trường hợp riêng toán khai thác tập phổ biến CSDL nhị phân có phân cấp item C CSDL số lượng có phân cấp mục CSDL số lượng có phân cấp mục DB = , đó: T = {t1, t2, …, tm} tập giao dịch, I = {i1, i2, …, in} tập mục, W = {w1, w2, …, wn} tập trọng số (lợi ích) tương ứng mục tập mục I, H tập phân cấp thể mối quan hệ mục Mỗi giao dịch tk có dạng tk = {xk1, xk2, …, xkn}, xki số nguyên số lượng mục thứ i giao dịch tk, k = m, Ví dụ 1: cho CSDL số lượng DB = < T, I, W, Tr > sau: Tập mục I = {A, B, C, D, E, F} Tập trọng số W = {0.3, 0.2, 0.5, 0.6, 0.9, 0.1} bảng Tập giao dịch T cho bảng đây: Bảng Các giao dịch Giao dịch t1 t2 t3 t4 t5 t6 Và tập phân cấp Tr A B C D 1 2 1 2 1 1 Bảng Bảng trọng số E 1 F 0 1 K G C Mục A B C D E F Trọng số 0.3 0.2 0.5 0.6 0.9 0.1 H F A E D B Hình Tập phân cấp Tr Trong kí hiệu A, B, C, D, E, F đại diện cho tập mặt hàng theo bảng sau: Bảng Tên mặt hàng mục Mục A B C Tên mặt hàng Desktop Ink-jet Printer Laser Printer Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh 681 D Notebook E Scanner F Dot-matrix Printer G Non-impact H PC K Printer Theo bảng 1, bảng 2, CSDL DB có giao dịch {t1, t2, t3, t4, t5, t6} mục {A, B, C, D, E, F}, trọng số mục tương ứng {0.3, 0.2, 0.5, 0.6, 0.9, 0.1} Giao dịch t1 = {1, 1, 0, 2, 1, 0} có nghĩa giao dịch t1 có mục A (Desktop), mục B (Ink-jet Printer), hai mục D (Notebook), mục E (Scanner), khơng có mục C (Laser Printer) mục F (Dot-matrix Printer) Tập J = {G, K, H} tập mục nút cha phân cấp, mục không xuất giao dịch CSDL DB Tuy nhiên chúng có vai trò định, thể mối quan hệ mục CSDL Do đó, khai thác tập phổ biến CSDL phân cấp đòi hỏi phải khai thác tập mục phân cấp bao gồm (I ∪ J) Liu đồng [11] đưa hai định nghĩa để khai thác tập phổ biến từ CSDL có phân cấp mục sau: Định nghĩa 1: Một giao dịch t = với X ∈ (I ∪ J), X = (Y ∪ Z) tập mục có giao dịch (Y) mục cha Y phân cấp (Z) Định nghĩa 2: Tập X tập phổ biến suport(X) > minsup, đồng thời X khơng tồn cặp mục có quan hệ cha con, X phổ biến khi: ∀ , ∈ , Khai thác FWUI CSDL số lượng có phân cấp có đặc trưng riêng khác với CSDL nhị phân có phân cấp, mục CSDL có kèm theo số lượng trọng số Do đó, để khai thác tập phổ biến CSDL có phân cấp mục bao gồm mục nút cha, đề xuất định nghĩa sau: Định nghĩa 3: Nút cha phân cấp thuộc giao dịch chứa nút Với mục nút cha X phân cấp tk ∈ T: X ∈ tk Y ∈ tk Y nút X phân cấp Khai thác tập phổ biến CSDL sỗ lượng có phân cấp, cần xác định trọng số mục nút cha phân cấp, đồng thời phải xác định số lượng mục cha giao dịch mà có mặt Do mục cha thêm vào giao dịch trước khai thác theo định nghĩa Để đảm bảo mục nút cha sau thêm vào giao dịch CSDL không khác biệt với mục nút lá, đồng thời mục nút cha thể vai trò nó, báo chúng tơi xác định trọng số mục nút cha số lượng chúng giao dịch theo định nghĩa Định nghĩa 4: Trọng số mục nút cha phân cấp trọng số lớn trọng số nút nút lá: weight(A) = max(weight(A1), weight(A1), weight(Ak)) Trong A mục nút cha phân cấp, A1, A2, , Ak nút A Ví dụ 2: weight(K) = max(weight(C), weight(B), weight(F)) = max(0.5, 0.2, 0.1) = 0.5 Theo định nghĩa 4, mục nút cha mức thấp trọng số cao, điều phản ánh độ “quan trọng” mục mức khái quát, nghĩa mục mức khái quát cao trọng số lớn Định nghĩa 5: Số lượng mục nút cha phân cấp giao dịch số lượng lớn số lượng nút giao dịch quantitative(A) ∈ tk = max(quantitative(A1), quantitative(A1), quantitative(Ak)) Trong đó: A1, A2, , Ak ∈ tk A1, A2, , Ak A phân cấp 1) = Ví dụ 3: quantitative(K) ∈ t5 = max(quantitative(B), quantitative(C), quantitative (F)) (B, C, F ∈ t5) = max(2, 2, Việc xác định số lượng mục nút cha thêm vào giao dịch có chứa nút theo định nghĩa đảm bảo vai trò thêm vào CSDL, đồng thời số lượng mục nút cha không chênh lệnh so với số lượng nút Định nghĩa 6: Itemset X ∈ (I ∪ J) với I tập mục CSDL ban đầu (tập nút phân cấp) J tập mục nút cha phân cấp gọi phổ biến theo ngưỡng minwus wus(X) minwus, với minwus người dùng xác định trước 682 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CĨ SỰ PHÂN CẤP CÁC MỤC III THUẬT TỐN KHAI THÁC TẬP PHỔ BIẾN TỪ CSDL SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC A Cấu trúc HIT-tree Chúng đề xuất cấu trúc liệu có tên HIT-tree, mở rộng IT-tree [2] dùng để khai thác tập phổ biến CSDL số lượng có phân cấp mục theo tiếp cận khai thác từ CSDL theo chiều dọc với lần đọc CSDL Mỗi nút HIT-Tree gồm thành phần: - itemset X – tập mục CSDL - tidset X – tập giao dịch chứa X - wus(X) – độ hỗ trợ trọng số hữu ích X HIT-tree gồm nhiều mức, mức gồm nhiều lớp tương đương, lớp tương đương gồm nhiều nút Các cặp itemset hai nút lớp tương đương kết hợp với để tạo nút mức Do đó, itemset nút lớp tương đương có số lượng mục khác phần tử cuối Itemset X tạo từ hợp hai itemset hai nút lớp tương đương phải thỏa mãn hai điều kiện để thêm vào HIT-tree: - ∀x’ ∈ X x”∈ X: parent(x’) = x” (Khơng có cặp mục có mối quan hệ cha X) - wus(X) minwus Sau xây dựng xong, itemset nút HIT-tree tập FWUI cần tìm theo ngưỡng minwus B Thuật toán Thuật toán MINE_FWUI Input: CSDL số lượng có phân cấp mục DB ngưỡng minwus Output: HIT-tree chứa tập phổ biến trọng số hữu ích MINE_FWUI() ADD_PARENT();//thêm nút cha số lượng vào giao dịch, đồng thời tính trọng số cho nút cha CALCULATE_ TWU();// tính twu giao dịch CSDL F = { i ∈ (I ∪ J), wus(i) minwus}; //tập 1-itemset thỏa mãn ngưỡng phổ biến minwus HIT-tree = ∅; CREATE_HIT-tree(F) P = ∅; for all i ∈ F // xét phần tử F for j ∈ F with j > i //j phía sau i 10 X = Fi ∪ Fj; // X itemset tạo thành từ Fi Fj 11 if ∀x’ ∈ X x”∈ X: parent(x’) = x”// không tồn cặp mục cha X 12 T = tidset(Fi) ∩ tidset(Fj) //T tidset X 13 if wus(X) minwus 14 P = P ∪ X, T, wus(X) // kết nạp nút vào lớp P 15 HIT-tree = HIT-tree ∪ X, T, wus(X) // kết nạp nút vào HIT-tree 16 CREATE_HIT-tree(P)// gọi đệ quy với lớp P Hình Thuật tốn khai thác FWUI từ CSDL trọng số có phân cấp mục Ví dụ 4: Thuật tốn MINE_FWUI hình với CSDL DB ví dụ minwus = 0.6 sau: Dòng 2, thủ tục ADD_PARENT() cho kết bảng Thêm mục nút cha, số lượng mục nút cha vào CSDL thực theo định nghĩa 5, thêm trọng số mục nút cha theo định nghĩa 4, ta có kết sau: Bảng Các giao dịch Giao dịch t1 t2 t3 t4 t5 t6 A B 1 1 C D 2 1 E 1 F 0 1 Bảng Bảng trọng số G 1 H 2 1 K 2 Dòng 3, thủ tục CALCULATE_TWU() cho kết bảng 6: Mục A B C D E F G H K Trọng số 0.3 0.2 0.5 0.6 0.9 0.1 0.5 0.6 0.5 Nguyễn N Duy Hàm m, Võ Đình Bảy, N Nguyễn Thị Hồngg Minh 683 Bảng tw wu giao o dịch G dịch Giao twu u t1 0.3 t2 t3 0.3 0.2 0.6 t4 0.9 0.3 t5 0.3 0.2 0.5 0.5 /7 = 0.68 0.2 0.5 0.9 0.5 0.5 /5 = 1.12 0.1 0.5 0.6 0.5 /8 = 0.84 0.5 /5 = 0.76 /9 = 0.84 0.5 /7 = 0.43 0.2 0.6 t6 0.6 0.2 0.9 0.5 0.9 0.2 0.5 0.5 0.9 0.1 0.6 0.5 0.6 0.6 0.5 0.5 0.6 0.1 0.6 sum 4.67 Dòng 4, tậpp F (1-itemsett phổ biến) gồồm {A, B, C, D, D E, G, H, K} bảng 7: Bảng Tập T 1-itemset ph hổ biến Mục wus F 0.68 0.84 0.76 0.84 /4.76 = 0.65 A 0.8 84 0.76 0.8 84 0.43 /4.7 76 = 1.0 B C 1.1 12 0.76 0.8 84 0.43 /4.7 76 = 0.67 C D ( 0.6 68 0.84 0.8 84 0.43 /4.7 76 = 0.6 D 1.1 12 0.84 0.7 76 0.84 /4.7 76 = 0.91 E 0.84 0.8 84 0.43 /4.7 76 = 0.45 A B 0.6 68 E 1.12 0.68 F G 0.6 68 H K 0.6 68 1.12 0.8 84 0.76 0.8 84 0.43 /4.7 76 = 1.0 G 0.68 0.8 84 0.76 0.8 84 0.43 /4.7 76 = 0.76 H 1.12 0.8 84 0.76 0.8 84 0.43 /4.7 76 = 1.0 K E_HIT-tree() xây x dựng H HIT-tree bao ggồm nút FWUI Từ dònng đến dòng 16 thủ tục đệ quy CREATE Hình Cây HIT-treee với CSDL DB B minwus = 00.6 Xét nút A HIIT-tree: h với B: tidsset(AB) = tidsset(A) ∩ tidsett(B) = {1, 3, 4, 5} ∩ {1, 2, 3, 4, 5, 6} = {1, 3, 4, 5}, wus(AB) = A kết hợp 0.68 > minwuss → kết nạp AB B vào HIT-treee A kết hợp h với C: tiddset(A, C) = tiidset(A) ∩ tidsset(C) = {1, 3, 4, 5} ∩ {2, 4, 5, 6} = {44, 5}, wus(AC C) = 0.34 < minwus m → khôông kết nạp AC C vào HIT-treee Tương tự kết nạp {AE E, AG, AK} vvào HIT-tree A kết hợ ợp với H, khôông xét H làà cha A phân cấp Tương tự với nútt B, C, D, E, G G, H, K ta có c HIT-tree n hình có nút FW WUI C C Một số kĩ thuật t cải tiến tốc độ tính toốn Zaki vàà đồng ự [11] đề xuất kĩ thuật diffset thay tid dset nhằm rút gọn nhớ vvà tăng tốc độ ộ tính tốn Hàm H đồồng đề xuấất cấu trúc MB ByS [9], MBiS S [10] với mục tiêu tối ưu bbộ nhớ tiddset tăng hiệu xử lý ý Trong báo b chúngg sử dụng ba giải phááp th huật toán MIN NE_FWUI so sánh chúng với trrong khai thácc itemset CSDL số lượnng có phân n cấp mục 684 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC IV KẾT QUẢ THỰC NGHIỆM A Môi trường thực nghiệm Hệ thống thử nghiệm cài đặt C# 2014 Microsoft Windows Pro 64 bit, Net Framework 4.5, thực CPU Intel® Haswell Core™ i5 - 1.4 GHz, Ram 4Gb Hệ thống phần mềm sử dụng: Visual Studio 2013 Ultimate B CSDL thực nghiệm CSDL thực nghiệm gồm ba CSDL: SALE-FACT_1997, SALE-FACT-1997_1998, SALE-FACT_SYNC rút từ CSDL Mirosoft Foodmart2000 Microsoft SQL2000 (trong đó, SALE-FACT-1997_1998 kết hợp SALE-FACT-1997 SALE-FACT-1998; SALE-FACT-SYNC kết hợp SALE-FACT-1997, SALEFACT_1998 SALE-FACT-dec_1998) Cụ thể CSDL phân cấp mục mô tả bảng Bảng Mô tả CSDL thực nghiệm Tên CSDL Số lượng giao dịch SALE-FACT_1997 SALE-Fact_1997_1998 SALE-FACT_SYN Mức Bảng Cấu trúc phân cấp Tên mức Số lượng nút 20.522 54.537 58.308 Product_family Product_department 24 Product_category 48 Product_subcategory 56 Product_class 110 Product 1560 Từ bảng ta thấy, có ba phân cấp (số lượng nút mức 3), độ cao phân cấp (có mức) C Kết thử nghiệm Để kết so sánh có độ xác cao, với ngưỡng phổ biến minwus tiến hành chạy chương trình lần với phương pháp, sau lấy trung bình cộng lần chạy Kết thử nghiệm CSDL cho bảng thể qua biểu đồ sau: 1000 DIFFSET MByS 600 memory(mb) time(s) 800 MBiS 400 200 0.3 0.2 0.1 0.06 0.03 minwus(%) 800 700 600 500 400 300 200 100 MBis MByS DIFFSET 0.3 0.01 0.2 0.1 0.06 0.03 minwus(%) 0.01 Hình Kết so sánh thời gian (hình bên trái) nhớ (hình bên phải) CSDL SALE_FACT-1997 400 350 MBiS 300 time(s) memory(mb) MByS 250 DIFFSET 200 150 100 50 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 1600 1400 1200 1000 800 600 400 200 MBis MByS DIFFSET 0.3 0.2 0.1 0.06 0.03 0.01 minwus(%) Hình Kết so sánh thời gian (hình bên trái) nhớ (hình bên phải) CSDL SALE_FACT-1997_1998 Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh 685 500 time(s) memory(mb) MBiS 400 MByS 300 DIFFSET 200 100 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 1800 1600 1400 1200 1000 800 600 400 200 MBis MByS DIFFSET 0.3 0.2 0.1 0.06 minwus(%) 0.03 0.01 Hình Kết so sánh thời gian (hình bên trái) nhớ (hình bên phải) CSDL SALE_FACT-SYNC Các kết thực nghiệm từ hình đến cho thấy mặt thời gian thuật toán sử dụng cấu trúc MBiS đạt hiệu cao sau MByS cuối DIFFSET Ví dụ, CSDL SALE-FACT_1997 với ngưỡng minwus = 0.01, MBiS có thời gian xử lý 68,301s, MByS 294,022s DIFFSET 449.854s Quan sát hình bên phải (so sánh nhớ sử dụng), ta thấy chênh lệch nhớ phương pháp không đáng kể Quan sát hình bên trái (so sánh thời gian chạy), ta thấy với CSDL lớn DIFFSET có hiệu hơn, tiệm cận dần với phương pháp sử dụng cấu trúc MByS V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đề xuất toán khai thác tập phổ biến CSDL số lượng có phân cấp mục, phương thức tính trọng số số lượng cho mục phân cấp thêm vào CSDL định nghĩa Đồng thời đề xuất thuật toán MINE_FWUI với cấu HIT-tree để giải toán với lần đọc CSDL Bài báo thực nghiệm thuật toán đề xuất với cấu trúc có khai thác liệu theo chiều dọc Diffset, MByS, MBiS lưu trữ tidset so sánh hiệu chúng mặt thời gian chạy nhớ sử dụng Kết thực nghiệm cho thấy cấu trúc MBiS có kết tốt mặt thời gian, MByS cuối kĩ thuật Diffset Tiếp tục phát triển kết đạt được, thời gian tới nhóm tiếp tục nghiên cứu mở rộng tốn CSDL số lượng có phân cấp mục, khai thác tập phổ biến với nhiều ngưỡng hỗ trợ, khai thác tập phổ biến đóng, v.v Đồng thời, nghiên cứu thuật toán hiệu để giải toán loại bỏ trình thêm mục nút cha vào CSDL, đề xuất cấu trúc hiệu khai thác tập phổ biến CSDL loại VI TÀI LIỆU THAM KHẢO [1] Agrawal, R., Srikant, R.: “Fast algorithms for mining association rules” Proc of the 20th VLDB Conf Santiago, Chile, pp 487–499, 1994 [2] Zaki, M J.: “Scalable algorithms for association mining” IEEE Transactions on Knowledge and Data Engineering, 12(3), pp 372-390, 2000 [3] Vo, B., Hong, le., Le, B.: “DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets” Expert Systems with Applications 39, pp 7196–7206, 2012 [4] Khan, M S., Muyeba, M., Coenen, F.: “A weighted utility framework for mining association rules” Proc of conf IEEE European Modeling Symposium, pp 87 – 92, 2008 [5] Han, J., Fu, Y.: ”Discovery of multiple-level association rules from large databases” Proc of Conf on Very Large Data Bases, Zurich, Switzerland, pp.420–431, 1995 [6] Liu, B., Hsu, W., Ma, Y.: ”Mining association rules with multiple minimum supports” Proc.1999 Int Conf on Knowledge Discovery and Data Mining, San Diego, CA, USA, pp.337–341, 1999 [7] Tseng, M, C., Lin, W, Y.: ”Efficient mining of generalized association rules with non-uniform minimum support” Data & Knowledge Engineering 66(1), pp.41-64, 2007 [8] Vo, B., Le, B.: ”Fast Algorithm for Mining Generalized Association Rules” International Journal of Database Theory and Application 2(3), pp.1-12, 2009 [9] Nguyễn Duy Hàm, Võ Đình Bảy, Minh, Nguyễn Thị Hồng Minh: “Một phương pháp khai thác nhanh FWUI CSDL số lượng” Một số vấn đề chọn lọc CNTT TT lần thứ 17 pp.280-285, 2014 [10] Ham, N, D., Vo, B., Minh, N, T, H., Hong , T, P.: “MBiS: an efficient method for mining frequent weighted utility itemsets from quantitative databases” Journal of Computer Science and Cybernetics, 31(1), pp.17-30, 2015 686 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC [11] Zaki, M J., Gouda, K.: “Fast Vertical Mining Using Diffsets” KDD '03 Proc of the ninth ACM SIGKDD international conf on Knowledge discovery and data mining, Washington, DC, USA, pp.326-335, 2003 [12] Vo, B., & Le, B., Jason J Jung, “A Tree-based Approach for Mining Frequent Weighted Utility Itemsets”, Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 7653, pp 114-123, 2012 [13] Lan, G, C., Hong, T,P., Wu, P, S., “Mining hierarchical temporal association rules in a publication database”, Proc of IEEE Cognitive Informatics & Cognitive Computing (ICCI*CC), pp.503 – 508, 2013 [14] Ali, S, Z., Rathore, Y., “A effective and efficient algorithm for cross level frequent pattern mining”, Conf on Advances in Engineering and Technology Research (ICAETR), pp.1-6, 2014 MINING FREQUENT WEIGHTED UTILITY ITEMSETS FROM QUANLITY DATABASE WITH HIERARCHY OF ITEMS Nguyen Duy Ham, Vo Dinh Bay, Nguyen Thi Hong Minh ABSTRACT - Mining frequent itemsets (FIs) to find relationships among items plays an important role in data mining Besides, mining FIs from traditional databases, mining FIs from weighted transactions databases and quantitative databases has received a lot of attention in recent years However, there research only mining from database which no relation between the items from database This paper, we propose the problem for mining FIs from quantitative databases with hierachy of items and propose an algorithm for sloving this problem based on diffset strategy, and MByS, MBiS structure in storing the tidset of itemset The experimental results show that the method used MBiS structure to give the best effectively on runtime

THUT TOAN KHAI THAC TP PH BIN t c

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan