Khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng

76 334 0
Khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC Trang Trang phụ bìa Lời cam đoan Mục lục………………………………………………………………………………………i Danh sách ký hiệu, từ viết tắt…………………………………………………… iv Danh mục bảng…………………………………………………………………………v Danh mục hình…………………………………………………………………………vi MỞ ĐẦU………………………………………………………………………………… CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU……………………………… 1.1 Khai phá liệu………………………………………………………………………3 1.1.1 Khái niệm khám phá tri thức khai phá liệu…………………………3 1.1.2 Kiến trúc hệ thống khai phá liệu ……………………………… 1.1.3 Các loại liệu khai phá……………………………………………….6 1.1.4 Chức khai phá liệu………………………………………………… 1.2 Một số phương pháp khai phá liệu thông dụng…………………………………7 1.2.1 Phương pháp luật kết hợp……………………………………………… .7 1.2.2 Phương pháp định…………………………………………… 1.2.3 Phương pháp k-Mean……………………………………………………… 1.3 Một số ứng dụng khai phá liệu………………………………………………9 1.3.1 Phân tích liệu gen sinh học y học…………………………………… 1.3.2 Phân tích liệu tài chính……………………………………………… 1.3.3 Dịch vụ bán lẻ……………………………………………………… 10 1.3.4 Công nghiệp viễn thông…………………………………………………….10 1.4 Các khuynh hướng thách thức khai phá liệu……………………… 11 CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1 Khai phá luật kết hợp………………………………………………………… .13 2.1.1 Một số khái niệm …………………………………………………13 2.1.2 Cách khai phá luật kết hợp………………………………………………….14 2.1.3 Các tính chất frequent itemset………………………………………….14 2.1.4 Các tiêu chuẩn để phân loại luật kết hợp……………………………………15 2.1.4.1 Kiểu giá trị quản lý luật…………………………… 15 2.1.4.2 Chiều liệu đề cập luật……………………… .15 2.1.4.3 Mức trừu tượng đề cập luật………………………… 15 2.2 Khai phá luật kết hợp boolean chiều từ CSDL giao dịch………………… 16 2.2.1 Thuật toán Apriori: Tìm frequent itemset sử dụng việc sinh ứng viên……………………………………………………………………….16 2.2.2 Sinh luật kết hợp từ frequent temset [5, 8, 15]…………………… .19 2.2.3 Cải tiến hiệu thuật toán Apriori……………………………………… 19 2.2.3.1 Phương pháp dựa bảng băm…………………………… 20 2.2.3.2 Giảm số giao dịch……………………………………………………….20 2.2.3.3 Phân đoạn……………………………………………………………… 21 2.2.3.4 Lấy mẫu………………………………………………………………… 21 2.2.4 Khai phá frequent itemset cách không sinh ứng cử viên…… 21 2.3 Khai phá luật kết hợp đa thức từ CSDL giao dịch……………………………… 24 2.3.1 Luật kết hợp đa thức……………………………………………………… 24 2.3.2 Các phương pháp khai phá luật kết hợp đa mức……………………… 26 2.3.2.1 Đồng độ hỗ trợ tối thiểu cho tất mức………………… 26 2.3.2.2 Giảm dần độ hỗ trợ tối thiểu mức thấp hơn…………………….27 2.3.2.3 Độc lập theo mức………………………………………………….27 2.3.2.4 Lọc chéo mức itemset………………………………………… .27 2.4 Khai phá luật kết hợp đa chiều từ CSDL quan hệ kho liệu……………… 28 2.4.1 Luật kết hợp đa chiều……………………………………………………….28 2.4.2 Khai phá luật kết hợp đa chiều sử dụng việc rời rạc hoá tĩnh thuộc tính số lượng……………………………………………………………………….29 2.4.3 Khai phá luật kết hợp số lượng…………………………………………… 30 2.4.4 Khai phá luật kết hợp dựa vào khoảng cách……………………………… 31 CHƯƠNG 3: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP…………… 34 3.1 Khám phá frequent itemset……………………………………………….34 3.1.1 Thuật toán AIS………………………………………………… .34 3.1.2 Thuật toán SETM……………………………………………… .35 3.1.3 Thuật toán Apriori………………………………………………… 39 3.1.3.1 Hàm Apriori_gen……………………………………….40 3.1.3.2 Hàm subset…………………………………………… 40 3.1.4 Thuật toán AprioriTID…………………………………….41 3.1.5 Thuật toán AprioriHybrid………………………………………… 43 3.2 Khám phá luật kết hợp…………………………………………………… 44 3.2.1 Thuật toán sinh luật đơn giản……………………………………….45 3.2.2 Thuật toán nhanh……………………………………………… 45 3.3 Thuật toán DHP (Direct Hashing with Efficent Pruning)……………… 46 3.3.1 Thuật toán DHP…………………………………………………… 46 3.3.2 Giảm kích thước sở liệu giao dịch………………… .51 3.3.3 Giảm số lần quét sở liệu (Scan – Reduction method)……… 53 3.4 Thuật toán PHP (Perfect Hash and Pruning)…………………………… 53 3.5 So sánh thuật toán khám phá frequent itemset………………… 55 3.5.1 Sinh liệu tổng hợp………………………………………… .55 3.5.2 So sánh thuật toán AIS, SETM, Apriori AprioriTID……… 56 CHƯƠNG 4: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM…………… 63 “ MÔ PHỎNG THUẬT TOÁN APRIORI” 4.1 Phát biểu toán ………………………………………………………… 63 4.2 Phân tích toán ………………………………………………………… 63 4.3 Xây dựng liệu…………………………………………………………….64 4.4 Cài đặt chương trình thử nghiệm………………………………………… 64 4.5 Giao diện chương trình………………………………………….65 KẾT LUẬN VÀ ĐỀ NGHỊ………………………………………………… 67 TÀI LIỆU THAM KHẢO……………………………………………………….68 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Ck Diễn giải Ck Tập k-itemset ứng viên Tập k-itemset ứng viên mà TID giao dịch sinh liên kết với D Di I Lk tập mục ứng viên Cơ sở liệu giao dịch Phần thứ i sở liệu D Tập mục Tập k-itemset phổ biến T X ⇒Y Giao dịch (transaction) Luật kết hợp (với X tiền đề, Y hệ quả) Conf k-itemset Min_conf Min_sup Sup Tid Tid-List ARCS SQL FP -growth FP -Tree min_sup_count DHP PHP Độ tin cậy (Confidence) Tập mục gồm k mục Ngưỡng tin cậy tối thiểu Ngưỡng hỗ trợ tối thiểu Độ hỗ trợ (support) Định danh giao dịch Danh sách định danh giao dịch Association Rule Clustering System Structured Query Language Frequent -Pattern Growth Frequent pattern tree minimum support count Direct Hashing with Efficent Pruning Perfect Hash and Pruning DANH MỤC CÁC BẢNG Bảng 2.1: Tóm tắt trình khai phá FP – Tree Bảng 2.2: Dữ liệu giao dịch cho nhánh AllElectronecs Trang 24 25 Bảng 2.3: Phân chia dựa khoảng cách 32 Bảng 3.1: Các tham số chương trính sinh liệu tổng hợp Bảng 3.2: Các tham số Bảng 3.3: Thời gian thực theo giây (s) thuật toán SETM Bảng 3.4: So sánh thời gain thực Apriori DHP (T15.I4.D100) 56 56 57 61 DANH MỤC HÌNH VẼ Hình 1.1: Quy trình phát tri thức Hình 1.2: Kiến trúc hệ khai phá liệu điển hình Hình 1.3: Mẫu kết với phương pháp định Hình 1.4: Phân cụm đối tượng k-Mean ( + tâm cụm) Trang Hình 1: CSDL để thực bước hình 2.2 17 Hình 2.2: Các bước thực thuật toán Apriori với _sup = 2/9 = 22% 18 Hình 2.3: Hai giai đoạn kỹ thuật phân đoạn 21 Hình 2.4: Cây FP – tree Hình 2.5: Cây conditional FP – tree 23 24 Hình 2.6: Hệ thống phân cấp khái niệm cho item 25 Hình 2.7: min_sup sử dụng khai phá mức trừu tượng khác Hình 2.8: Giảm dần độ hỗ trợ tối thiểu mức thấp Hình 2.9: Độc lập theo mức Hình 2.10: Lọc chéo mức itemset Hình 2.11: Mạng cuboids tạo thành data cube 3D 26 27 27 28 29 Hình 2.12: Lưới hai chiều luật kết hợp số lượng hai chiều với điều kiện 31 buys 38 Hình3.1a: Hìn 3.1b: Các bước thực thuật toán SETM min_sup_count = 39 Hình 3.2: Các bước thực thuật toán AprioriTID 43 Hình 3.3: Thời gian xử lý bước quét thuật toán Apriori AprioriTID 44 Hình 3.4: Các bước thực thuật toán DHP 49 Hình 3.5: Tìm L2 D3 Hình 3.6a: Thời gian thực với tập liệu T5.I2.D100K T10.I2.D100K Hình 3.6b: Thời gian thực với tập liệu T10.I4.D100K T20.I2.D100K 52 57 58 Hình 3.6c: Thời gian thực với tập liệu T20.I4.D100K T20.I6.D100K 58 Hình 3.7: Kích thước tập frequent tập ứng cử viên 59 Hình 3.8: Thời gian thực Apriori DHP 61 Hình 3.9: So sánh thời gian thực DHP Apriori 62 Hình 4.1: Giao diện chương trình 65 Hình 4.2: Lựa chọn CSDL 65 Hình 4.3: Kết khai phá luật kết hợp 66 LỜI NÓI ĐẦU Ngày lĩnh vực khoa học kỹ thuật ngày phát triển mạnh mẽ Đặc biệt nghành khoa học máy tính phát triển, ứng dụng nhiều lĩnh vực khác sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng… Với phát triển mạnh mẽ công nghệ thông tin năm gần đây, hâu, hầu hết tổ chức, quan thu thập lượng lớn liệu quan họ Các tổ chức muốn chuyển liệu sẵn có thành tri thức thông tin có ích cho họ Để làm điều người ta sử dụng trình Phát tri thức sở liệu( Knowledge Discovery in Database-KDD) Nhiệm vụ KDD từ liệu sẵn có phải tìm thông tin tiềm ẩn có giá trị mà trước chưa phát tìm xu hướng phát triển xu hướng tác động lên chúng Các kỹ thuật cho phép ta lấy tri thức từ sở liệu sẵn có gọi kỹ thuật Khai phá liệu( Data Mining) Khai phá liệu xem kết phát triển công nghệ thông tin, khai phá liệu giai đoạn quan trọng trình phát triển tri thức Một toán phổ biến khai phá liệu khai phá luật kết hợp Khai phá luật kết hợp tìm kiếm kết hợp đáng quan tâm quan hệ tương quan tập lớn khoản mục (item) Những luật kết hợp khai phá giúp tổ chức nhà quản lý đưa định kinh doanh hiệu Xuất phát từ vấn đề em mạnh dạn lựa chọn đề tài luận văn: “KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƯƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG DỤNG” việc làm ý nghĩa khoa học mang đậm tính thực tiễn Luận văn gồm chương: Chương 1: Tổng quan khai phá liệu Chương 2: Khai phá liệu sở liệu lớn Chương 3: Một số thuật toán khai phá luật kết hợp Chương 4: Cài đặt chương trình thử nghiêm Để có kết nhờ giúp đỡ thầy cô Khoa Công nghệ thông tin - Đại học Thái Nguyên bạn bè, đồng nghiệp, đặc biệt bảo tận tình PGS.TS.Vũ Đức Thi nỗ lực thân, đến hoàn thành đề tài Tuy nhiên trình làm việc, cố gắng, nỗ lực tránh khỏi thiếu sót, em tha thiết kính mong nhận bảo thầy cô để đề tài hoàn thiện Em xin chân thành cảm ơn ! Thái Nguyên, ngày 15 tháng 10 năm 2010 Học viên: Nguyễn Khải Hoài Anh 10 CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Trong thời đại ngày nay, với phát triển vượt bật công nghệ thông tin, hệ thống thông tin lưu trữ khối lượng lớn liệu hoạt động hàng ngày chúng Từ khối liệu này, kỹ thuật Khai Phá Dữ Liệu (KPDL) máy học dùng để trích xuất thông tin hữu ích mà chưa biết Các tri thức vừa học vận dụng để cải thiện hiệu hoạt động hệ thống thông tin ban đầu 1.1 Khai phá liệu 1.1.1 Khái niệm khám phá tri thức khai phá liệu KPDL việc rút trích tri thức cách tự động hiệu từ khối liệu lớn Tri thức thường dạng mẫu có tính chất không tầm thường, không tường minh (ẩn), chưa biết đến có tiềm mang lại lợi ích Có số nhà nghiên cứu gọi KPDL phát tri thức sở liệu (Knowledge Discovery in Database - KDD) Ở coi KPDL cốt lõi trình phát tri thức Quá trình phát tri thức gồm bước [3, 8, 16]: - Làm liệu (Data cleaning): Các thủ tục làm liệu sử dụng để lấp kín giá trị thiếu, loại bỏ nhiễu, nhận dạng phần tử hiệu chỉnh liệu không đồng - Tích hợp liệu (Data intergation): Nó tổ hợp liệu từ nhiều nguồn khác thành kho liệu không đồng - Lựa chọn liệu (Data selection): Những liệu thích hợp với nhiệm vụ phân tích trích rút từ sở liệu (CSDL) - Chuyển đồi liệu (Data transformation): Nó chuyển đổi hay hợp liệu dạng thích hợp cho việc khai phá Việc chuyển đổi liệu gồm bước: + Loại bỏ nhiễu khỏi liệu + Kết tập liệu 62 // w tập có (k-1) phàn tử items T If ∀ww ∉ Lk-1 then Skip t; Else Items = ∅; For each k-itemset y in T If (¬ ∃z z = (k-1) subset of 1.hasssupport(z)) Then Hk.add (y); y) ∧ (¬Hk- Items=items ∪ y; end Dk = Dk∪ t ; end for each itemset y in Hk if Hk.hasssupport (y) then Lk = Lk∪ y; end // xoá giá trị băm nhỏ min_sup_count từ Hk Hk.prune (min_sup_count ); k++; Until Lk-1 = ∅; Return L = ∪kLk; 3.5 So sánh thuật toán khám phá frequent itemset 3.5.1 Sinh liệu tổng hợp Để đánh giá hoạt động thuật toán, cần phải sinh liệu tổng hợp với đặc tính đa dạng Những giao dịch sinh tương tự với giao dịch môi trường bán hàng Để sinh tập liệu, chương trình sinh liệu tổng hợp nhận tham số bảng 3.1[5, 11, 18] 63  D T I L N Số giao dịch Kích thước trung bình giao dịch Kích thước trung bình frenquent itemset tiềm cực đại Số frenquent itemset tiềm cực đại Số item Bảng 3.1:Các tham số chương trính sinh liệu tổng hợp Chẳng hạn, Bảng 3.2 tóm tắt việc thiết lập tham số cho việc sinh tập liệu (dataset) với N = 1000 L=2000 Chúng ta chọn ba giá trị cho T: 5, 10, 20 giá trị cho I: 2, 4, Số giao dịch 100.000 Vì giá trị T D, nên kích thước dataset theo đơn vị MB gần với giá trị I Tên T5.I2.D100K T10.I2.D100K T 10 I 2 D 100K 100K Đơn vị MB 2.4 4.4 T10.I4.D100K T20.I2.D100K 10 20 100K 100K 8.4 T20.I4.D100K 20 100K T20.I6.D100K 20 100K Bảng 3.2: Các tham số 3.5.2 So sánh thuật toán AIS, SETM, Apriori AprioriTID Hình 3.6 cho thấy thời gian thực với liệu tổng hợp bảng 3.2, giảm giá trị min_sup Khi min_sup giảm, thời gian thực tất thuật toán tăng tổng số itemset ứng cử viên số frequent itemset tăng [5] Đối với SETM, thể thời gian thực với dataset T5.I2.D100K hình 3.6 Thời gian thực SETM hai dataset kích thước giao dịch trung bình 10 thể bảng 3.3 Chúng ta vào đồ thị chúng lớn so với thời gian thực thuật toán khác 64 Với ba dataset kích thước giao dịch 20, thuật toán SETM nhiều thời gian để thực hiện, nên chúng Dataset Minimun Support 1.5% 1.0% 0.75% 161 838 1262 Algorithm T10.I2.D100K SETM 2.0% 74 0.5% 1878 T10.I4.D100K Apriori SETM 4.4 41 5.3 91 11.0 659 14.5 929 15.3 1639 Apriori 3.8 4.8 11.2 17.4 19.3 Bảng 3.3: Thời gian thực theo giây (s) thuật toán SETM Rõ ràng, thuật toán Apriori đánh bại thuật toán AETM với dataset lớn Thuật toán Apriori đánh bại AIS với tất toán kích thước nhỏ Thuật toán AIS thực tốt đáng kể so với thuật toán SETM Với toán nhỏ, thuật toán AprioriTID thể với thời gian gần với thuật toán T5.I2.D100K 70 T10.I2.D100K Time (sec) Time (sec) Apriori, chậm hai lần so với Apriori với toán lớn SETM: AIS: Apriori: AprioriTID: 05 04 03 160 14 120 AIS: Apriori: AprioriTID: 10 08 06 04 02 01 02 00 00 1.5 0.75 0.5 0.33 0.25 Minimum support 1.5 0.75 0.5 0.33 0.25 Minimum support Hình 3.6a: Thời gian thực với tập liệu T5.I2.D100K T10.I2.D100K 65 T20.I2.D100K 1000 350 Time (sec) Time (sec) T10.I4.D100 AIS: Apriori : AprioriTID: 30 250 200 AIS: Apriori : AprioriTID: 900 800 700 600 500 150 400 300 100 200 50 100 1.5 0.75 0.5 0.33 0.25 1.5 Minimum support 0.75 0.5 0.33 0.25 Minimum support Hình 3.6b: Thời gian thực với tập liệu Time (sec) Time (sec) T10.I4.D100K T20.I2.D100K T20.I4.D100K 1800 1600 1400 AIS: Apriori: AprioriTID: 130 120 1000 AIS: Apriori: AprioriTID: 3000 2500 2000 1500 80 600 1000 400 200 T20.I6.D100K 3500 2 1.5 0.75 0.5 0.33 0.25 500 1.5 0.75 0.5 0.33 0.25 Minimum support Minimum support Hình 3.6c: Thời gian thực với tập liệu T20.I4.D100K T20.I6.D100K Giải thích: Để giải thích cho thời gian thực trên, xem kích thước tập frequent tạp ứng cử viên bước quét khác dataset T10.I4.D100K, min_sup = 0.75% hình 3.7 Nuber of itemsets 66 Le+07 (SETM) (AprioriTID) k Ck(AIS, SETM ) Ck (Apriori, AprioriTID) Lk k Le+06 100000 10000 1000 100 10 Kích thước tập frequent tập ứng cử viên Hình 3.7: thuật toán SETM kích thước tập Vấn đề C7k [5] Vì kích thước tập C k count (c) Do support ∑ sup port _Minimum , tập C k gần s lần lớn candida_itemset(c) tập C k tương ứng, với s support count trung bình ứng cử viên Trừ toán nhỏ, toán khác tập C k phải ghi vào đĩa phải xếp ngoài, nên dẫn đến thuật toán SETM thực không tốt Điều giải thích cho thời gian tăng vọt SETM bảng 3.3, min_sup giảm từ 1.5% xuống 1.0% dataset kích thước giao dịch 10 Cùng min_sup, support count itemset ứng cử viên tăng tuyến tính theo số giao dịch Do đó, số giao dịch tăng lên dataset T I, kích thước Ck không thay đổi, kích thước C k tăng tuyến tính Do vậy, dataset có nhiều giao dịch hơn, thời gian thực SETM so với thuật toán khác tách biệt Thuật toán AIS sinh số lớn ứng cử viên mà sau nhỏ hơn, làm thuật toán nhiều thời gian Thuật toán Apriori gặp vấn đề phải đếm support count cho tập lớn itemset bước quét thứ hai Tuy nhiên, lãng phí giảm đáng kể bước quét thứ 67 Thuật toán AprioriTID gặp vấn đề SETM C k có khuynh hướng lớn Tuy nhiên, hàm Apriori_gen sử dụng AprioriTID sinh ứng cử viên dựa giao dịch sử dụng SETM Do đó, C k AprioriTID có thành viên so với số thành viên C k SETM Hơn nữa, thuật toán xếp lại C k, SETM lại thực công việc Một yếu tố quan trọng thuật toán AprioriTID thay phải quét dataset gốc, quét C k Do vậy, thuật toán AprioriTID hiệu bới bước quét sau mà kích thước C k trở lên nhỏ so với kích thước CSDL Thuật toán AprioriTID vượt so với Apriori, C k khớp với nhớ k lớn Khi C k không khớp với nhớ, có tăng vọt thời gian thực AprioriTID Chẳng hạn, min_sup giảm từ 75% xuống 0.50% với dataset có T=10 (hình 3.6) 3.5.3 So sánh thuật toán DHP, PHP với Apriori Bảng 3.4 thể hoạt động liên quan Apriori DHP với T= 15, kích thước trung bình giao dịch 15 Thời gian thực hai thuật toán thể hình 3.8 Theo hình 3.8, thời gian thực lần quét DHP lớn so với Apriori, DHP cần thêm thời gian để sinh H2 Tuy nhiên, thời gian thực bước DHP nhỏ nhiều so với Apriori, bước DHP sử dụng bảng băm để sinh C k quét sở dũ liệu D k nhỏ Ck Lk L1 C2 Apriori Number 760 288.420 Number 760 318 L2 C3 211 220 211 220 L3 204 Apriori Number 204 Ck Lk Number DHP Dk 6.54MB Dk 100.000 6.54MB 100.000 0.51MB DHP Dk 20.047 Dk 68 C4 299 229 L4 C5 227 180 227 180 L5 C6 180 94 180 94 L6 C7 94 29 94 29 L7 C8 29 29 L8 Total time 43.36 13.57 0.25MB 8.343 0.16MB 4.919 0.10MB 2.495 0.06MB 1.254 0.05MB 1.085 Bảng 3.4: So sánh thời gian thực Apriori DHP (T15.I4.D100) 50 DHP/Apriori in execution time Execution time 40 30 20 10 Apriori DHP Comparison of two algorithms Pass Pass Pass Pass -8 T15.I4.D100 0.4 Hình 3.8: Thời gian thực Apriori DHP Hình 3.9 cho thấy tỉ lệ thời gian thực DHP so với Apriori với 0.3 min_sup khác Hình 3.9 rõ thuật toán DHP hoạt động tốt với min_sup khác 0.2 0.1 s=0.75 s=1.0 s=1.25 Minimum support T15.I4.D100 T20.I4.D100 69 Hình 3.9: So sánh thời gian thực DHP Apriori Theo [18], thuật toán PHP thực tốt thuật toán DHP, sau thiết lập bảng băm, PHP không cần đếm tần số xuất cho itemset ứng cử viên, thuật toán DHP phải thực công việc Thuật toán PHP thực tốt Apriori Thuật toán có đặc trưng; sinh frequent itemset, giảm kích thước sở liệu giảm số lần quét sở liệu cách hiệu Thuật toán PHP biến hệ thuật toán DHP với bảng băm có kích thước lớn cho itemset khác vào vị trí khác bảng băm 70 CHƯƠNG CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM “ MÔ PHỎNG THUẬT TOÁN APRIORI” 4.1 Phát biểu toán Những năm gần song song với kênh phân phối hàng hóa truyền thống chợ, cửa hàng bán lẻ, hệ thống siêu thị … ngày phát triển khẳng định vị trí Bên cạnh ta cần quan tâm đến yếu tố: tự chọn hàng, mức độ tập trung hàng hóa cao, giá rõ ràng … không kể đến lý hình thức đặt khoa học, dễ tìm kiếm bắt mắt Vậy có câu hỏi đặt ra: với số lượng hàng hóa khổng lồ đa dạng chủng loại đặt hợp lý, đẹp đồng thời hỗ trợ tối đa cho công việc kinh doanh? Để trả lời câu hỏi “có thể” giải pháp tin học hóa lĩnh vực nói chung công việc kinh doanh nói riêng 4.2 Phân tích toán Khai phá luật kết hợp từ bảng quan hệ Để sử dụng thuật toán cách thuận lợi vào ứng dụng “khai phá liệu hàng hóa” đòi hỏi phải chuyển đổi CSDL toán thành CSDL giao dịch Để làm điều này, cần phải rời rạc hóa thuộc tính thành khoảng (interval) Sau rời rạc hóa , record (data case) liệu gốc biến đổi thành tập cặp nhãn lớp Mỗi cặp trở thành item CSDL giao dịch Với biến đổi này, record trở thành giao dịch Trong việc khai phá luật kết hợp truyền thống, item xuất vế luật Luật có dạng: X ⇒ Ci , với Ci lớp thuộc tính lớp, X tập item Vì luật quan tâm có dạng X ⇒ Ci , nên cần tìm frequent itemset dạng: 71 Vấn đề min_sup min_conf Các luật kết hợp truyền thống sử dụng min_sup min_conf trình khai phá Nhưng sử dụng min_sup gặp vấn đề: - Nếu min_sup cao, không tìm luật với lớp tiểu số, mà thường lớp potsitve - Nếu min_sup thấp xảy bùng nổ tổ hợp lớp tiểu số có nhiều luật Những luật có giá trị dự đoán không cao, làm tăng thời gian xử lý Sử dụng min_conf gặp số khó khăn tương tự min_sup Để giải vấn đề này, sử dụng min_sup min_conf đồng thời với giá trị khác cho lớp khác 4.3 Xây dựng liệu Mục đích chương trình nhằm khai phá liệu hàng hóa, nên dựa vào kết việc kinh doanh hàng hóa làm điều kiện xem xét Việc xem xét dựa vào loạt loại hàng hóa khác ( tắm, sữa tăm, kem dưỡng da, book, CD, …) Để minh họa cho chương trình thử nghiệm dựa mặt hàng mỹ phẩm ( tắm, sữa rửa mặt, kem dưỡng da, kem ủ tóc, dầu gội đầu, sữa tắm) làm liệu thử nghiệm 4.4 Cài đặt chương trình thử nghiệm Chương trình cài đặt ngôn ngữ Visual C# Chương trình cài đặt dựa ý tưởng thuật toán Apriori 72 4.5 Giao diện chương trình Giao diện chương trình Hình 4.1: Giao diện chương trình Cửa sổ lựa chọn CSDL để kết nối Hình 4.2: Lựa chọn CSDL 73 Cửa sổ khai phá luật kết hợp dựa vào CSDL min_sup, min_conf Hình 4.3: Kết khai phá luật kết hợp 74 KẾT LUẬN VÀ ĐỀ NGHỊ Sau thời gian thực hiện, em hoàn thành luận văn đạt số kết định Luận văn thể tính thực tiễn cấp bách KPDL, luận văn trình bày nét KPDL, khái niệm luật kết hợp, phương pháp để khai phá kết luật kết hợp đơn chiều, đa chiều, đa mức Đặc biệt đưa phương pháp để cải tiến hiệu thuật toán Apriori như: bảng băm, phân đoạn, lấy mẫu giảm kích thước CSDL Với thời gian hạn chế, luận văn bước đầu tìm hiểu số thuật toán như: AIS, SETM, Apriori, AprioriTID, AprioriHybrid, DHP, PHP thuật toán sinh luật kết hợp Đây coi tảng trình KPDL mà tìm hiểu được, nhiên trình nghiên cứu cài đặt thuật toán mặt hạn chế Kết đạt được: hoàn thành báo cáo luận văn với nội dung nêu trên, cài đặt chương trình demo thuật toán trình bày luận văn cho kết nhanh xác Dựa vào kết đạt mặt hạn chế, mong muốn tiếp tục nghiên cứu cài đặt thuật toán cách thành công 75 TÀI LIỆU THAM KHẢO Tiếng việt [1] Phạm Hữu Khang, Kỹ thuật lập trình C#.Net, NXB Lao Động - Xã Hội [2] Vũ Đức Thi, Cơ sở liệu: Kiến thức thực hành, NXB Thống kê, 1997 [3] Hồ Thuần, Hồ Cẩm Hà, Các hệ sở liệu: Lý thuyết tập, tập 2, NXB Giáo dục, 2005 Tiếng Anh [4] Agrawal R., Imielinski T and Swami A, “Mining Association Rules Between Sets of Items in Large Databases”, SIGMOD, 1993 [5] Agrawal R., Srikantt R., “Fast Algorithms for mining association rules”, VLDB94, 1994 [6] Freitas A A., “Uderstanding the Crucial Differences Between Classification and Discovery of Association Rules”, ACM SIGKDD, vol.2, July 2000, pp65-69 [7] Han J And Fu Y., “Discovery of Multiple-Level Association Rules from Large Database”, Proseedings of the 21st VLDB Conference, Zurich, Swizerland, 1995 [8] Han J and Kamber M., Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 [9] Han J., Pei J., Yin Y., “Mining frequent patterns without candidate generation”, SIGMOD, 2000 [10] Ma Y., Liu B, Wong C K., Yu P S., Lee S.M., “Targeting the Right Students Using Data Mining”, KDD-2000, 2000 [11] Park J S., Chen M S., Yu P S “Using a Hash-Based Method with Tansaction Trimming and Database Scan Reduction for Mining Association Rule” Vol.9, No.5, 1997 [12] Srikant R., Agrawal R., “Mining Quantitative Association rules”, Proceedings of the 22nd VLDB Conference, Bombay, India, 1996 76 Địa Internet [14] Apte C., Liu B.&Smyth P., “Business Applications of Data Mining”, 2004 http://www.reaserch.ibm.com/dar/papers/pdf/Business_application_of_dm.pdf [15] Dunham M.H., Gruenwald Y X L., Hossain Z., “A survery of association rules” http://www2.cs.uh.edu/~ceik/6340/grue-assoc.pdf [16] Han J and kamber M., “principles of K nowledge Discovery in Data”, http://www.cs.ualberta.ca/~joerg/courses/cput695/fall2003/Association Rules4spp.pdf [17] Rantzau R., “Extended Concepts for Association Rule Discovery”, http://elib.uni-stuttgart.de/opus/volltexte/2007/721/pdf/DIP_1554.pdfl [18] S Ayse Ozel anf H Altay Guvenir., “Algorithm for Mining Association Rules Using Perfect Hashing and Database http://ww.cs.bilkent.edu.tr/~guvenir/publications/Ta101-AOAG.pdf pruning”, ... Một số phương pháp khai phá liệu thông dụng 1.2.1 Phương pháp luật kết hợp Một chủ đề phổ biến KPDL khám phá luật kết hợp [18] Mục đích khám phá luật kết hợp xác định mối quan hệ, kết hợp item... toán phổ biến khai phá liệu khai phá luật kết hợp Khai phá luật kết hợp tìm kiếm kết hợp đáng quan tâm quan hệ tương quan tập lớn khoản mục (item) Những luật kết hợp khai phá giúp tổ chức nhà... không sinh ứng cử viên…… 21 2.3 Khai phá luật kết hợp đa thức từ CSDL giao dịch……………………………… 24 2.3.1 Luật kết hợp đa thức……………………………………………………… 24 2.3.2 Các phương pháp khai phá luật kết hợp đa mức………………………

Ngày đăng: 15/04/2017, 20:48

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan