Đánh giá các thuật toán khai thác tập mục lợi ích cao

83 810 6
Đánh giá các thuật toán khai thác tập mục lợi ích cao

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH ĐẶNG CÔNG QUỐC ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH ĐẶNG CÔNG QUỐC ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS TÔ HOÀI VIỆT TP HỒ CHÍ MINH, tháng 10 năm 2015 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HỒ CHÍ MINH Cán hƣớng dẫn khoa học: ………………… TS TÔ HOÀI VIỆT Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM (HUTECH) ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Chức danh Hội đồng Họ Tên PGS.TSKH Nguyễn Xuân Huy Chủ tịch TS Lƣ Nhật Vinh Phản biện TS Võ Đình Bảy Phản biện TS Trần Đức Khánh TS Nguyễn Thị Thúy Loan Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP.HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc PHÒNG QLKH – ĐTSĐH TP HCM, ngày 17 tháng 10 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Đặng Công Quốc Giới tính: Nam Ngày, tháng, năm sinh : 21 – 06 – 1968 Nơi sinh: Thừa Thiên Huế Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860050 I- Tên đề tài: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO II- Nhiệm vụ nội dung: Nghiên cứu thuật toán khai thác tập mục lợi ích cao, tập trung tìm hiểu vào phƣơng pháp thực nghiệm từ báo đƣợc nhiều tác giả tham khảo Tìm hiểu đánh giá thuật toán khai thác tập mục lợi ích cao III- Ngày giao nhiệm vụ: 03/4/2015 IV- Ngày hoàn thành nhiệm vụ: 17/9/2015 V- Cán hƣớng dẫn: TS Tô Hoài Việt CÁN BỘ HƢỚNG DẪN TS Tô Hoài Việt KHOA CÔNG NGHỆ THÔNG TIN i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thông tin trích dẫn Luận văn Học viên thực Luận văn Đặng Công Quốc ii LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Tô Hoài Việt – Trƣờng Đại học Sài Gòn, PGS.TSKH Nguyễn Xuân Huy – Viện Hàn lâm KHCN Việt Nam, TS Võ Đình Bảy – Trƣờng Đại học Công nghệ TP Hồ Chí Minh, TS Lƣ Nhật Vinh – Trƣờng Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh, PGS.TS Lê Hoài Bắc – Trƣờng Đại học Khoa học Tự nhiên TP Hố Chí Minh, TS Nguyễn Quốc Huy – Trƣờng Đại học Sài Gòn, ngƣời thầy bảo hƣớng dẫn tận tình cho suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích trình học tập nghiên cứu thầy cô giáo, cán quản lý Trƣờng Đại học Công nghệ TP Hồ Chí Minh Và cuối cùng, xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè ngƣời bên lúc khó khăn nhất, động viên tôi, khuyến khích sống công việc Tôi xin chân thành cảm ơn! Tp Hồ Chí Minh, ngày 26 tháng 10 năm 2015 Tác giả Đặng Công Quốc iii TÓM TẮT Phân tích hành vi mua sắm khách hàng toán lĩnh vực kinh doanh nhƣ nghiên cứu marketing Vì vậy, việc thực hệ thống có tên gọi Hệ phân tích hành vi khách hàng để hỗ trợ cho nhà buôn bán lẻ tận dụng khai thác khối lƣợng liệu giao dịch khổng lồ từ cửa hàng họ điều cần thiết Hệ thống gồm nhiều mô đun nhiều giai đoạn để thực hiện, tất mô đun giai đoạn thực khó phức tạp Nhƣng cốt lõi hết việc xử lý liệu lớn hiệu Vì vậy, tác giả ƣu tiên tập trung nghiên cứu thuật toán tìm tập mặt hàng mang lại lợi ích cho cửa hàng Việc nghiên cứu bƣớc đầu có số kết nhƣ sau: - Xác định mã nguồn cấu trúc liệu thuật toán cài đặt SPMF nhƣ mô tả báo công bố để xác định độ tin cậy công cụ SPMF - Xác định đƣợc thuật toán Two-Phase SPMF cài đặt không với báo ban đầu (cài đặt theo WIT-TREE, sử dụng Tidset) - Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng Two-Phase có dùng thêm tính chất Diffset Zaki) - Thực nghiệm lại tất thực nghiệm đƣợc thực công trình công bố để xác định tính đắn thuật toán Các kết hoàn thành mục tiêu đánh giá khách quan ƣu điểm khuyết điểm thuật toán Đánh giá số thuật toán theo cấu trúc cây, số thuật toán theo utility-list; So sánh hiệu cấu trúc utility-list Kiểm tra tính đắn mã nguồn thuật toán khai thác tập có ích cao công cụ SPMF so với mã giả thuật toán đƣa báo Hiện thực lại thực nghiệm cho thuật toán trình bày báo công bố Qua iv đó, đảm bảo môi trƣờng thực nghiệm hoàn toàn đáng tin cậy để so sánh đánh giá với kết sau có v ABSTRACT Customer behavior analysis is a basis problem in business area as well as marketing research Thus, it is very necessary for setting up a system named Customer Behavior Analysis System to support the retailers in mining the huge transaction data from their stores The system has many modules and many phases which need to implement They are very touch and complexity In these modules, the main core is how to process big data effectively So the thesis focuses on studying algorithms which can find out the high utility itemsets for the stores There are some initial results of research as follows: - To identify whether the source code and data structures of each algorithm in SPMF tool are correct as the description of the proposed papers If it is right, the SPMF is considered as high confident tool to compare the algorithms in many data - We see that the source code of Two-Phase algorithm in SPMF tool is not right one hundred percent as described in the original paper It is implemented as the description of WIT-TREE, an enhancement of TwoPhase - We implemented one more algorithm named Diffset-Two-Phase It is the expanding of Two-Phase which applied the Diffset property - All experiments in proposed papers of HUI mining are implemented again to identify the correctness of algorithms These results help us measure objectively the advantages and disadvantages of novel algorithms Especially, we focus on algorithms using lattice structure and utility-list, and identify the correctness of source code of SPMF is based on the pseudo-code proposed in HUI papers Then, the correctness of experiments in HUI papers is also reviewed by re-running the algorithms with experiment data From vi that, we can claim that experiment environment is confident already to test every new algorithms as well as new data in future if possible 53 Bảng 3.5: Đặc điểm CSDL thử nghiệm Tên CSDL Số giao Số item Độ dài trung dịch Độ dài tối đa bình Chess 3196 16 8 Chess* 3196 30 15 15 Mushroom 8124 89 18 18 Mushroom* 8124 92 19 19 Pumsb 49046 275 20 20 Pumsb* 49046 297 22 22 Connect 67557 48 16 16 Connect* 67557 54 18 18 Accidents 111758 159 17 17 Accidents* 111758 307 20 20 Trên tập liệu chuẩn thƣờng đƣợc dung để so sánh đánh giá tính khách quan hiệu suất cho thuật toán Tập liệu có chỉnh sửa cách xóa bớt item để giảm độ phức tạp Bảng 3.6: Kết thực nghiệm so sánh nhóm (Two-phase, Diffset-Two-Phase) (Hui-Miner, FHM) Thời gian thực (s) Tên CSDL minSup (%) Minutil Số Two- Diffset- Utility phase Two- HuiMiner FHM Phase Chess 0.1 153 4425 1.523 1.500 0.201 0.110 0.2 306 4228 1.459 1.364 0.176 0.106 0.4 611 3863 1.372 1.302 0.162 0.101 0.6 917 3603 1.203 1.200 0.127 0.097 0.8 1223 3345 1.198 1.181 0.098 0.095 54 Chess* Mushroom Mushroom* Pumsb Pumsb* Connect 40 81778 5707 38.916 38.319 1.337 1.286 50 102223 2062 26.004 22.556 0.835 0.810 60 122667 638 19.233 16.707 0.560 0.558 70 143112 168 11.687 10.094 0.382 0.375 80 163556 37 9.691 7.741 0.299 0.280 50 74625 3427 60.419 51.910 0.662 0.617 60 89549 930 38.845 34.233 0.356 0.320 70 104474 144 11.124 10.708 0.192 0.173 80 119399 27 8.948 8.313 0.133 0.126 90 134324 7.376 6.806 0.074 0.067 70 113070 217 32.924 30.574 0.325 0.224 75 121147 86 27.465 23.060 0.202 0.158 80 129223 40 25.486 22.162 0.141 0.126 85 137300 19 21.785 19.035 0.103 0.094 90 145376 19.756 14.305 0.086 0.080 75 377629 145 46.217 37.760 0.364 0.276 80 402804 79 31.222 28.530 0.302 0.225 85 427979 35 25.891 23.004 0.172 0.162 90 453155 15 24.778 21.922 0.122 0.118 95 478330 17.224 16.904 0.97 30 4694 42008 1155.250 1150.537 0.177 0.114 40 6258 10519 235.378 204.293 0.070 0.069 50 7823 3653 62.189 61.107 0.060 0.051 60 9388 1331 26.064 25.441 0.027 0.022 70 10952 420 6.868 6.491 0.013 0.012 40 150717 3660 26.912 24.784 1.339 1.244 50 188397 1582 13.942 13.180 0.746 0.719 60 226076 621 12.956 9.535 0.504 0.461 0.093 55 Connect* Accidents Accidents* 70 263755 220 9.233 6.271 0.355 0.287 80 301434 62 4.488 4.413 0.160 0.156 70 273993 746 30.367 22.463 0.661 0.660 80 313135 190 18.374 17.374 0.395 0.338 85 332706 80 14.662 12.747 0.211 0.210 90 352277 28 10.646 10.326 0.130 0.127 95 371848 9.380 9.051 0.085 0.077 30 15784 18035 125.785 111.675 0.568 0.417 40 21045 5800 35.775 35.728 0.425 0.272 50 26307 1880 21.818 19.261 0.243 0.193 60 31568 583 12.020 10.378 0.155 0.133 70 36829 170 7.577 6.572 0.106 0.095 70 37291 602 101.218 92.359 0.315 0.141 75 39955 313 71.727 39.955 0.166 0.116 80 42618 156 59.059 48.796 0.98 0.077 90 47946 29 29.533 27.733 0.60 0.045 95 50609 22.460 22.104 0.038 0.035 Với thực nghiệm trên, xem khác biệt kết thực nghiệm thông qua đồ thị So sánh nhóm (Two-phase, Diffset-Two-Phase) (Hui-Miner, FHM) 56 Runtime (s) Chess 1.6 1.4 1.2 0.8 0.6 0.4 0.2 Two-Phase Diffset-Two-Phase Hui-Miner FHM 153 306 611 minutil 917 1223 Hình 3.14: Đồ thị minh họa chess Chess * 45 40 Runtime (s) 35 30 25 Two-Phase 20 Diffset-Two-Phase 15 Hui-Miner 10 FHM 81778 102223 122667 143112 163556 minutil Hình 3.15: Đồ thị minh họa cho liệu Chess* 57 Mushroom 70 Runtime (s) 60 50 40 Two-Phase 30 Diffset-Two-Phase 20 Hui-Miner FHM 10 74625 89549 104474 119399 134324 Minutil Hình 3.16: Đồ thị minh họa cho liệu Mushroom Mushroom* 35 30 Runtime (s) 25 20 Two-Phase 15 Diffset-Two-Phase Hui-Miner 10 FHM 113070 121147 129223 137300 145376 Minutil Hình 3.17: Đồ thị minh họa cho liệu Mushroom* 58 Runtime (s) Pumsb 50 45 40 35 30 25 20 15 10 Two-Phase Diffset-Two-Phase Hui-Miner FHM 377629 402804 427979 453155 478330 minutil Hình 3.18: Đồ thị minh họa cho liệu Pumsb Pumsb* 1400 1200 Runtime (s) 1000 800 Two-Phase 600 Diffset-Two-Phase Hui-Miner 400 FHM 200 4694 6258 7823 9388 Minutil 10952 Hình 3.19: Đồ thị minh họa cho liệu Pumsb* 59 Connect 30 Runtime (s) 25 20 Two-Phase 15 Diffset-Two-Phase 10 Hui-Miner FHM 150717 188397 226076 263755 301434 Minutil Hình 3.20: Đồ thị minh họa cho liệu Connect Connect* 35 Runtime (s) 30 25 20 Two-Phase 15 Diffset-Two-Phase Hui-Miner 10 FHM 273993 313135 332706 352277 371848 Minutil Hình 3.21: Đồ thị minh họa cho liệu Connect* 60 Accidents 140 Runtime (s) 120 100 80 Two-Phase 60 Diffset-Two-Phase Hui-Miner 40 FHM 20 15784 21045 26307 31568 Minutil 36829 Hình 3.22: Đồ thị minh họa cho liệu Accidents Accidents* 120 Runtime (s) 100 80 Two-Phase 60 Diffset-Two-Phase Hui-Miner 40 FHM 20 37291 39955 42618 47946 Minutil 50609 Hình 3.23: Đồ thị minh họa cho liệu Accidents* 61 Kết thực nghiệm cho thấy thuật toán Two-Phase có kết chậm nhiều so với thuật toán sử dụng utility-list Trong họ thuật toán Two-Phase thuật toán Diffset-Two-Phase tốt Và họ thuật toán có dung utility-list thuật toán FHM tốt thuật toán HUI-Miner hầu hết trƣờng hợp 62 ẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Phần đề cập lại mục tiêu nghiên cứu luận văn, mô tả kết làm đƣợc làm chƣa đƣợc trình nghiên cứu Những kết phần nhỏ mục tiêu nghiên cứu tổng kết lại hƣớng nghiên cứu tƣơng lai Hình 4.1: Hệ thống phân tích hành vi khách hàng Với vấn đề nghiên cứu đƣợc đặt phần mở đầu, luận văn quan tâm đến xây dựng Hệ thống phân tích hành vi khách hàng để hỗ trợ cho nhà buôn bán lẻ tận dụng khai thác khối lƣợng liệu giao dịch khổng lồ từ hàng họ Hệ thống gồm ba mô đun nhiều giai đoạn để thực nhƣ hình 4.1 - Đầu tiên mô đun thu thập liệu, mô đun thu thập liệu từ nhiều nguồn thực việc tiền xử lý liệu, để liệu cuối có định dạng giống nhƣ định dạng liệu nghiên cứu - Mô đun thứ hai mô đun phân tích thống kê, mô đun chứa tất thuật toán có SPMF, tất nhiên thuật toán đƣợc kiểm tra tính đắn thực tế 63 - Mô đun cuối phần trực quan hóa, biểu diển két khai thác đƣợc thành báo cáo hình ảnh trực quan.tất mô đun giai đoạn thực khó phức tạp Nhƣng cốt lõi hết việc xử lý liệu lớn hiệu Vì vậy, tác giả ƣu tiên tập trung nghiên cứu thuật toán tìm tập mặt hàng mang lại lợi ích cho cửa hàng Giai đoạn giai đoạn chuẩn bị cho việc xây dựng mô đun thứ hai 4.1 ết luận Việc nghiên cứu lâu dài khó khăn, khuôn khổ thời gian thực luận văn, bao gồm trình tìm hiểu đọc tài liệu, chạy thực nghiệm nhƣ kiểm tra tính đắn thuật toán đƣợc cài đặt công cụ SPMF Khu vực nghiên cứu luận văn nằm giới hạn sau: - Tác giả tìm hiểu thuật toán khai thác tập có ích cao liệu tĩnh (dữ liệu biến động) Trong thực tế liệu tĩnh phù hợp phân tích, rút kinh nghiệm quãng thời gian tính tƣơng tác kịp thời Dữ liệu động phù hợp toán cần có tính tƣơng tác cao Với loại liệu có tập thuật toán phù hợp để khai thác - Dữ liệu nghiên cứu đƣợc lấy từ nguồn liệu nghiên cứu chuẩn (chƣa thử nghiệm liệu thực) Những liệu luận văn liệu giả lập, việc dễ nhiều so với thao tác liệu thực tế liệu thực tế phải qua bƣớc tiền xử lý liệu - Việc đánh giá đánh giá dựa tốc độ xử lý liệu thuật toán (chƣa đánh giá tính có ích thực so với ý kiến thực khách hàng) Trong thực tế cần đánh giá độ trùng khớp kết thu đƣợc với tri thức khách hàng, độ trùng khớp cao kết hệ thống có giá trị sử dụng, thông tin bất thƣờng thực thú vị với mong muốn khai thác lệu 64 - Việc xử lý liệu theo hƣớng tập trung (chƣa nghiên cứu hƣớng phân tán) Trong thực tế, liệu đƣợc lấy từ nhiều nguồn – nhiều chi nhánh khác nhau, đƣợc lƣu trữ nhiều nơi khác Quá trình nghiên cứu có kết bƣớc đầu quan trọng mục tiêu xây dựng hệ thống thực tế, kết bƣớc đầu đƣợc xem nhƣ đóng góp luận văn: - Xác định mã nguồn cấu trúc liệu thuật toán cài đặt SPMF có nhƣ mô tả báo công bố để xác định độ tin cậy công cụ SPMF Tác giả đọc mã nguồn so sánh với mã giả báo liên quan thuật toán nhận thấy việc cài đặt công cụ SPMF hoàn toàn chuẩn mực đáng tin cậy - Xác định đƣợc thuật toán Two-Phase SPMF cài đặt không với báo ban đầu (thuật toán Two-Phase SPMF cài đặt theo thuật toán cài tiến TWU-Mining []) - Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng TWU-Mining có dùng thêm tính chất Diffset Zaki), thuật toán Diffset-Two-Phase thuật toán tốt họ Two-Phase, kết đƣợc thể qua thực nghiệm Cần có đề nghị bổ sung thuật toán vào SPMF thay cho thật toán TwoPhase hành - Hiện thực lại tất thực nghiệm đƣợc thực công trình công bố để xác định tính đắn thuật toán Các kết thực nghiệm tác giả công bố hoàn toàn khớp với kết thực nghiệm 4.2 Hƣớng phát triển Liên quan đến lĩnh vực nghiên cứu luận văn Để thực hóa Hệ thống phân tích hành vi khách hàng cần phải nghiên cứu thêm vấn đề sau: - Tập thuật toán khai thác tập có ích cao liệu động; - Làm thực nghiệm toàn thuật toán liệu thực tế; 65 - Nghiên cứu đánh giá độ tƣơng quan kết đạt đƣợc so với ý kiến ngƣời bán hàng lâu năm; - Nghiên cứu thuật toán khai thác tập có ích cao sở liệu phân tán Hình 4.2: Minh họa thành phần SSAS – SSIS – SSRS BIDS Trong thực tế, vấn đề luận văn quan tâm lĩnh vực BI (Business Intelligence) phổ biến, hãng Microsoft hỗ trợ framework để làm việc lĩnh vực BI BIDS (Business Intelligence Development Studio) gồm có thành phần SSAS, SSIS, SSRS ứng với mô đun hình 4.1 Việc nghiên cứu luận văn để nhằm hiểu đƣợc vấn đề cốt lõi framework BIDS để từ tự điều chỉnh xác phƣơng thức đƣợc xây dựng sẵn kế thừa hiệu công nghệ có sẵn 66 TÀI LIỆU THAM HẢO Lê Hoài Bắc (2014) Bài gi ng môn h c Khai thác liệu Lê Hoài Bắc, Võ Đình Bảy (2007) „Thuật toán tìm nhanh Minimal Generator tập phổ biến ón ’ Tạp chí phát triển KH & CN, số 12, P 11-19 Đỗ Phúc (2012) Khai thác liệu NXB Đại học Quốc Gia TP Hồ Chí Minh Lê Văn Phùng, Quách Xuân Trƣờng (2012) Khai phá liệu NXB Thông tin Truyền thông Nguyễn Thanh Tùng (2007) „Khám phá tập item lợ í o on liệu’ Tạp chí Tin học Điều khiển học, T.23, S.4, P 364-373 Bac Le, Huy Nguyen, Bay Vo (2011) „An efficient strategy for mining high utility itemsets’ International Journal of Intelligent Information and Database Systems, Volume Issue 2, P 164-176 Mohammed J Zaki, Wagner Meira JR (2014) Data Mining and Analysis, Fundamental Concepts and Algorithms Cambridge University press Jiawei Han, Micheline Kamber, Jian Pei (2006) Data Mining - Concepts and Techniques 3rd ed , Morgan Kaufmann Publishers Hong Yao, Howard J Hamilton, Liqiang Geng (2006) „A Unified Framework for Utility Based Measures for Mining Itemsets’ Second Internatinal Workshop on Utility-Based Data Mining, Philadelphia, Pennsylvania, USA, P 28-37 10 Hong Yao, Howard J Hamilton (2006) „Mining Itemsets Utilities from Transaction Databases’ Data and Knowledge Engeneering, Volume 59, Issue 3, December, P 603-626 11 Hong Yao, Howard J Hamilton, and Cory J Butz (2004) „A foundational Approach to Mining Itemset Utilities from Databases’ Proceedings of the Fourth SIAM International Conference on Data Mining, Orlando, Frorida, USA, P 482-486 67 12 Ying Liu, Wei-Keng Liao, and Alok Choudhary (2005) „A Two-Phase Algorithm for Fast Discovery of High utility Itemsets’ In: Proceeding of the 9th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining, P 689-695 13 Mengchi Liu, Junfeng Qu (2012) „Mining High Utility Itemsets without Candidate generation’ Proceedings of the 21st ACM international conference on Information and Knowledge management, P 55-64 14 Philippe Fournier-Viger, Cheng-Wei wu, Souleymane Zida, Vincent S.Tseng (2014) „Faster High-Utility Itemsets Mining Using Estimated Utility Cooccurrence Pruning’ Volume 8502 of the series Lecture Notes in Computer, P 83-92 [...]... 2.1 Các định nghĩa 16 2.2 Các kỹ thuật liên quan 20 2.3 Khuôn mẫu chung để khai thác itemset có ích 29 CHƢƠNG 3: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO 34 viii 3.1 Bài toán ban đầu 34 3.2 Các thuật toán theo cấu trúc dàn 35 3.2.3 Thuật toán Two-Phase 37 3.2.4 Cấu trúc cây IT-tree và các lớp tƣơng đƣơng 40 3.2.5 Thuật toán Diffset-Two-Phase 43 3.3 Các thuật toán theo cấu trúc dàn kết... các phƣơng pháp làm thực nghiệm và phân tích thực nghiệm của các tác giả đề xuất thuật toán Đánh giá thực nghiệm một số thuật toán khai thác tập mục lợi ích cao  Mục tiêu cụ thể: Đƣa ra các bƣớc thực nghiệm và các ràng buộc cần thiết để đánh giá khách quan ƣu điểm và khuyết điểm của các thuật toán mới Đánh giá một số thuật toán theo cấu trúc cây, một số thuật toán theo utility-list; So sánh hiệu quả... vào 2 hƣớng chính nhƣ sau:  Thực hiện lại thực nghiệm của các thuật toán khai thác tập hữu ích cao nhằm xác minh lại các kết luận quan trọng của các tác giả  So sánh, đối chiếu và tìm ra các đặc trƣng quan trọng của các tập thử cho từng họ thuật toán cụ thể  So sánh tính hiệu quả giữa cấu trúc cây và utility-list về khai thác tập mục lợi ích cao 4 CHƢƠNG 1 TỔNG QUAN 1.1 Giới thiệu Trong thực tế, một... nguồn các thuật toán khai thác tập có ích cao trong công cụ SPMF so với mã giả của các thuật toán đƣa ra trong các bài báo Hiện thực lại các thực nghiệm cho từng thuật toán đã trình bày trong các bài báo đã công bố Qua đó, đảm bảo môi trƣờng thực nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả mới sau này nếu có 4 Đối tƣợng và phạm vi nghiên cứu 4.1 Đối tƣợng nghiên cứu:  Các thuật. .. thuộc vào giá của các item trong itemset đó Do vậy nên cần phải phát triển hƣớng khai thác itemset dựa trên độ có ích, hƣớng này cho phép ngƣời dùng diển tả các giá trị có ích và tìm ra các itemset có giá trị có ích cao hơn ngƣỡng Khi khai thác các itemset dựa trên độ có ích, độ có ích định lƣợng sự quan tâm ngƣời dùng, và tính hữu dụng của các itemset đƣợc định lƣợng dƣới dạng giá trị độ có ích của... ra một nhóm các itemset mà không do các kỹ thuật khai thác tập phổ biến cũng không do kỹ thuật khai thác dựa trên ràng buộc khả chuyển đã tồn tại có thể tìm thấy Hƣớng khai thác các itemset dựa trên độ có ích cho việc tìm kiếm các itemset quan trọng trong nhiều ứng dụng, bao gồm khai thác web và tìm kiếm thông tin (IR) Ví dụ bảng 1.1 có thể đƣợc quan tâm khi mô tả tập các trang web để khai thác web,... nổi, tập trung vào cách nào để ứng dụng Thách thức trong khai thác độ có ích là giới hạn về kích thƣớc của tập ứng viên và đơn giản việc tính toán để tính độ có ích 1.2 Tổng quan về khai thác dữ liệu 1.2.1 Khai thác dữ liệu [1, 2, 3, 7] Khai thác dữ liệu – Data Mining (KTDL) là một quá trình trích xuất tri thức từ lƣợng lớn dữ liệu KTDL đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu... phải phát triển các chiến lƣợc tỉa cành hiệu quả cho các ràng buộc độ có ích Luận văn đề cập các thuật toán hiệu quả để quản lý các ràng buộc độ có ích, một loại ràng buộc không khả chuyển có thể diển tả các mức độ quan trọng ngữ 14 nghĩa mà không bị các lý thuyết đã có và các kỹ thuật trong khai thác các itemset ràng buộc Chính xác là đƣa ra một hƣớng khai thác các itemset dựa trên độ có ích, cho phép... độ có ích Cần có thuật toán chiến lƣợc tỉa mới để khai thác các itemset dựa trên độ có ích bằng cách kết hợp với các chiến lƣợc tỉa đã có 10 Mục ích khai thác tập phổ biến là tìm ra tất cả tập phổ biến, các itemset phải có ít nhất độ hỗ trợ tối thiểu nhất định, đó là phần trăm các giao tác chứa itemset Khi sử dụng độ hỗ trợ thì chỉ có những itemset tần suất cao mới hấp dẩn đƣợc ngƣời dùng Tập phổ... thiết cho các giai đoạn sau  Bƣớc 4: Biến đổi dữ liệu Mục ích của giai đoạn biến đổi là chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khai thác dữ liệu  Bƣớc 5: Khai thác dữ liệu KTDL là tiến trình “điều chỉnh đúng” các mô hình dữ liệu Áp dụng các kỹ thuật khai thác dữ liệu nhằm trích lọc những mẫu tin, những mối liên hệ đặc biệt trong dữ liệu  Bƣớc 6: Đánh giá và biểu ... MSHV : 1341860050 I- Tên đề tài: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO II- Nhiệm vụ nội dung: Nghiên cứu thuật toán khai thác tập mục lợi ích cao, tập trung tìm hiểu vào phƣơng pháp... itemset có ích 29 CHƢƠNG 3: ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO 34 viii 3.1 Bài toán ban đầu 34 3.2 Các thuật toán theo cấu trúc dàn 35 3.2.3 Thuật toán Two-Phase 37 3.2.4 Cấu... có ích cách dùng tính chất toán học đƣợc xác định Ngƣợc lại, kết hợp tính chất vào thuật toán đƣợc sử dụng cho phép đo độ có ích 34 CHƢƠNG ĐÁNH GIÁ CÁC THUẬT TOÁN KHAI THÁC TẬP MỤC LỢI ÍCH CAO

Ngày đăng: 09/12/2015, 23:58

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan