Một số phương pháp khai phá dữ liệu sinh luật kết hợp

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĨNH HOÀNG MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SINH LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Hà Nội - 2007 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 1 Mục lục Lời cảm ơn 6 MỞ ĐẦU 7 1. Chương 1: Tổng quan về khai phá dữ liệu (KPDL) 9 1.1. Khái niệm 9 1.2. Các hướng tiếp cận chính trong KPDL 10 1.3. Một số phương pháp KPDL phổ biến 10 1.3.1. Phương pháp suy diễn và quy nạp 10 1.3.2. Cây quyết định và luật 10 1.3.3. Phát hiện các luật kết hợp 11 1.3.4. Phân nhóm và phân đoạn 11 1.3.5. Mạng Neural 12 1.3.6. Giải thuật di truyền 12 1.4. Lựa chọn các kỹ thuật khai phá 13 1.5. Các dạng CSDL thường được sử dụng để KPDL 14 1.6. Một số ứng dụng của KPDL 14 2. Chương 2: Một số vấn đề cơ bản về Luật kết hợp 16 2.1. Định nghĩa luật kết hợp 16 2.1.1. Ví dụ về luật kết hợp 16 2.1.2. Các định nghĩa và tính chất 16 2.1.2.1. Các định nghĩa cơ bản 16 2.1.2.2. Một số tính chất của tập mục phổ biến 19 2.1.2.3. Một số tính chất của luật kết hợp 19 2.2. Các loại luật kết hợp và hướng tiếp cận 20 2.2.1. Luật kết hợp nhị phân 20 2.2.2. Luật kết hợp định lượng 20 2.2.2.1. Giới thiệu 20 2.2.2.2. Khai phá luật kết hợp định lượng 20 2.2.3. Luật kết hợp đơn chiều 22 2.2.4. Luật kết hợp đa chiều 22 2.2.5. Luật kết hợp đa mức 22 2.2.5.1. Giới thiệu 22 2.2.5.2. Khai phá luật kết hợp đa mức 24 2.2.6. Luật kết hợp với thuộc tính có trọng số 27 2.2.7. Luật kết hợp mờ 27 2.2.8. Luật kết hợp đóng 27 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 2 3. Chương 3: Một số phương pháp KPDL sinh luật kết hợp 29 3.1. Thuật toán Apriori 29 3.1.1. Giới thiệu 29 3.1.2. Thuật toán 33 3.1.3. Nâng cao hiệu quả của thuật toán Apriori 35 3.1.3.1. Sử dụng kỹ thuật băm 35 3.1.3.2. Rút gọn số giao dịch sau mỗi lần quét CSDL 37 3.1.3.3. Phân hoạch (Partitioning) 37 3.1.3.4. Lấy mẫu (Sampling) 38 3.1.4. Sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.1. Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến 39 3.1.4.2. Thuật toán nhanh hơn sinh luật kết hợp từ tập mục phổ biến 40 3.2. Thuật toán FP-Growth 42 3.2.1. Giới thiệu 42 3.2.2. Thuật toán 47 3.2.3. Tổng kết 49 3.3. Thuật toán Charm 50 3.3.1. Giới thiệu 50 3.3.1.1. Một số khái niệm 50 3.3.1.2. Toán tử đóng và tập đóng 52 3.3.1.3. Cây tìm kiếm “tập mục – tập định danh” và Lớp tương đương 53 3.3.2. Thuật toán 56 3.3.3. Sinh luật kết hợp từ tập mục đóng phổ biến 59 3.3.4. Tổng kết 60 3.4. Thuật toán Closet 63 3.4.1. Giới thiệu 63 3.4.2. Thuật toán 67 3.4.3. Tổng kết 68 4. Chương 4: Xây dựng ứng dụng minh hoạ 70 4.1. Giới thiệu 70 4.2. Phân tích và Thiết kế hệ thống 71 4.3. Cài đặt và Đánh giá 79 KẾT LUẬN 80 Danh sách tài liệu tham khảo tiếng Việt 82 Danh sách tài liệu tham khảo tiếng Anh 82 Danh sách WebSites tham khảo 83 Phụ lục (Mã nguồn chương trình) 83 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 5 Ký hiệu và Từ viết tắt Stt Ký hiệu viết tắt Nghĩa tiếng Việt Nghĩa tiếng Anh 1 CSDL Cơ sở dữ liệu Database 2 HQTCSDL Hệ quản trị cơ sở dữ liệu Database Management System 3 KPDL Khai phá dữ liệu Data Mining 4 KDD Khai phá tri thức Knowledge Discovery in Database 5 đpcm Điều phải chứng minh Một số phương pháp khai phá dữ liệu sinh luật kết hợp 3 Danh sách các bảng trong luận văn Bảng 2.1: Ví dụ một CSDL giao dịch. 17 Bảng 2.2: Ví dụ về các tập mục phổ biến. 17 Bảng 2.3: Các luật kết hợp được sinh từ tập mục phổ biến ACW 19 Bảng 2.4: Dữ liệu điều tra dân số. 21 Bảng 2.5: Danh sách thuộc tính sau khi rời rạc hoá. 22 Bảng 2.6: Ví dụ CSDL giao dịch bán hàng. 23 Bảng 3.1: Ký hiệu mô tả trong thuật toán Apriori. 30 Bảng 3.2: Cơ sở dữ liệu minh hoạ thuật toán Apriori. 31 Bảng 3.3: Thuật toán Apriori. 34 Bảng 3.4: Thủ tục Apriori_Gen. 34 Bảng 3.5: Thủ tục Has_Infrequent_Subset. 35 Bảng 3.6: Thủ tục tính tích luỹ độ hỗ trợ của các ứng cử là tập con của giao dịch t. 37 Bảng 3.7: Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến. 40 Bảng 3.8: Thủ tục GenRules. 40 Bảng 3.9: Thuật toán nhanh hơn sinh luật kết hợp từ tập mục phổ biến. 40 Bảng 3.10: Thủ tục Ap_GenRules. 41 Bảng 3.11: Cơ sở dữ liệu minh hoạ thuật toán FP-Growth. 43 Bảng 3.12: Mô tả cây FP-tree. 43 Bảng 3.13: Kết quả khai phá dữ liệu bởi thuật toán FP-Growth. 46 Bảng 3.14: Thủ tục thêm 1 tập mục vào FP-tree. 47 Bảng 3.15: Thủ tục tạo cây FP-tree T từ CSDL D. 47 Bảng 3.16: Thủ tục tạo CSDL phụ thuộc mẫu từ cây T. 48 Bảng 3.17: Thủ tục FP_Growth. 48 Bảng 3.18: Cơ sở dữ liệu minh hoạ thuật toán Charm. 51 Bảng 3.19: Mô tả cây IT-tree. 54 Bảng 3.20: Thuật toán Charm. 56 Bảng 3.21: Thủ tục Charm_Extend. 57 Bảng 3.22: Thủ tục Charm_Property. 57 Bảng 3.23: Thủ tục Subsumption_Check. 58 Bảng 3.24: Thủ tục GenAllClosedRules. 60 Bảng 3.25: Cơ sở dữ liệu minh hoạ thuật toán Closet. 63 Bảng 3.26: Thủ tục ClosetMining. 67 Bảng 3.27: Thủ tục Closet. 67 Bảng 4.1: Cấu trúc file dữ liệu RawDataFile. 70 Bảng 4.2: Cấu trúc file dữ liệu StandardData. 72 Bảng 4.3: Cấu trúc file ItemMap. 73 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 4 Bảng 4.4: Cấu trúc file DirectData. 73 Bảng 4.5: Cấu trúc file DirectItemsets. 73 Bảng 4.6: Cấu trúc file StandardItemsets. 73 Bảng 4.7: Cấu trúc file DirectRules. 74 Bảng 4.8: Cấu trúc file StandardRules. 74 Bảng 4.9: Cấu trúc file ActualRules. 74 Bảng 4.10: Cấu trúc file CompareInfo. 75 Danh sách các hình vẽ trong luận văn Hình 1.1: Các bước trong quá trình KDD. 9 Hình 2.1: Sự phân cấp mức độ trừu tượng của dữ liệu. 23 Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống nhau tại các mức. 24 Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần. 25 Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc. 25 Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục. 26 Hình 3.1: Minh hoạ thuật toán Apriori. 32 Hình 3.2: Minh hoạ cây băm (Hash tree). 36 Hình 3.3: Sơ đồ khai phá bằng phân hoạch dữ liệu. 38 Hình 3.4: Minh hoạ xây dựng cây FP-tree. 45 Hình 3.5: So sánh FP-Growth và Apriori. 49 Hình 3.6: Cây IT-tree (Itemset-Tidset Search Tree). 54 Hình 3.7: Minh hoạ thuật toán Charm. 58 Hình 3.8: So sánh Charm với Apriori, Close, Pascal, Mafia và Closet. 61 Hình 3.9: Minh hoạ thuật toán Closet. 64 Hình 3.10: So sánh Closet với A-Close và Charm. 68 Hình 4.1: Mô hình quan hệ CSDL đơn hàng thực tế. 70 Hình 4.2: Sơ đồ luồng dữ liệu trường hợp dùng thuật toán cụ thể. 71 Hình 4.3: Sơ đồ luồng dữ liệu trường hợp so sánh các thuật toán. 72 Hình 4.4: Màn hình nhập liệu dạng Text. 76 Hình 4.5: Màn hình nhập liệu dạng Grid (Visual). 76 Hình 4.6: Màn hình tiến trình thực hiện khai phá dữ liệu. 77 Hình 4.7: Màn hình tiến trình so sánh các giải thuật. 77 Hình 4.8: Màn hình kết quả khai phá dữ liệu dạng Text. 78 Hình 4.9: Màn hình kết quả khai phá dữ liệu dạng Grid (Visual). 78 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 7 MỞ ĐẦU Ngày nay với một Hệ quản trị cơ sở dữ liệu (HQTCSDL) mạnh, các doanh nghiệp có thể dễ dàng tổ chức, lưu trữ hàng triệu hồ sơ khách hàng, hợp đồng, số liệu kinh doanh, công văn, chứng từ, tài liệu, cũng như khai thác chúng một cách có hiệu quả. Có thể nói rằng với ngôn ngữ truy vấn SQL, các HQTCSDL ngày nay có thể đáp ứng được khoảng 80% nhu cầu khai thác thông tin của con người. Tuy nhiên, chỉ có một chuyên viên phân tích thị trường đầy kinh nghiệm mới có thể đưa ra được những kết luận đại loại như: “Khách hàng ở độ tuổi 18-22 khi mua hoa và quà lưu niệm thường mua thêm thiệp” hay “Khi giá dầu thô tăng đột biến thì chỉ số chứng khoán giảm”. Vấn đề đặt ra là liệu máy tính có thể tự phát hiện ra được các kết luận như thế sau khi phân tích một khối lượng lớn dữ liệu hay không?. Câu trả lời là hoàn toàn có thể. Trong một vài thập niên gần đây, Khai phá dữ liệu (KPDL) đã trở thành một trong những hướng nghiên cứu chính trong lĩnh vực khoa học máy tính và công nghệ tri thức. Trong quá trình phát triển đó với hàng loạt nghiên cứu, đề xuất được thử nghiệm và ứng dụng thành công vào đời sống, đã chứng tỏ rằng KPDL là một lĩnh vực nghiên cứu ổn định, có nền tảng lý thuyết vững chắc. KPDL bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu (CSDL), máy học (Machine Learning), trí tuệ nhân tạo (AI – Artificial Intelligence), lý thuyết thông tin, xác xuất thống kê và tính toán hiệu năng cao (High performance computing). Các bài toàn chủ yếu trong KPDL là khai phá luật kết hợp (Association rules mining), phân lớp/dự đoán (Classification/Prediction), phân cụm (Clustering), khai phá chuỗi (Sequence mining), …. Lĩnh vực này là điểm hội tụ và giao thoa của nhiều lĩnh vực khác nhau. KPDL đã và đang được ứng dụng thành công trong thương mại, tài chính & thị trường chứng khoán, sinh học, y học, giáo dục, viễn thông, …. Khai phá luật kết hợp là một nội dung quan trọng trong KPDL được đề xuất lần đầu tiên năm 1993 thậm chí có chuyên gia đã khẳng định Phát hiện luật kết hợp là mục tiêu cơ bản của lĩnh vực khai phá dữ liệu [002]. Vì đây là một lĩnh vực nghiên cứu có nhiều triển vọng, nên tôi đã chọn Một số phương pháp khai phá dữ liệu sinh luật kết hợp làm đề tài cho luận văn của mình. Luận văn được xây dựng dựa trên nền của một số nghiên cứu chính yếu trong lĩnh vực khai phá luật kết hợp trong những năm gần đây. Một số phương pháp khai phá dữ liệu sinh luật kết hợp 8 Luận văn được tổ chức thành 4 chương: Chương 1: Tổng quan về Khai phá dữ liệu Trình bày những nét khái quát nhất về KPDL, các hướng tiếp cận, phương pháp và các ứng dụng. Chương 2: Một số vấn đề cơ bản về Luật kết hợp Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, các hướng tiếp cận và các vấn đề liên quan. Chương 3: Một số phương pháp khai phá dữ liệu sinh luật kết hợp Trình bày các phương pháp, giải thuật cơ bản khai phá luật kết hợp từ dữ liệu như Apriori, FP-Growth, Charm và Closet. Chương 4: Xây dựng ứng dụng minh hoạ Triển khai các giải thuật khai phá luật kết hợp trình bày trong Chương 3 và áp dụng vào CSDL đơn hàng thực tế và so sánh chúng với nhau. Một số phương pháp khai phá dữ liệu sinh luật kết hợp 9 1. Chương 1: Tổng quan về khai phá dữ liệu (KPDL) 1.1. Khái niệm KPDL (Data Mining) là quá trình tìm kiếm, phát hiện các tri thức tiềm ẩn và hữu dụng trong CDSL nhất định. Trong đó tri thức được ngầm hiểu là các thông tin mang tính chất quy luật và hữu ích đối với người sử dụng. KPDL là bước quan trọng nhất trong quá trình Khai phá tri thức (KDD – Knowledge Discovery in Database) - gồm 5 bước như sau [006]: + Thu thập dữ liệu (Data colection): là bước thu thập, trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (Databases, Data marts, Data warehouses, Data repositories) ban đầu theo một số tiêu chí nhất định. + Tiền xử lý dữ liệu (Data preprocessing): là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, …), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, …), rời rạc hoá dữ liệu (rời rạc hoá dựa vào histograms, entropy, phân khoảng, …). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. + Biến đổi dữ liệu (Data Transformation): đây là bước chuẩn hoá và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. + KPDL (Data mining): đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của máy học) nhằm để khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng nhất và tốn nhiều thời gian nhất của toàn quá trình KDD. + Đánh giá và biểu diễn tri thức (Knowledge presentation and evaluation): chuyển hoặc biểu diễn những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên về một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, …. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Hình 1.1: Các bước trong quá trình KDD. Dữ liệu thô Trích chọn DL Tiền xử lý DL Đánh giá và Biểu diễn TT Biến đổi DL Khai phá DL Tri thức Một số phương pháp khai phá dữ liệu sinh luật kết hợp 10 1.2. Các hướng tiếp cận chính trong KPDL Các hướng tiếp cận trong KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau, dưới đây là một số hướng tiếp cận chính: + Phân lớp và Dự đoán (Classification and Prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân theo dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (Decision tree), mạng nơron nhân tạo (Neural network), …. Phân lớp và dự đoán còn được gọi là học có giám sát (Supervised learning). + Khai phá luật kết hợp (Association rules mining): khai phá các tri thức dạng luật kết hợp. Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm đậu phộng”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, … + Phân tích chuỗi theo thời gian (Sequential/Temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Phương pháp này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. + Phân cụm (Clustering/Segmentation): xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không giám sát (Unsupervised learning). + Mô tả khái niệm (Concept description and summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. 1.3. Một số phương pháp KPDL phổ biến 1.3.1. Phương pháp suy diễn và quy nạp + Phương pháp suy diễn: Rút ra thông tin là kết quả logic từ các thông tin nằm trong CSDL dựa trên các quan hệ trong dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết suất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. + Phương pháp quy nạp: Các thông tin được suy ra từ CSDL bằng cách nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức đã biết trước. 1.3.2. Cây quyết định và luật + Cây quyết định: Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút trong của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc tính của đối tượng tới lá. [...]... hiện sinh luật trên những tập mục này là đủ Những thuật toán tương ứng với cách tiếp cận Một số phương pháp khai phá dữ liệu sinh luật kết hợp 28 này như Charm, Closet cải thiện đáng kể về mặt tốc độ so với thuật toán kinh điển trước đó như Apriori hay FP-Growth Chi tiết về luật kết hợp đóng và các giải thuật tương ứng sẽ được trình bày cụ thể trong Chương 3 Một số phương pháp khai phá dữ liệu sinh luật. .. chứng khoán + Bảo hiểm (insurance), Giáo dục (education), … Một số phương pháp khai phá dữ liệu sinh luật kết hợp 16 2 Chương 2: Một số vấn đề cơ bản về Luật kết hợp Khai phá dữ liệu sinh luật kết hợp là một hướng tiếp cận quan trọng trong KPDL nói chung (thậm chí có những chuyên gia đánh giá là hướng tiếp cận quan trọng nhất), nó được ra đời và phát triển mạnh mẽ trong những năm gần đây Lần đầu tiên nó... thấy “lạc rang” là một trường hợp cụ thể của “lạc” hay nói ngược lại “lạc” có mức trừu tượng cao hơn “lạc rang”, do đó (R1) có mức độ trừu tượng cao hơn (R2) Một số phương pháp khai phá dữ liệu sinh luật kết hợp 23 Trong thực tế khó có thể tìm được luật kết hợp mạnh trong các mục dữ liệu ở mức trừu tượng gốc, bởi tính thưa thớt của dữ liệu trong không gian đa chiều Khai phá các luật kết hợp mạnh ở mức... Hay nói cách khác vấn đề khai phá luật kết hợp nhị phân có một số hạn chế khi ta không chỉ cần quan tâm đến sự có mặt hoặc không có mặt của một thuộc tính nào đó Đối với các thuộc tính định lượng (quantitative) chúng ta cần phải làm trơn các điểm biên gãy và phương pháp khai phá luật kết hợp mờ đã đem lại hiệu quả đáng kể Khai phá luật kết hợp mờ là phát hiện các luật kết hợp sử dụng khái niệm tập... tập mục phổ biến Một số phương pháp khai phá dữ liệu sinh luật kết hợp 18 + Luật kết hợp (Association Rule): Luật kết hợp có dạng: r: X => Y (s, c), với X, Y là các tập mục thoả mãn điều kiện XY = Ø, X là tiền đề, Y là kết quả của luật, s là độ hỗ trợ (Support), c là độ tin cậy (Confidence) của luật trong đó: + s(r) = s(X => Y) = s(X  Y) + c(r) = c(X => Y) = s(X  Y) / s(X) + Luật kết hợp mạnh (Strong... biến thì luật kết hợp được sinh từ X có dạng r: X\Y => Y, với Y  X, Y  Ø và c(r)  minconf Ví dụ: Xét tập mục ACW trong Bảng 2.2 có độ hỗ trợ s = 67% và với minconf = 70% thì ta có thể sinh các luật kết hợp sau đây: Luật kết hợp A 100% CW   Thoả mãn minconf  70% Có C 67% AW   W 80% AC   AC 100% W   AW 100% C   Không Có Có Có Một số phương pháp khai phá dữ liệu sinh luật kết hợp 19... là kỹ thuật phân hoạch tối ưu Một số phương pháp khai phá dữ liệu sinh luật kết hợp 12 Một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa dữ liệu có chung những tính chất... hay chính xác là dạng mẫu của hình thành tri thức Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Một đầu ra của giải thuật khai phá dữ liệu là tập các luật kết hợp tìm được Cho một lược đồ R = {A1, A2, …, Ap} với các thuộc tính có miền giá trị {0, 1} và một quan hệ r trên R Cho W  R, đặt s(W, r) là tần số xuất hiện của W trong r được tính bằng tỉ lệ... IBM” hoặc “Phần mềm Lotus”, chúng chỉ xuất hiện rất ít trên tổng số các giao dịch, vì thế khó có thể tìm được các luật kết hợp có chứa chúng Các luật được sinh ra từ khai phá luật kết hợp đa mức với khái niệm phân cấp được gọi là luật kết hợp đa mức (vì chúng đề cập đến hơn một mức khái niệm) 2.2.5.2 Khai phá luật kết hợp đa mức Có một số hướng tiếp cận dựa trên khung làm việc độ hỗ trợ và độ tin cậy... 72%] Nếu cả hai luật được tìm thấy thì luật (R2) sẽ ít có ý nghĩa, bởi luật (R2) có tính trừu tượng thấp, nhưng lại không đưa ra được thông tin mới Do đó nó dễ bị loại Luật (R1) có thể thu được từ luật (R2) nếu thế “Máy tính để bàn” cho “Máy tính để bàn IBM” trong khái niệm phân cấp Một số phương pháp khai phá dữ liệu sinh luật kết hợp 27 2.2.6 Luật kết hợp với thuộc tính có trọng số // Association . (education), …. Một số phương pháp khai phá dữ liệu sinh luật kết hợp 16 2. Chương 2: Một số vấn đề cơ bản về Luật kết hợp Khai phá dữ liệu sinh luật kết hợp là một hướng tiếp cận quan. 2.2.7. Luật kết hợp mờ 27 2.2.8. Luật kết hợp đóng 27 Một số phương pháp khai phá dữ liệu sinh luật kết hợp 2 3. Chương 3: Một số phương pháp KPDL sinh luật kết hợp 29 3.1. Thuật toán Apriori. về Luật kết hợp, các hướng tiếp cận và các vấn đề liên quan. Chương 3: Một số phương pháp khai phá dữ liệu sinh luật kết hợp Trình bày các phương pháp, giải thuật cơ bản khai phá luật kết hợp

Một số phương pháp khai phá dữ liệu sinh luật kết hợp

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Mục lục

Ký hiệu và Từ viết tắt

Danh sách các bảng trong luận văn

MỞ ĐẦU

1. Chương 1: Tổng quan về khai phá dữ liệu (KPDL)

1.1. Khái niệm

1.2. Các hướng tiếp cận chính trong KPDL

1.3. Một số phương pháp KPDL phổ biến

1.3.1. Phương pháp suy diễn và quy nạp

1.3.2. Cây quyết định và luật

1.3.3. Phát hiện các luật kết hợp

1.3.4. Phân nhóm và phân đoạn

1.3.5. Mạng Neural

1.3.6. Giải thuật di truyền

1.4. Lựa chọn các kỹ thuật khai phá

1.5. Các dạng CSDL thường được sử dụng để KPDL

1.6. Một số ứng dụng của KPDL

2. Chương 2: Một số vấn đề cơ bản về Luật kết hợp

2.1. Định nghĩa luật kết hợp

2.1.1. Ví dụ về luật kết hợp

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan