TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

Thông tin tài liệu

Tiểu luận môn cơ sở toán ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC TIỂU LUẬN MÔN HỌC TIỂU LUẬN MÔN HỌC CƠ SỞ TOÁN CƠ SỞ TOÁN Đề tài Đề tài : : TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU HỌC VIÊN THỰC HIỆN: 1. Võ Thanh Minh 2. Nguyễn Quang 3. Hồ Văn Lâm 4. Phạm Vinh 5. Trần Thị Quế Vy LỚP: CAO HỌC KHOA HỌC MÁY TÍNH KHOÁ HỌC: 2009 – 2011 Huế, tháng 01 – 2010 Nhóm 2 1 Tiểu luận môn cơ sở toán Nhóm 2 2 Tiểu luận môn cơ sở toán MỤC LỤC Nội dung Trang .3 PHẦN MỞ ĐẦU .4 NỘI DUNG 5 I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 5 1. Khái niệm: .5 2. Quá trình khám phá tri thức trong CSDL .5 3. Các kỹ thuật khai phá dữ liệu .6 3.1. Các kỹ thuật tiếp cận trong Data mining .6 3.2. Dạng dữ liệu có thể khai phá .7 3.3. Ứng dụng của khai phá dữ liệu 7 3.4. Khai phá luật kết hợp và ứng dụng .7 II. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU ='_blank' alt='khai phá dữ liệu bằng luật kết hợp' title='khai phá dữ liệu bằng luật kết hợp'>LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU .htm' target='_blank' alt='luận văn khai phá dữ liệu bằng luật kết hợp' title='luận văn khai phá dữ liệu bằng luật kết hợp'>LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU .8 1. Khai phá luật kết hợp 8 2. Lý thuyết về luật kết hợp 9 2.1. Khái niệm 9 2.2. Một số tính chất liên quan đến các hạng mục phổ biến: .10 2.2.1. Tập mục phổ biến: 10 2.2.2. Luật kết hợp: .10 2.3. Một số hướng tiếp cận trong khai phá luật kết hợp .11 2.4. Phát hiện luật kết hợp trên hệ thông tin nhị phân 13 2.4.1. Các định nghĩa về hệ thông tin nhị phân 13 2.4.2. Thuật toán phát hiện tập chỉ mục và luật kết hợp nhị phân .15 III. MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP .17 1. Thuật toán Apriori .17 1.1. Ý tưởng thuật toán Apriori .17 1.2. Thuật toán Apriori 17 1.3. Sinh các luật kết hợp từ tập mục phổ biến: .20 2. Thuật toán FP-growth 22 2.1. Ý tưởng thuật toán 22 2.2. Thuật toán FP-growth 23 2.3. Đánh giá thuật toán FP-growth 25 IV. THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP .25 1. Phát biểu bài toán 25 2. Phân tích chương trình 27 KẾT LUẬN 29 TÀI LIỆU THAM KHẢO: 30 Nhóm 2 3 Tiểu luận môn cơ sở toán PHẦN MỞ ĐẦU Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng. Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn. Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức. Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu. Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Tiểu luận trình bày một số vấn đề về khám phá tri thức, khai phá dữ liệu, và trình bày rõ vấn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luật kết hợp trong CSDL. Nhóm 2 4 Tiểu luận môn cơ sở toán NỘI DUNG I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1. Khái niệm: Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối ở thập kỷ 80 của thế kỷ XX. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm khám phá tri thức trong cơ sở dữ liệu, để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn; trong đó khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Ở một mức độ trừu tượng nhất định có thể định nghĩa về khai phá dữ liệu: Data Mining là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn Khám phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm đó được xem như hai lĩnh vực tương đương nhau. Nhưng, nếu phân chia một cách tách bạch thì khai phá dữ liệu là một bước chính trong quá trình KDD. 2. Quá trình khám phá tri thức trong CSDL Khám phá tri thức trong CSDL (KDD) là lĩnh vực liên quan đến các ngành như: thống kê, học máy, CSDL, thuật toán, trực quan hoá dữ liệu, tính toán song song và hiệu năng cao,… Mục đích của quá trình khám phá tri thức là rút ra tri thức từ dữ liệu trong CSDL lớn. Quá trình KDD là quá trình gồm nhiều giai đoạn và lặp lại, mà trong đó sự lặp lại có thể xuất hiện ở bất cứ bước nào. Quá trình đó có thể được mô tả theo hình sau: Nhóm 2 5 Tiểu luận môn cơ sở toán Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán. Là tìm hiểu lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành. Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất, … có thể gây ra các nhầm lẫn. Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hoá. Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá dữ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có. Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp. Bước thứ tư: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình khám phá tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này. Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất. 3. Các kỹ thuật khai phá dữ liệu 3.1. Các kỹ thuật tiếp cận trong Data mining Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu có các kỹ thuật áp dụng sau: Phân lớp và dự đoán: xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định, mạng nơ ron nhân tạo. Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Có thể lấy một ví dụ đơn giản về luật kết hợp như sau: Nhóm 2 6 Tiểu luận môn cơ sở toán phân tích CSDL bán hàng nhận được thông tin về những khách hàng mua máy tính cũng có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau: “Mua máy tính → Mua phần mềm quản lý tài chính” [Độ hỗ trợ: 4%, độ tin cậy: 70%]. Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật. Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 4% có nghĩa là: 4% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau. Còn độ tin cậy 70% có nghĩa là 70% các khách hàng mua máy tính cũng mua phân mềm quản lý tài chính. Phân tích chuỗi theo thời gian: Tượng tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. Phân cụm: xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Mô tả khái niệm: thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. 3.2. Dạng dữ liệu có thể khai phá Do Data Mining được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau. Sau đây là một số dạng dữ liệu điển hình: CSDL quan hệ, CSDL đa chiều (multidimentional structures, data warehouses), CSDL dạng giao dịch, CSDL quan hệ-hướng đối tượng, dữ liệu không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện, dữ liệu Text và Web . 3.3. Ứng dụng của khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực được quan tâm và ứng dụng rộng rãi. Một số ứng dụng điển hình trong khai phá dữ liệu có thể liệt kê: 1) phân tích dữ liệu và hỗ trợ ra quyết định; 2) điều trị y học; 3) phát hiện văn bản; 4) tin sinh học; 5) tài chính và thị trường chứng khoán; 6) bảo hiểm . 3.4. Khai phá luật kết hợp và ứng dụng Luật kết hợp là một biểu thức có dạng: X ⇒ Y, trong đó X và Y là tập các trường gọi là item. Ý nghĩa của các luật kết hợp khá dễ nhận thấy: Cho trước một cơ sở dữ liệu có D là tập các giao tác - trong đó mỗi giao tác T∈D là tập các item - khi đó X ⇒ Y diễn đạt ý nghĩa rằng bất cứ khi nào giao tác T có chứa X thì chắc chắn T có chứa Y. Độ tin cậy của luật (rule confidence) có thể được hiểu như xác suất điều kiện p(Y⊆T  X⊆T). Ý tưởng của việc khai thác các luật kết hợp có nguồn gốc từ việc phân tích dữ liệu mua hàng của khách và nhận ra rằng “Một khách hàng mua mặt hàng X 1 và X 2 thì sẽ mua mặt hàng Y với xác suất là c%”. Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh Nhóm 2 7 Tiểu luận môn cơ sở toán làm cho luật kết hợp trở thành một phương pháp khai thác phổ biến. Hơn nữa, luật kết hợp không chỉ bị giới hạn trong phân tích sự phụ thuộc lẫn nhau trong phạm vi các ứng dụng bán lẻ mà chúng còn được áp dụng thành công trong rất nhiều bài toán kinh doanh. Như vậy, khai phá luật kết hợp là một phương pháp xử lý thông tin quan trọng và phổ biến, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu. Tiếp theo, tiểu luận sẽ đề cập đến luật kết hợp. Đây là một hướng nghiên cứu quan trọng trong lĩnh vực khai phá dữ liệu và là nội dung tìm hiểu, nghiên cứu trọng tâm của tiểu luận. II. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 1. Khai phá luật kết hợp Được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận được rất nhiều sự quan tâm của nhiều nhà khoa học. Ngày nay việc khai thác các luật như thế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai thác dữ liệu. Mục đích chính của khai phá dữ liệu là các tri thức được kết xuất ra sẽ được sử dụng trong dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học. Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xe máy màu đỏ và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ khai phá dữ liệu hay không? Câu trả lời là hoàn toàn có thể. Đó chính là nhiệm vụ khai phá luật kết hợp. Giả sử chúng ta có một CSDL D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất hiện của tập các mục S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập những mục U cũng trong những bản ghi đó. Mỗi luật kết hợp được đặc trưng bởi một cặp tỉ lệ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và U. Vấn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ θ và độ tin cậy β. Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn θ và β tương ứng. Giả thiết D là CSDL giao dịch và với θ = 40%, β = 90%. Vấn đề phát hiện luật kết hợp được thực hiện như sau: Liệt kê, đếm tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một số mục khác. Nhóm 2 8 Tiểu luận môn cơ sở toán Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%. Hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách hàng. Giả sử công ty quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp và sản phẩm". Khi đó có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ trong lứa tuổi nào thì những khách hàng nữ là công nhân đặt mua mặt hàng gì đó, ví dụ áo dài chẳng hạn là nhiều nhất, thoả mãn một ngưỡng nào đó ? 2. Lý thuyết về luật kết hợp 2.1. Khái niệm Cho một tập I = {I 1 , I 2 , ., I m } các tập m mục, một giao dịch T được định nghĩa như một tập con của các khoản mục trong I (T⊆I). Tương tự như khái niệm tập hợp, các giao dịch không được trùng lặp, nhưng có thể nới rộng tính chất này của tập hợp và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả các tập mục khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển của các mục. Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một định danh duy nhất. Nói rằng, một giao dịch T ∈ D hỗ trợ một tập X ⊆ I nếu nó chứa tất cả các item của X. Điều này nghĩa là X ⊆ T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X. Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là: { } D TXDT X ⊆∈ = | )sup( (2.1) Độ hỗ trợ tối thiểu minsup là một giá trị cho trước bởi người sử dụng. Nếu tập mục X có sup(X) ≥ minsup thì ta nói X là một tập các mục phổ biến. Một tập phổ biến được sử dụng như một tập đáng quan tâm trong các thuật toán, ngược lại, những tập không phải tập phổ biến là những tập không đáng quan tâm. Các phần sau sẽ sử dụng những cụm từ khác như “X có độ hỗ trợ tối thiểu”, hay “X không có độ hỗ trợ tối thiểu” cũng để nói lên rằng X thỏa mãn hay không thỏa mãn support(X) ≥ minsup. →Một khoản mục X được gọi là k-itemset nếu lực lượng của X bằng k, tức là |X|=k. Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục, X, Y ⊆ I và X ∩Y = ∅. X được gọi là tiên đề và Y được gọi là hệ quả của luật. Nhóm 2 9 Tiểu luận môn cơ sở toán Luật X => Y tồn tại một độ tin cậy c . Độ tin cậy c được định nghĩa là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y. Ta có công thức tính độ tin cậy c như sau: )sup( )sup( )( )( |()( X YX TXp TXTYp IXIYpYXconf ∪ = ⊆ ⊆∧⊆ =⊆⊆=⇒ (2.2) Tuy nhiên, không phải bất cứ luật kết hợp nào có mặt trong tập các luật có thể được sinh ra cũng đều có ý nghĩa trên thực tế. Mà các luật đều phải thoả mãn một ngưỡng hỗ trợ và tin cậy cụ thể. Thực vậy, cho một tập các giao dịch D, bài toán phát hiện luật kết hợp là sinh ra tất cả các luật kết hợp mà có độ tin cậy conf lớn hơn độ tin cậy tối thiểu minconf và độ hỗ trợ sup lớn hơn độ hỗ trợ tối thiểu minsup tương ứng do người dùng xác định. Khai phá luật kết hợp được phân thành hai bài toán con: Bài toán 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến. Bài toán 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy: )sup( )sup( AB ABCD conf = (2.3) Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến). 2.2. Một số tính chất liên quan đến các hạng mục phổ biến: 2.2.1. Tập mục phổ biến: Tính chất 1 (Độ hỗ trợ của tập con): Với A và B là tập các mục, nếu A ⊆ B thì sup(A) ≥ sup(B) Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A. Tính chất 2: Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến. Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B)< minsup thì một tập con A của B sẽ không phải là một tập phổ biến vì support(B) ≤ support(A) < minsup (theo tính chất 1) Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến Nếu mục B là mục phổ biến trên D, nghĩa là support(B) ≥ minsup thì mọi tập con A của B là tập phổ biến trên D vì support(A) ≥ support(B) > minsup. 2.2.2. Luật kết hợp: Nhóm 2 10 [...]... biến thể của luật kết hợp, các nhà nghiên cứu còn chú trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ CSDL Ngoài ra, còn có một số hướng nghiên cứu khác về khai thác luật kết hợp như: khai thác luật kết hợp trực tuyến, khai thác luật kết hợp được kết nối trực tuyến đến các kho dữ liệu đa chiều thông qua công nghệ OLAP, MOLAP, ROLAP, ADO 2.4 Phát hiện luật kết hợp trên hệ... giải quyết bài toán trên: dữ liệu khai phá Tiền xử lý dữ liệu Thuật toán Apriori, Fpgrowth Các mẫu Khai phá luật kết hợp Dữ liệu khách hàng Quá trình thực hiện ứng dụng khai phá luật kết hợp Trong đó: Giai đoạn tiền xử lý: Giai đoạn này nhằm thiết lập các đối tượng dữ liệu từ dữ liệu trong CSDL khách hàng Dữ liệu được tiền xử lý đưa về dạng text, các thuộc tính (chính là các item) được ánh xạ bởi các số... được sử dụng trong thuật toán mô tả trong các chương sau 2.3 Một số hướng tiếp cận trong khai phá luật kết hợp Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những đề xuất nhằm cải tiến tốc độ thuật Nhóm 2 11 Tiểu luận môn cơ sở toán toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn… và có một số hướng chính như sau: Luật kết hợp nhị phân... phá tri thức, các hướng tiếp cận và nghiên cứu tiểu biểu, trong đó phát hiện luật kết hợp là một phương pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng như trong thực tiễn Đây là chủ đề trọng tâm cho nội dung của tiểu luận Về mặt lý thuyết, khai phá tri thức bao gồm các bước: Hình thành, xác định và định nghĩa bài toán; thu thập và tiền xử lý dữ liệu; khai phá. .. tin cậy tối thiểu 1.3 Sinh các luật kết hợp từ tập mục phổ biến: Sau khi các tập mục phổ biến từ các tác vụ trong CSDL đã được tìm thấy, nó có thể sinh ra các luật kết hợp mạnh, ở đó luật kết hợp mạnh (strong association rule) là luật thoả mãn cả hai độ hỗ trợ cực tiểu và độ tin cậy cực tiểu Điều đó có thể thực hiện bằng việc sử dụng tính độ tin cậy của luật, ta nhắc lại: độ tin cậy của luật X → Y là:... quan tâm đến các dữ liệu thuộc CSDL bán hàng trong siêu thị, đặc biệt là bảng LoaiHang Sử dụng thuật toán Apriori và Fpgrowth tìm ra sự kết hợp giữa các mặt hàng khác nhau trong một giao dịch của khách hàng khi đến siêu thị Nhóm 2 27 Tiểu luận môn cơ sở toán Các giai đoạn thực hiện của hệ thống ứng dụng luật kết hợp áp dụng giải quyết bài toán trên: dữ liệu khai phá Tiền xử lý dữ liệu Thuật toán Apriori,... như sau: Luật kết hợp nhị phân là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng luật kết hợp này, các mục, thuộc tính, chỉ được quan tâm là có hay không xuất hiện trong giao tác của CSDL chứ không quan tâm về “mức độ” xuất hiện Ví dụ: Trong hệ thống tính cước điện thoại thì việc gọi 10 cuộc điện thoại... lý dữ liệu; khai phá dữ liệu, rút ra các tri thức; sử dụng các tri thức phát hiện được Về thuật toán khai phá tri thức, tiểu luận trình bày một số thuật toán và minh hoạ một số thuật toán kinh điển về phát hiện tập chỉ báo phổ biến và khai phá luật kết hợp, như: Apriori, FP-growth Trong quá trình thực hiện tiểu luận, chúng tôi đã cố gắng tập trung tìm hiểu và tham khảo các tài liệu liên quan Tuy nhiên,... là có độ hỗ trợ thấp, nhưng có ý nghĩa đặc biệt hoặc mang rất nhiều ý nghĩa) Luật kết hợp song song: Bên cạnh khai thác luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho quá trình phát hiện luật kết hợp Nhu cầu song song hoá và xử lý phân tán là cần thiết bởi kích thước dữ liệu ngày càng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của... tỉnh = ‘có’ , với độ hỗ trợ là 23 53% , và độ tin cậy là 80%” Luật kết hợp tiếp cận theo hướng tập thô: Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô Luật kết hợp nhiều mức: Cách tiếp cận theo luật này sẽ tìm kiếm thêm những luật có dạng “mua máy tính PC => mua hệ điều hành AND mua phần mềm tiện ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều hành Microsoft

Ngày đăng: 26/04/2013, 10:40

Xem thêm: TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU, TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU, Các kỹ thuật khai phá dữ liệu 1. Các kỹ thuật tiếp cận trong Data mining

TÌM HIỂU LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan