Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI TIỂU LUẬN MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG ỨNG DỤNG DATA MINING TÌM LUẬT KẾT HỢP THEO THUẬT TOÁN APRIORI Tp.HCM, Tháng 10/2014 GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 1 1.1.1.1.1.1.1.1 MSSV: CH1201051 H tên: Di p Thanh Nguyênọ ệ L p: Cao h c khóa 7ớ ọ GVHD: PGS.TS. V Thanh Nguyênũ MSSV: CH1201051 H tên: Di p Thanh Nguyênọ ệ L p: Cao h c khóa 7ớ ọ GVHD: PGS.TS. V Thanh Nguyênũ MSSV: CH1301118 Họ tên: Nguyễn Ngọc Vọng Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori LỜI NÓI ĐẦU Khai phá dữ liệu (Data mining) là ngành khoa học đang ngày được quan tâm nghiên cứu và phát triển do những ứng dụng thiết thực mà nó mang lại. Khai phá dữ liệu là phần cốt lõi của phát hiện tri thức, trong khai phá dữ liệu phát hiện các luật là một trong những nội dung cơ bản và phổ biến nhất. Các phương pháp phát hiện luật nhằm tìm ra sự phụ thuộc giữa các tính chất của các đối tượng hay các thuộc tính trong cơ sở dữ liệu. Qua môn học công nghệ tri thức và ứng dụng, người viết đã được tìm hiểu về thuật toán Apriori tìm luật kết hợp dựa theo ngưỡng minsup và minconf, trong đó có thế ứng dụng vào các bài toán khảo sát các thị trường tiêu dùng về các mặt hàng trên hệ thống siêu thị, nhà sách,… Vì thế, người viết muốn đưa thuật toán Apriori vào việc tìm ra các luật kết hợp theo một số mẫu dữ liệu thu thập được. Nhân đây, xin gửi lời cảm ơn chân thành đến GS.TSKH Hoàng Văn Kiếm trường Đại học Công Nghệ Thông Tin đã tận tình giảng dạy, hướng dẫn để người viết hiểu thêm và hoàn thành tiểu luận này. GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 2 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori NHẬN XÉT CỦA GIẢNG VIÊN GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 3 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori MỤC LỤC LỜI NÓI ĐẦU 1 NHẬN XÉT CỦA GIẢNG VIÊN 2 MỤC LỤC 3 Ph n 1. C S LÝ THUY T KHAI PHÁ D LI Uầ Ơ Ở Ế Ữ Ệ 5 1.1 Khai phá d li uữ ệ 5 Ph n 2. LU T K T H P VÀ THU T TOÁN APRIORIầ Ậ Ế Ợ Ậ 16 2.1 Khái ni m v lu t và lu t k t h pệ ề ậ ậ ế ợ 16 2.2 M t s tính ch t c a t p m c ph bi n và lu t k t h pộ ố ấ ủ ậ ụ ổ ế ậ ế ợ 18 2.3 Thu t toán Aprioriậ 20 Ph n 3. CH NG TRÌNH DEMOầ ƯƠ 26 3.1 Giao di n ch ng trìnhệ ươ 26 3.2 S d ng ch ng trìnhử ụ ươ 26 3.3 Xây d ng l p Aprioriự ớ 26 3.4 Xây d ng LargeItemSetự 27 KẾT LUẬN 29 TÀI LIỆU THAM KHẢO 30 GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 4 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Phần 1. CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu 1.1.1 Tổng quan về khai phá dữ liệu Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowledge mining from databases), trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là như nhau. Tuy nhiên, trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL. Sau đây là một số quan niệm về khai phá dữ liệu (KPDL):  KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ.  KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu. Quá trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế.  KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một tập hợp của các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những dự báo của các vật hay sự kiện mới.  KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu không gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web. GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 5 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori 1.1.2 Nhiệm vụ của khai phá dữ liệu Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàng đầu. Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của quá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằm vào mục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là: 1.1.2.1 Phân cụm, phân loại, phân nhóm, phân lớp Nhiệm vụ là trả lời câu hỏi là một dữ liệu mới thu thập được sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách tự động. 1.1.2.2 Khai phá luật kết hợp Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu trúc của các bản ghi giao dịch. Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giao dịch đã sở hữu các tính chất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào đó. Khai phá luật kết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽ biết được các tính chất Y là những tính chất nào? 1.1.2.3 Lập mô hình dự báo Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường khác. 1.1.2.4 Phân tích sự tiến hoá Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các qui luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời gian. Phân tích sự tiến hoá có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, sánh mẫu theo chu kì và phân tích dữ liệu dựa trên tính tương tự. 1.1.2.5 Hồi quy GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 6 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. 1.1.2.6 Phân nhóm Là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô tả dữ liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này vừa thuộc nhóm kia. 1.1.2.7 Mô hình phụ thuộc Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biến nào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó. 1.1.2.8 Dò tìm biến đổi và phát hiện độ lệch Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó. 1.1.3 Các dạng dữ liệu có thể khai phá Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhập trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình: CSDL quan hệ : Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ ( như Oracle, IBM, DB2, MS SQL, v.v ). CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác nhau. Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụ cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định. CSDL dạng giao dịch: Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các giao dịch. Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữ liệu về các giao dịch thanh toán của ngân hàng,v.v. Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không gian(ví dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán). GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 7 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và hướng đối tượng. CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó. 1.1.4 Quá trình khai phá dữ liệu Quá trình KPDL là công việc khảo sát thăm dò thông tin dữ liệu, trích chọn tri thức, thu thập thông tin, thậm chí là duyệt và tìm kiếm dữ liệu. Tuy nhiên, các nhà thống kê thì có quan điểm cho rằng KPDL là một quá trình phân tích và đánh giá để thăm dò, dự đoán và ước lượng một lượng các thông tin dữ liệu với mục đích phát hiện ra các mẫu tin thích hợp hoặc là các mối quan hệ thuộc tính giữa các yếu tố hay các biến cố và cuối cùng là tích hợp các kết quả thu được bằng cách áp dụng các hệ số mẫu đã xác định cho các phần dữ liệu mới phát hiện. Từ đó đưa ra các hoạt động liên quan đến kết quả thu được. Quá trình khai phá dữ liệu được thể hiện qua mô hình sau: Hình 1.1 Quá trình khai phá dữ liệu  Xác định nhiệm vụ : Là việc xác định chính xác và rõ ràng vấn đề cần giải quyết.  Xác định dữ liệu liên quan: Để xây dựng giải pháp  Thu thập và tiền xử lý dữ liệu liên quan: Thành dạng sao cho thuật toán KPDL có thể hiểu được.  Chọn thuật toán KPDL: Cho phù hợp và thực hiện KPDL nhằm tìm được các mẫu cần quan tâm và biểu diễn chúng dưới dạng có ý nghĩa.  Mẫu : Là kết quả của quá trình KPDL, tức là hiểu và sử dụng tri thức đã tìm được thông qua hành động. GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 8 Xác định nhiệm vụ Xác định dữ liệu liên quan Thu thập và tiền xử lý DL Thống kê Tóm tắt Dữ liệu trực tiếp Giải thuật khai phá DL Mẫu Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori 1.1.5 Các thành phần khai phá dữ liệu Từ các mẫu tìm kiếm được, chúng ta dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai. Và tập trung mô tả vào việc tìm kiếm các mẫu mô tả dữ liệu làm sao cho con người có thể hiểu được. Muốn làm được tốt các công việc đó chúng ta dựa vào một số công việc sau: Biểu diễn mô hình: Là việc dùng một ngôn ngữ nào đó để mô tả các mẫu hay mô hình có thể khai phá được. Nếu mô tả quá hạn chế thì sẽ không thể học được hoặc sẽ không thể có các mẫu tạo ra được mô hình chính xác cho dữ liệu. Nhưng nếu mô hình quá lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và làm giảm khả năng dự đoán các dữ liệu chưa biết. Như thế sẽ làm cho việc tìm kiếm càng trở nên phức tạp hơn cũng như việc hiểu được mô hình càng khó khăn hơn. Đánh giá mô hình: là việc đánh giá, ước lượng các mô hình chi tiết có thể đáp ứng được các tiêu chuẩn của quá trình xử lý và phát hiện tri thức, có dự báo chính xác hay không, có thoả mãn cơ sở logic hay không. Việc đánh giá độ chính xác phải dựa trên đánh giá chéo. Đánh giá chất lượng liên quan đến độ chính xác dự đoán, tính mới lạ, tính hữu ích, khả năng hiểu được phù hợp với các mô hình. Cả hai phương pháp logic và thống kê chuẩn có thể sử dụng trong mô hình kiểm định này. Phương pháp tìm kiếm: gồm hai thành phần: tìm kiếm tham số: thuật toán phải tìm kiếm các tham số trong phạm vi các tiêu chuẩn đánh giá mô hình để tối ưu hoá, đưa ra các dữ liệu quan sát được và biểu diễn mô hình đã định, tìm kiếm mô hình: giống như một vòng lặp qua phương pháp tìm kiếm tham số, miêu tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi miêu tả mô hình, phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình sử dụng thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thể ngăn cản các tìm kiếm tổng thể. Chọn mẫu dữ liệu: là một giai đoạn rất quan trọng trong kỹ thuật nhận dạng và KPDL. Trong xác suất thống kê nhiều chiều có một phần tương tự như thế, đó là tìm các thuộc tính hay các chỉ tiêu chính cần phân tích nhận dạng của một vec-tơ hay một bộ giá trị thuộc tính nhiều chiều. Sau khi chọn mẫu ta thu được một tập con hay một nhóm dữ GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 9 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori liệu của tập các biến thuộc tính đầu vào sau khi đã loại bỏ đi các thuộc tính ít quan trọng, thuộc tính thừa. Từ đó thu thập và kết hợp thành bộ véctơ thuộc tính mẫu. 1.1.6 Một số phương pháp khai phá 1.1.6.1 Phương pháp quy nạp Có hai kỹ thuật chính để thực hiện công việc này đó là suy diễn và quy nạp. Suy diễn: nhằm rút ra thông tin là kết quả lôgic của các thông tin trong CSDL dựa trên một dãy các sự kiện chính để suy ra các tri thức mới từ các tri thức đã có. Kỹ thuật suy diễn để thu được mẫu chi tiết thường sử dụng các luật suy diễn. Quy nạp: suy ra các thông tin được sinh ra dựa trên CSDL hoặc các kho dữ liệu đã có. Phương pháp quy nạp là tự tìm kiếm, tạo mô hình, mẫu và sinh ra tri thức cấp cao diễn tả các đối tượng trong CSDL, liên quan trực tiếp đến các mẫu tìm được trong CSDL. Trong KPDL quy nạp được sử dụng để tạo cây quyết định và luật. 1.1.6.2 Cây quyết định Ở đây ta quan tâm đến cây quyết định quy nạp được dùng trong việc “học” tri thức thông qua phân tích cây. Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gắn nhãn là tên các thuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân theo lớp các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính. 1.1.6.3 Luật kết hợp Là luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng: Nếu P thì Q; với P là mệnh đề đúng với một miền dữ liệu nào đó trong kho dữ liệu và Q là mệnh đề sẽ dự đoán. Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần trong CSDL. Mẫu đầu ra của thuật toán KPDL là tập luật kết hợp tìm được. Cho một lược đồ R={A 1 ,A 2 , ,A p } với các thuộc tính có miền giá trị {0,1} và một quan hệ r trên R. Một luật kết hợp trên quan hệ r được mô tả như sau: X=>B với X ⊆ R và B ∈ R\X. Cho W ⊆ R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 10 [...]... 28 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori KẾT LUẬN Tiểu luận đã tri nh bày thuật toán Apriori áp dụng cho việc tìm luật kết hợp trong các mẫu phổ biến, dựa vào đó người bán có thể dễ dàng chọn lựa các sản phẩm phù hợp cho việc kinh doanh Thông qua việc tìm hiểu và nghiên cứu đề tài này, người viết có cái nhìn tổng quan hơn trong việc ứng dụng công nghệ tri thức vào... việc ứng dụng công nghệ tri thức vào các toán cụ thể, ứng dụng data mining vào việc xử lý các tập dữ liệu lớn Qua thời gian nghiên cứu và thực hiện luận văn, người viết đã được một số kết quả nhỏ sau đây: - Nắm được luật kết hợp trong công nghệ tri thức - Ứng dụng data mining với thuật toán Apriori vào bài toán tìm luật kết hợp - Cài đặt thử nghiệm thuật toán Apriori lấy mẫu dữ liệu từ các hệ quản trị... thuật khai phá dữ liệu là ở chỗ việc tối ưu hoá cần thiết cho quá trình khai phá dữ liệu Giai đoạn tối ưu hoá là cần thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 15 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Phần 2 LUẬT KẾT HỢP VÀ THUẬT TOÁN APRIORI 2.1 Khái niệm về luật và luật kết hợp. .. Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori TÀI LIỆU THAM KHẢO [1] GS.TSKH Hoàng Kiếm, Bài giảng cao học môn học cơ sở tri thức và ứng dụng, ĐHKHTN-TPHCM [2] Lê Hoài Bắc, Bài giảng về khám phá tri thức và khai thác dữ liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh, 2002 [3] Đỗ Phúc, Nghiên cứu và phát tri n một số thuật giải, mô hình ứng dụng khai thác... Các luật thỏa điều kiện minconf=80% (R0) "Máy giặt" -> "Ti vi" ; Conf=1 (R1) "Xe máy" -> "Ti vi" ; Conf=1 (R2) "Máy tính" -> "Ti vi" ; Conf=1 GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 24 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 25 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật. .. thức nên tiểu luận chỉ giải quyết ở mức nhất định chưa áp dụng các bài toán cực lớn, dữ liệu cực lớn Xin chân thành cảm ơn Thầy GS.TSKH Hoàng Văn Kiếm, giảng viên chuyên đề công nghệ tri thức và ứng dụng đã giảng dạy tận tình, truyền đạt những kiến thức quý báu về các ứng dụng của công nghệ tri thức vào thực tế GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 29 Tiểu luận: Ứng dụng data. .. và chứa các tập mục, T ⊆ I GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 16 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X ⇒ Y, trong đó X, Y ⊂ I là các tập mục gọi là itemsets, và X Y = φ Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và. .. = i+1; j < nColumns; j ++) { AprioriArrayBit vectordata = new AprioriArrayBit(((ItemSet)prevItemsSet[i]) .Data) ; vectordata = vectordata.Or(((ItemSet)prevItemsSet[j]) .Data) ; ItemSet item = new ItemSet(vectordata); GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 27 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori if(GetBit1Num(item .Data) == nCard && !results.Contains(item)).. .Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori giữa các hàng trong r có giá trị 1 tại mỗi cột Khi đó tần số xuất hiện và độ tin cậy của luật X =>B trong r được định nghĩa như sau: Tần số xuất hiện σ =s(X ∪ {B},r) Độ tin cậy θ =s(X ∪ {B},r)\s(X,r) Với X gồm nhiều thuộc tính và B là giá trị không cố định Nhiệm vụ của việc phát tri n các luật kết hợp là phải tìm được... GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 17 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong cơ sở dữ liệu T Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy (interesting rules) Trong thực tế, hầu hết thời gian của quá trình khai thác luật kết hợp là thực hiện ở pha 1.Nhưng khi có những mẫu rất dài . – CH1301118 15 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Phần 2. LUẬT KẾT HỢP VÀ THUẬT TOÁN APRIORI 2.1 Khái niệm về luật và luật kết hợp 2.1.1 Hệ luật dẫn Trong. Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI TIỂU LUẬN MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG. trình tìm các luật kết hợp thường gồm 2 pha: GVHD: GS.TSKH Hoàng Văn Kiếm HVTH: Nguyễn Ngọc Vọng – CH1301118 17 Tiểu luận: Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori Pha 1: Tìm

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Phần 1. CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu

1.1.1 Tổng quan về khai phá dữ liệu

1.1.2 Nhiệm vụ của khai phá dữ liệu

1.1.2.1 Phân cụm, phân loại, phân nhóm, phân lớp

1.1.2.2 Khai phá luật kết hợp

1.1.2.3 Lập mô hình dự báo

1.1.2.4 Phân tích sự tiến hoá

1.1.2.5 Hồi quy

1.1.2.6 Phân nhóm

1.1.2.7 Mô hình phụ thuộc

1.1.2.8 Dò tìm biến đổi và phát hiện độ lệch

1.1.3 Các dạng dữ liệu có thể khai phá

1.1.4 Quá trình khai phá dữ liệu

1.1.5 Các thành phần khai phá dữ liệu

1.1.6 Một số phương pháp khai phá

1.1.6.1 Phương pháp quy nạp

1.1.6.2 Cây quyết định

1.1.6.3 Luật kết hợp

1.1.6.4 Phân lớp, phân loại dữ liệu

1.1.6.5 Phương pháp dựa trên mẫu

1.1.6.6 Mô hình phụ thuộc dựa trên đồ thị xác suất

1.1.6.7 Khái quát dữ liệu

1.1.6.8 Khai thác dữ liệu dựa trên văn bản

Tài liệu cùng người dùng

Tài liệu liên quan