Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng

104 745 0
Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LUẬN VĂN THẠC SỸ PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts. Đỗ Văn Thành 4/2006 1 MỤC LỤC Bảng từ viết tắt 3 Danh mục bảng biểu 4 Danh mục hình vẽ 6 MỞ ĐẦU 7 Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10 1.1 Tại sao phải xây dựng kho dữ liệu? 10 1.2 Khái niệm kho dữ liệu – Data Warehouse 11 1.3 Mục đích của kho dữ liệu 13 1.4 Đặc điểm của kho dữ liệu 14 1.5. Mô hình của Kho dữ liệu (DW) 18 1.5.1. Các khái niệm cơ bản 18 1.5.2.Mô hình dữ liệu nhiều chiều 20 1.5.3. Sơ đồ cơ sở dữ liệu nhiều chiều 22 1.6. Kho dữ liệu chủ đề 25 1.7. Phân bậc khái niệm 27 Kết luận 29 Chương 2 PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30 2.1. Mô hình hình thức của phát hiện luật kết hợp 30 2.2. Phát hiện luật kết hợp nhiều chiều 33 2.2.1. Các khái niệm cơ bản 33 2.2.2. Biểu thức luật mẫu 42 2.3. Các thuật toán phát hiện luật kết hợp nhiều chiều 50 2.3.1. Chuyển đổi mẫu 50 2.3.2. Giai đoạn tìm tập các ứng cử viên 54 2 2.3.3. Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến 63 Kết luận 73 Chương 3 PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74 3.1. Giới thiệu 74 3.2. Phân loại CSDL nhiều chiều 78 3.3. Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 81 3.3.1. Các khái niệm cơ bản 81 3.3.2. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2 86 3.4. Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 90 3.4.1. Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới 90 3.4.2. Các khái niệm cơ bản 95 3.4.3. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3 97 Kết luận 97 KẾT LUẬN 100 TÀI LIỆU THAM KHẢO 102 3 Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Tiếng anh Cơ sở dữ liệu CSDL Database Kho dữ liệu DW Data Warehouse Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing Xử lý giao dịch trực tuyến OLTP Online Transaction Processing Hệ thống ứng dụng tác nghiệp OAS Operational Application System 4 Danh mục bảng biểu Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội. Các tiêu chuẩn đánh giá là tong_so_ban (đơn vị triệu VNĐ). 20 Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D) chiều thoi_gian, mat_hang và vi_tri. Tiêu chuẩn đánh giá là Tong_so_ban (đơn vị triệu VNĐ) 21 Bảng 3: CSDL tác vụ tại một cửa hàng 31 Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng 31 Bảng 5:CSDL tác vụ tại một siêu thị 34 Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi 36 Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt 56 Bảng 8: Ví dụ kết nối giữa U và V 58 Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối 59 Bảng 10: Thủ tục lập kế hoạch kết nối 61 Bảng 11: Thủ tục phát hiện phân biệt 64 Bảng 12: CSDL của 1 công ty máy tính 67 Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu: )()(),( 210 ∗∆→∗∆∗∆ 67 Bảng 14: Thuật toán phát hiện kết hợp 70 Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74 Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số.75 Bảng 17: CSDL định lượng 77 Bảng 18: CSDL mờ 78 5 Bảng 19: CSDL nhiều chiều loại 2 79 Bảng 20: CSDL nhiều chiều loại 3 80 Bảng 21: CSDL nhiều chiều loại 4 80 Bảng 22: CSDL nhiều chiều mờ loại 2 83 Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng 84 Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều chiều mờ 86 Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 88 Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 89 Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3 94 6 Danh mục hình vẽ Hình 1: Luồng dữ liệu trong một tổ chức 12 Hình 2: Tích hợp dữ liệu 15 Hình 3: Tích hợp dữ liệu 15 Hình 4: Tính thời gian của dữ liệu 17 Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 21 Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử 23 Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử 24 Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử 25 Hình 9: Phân bậc khái niệm đối với chiều vi_tri 27 Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng 28 Hình 11: Đồ thị của CSDL trong bảng 34 Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82 Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83 Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều 90 Hình 15: Ví dụ về các phân hoạch mờ 91 Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ 93 7 MỞ ĐẦU Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu (data mining). Việc phát hiện luật kết hợp nhằm tìm ra các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu. Phát hiện luật kết hợp đã được ứng d ụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường, Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL định lượng bằng cách sử dụ ng kỹ thuật chia khoảng giá trị các thuộc tính trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật toán phát hiện luật kết hợp nhị phân cho phù hợp. Cách tiếp cận sau cùng đang được quan tâm nhiều vì nó kh ắc phục được nhược điểm “thiếu tự nhiên” và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong CSDL định lượng. Luật kết hợp được phát hiện khi đó được gọi là luật kết hợp mờ. Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay Kho dữ liệu – Dataware house) trước hết người ta cũng xây d ựng các phương pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và nó được gọi là luật kết hợp nhiều chiều. Đến nay vấn đề phát hiện luật kết hợp nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề 8 xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định lượng còn rất hạn chế. Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng. Cụ thể mục đích của luận văn này là: Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết h ợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá chiều của CSDL. Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định lượng. Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây d ựng chương trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng. Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu: khái niệm, m ục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL nhiều chiều. Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo. Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiề u: Từ trang 30 đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều 9 từ CSDL tác vụ nhiều chiều nhị phân. Chương này giới thiệu thuật toán phát hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp. Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng. Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp phát hiện luật kết hợp nhiều chiều mờ. Trong chương này sẽ trình bày các khái niệm: CSDL tác vụ nhiều chi ều mờ, mục dữ liệu mờ mở rộng, cách tính độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp nhiều chiều mờ thu gọn Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và nh ững hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp theo. Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng dẫn và giúp đỡ tôi hoàn thành bản luận văn. Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá học. [...]... sao sự kiện Đây là cơ sở để biểu diễn dữ liệu trước khi phát hiện tri thức Nó là tiền đề cho thuật toán phát hiện luật kết hợp ở chương sau Các vấn đề về luật kết hợp sẽ được trình bày ở chương 2 Cuối chương này cũng trình bày một loại kho DW là kho dữ liệu chủ đề gồm: kho dữ liệu chủ đề độc lập và kho dữ liệu chủ đề phụ thuộc Các thuộc tính chiều trong cơ sở dữ liệu có thể được thể hiện trong các mức... tích thống kê của phân bố dữ liệu Kết luận Trong chương 1 đã trình bày các vấn đề liên quan đến kho dữ liệu: Khái niệm kho dữ liệu (DW), bốn mục đích khi xây dựng kho dữ liệu, sáu đặc điểm của kho dữ liệu Trong chương này cũng đưa ra mô hình của DW với khái niệm về khối dữ liệu, các mô hình 2-D, 3-D… biểu diễn cho dữ liệu 2 chiều, 3 chiều, … Cơ sở dữ liệu nhiều chiều cũng được thể hiện bằng các sơ đồ: hình... Mỗi kho dữ liệu chủ đề độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều kho dữ liệu chủ đề khó đồng nhất với nhau Khi đó xảy ra hai vấn đề đối với kho dữ liệu chủ đề: thứ nhất là tính ổn định trong các tình huống từ một kho dữ liệu chủ đề nhỏ ban đầu lớn lên nhanh chóng theo nhiều chiều và thứ hai là sự tích hợp dữ liệu Vì vậy khi thiết kế kho dữ liệu chủ đề phải chú ý kĩ tới tính ổn định của... 580 TB Mat_hang Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 Như vậy có thể thấy: dữ liệu 3-D trong bảng 2 được biểu diễn như là một dãy của các bảng dữ liệu 2-D Một cách tổng quát khối dữ liệu n chiều có thể được xem là là một dãy của các khối dữ liệu n-1 chiều theo chiều thứ n đó 22 Các khối dữ liệu có thể được xem là một phép ẩn dụ của các kho dữ liệu nhiều chiều Để tham chiếu đến nó... chú ý: • Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định • Tổng hợp và kết hợp dữ liệu • Đồng bộ hoá các nguồn dữ liệu với DW • Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW • Quản lí siêu dữ liệu • Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các... Hình 1: Luồng dữ liệu trong một tổ chức Kho dữ liệu cá nhân 13 Dữ liệu cá nhân (Personal Data) không thuộc phạm vi quản lý của hệ quản trị kho dữ liệu Nó chứa các thông tin được trích xuất từ các hệ thống dữ liệu tác nghiệp, kho dữ liệu và từ những kho dữ liệu chủ đề liên quan bằng các phép gộp, tổng hợp hay xử lý bằng một cách nào đó 1.3 Mục đích của kho dữ liệu Mục tiêu chính của kho dữ liệu là nhằm... số liệu cần thiết cho các mô hình kinh doanh phân tích, dự báo, từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự nhiên 18 1.4.6 Dữ liệu tổng hợp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW Dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm như đã nêu trên 1.5 Mô hình của Kho dữ liệu (DW) 1.5.1 Các khái niệm cơ bản a Khối dữ liệu. .. Conf(r) < 1 Ngữ nghĩa của luật kết hợp: Luật kết hợp r = X → Y có độ hỗ trợ α và độ tin cậy β, qui ước viết gọn dưới dạng X → Y (α; β) có nghĩa là đối với cơ sở dữ liệu đã cho có α% các tác vụ chứa cả hai tập mục dữ liệu X, Y; trong đó có β% các tác vụ chứa tập mục dữ liệu X cũng sẽ chứa tập mục dữ liệu Y Ví dụ: Xét luật AW→C trong ví dụ 2 thì tập mục dữ liệu ACW có độ hỗ trợ là 67% và luật này có độ tin... trong gian kia 2.2 Phát hiện luật kết hợp nhiều chiều 2.2.1 Các khái niệm cơ bản a CSDL tác vụ nhiều chiều Trong phát hiện luật kết hợp truyền thống, CSDL được sử dụng để phát hiện được tổ chức thành một tập các bản ghi dựa vào mối quan hệ giữa các tập mục dữ liệu trong một tác vụ [6],[20] Do đó, chỉ xem xét được các tập mục dữ liệu mà bỏ qua các thuộc tính khác được kết hợp với các tác vụ như: thời gian,... nhất định Đôi khi kho dữ liệu chủ đề được xây dựng một cách đơn giản với các quan hệ theo dạng hình sao đặc biệt hoặc những siêu khối dữ liệu phục vụ cho việc phân tích của một nhóm người có cùng mối quan tâm trên một phạm vi dữ liệu Có thể chia kho dữ liệu chủ đề ra làm 2 loại: Kho dữ liệu chủ đề độc lập và Kho dữ liệu chủ đề phụ thuộc Kho dữ liệu chủ đề phụ thuộc: chứa những dữ liệu được lấy từ kho dữ . phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết h ợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng. phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định lượng còn rất hạn chế. Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng theo. 3.3.2. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2 86 3.4. Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 90 3.4.1. Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều

Ngày đăng: 04/08/2015, 20:33

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • Bảng từ viết tắt

  • Danh mục bảng biểu

  • Danh mục hình vẽ

  • MỞ ĐẦU

  • Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU

  • 1.1 Tại sao phải xây dựng kho dữ liệu?

  • 1.2 Khái niệm kho dữ liệu – Data Warehouse

  • 1.3 Mục đích của kho dữ liệu

  • 1.4 Đặc điểm của kho dữ liệu

  • 1.4.1. Tính tích hợp (Integration)

  • 1.4.2.Hướng chủ đề

  • 1.4.3. Dữ liệu gắn thời gian và có tính lịch sử

  • 1.4.4. Dữ liệu có tính ổn định (nonvolatility)

  • 1.4.5. Dữ liệu không biến động

  • 1.4.6. Dữ liệu tổng hợp

  • 1.5. Mô hình của Kho dữ liệu (DW)

  • 1.5.1. Các khái niệm cơ bản

  • 1.5.2.Mô hình dữ liệu nhiều chiều

  • 1.5.3. Sơ đồ cơ sở dữ liệu nhiều chiều

Tài liệu cùng người dùng

Tài liệu liên quan