Báo cáo bài tập lớn – lý THUYẾT tập THÔ và ỨNG DỤNG – tập THÔ và LUẬT kết hợp

22 1K 0
Báo cáo bài tập lớn – lý THUYẾT tập THÔ và ỨNG DỤNG – tập THÔ và LUẬT kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC I. LỜI MỞ ĐẦU 2 II. CƠ SỞ LÝ THUYẾT TẬP THÔ LIÊN QUAN 3 1. Khai phá trí thức trong csdl (Knowdlege Discovery in Databases – KDD) 3 2. Tập thô trong khai phá trí thức 3 3. Mô tả các bước khai phá dữ liệu sử dụng lý thuyết tập thô 4 3.1. Hiệu chỉnh dữ liệu: 4 3.2. Rút gọn tập thuộc tính: 4 3.3. Rút trích tập luật: 4 III. KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP 5 1. Tổng quan 5 2. Các khái niệm và công thức thể hiện: 6 2.1. Độ hỗ trợ: 6 2.2. Độ hỗ trợ tối thiểu: (minsupp) 6 2.3. Độ tin cậy: 6 2.4. Độ tin cậy tối thiểu: (minconf) 6 3. Các bước khai phá luật kết hợp 6 4. Thuật toán sinh các luật kết hợp Apriori (ý tưởng của Agrawal and Srikant 1994) 6 4.1. Định nghĩa 6 4.2. Tư tưởng chính của thuật toán Apriori 7 4.3. Trình tự cài đặt thuật toán 7 4.4. Mã giải 10 IV. BÀI TOÁN THỰC TẾ 11 1. TỔNG QUAN BÀI TOÁN ỨNG DỤNG 11 2. GIẢI QUYẾT BÀI TOÁN SỬ DỤNG TẬP THÔ THUẬT TOÁN APRIORI 12 2.1. Bước 1: Chọn bảng thuộc tính ban đầu: 12 2.2. Bước 2: Hiệu chỉnh dữ liệu, rút gọn tập thuộc tính 12 2.3. Bước 3: Rút trích tập luật tìm các tập phổ biến 14 2.4. Bước 4: Dùng các tập phổ biến để tạo ra luật kết hợp 17 2.5. Kết quả cuối cùng 20 3. CÁC HẠN CHẾ CỦA THUẬT TOÁN APRIORI 21 V. KẾT LUẬN 21 VI. TÀI LIỆU THAM KHẢO 21 I. LỜI MỞ ĐẦU Trong thời gian gần đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lý thuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phân tích khái niệm hình thức (Formal concept analysis) … Trong các phương pháp này, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát triển. Điều này có thể lý giải là do lý thuyết tập thô được xây dựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thông minh, khai phá dữ liệu. Hiện nay, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng. Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn. Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức. Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining). Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu. Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in DatabaseKDD), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệumẫu (datapattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging).

. sau: Nguyễn Ngọc Tuấn – Lớp KHMT4 – K5 Trang 9 / 22 BÀI TẬP LỚN – LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG – TẬP THÔ VÀ LUẬT KẾT HỢP Giáo viên hướng dẫn: Th.S Vũ Anh Tú Kết quả ta có các luật kết hợp sau (với min_sup=. Ngọc Tuấn – Lớp KHMT4 – K5 Trang 12 / 22 BÀI TẬP LỚN – LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG – TẬP THÔ VÀ LUẬT KẾT HỢP Giáo viên hướng dẫn: Th.S Vũ Anh Tú 2. GIẢI QUYẾT BÀI TOÁN SỬ DỤNG TẬP THÔ &. KHMT4 – K5 Sinh viên: Nguyễn Ngọc Tuấn BÀI TẬP LỚN – LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG – TẬP THÔ VÀ LUẬT KẾT HỢP Giáo viên hướng dẫn: Th.S Vũ Anh Tú MỤC LỤC I. LỜI MỞ ĐẦU 3 II. CƠ SỞ LÝ THUYẾT TẬP THÔ

Ngày đăng: 16/03/2015, 15:47

Từ khóa liên quan

Mục lục

  • Tên đề tài: Nghiên cứu cách thể hiện Data Mining sử dụng lý thuyết tập thô, tìm hiểu luật kết hợp trong khai thác dữ liệu, demo quá trình khai phá dữ liệu sử dụng thuật toán Apriori

  • Giáo viên hướng dẫn: Th.S Vũ Anh Tú

  • LỚP: KHMT4 – K5

  • I. LỜI MỞ ĐẦU

  • II. CƠ SỞ LÝ THUYẾT TẬP THÔ LIÊN QUAN

    • 1. Khai phá trí thức trong csdl (Knowdlege Discovery in Databases – KDD)

    • 2. Tập thô trong khai phá trí thức

    • 3. Mô tả các bước khai phá dữ liệu sử dụng lý thuyết tập thô

      • 3.1. Hiệu chỉnh dữ liệu:

      • 3.2. Rút gọn tập thuộc tính:

      • 3.3. Rút trích tập luật:

      • III. KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP

        • 1. Tổng quan

        • 2. Các khái niệm và công thức thể hiện:

          • 2.1. Độ hỗ trợ:

          • 2.2. Độ hỗ trợ tối thiểu: (minsupp)

          • 2.3. Độ tin cậy:

          • 2.4. Độ tin cậy tối thiểu: (minconf)

          • 3. Các bước khai phá luật kết hợp

          • 4. Thuật toán sinh các luật kết hợp Apriori (ý tưởng của Agrawal and Srikant - 1994)

            • 4.1. Định nghĩa

            • 4.2. Tư tưởng chính của thuật toán Apriori

            • 4.3. Trình tự cài đặt thuật toán

            • 4.4. Mã giải

            • IV. BÀI TOÁN THỰC TẾ

              • 1. TỔNG QUAN BÀI TOÁN ỨNG DỤNG

Tài liệu cùng người dùng

Tài liệu liên quan