Các thuật toán khai phá dữ liệu và ứng dụng

29 1.2K 0
Các thuật toán khai phá dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Các thuật toán khai phá dữ liệu và ứng dụng Nội dung Quá trình phát hiện tri thức Khái niệm,phương pháp khai phá dữ liệu Khái niệm về luật kết hợp Quá trình khai phá luật kết hợp Thuật toán Apriori Hình thành, xác định và định nghĩa bài toán. 2. Thu thập và tiền xử lý dữ liệu. 3. Khai phá dữ liệu, rút ra các tri thức. 4. Sử dụng các tri thức phát hiện được.

Hoàng Linh - Lê Mai Hoàng Linh - Lê Mai 1 1 Khai phá dữ liệu Khai phá dữ liệu Các thuật toán khai phá dữ Các thuật toán khai phá dữ liệu và ứng dụng liệu và ứng dụng Giáo viên hướng dẫn : Giáo viên hướng dẫn : PGS.TSKH Nguyễn Xuân Huy PGS.TSKH Nguyễn Xuân Huy Sinh viên thực hiện: Sinh viên thực hiện: Lê Thị Mai Lê Thị Mai Phạm Thị Hoàng Linh Phạm Thị Hoàng Linh Khai phá dữ liệu Hoàng Linh - Lê Mai 2 Nội dung Nội dung  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quá trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 3  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quy trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 4 Quá trình phát hiện tri thức Quá trình phát hiện tri thức Hình thành định và định nghĩa bài toán Thu thập và tiền xử lý dữ liệu Khai phá dữ liệu, rút ra kết luận Phân tích và kiểm định kết quả Sử dụng các tri thức phát hiện được. Khai phá dữ liệu Hoàng Linh - Lê Mai 5 Quá trình phát hiện tri thức Quá trình phát hiện tri thức 1. Hình thành, xác định và định nghĩa bài toán. 2. Thu thập và tiền xử lý dữ liệu. 3. Khai phá dữ liệu, rút ra các tri thức. 4. Sử dụng các tri thức phát hiện được. Khai phá dữ liệu Hoàng Linh - Lê Mai 6  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quy trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 7 Khái niệm khai phá dữ liệu Khái niệm khai phá dữ liệu Phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Khai phá dữ liệu Hoàng Linh - Lê Mai 8 Phương pháp khai phá dữ liệu Phương pháp khai phá dữ liệu  Phương pháp suy diễn  Phương pháp quy nạp  Phương pháp phát hiện các luật kết hợp  Các phương pháp dựa trên mẫu Khai phá dữ liệu Hoàng Linh - Lê Mai 9  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quy trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 10 Khái niệm về luật kết hợp Khái niệm về luật kết hợp Cho I = { I1,I2,…Im}. Một giao dịch T (T⊆ I). Gọi D là cơ sở dữ liệu bao gồm n giao dịch T ∈ D hỗ trợ (support) cho một tập X ⊆ I nếu nó chứa tất cả các khoản mục của X, nghĩa là X ⊆ T Ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X. [...]... 100%) Khai phá dữ liệu Hoàng Linh - Lê Mai 18  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp Quy trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 19 Quy trình khai phá luật kết hợp Khai phá luật kết hợp trải qua 2 giai đoạn sau:  Khai phá tập các khoản mục thường xuyên  Khai phá luật kết hợp Khai phá dữ liệu. .. Mai 20  Quá trình phát hiện tri thức  Khái niệm,phương pháp khai phá dữ liệu  Khái niệm về luật kết hợp  Quy trình khai phá luật kết hợp  Thuật toán Apriori Khai phá dữ liệu Hoàng Linh - Lê Mai 21 Thuật toán Apriori  Ý tưởng của thuật toán Apriori  Triển khai thuật toán Apriori  Cài đặt thuật toán Apriori  Giới hạn của Apriori  Ví dụ minh hoạ thuật toán Apriori Khai phá dữ liệu Hoàng Linh -... Hoàng Linh - Lê Mai 23 Triển khai thuật toán Apriori Qua 2 bước: Tạo tập item phổ biến: tạo tất cả các tập item dự kiến, tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsup Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật Khai phá dữ liệu Hoàng Linh - Lê Mai 24 Cài đặt thuật toán Apriori  Đầu tiên tính toán và kiểm tra tập 1 item có là... Khai phá dữ liệu Số lượng giao dịch hỗ trợ (X) Tổng số giao dịch D Hoàng Linh - Lê Mai 15 Định nghĩa luật kết hợp  Độ tin cậy (Confidence) của luật X⇒Y có công thức: Support(X⇒Y) =  Số lượng giao dịch hỗ trợ (X∪Y) Số lượng giao dịch hỗ trợ X Các ngưỡng Minsup và mincof của độ hỗ trợ và độ tin cậy do người dùng xác định Khai phá dữ liệu Hoàng Linh - Lê Mai 16 Ví dụ về luật kết hợp: Cho bảng cơ sở dữ liệu. .. T4 1 0 1 1 1 Khai phá dữ liệu Hoàng Linh - Lê Mai 11 Ví dụ về luật kết hợp Tập các khoản mục: I = {Bánh mì, Bơ, Phomat, Táo, Nho} D là CSDL bao gồm 4 giao dịch D = {T1, T2, T3, T4} Cho tập X = {Bánh mì, Phomat} Các giao dịch không hỗ trợ cho X: T1, T3 Các giao dịch hỗ trợ cho X: T2,T4 Khai phá dữ liệu Hoàng Linh - Lê Mai 12 Ví dụ về luật kết hợp Độ hỗ trợ của X được ký hiệu là Support (X) Và Support... của thuật toán Apriori Tạo ra các tập phổ biến (thường xuyên) có 1 item, rồi tiếp đến là 2 items, 3 items cho đến khi chúng ta tạo ra tập phổ biến của mọi kích thước  Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ tin cậy  Tập k item được tạo ra từ tập k-1 items Tạo danh sách các item dự kiến của tập k items bằng cách hợp từng đôi một tập k-1 items có trong danh sách Khai phá dữ liệu. .. item có là phổ biến không  Lần duyệt thứ k: Sử dụng các tập Lk-1 của tập k-1 item phổ biến được tìm thấy ở lần duyệt thứ k-1 để tạo tập dự kiến Ck Tiếp theo duyệt CSDL và tính support cho Ck  Tập hợp các tập k item Lk: là tập hợp của các tập k_item phổ biến Khai phá dữ liệu Hoàng Linh - Lê Mai 25 Giới hạn của Apriori  Chi phí khá đắt, sử dụng bộ nhớ lớn và thời gian chậm  Không tốt đối với những mẫu... để duyệt, quét CSDL nhiều lần Khai phá dữ liệu Hoàng Linh - Lê Mai 26 Ví dụ minh hoạ thuật toán Apriori Cho CSDL, tìm tập thường xuyên có độ hỗ trợ tối thiểu : 60% D (CSDL) TID {K, A, D, B} T200 {D, A, C, E, B} T300 {C, A, B, E} T400 C1 Các mục T100 L1 {B, A, D} 1-itemset 1-temset support Support 100% {B} 100% {C} 50% {D} {A} 100% {B} 100% {D} 75% 75% 50% {K} Khai phá dữ liệu {A} {E} Quét D Xoá Sup

Ngày đăng: 10/11/2014, 10:21

Từ khóa liên quan

Mục lục

  • Các thuật toán khai phá dữ liệu và ứng dụng

  • Nội dung

  • Slide 3

  • Quá trình phát hiện tri thức

  • Slide 5

  • Slide 6

  • Khái niệm khai phá dữ liệu

  • Phương pháp khai phá dữ liệu

  • Slide 9

  • Khái niệm về luật kết hợp

  • Ví dụ về luật kết hợp

  • Slide 12

  • Slide 13

  • Slide 14

  • Định nghĩa luật kết hợp

  • Slide 16

  • Ví dụ về luật kết hợp:

  • Slide 18

  • Slide 19

  • Quy trình khai phá luật kết hợp

Tài liệu cùng người dùng

Tài liệu liên quan