Nghiên cứu chung về khai phá dữ liệu

66 404 0
Nghiên cứu chung về khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC MỞ ĐẦU NỘI DUNG ĐỀ TÀI GỒM .3 CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU CHƯƠNG II: KHAI PHA DỮ LIỆU BẰNG LUẬT KẾT HỢP .3 CHƯƠNG III: ỨNG DỤNG LUẬT KẾT HỢP TRONG BÀI TOÁN DỮ LIỆU MÔ PHỎNG GIAO DỊCH BÁN HÀNG TRONG SIÊU THỊ TÔN MÙI CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Mục tiêu khai phá liệu 1.1.2 Định nghĩa khai phá liệu .5 1.1.3 Các dạng liệu khai phá 1.1.4 Quá trình khai phá liệu 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng 1.1.6 Các lĩnh vực ứng dụng khai phá liệu 1.2 Phương pháp khai phá liệu .9 1.2.1 Một số phương pháp khai phá liệu phổ biến 1.2.2 Lựa chọn kỹ thuật khai phá .14 CHƯƠNG II: KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP 16 2.1 Ý nghĩa luật kết hợp .16 2.2 Bài toán khai phá liệu luật kết hợp .17 2.2.1 Phát biểu toán pha thực 17 2.2.2 Ví dụ .20 2.3 Một số tính chất tập mục phổ biến luật kết hợp 22 2.3.1 Một số tính chất với tập mục phổ biến: 22 2.3.2 Một số tính chất với luật kết hợp: 23 2.3.3 Các loại luật kết hợp 24 2.4 Các thuật toán khai phá liệu nhờ luật kết hợp 26 2.4.1 Khai phá luật kết hợp Boolean đơn chiều từ sở liệu tác vụ .26 2.4.2 Khai phá luật kết hợp định lượng 52 2.4.3 Khai phá luật kết hợp đa mức .55 CHƯƠNG III: ỨNG DỤNG THỬ NGHIỆM CHO BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU NHỊ PHÂN .61 3.1 Đặt toán .61 3.2 Thiết kế giao diện sử dụng .62 3.3 Đánh giá kết hướng phát triển chương trình 64 TÀI LIỆU THAM KHẢO .65 MỞ ĐẦU Trong năm gần đây, khai phá liệu trở thành lĩnh vực nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Với hàng loạt nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào đời sống chứng minh khai phá dư liệu lĩnh vực nghiên cứu có tảng lý thuyết vững Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực như: Tài thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu viễn thông với nhiều hướng tiếp cận khác như: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp, Các kỹ thuật áp dụng khai phá liệu phần lớn thừa kế từ lĩnh vực: Cơ sở liệu, Học máy, Trí tuệ nhân tạo, Lý thuyết thông tin, Xác suất thống kê, Luật kết hợp phương pháp khai phá liệu có hiệu vấn đề quan trọng nhiều nhà khoa học tìm hiểu thu thành công lớn Với lĩnh vực khoa học công nghệ nhiều triển vọng tương lai, em chọn hướng nghiên cứu Một số phương pháp khai phá liệu luật kết hợp cho luận văn Luận văn xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần số hội nghị quốc tế số báo công bố tạp chí chuyên ngành, Internet NỘI DUNG ĐỀ TÀI GỒM CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Chương trình bày nét khái quát khai phá liệu, khai phá liệu trình phát tri thức; Các hướng tiếp cận; Các kỹ thuật áp dụng khai phá liệu; Các lĩnh vực ứng dụng CHƯƠNG II: KHAI PHA DỮ LIỆU BẰNG LUẬT KẾT HỢP Trong chương trình bày phương pháp khai phá liệu luật kết hợp từ thuật toán – Thuật toán Apriori hướng cải tiến thuật toán nhằm nâng cao hiệu trình tính toán Đồng thời trình bày số hướng nghiên cứu luật kết hợp đa mức, định lượng, đóng CHƯƠNG III: ỨNG DỤNG LUẬT KẾT HỢP TRONG BÀI TOÁN DỮ LIỆU MÔ PHỎNG GIAO DỊCH BÁN HÀNG TRONG SIÊU THỊ TÔN MÙI Chương trình bày toán qua toán xác định rõ nhiệm vụ khai phá liệu, phân tích thiết kế môdul chương trình đồng thời thiết kế giao diện cho thuận lợi thân thiết với người sử dụng dễ theo dõi kiểm tra Chương trình xây dựng với mục đích thử nghiệm để đánh giá kết CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.1.1 Mục tiêu khai phá liệu Gần ba thập niên trở lại đây, lượng thông tin lưu trữ thiết bị đĩa cứng, CD-ROM, băng từ, không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đoán rằng, lượng thông tin toàn cầu tăng khoảng gấp đôi sau hai năm đồng thời theo số lượng kích cỡ sở liệu tăng lên cách nhanh chóng Trong lĩnh vực kinh doanh, nhà quản lý thực ngập liệu lại cảm thấy thiếu tri thức thông tin hữu ích Lượng liệu khổng lồ thực trở thành nguồn tài nguyên giá trị thông tin yếu tố then chốt hoạt động thương mại thông tin giúp người điều hành nhà quản lý có nhìn sâu sắc, xác, khách quan vào tiến trình kinh doanh doanh nghiệp trước định Việc khai thác thông tin tiềm ẩn mang tính dự đoán từ sở liệu lớn mục tiêu khai phá liệu – hướng tiếp cận với khả giúp đơn vị, tổ chức trọng vào thông tin có nhiều ý nghĩa từ tập hợp liệu lớn mang tính lịch sử Những công cụ khai phá liệu dự đoán xu hướng tương lai cho phép tổ chức, doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu đem lại Sự phân tích liệu cách tự động mang tính dự báo khai phá liệu khiến có ưu hẳn so với phân tích thông thường dựa kiện khứ hệ hỗ trợ định truyền thống trước Công cụ khai phá liệu trả lời câu hỏi lĩnh vực kinh doanh mà trước xem tốn nhiều thời gian để xử lý Với tất ưu trên, khai phá liệu tỏ tính hữu dụng môi trường kinh doanh đầy tính cạnh tranh ngày Giờ khai phá liệu trở thành hướng nghiên cứu lĩnh vực khoa học máy tính công nghệ tri thức Phạm vị ứng dụng ban đầu khai phá liệu lĩnh vực thương mại tài Nhưng ngày nay, khai phá liệu ứng dụng rộng rãi lĩnh vực khác như: Tin sinh học, điều trị y học, viễn thông, giáo dục, 1.1.2 Định nghĩa khai phá liệu Qua nội dung trình bày trên, hiểu cách sơ lược khai phá liệu trình tìm kiếm thông tin hữu ích, tiềm ẩn mang tính dự báo sở liệu lớn Như vậy, nên gọi trình khám phá tri thức thay khai phá liệu Tuy nhiên số nhà khoa học đồng ý với hai thuật ngữ tương đương thay cho Họ lí giải mục đích trình khám phá tri thức thông tin tri thức có ích, đối tượng mà phải xử lí nhiều trình lại liệu Mặt khác, chia bước trình khám phá tri thức, nhiều nhà khoa học khác lại cho khai phá liệu bước trình khám phá tri thức1 Như vậy, xét mức không thật chi tiết hai thuật ngữ xem đồng nghĩa xét cụ thể khai phá liệu lại bước trình khám phá tri thức 1.1.3 Các dạng liệu khai phá Khai phá liệu ứng dụng rộng rãi nên có nhiều kiểu liệu khác chấp nhận để khai phá Sau số loại điển hình: Cơ sở liệu quan hệ (relational databases): sở liệu tác nghiệp tổ chức theo mô hình liệu quan hệ Hầu hết hệ quản trị sở liệu hỗ trợ dạng sở liệu như: Oracle, IBM DB2, MS SQL Server, MS Access, Cơ sở liệu đa chiều (multimensional structures, data warehouses, data mart): kho liệu tập hợp, chọn lọc từ nhiều nguồn liệu khác Dạng liệu mang tính lịch sử (tức có tính thời gian) chủ yếu phục vụ cho trình phân tích khai phá tri thức nhằm hỗ trợ cho việc định Cơ sở liệu dạng giao dịch (transactional databases): dạng sở liệu tác nghiệp ghi thường giao dịch Dạng liệu thường phổ biến lĩnh vực thương mại ngân hàng Cơ sở liệu quan hệ – hướng đối tượng (object-relational databases): dạng sở liệu lai hai mô hình quan hệ hướng đối tượng Dữ liệu không gian thời gian (spatial, temporal and time-series data): dạng liệu có tích hợp thuộc tính không gian (ví dụ liệu đồ) thời gian (ví dụ liệu thị trường chứng khoán) Cơ sở liệu đa phương tiện (multimedia databases): dạng liệu âm (audio), hình ảnh (image), phim ảnh (video), Text & WWW, Dạng liệu phổ biến Internet ứng dụng rộng rãi 1.1.4 Quá trình khai phá liệu 1.1.4.1 Các bước trình khai phá Thông thường trình khai phá liệu thực qua bước sau: - Xác định nhiệm vụ: Xác định xác vấn đề cần giải - Xác định liệu liên quan dùng để xây dựng giải pháp giải nhiệm vụ toán - Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu - Chọn thuật toán khai phá liệu thích hợp thực việc khai phá nhằm tìm mẫu có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa 1.1.4.2 Các thành phần giải thuật khai phá Quá trình khai phá liệu trình phát triển mẫu giải thuật khai phá liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định luật, phân lớp, hồi quy, phân nhóm, … Giải thuật khai phá liệu bao gồm thành phần sau: - Biểu diễn mô hình - Đánh giá mô hình - Tìm kiếm mô hình  Biểu diễn mô hình: Mô hình biểu diễn ngôn ngữ cho khai phá Nếu mô hình có mô tả hạn chế học có mẫu tạo Nếu diễn tả mô hình lớn làm tăng mức độ nguy hiểm bị học nhiều làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trở nên phức tạp việc giải thích mô hình khó khăn  Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng tiêu chuẩn trình phát tri thức hay không Việc đánh giá mô hình thực thông qua kiểm tra liệu, nhiệm vụ dự đoán việc đánh giá mô hình kiểm tra liệu dựa độ xác dự đoán mà việc đánh giá độ xác dự đoán dựa đánh giá chéo  Tìm kiếm mô hình: Bao gồm thành phần: tìm kiếm tham số tìm kiếm mô hình - Tìm kiếm tham số: Giải thuật cần tìm tham số để tối ưu hoá tiêu chuẩn đánh giá mô hình với liệu quan sát với miêu tả mô hình định - Tìm kiếm mô hình: Quá trình xảy giống vòng lặp qua phương pháp tìm kiếm tham số Khi miêu tả, mô hình bị thay đổi tạo nên họ mô hình với miêu tả mô hình phương pháp tìm kiếm tham số áp dụng để đánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình thường sử dụng kỹ thuật tìm kiếm heuristic (tức dựa kinh nghiệm, thử nghiệm, rút kết luận) kích thước không gian mô hình ngăn cản tìm kiếm tổng thể 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng Vấn đề khai phá liệu phân chia theo lớp hướng tiếp cận sau: Phân lớp dự đoán (classification &prediction): xếp đối tượng vào lớp biết Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Đối với hướng tiếp cận thường áp dụng số kỹ thuật học máy (machinne learning, định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Hay lớp toán đươc gọi học có giám sát – Học có thày (supervised learning) Phân cụm (clustering/segmentation): Sắp xếp đối tượng theo cụm số lượng tên cụm chưa biết trước Lớp toán phân cụm gọi học không giám sát – Học không thày (unsupervised learning) Luật kết hợp (association rules): dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: “80% sinh viên đăng ký học Cơ sở liệu có tới 70% số họ đăng ký học Phân tích thiết kế hệ thống thông tin.” Hướng tiếp cận ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, Khai phá chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự khai phá liệu luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán chúng có tính dự báo cáo Mô tả khái niệm (concept desccription & summarization): lớp toán thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.1.6 Các lĩnh vực ứng dụng khai phá liệu Khai phá liệu lĩnh vực phát triển thu hút nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh vực ứng dụng điển hình: - Phân tích liệu hỗ trợ định - Điều trị y học: Mỗi liên hệ triệu chứng, chuẩn đoán phương pháp điều trị - Phân lớp văn bản, tóm tắt văn phân lớp trang WEB - Tin sinh học: tìm kiếm, đối sánh hệ gene thông tin di truyền, mối liên hệ số hệ gene số bệnh di truyền, - Tài thị trường chứng khoán: Phân tích tình hình tài dự báo giá cổ phiếu - Bảo hiểm - Giáo dục 1.2 Phương pháp khai phá liệu 1.2.1 Một số phương pháp khai phá liệu phổ biến 1.2.1.1 Phương pháp suy diễn quy nạp  Phương pháp suy diễn: Rút thông tin kết logic từ thông tin nằm sở liệu dựa quan hệ liệu Phương pháp suy diễn dựa kiện xác để uy tri thức từ thông tin cũ Mẫu chiết suất cách sử dụng phương pháp thường luật suy diễn  Phương pháp quy nạp: Các thông tin suy từ sở liệu cách tự tìm kiếm, tạo mẫu sinh tri thức không bắt đầu với tri thức biết trước 1.2.1.2 Cây định luật Cây định: Cây định phương pháp mô tả tri thức dạng đơn giản nhằm phân đối tượng liệu thành số lớp định Các nút gán nhãn tên thuộc tính, cạnh gán giá trị thuộc tính, miêu tả lớp khác Các đối tượng phân lớp theo đường cây, qua cạnh tương ứng với giá trị thuộc tính đối tượng tới Tạo luật: Các luật tạo nhằm suy diễn cho số mẫu liệu có ý nghĩa mặt thống kê Các luật có dạng P Q, P mệnh đề với phần liệu sở liệu Q mệnh đề dự đoán Ví dụ: Ta có mẫu phát phương pháp tạo luật “Nếu giảm ngưỡng cần học đủ số trình 120 phát chứng nhận tốt nghiệp giai đoạn I số lượng sinh viên đăng ký tăng lên 30% Cây định phương pháp dùng toán phân loại liệu theo tiêu chuẩn dựa mức độ khác thuộc tính Cây định luật có ưu điểm hình thức miêu tả đơn giản, mô hình suy diễn dễ hiểu người sử dụng Tuy nhiên, giới hạn miêu tả luật biểu diễn số dạng chức giới hạn độ xác mô hình 1.2.1.3 Phát luật kết hợp Các luật kết hợp dạng biểu diễn tri thức, hay xác dạng mẫu hình thành tri thức Phương pháp nhằm phát luật kết hợp thành phần liệu sở liệu Một đầu giải thuật khai phá liệu tập luật kết hợp tìm Cho lược đồ R = { A1, A2, , Ap} với thuộc tính có miền giá trị {0,1} quan hệ r R Ta gọi luật kết hợp quan hệ r mô tả sau: XB với X  R B  R\X Cho WR, đặt s(W,r) tần số xuất W r tính tỉ lệ hàng r có giá trị cột Khi ta định nghĩa tần số xuất độ tin cậy luật XB r sau: - Tần số xuất =s(X{B},r) - Độ tin cậy = s(X{B},r)\s(X,r) Với X gồm nhiều thuộc tính B giá trị không cố định 10 Đánh giá thuật toán FP-growth: Như phân tích trên, thuật toán hiệu thuật toán Apiori, thực tốt cho mẫu phổ biến ngắn dài Sau số nhận xét đánh giá thuật toán - Độ phức tạp thời gian:  Chỉ duyệt sở liệu lần  Thời gian xây dựng O(n), với n số tác vụ sở liệutức tuyến tính với số tác vụ - Độ phức tạp không gian:  O(n) với n số tác vụ sở liệu  Độ cao giới hạn kích thước tác vụ lớn - Thuật toán không bị ngắt mẫu dài tác vụ Cây FP-tree trì đầy đủ thông tin cho khai thác mẫu phổ biến Đồng thời thuật toán rút gọn hợp lý thông tin không cần thiết-các mục không phổ biến bị loại bỏ - Kỹ thuật theo trật tự giảm dần tần số, điều dẫn đến mục phổ biến chia sẻ nhiều Cây FP-tree không lớn sở liệu gốc 2.4.2 Khai phá luật kết hợp định lượng Khai phá luật kết hợp định lượng trình khai phá luật kết hợp cho sở liệu với thuộc tính có giá trị không đơn giản giá trị nhị phân Đối với luật kết hợp định lượng XY, X Y kết hợp giá trị nhị phân, phân loại, khoảng số Phát luật kết hợp định lượng gồm kỹ thuật chính: - ánh xạ thuộc tính nhận giá trị khoảng thành thuộc tính nhị phân - Chuyển thuộc tính giá trị số thành thuộc tính 52 Ta xét ví dụ liệu điều tra dân số bảng 2.9 sau: Bảng 2.9 – Dữ liệu điều tra dân số SSN# Tuổi Giới tính kết hôn Số Lương 006 26 nam sai 250000 345 54 nữ 550000 743 37 nam sai 800000 Giải thích thông tin: - SSN#: Định danh cho đối tượng điều tra Khi khai phá ta không quan tâm tới thông tin - Tuổi: Thuộc tính nhận nhiều giá trị khác nhau, gía trị nhị phân Để khai phá liệu dạng ta ánh xạ thuộc tính nhận giá trị khoảng thành thuộc tính nhị phân Ví dụ ta ánh xạ tuổi từ 0-21 thành “rất trẻ”; từ 22-35 thành “trẻ”; 36-55 thành “trung niên”, “già” - Giới tính: Nhận giá trị: “nam” “nữ”, ta chuyển thuộc tính thành thuộc tính - Đã kết hôn: Tương tự thuộc tính giới tính, ta chuyển thành thuộc tính “Đã kết hôn” “chưa kết hôn” - Số con: ánh xạ thuộc tính thành “không có con” , “một con”, “nhiều con” - Lương: ánh xạ thành khoảng: “lương ít”, “lương trung bình”, “lương cao” Việc ánh xạ phải hoàn toàn rõ ràng người khai phá liệu Với ánh xạ liệu ví dụ trở thành sở liệu với 14 thuộc tính sau: trẻ nam trẻ nữ trung niên kết hôn già chưa kết hôn 53 12 lương 10 13 lương trung bình 11 nhiều 14 lương cao Ví dụ sau khai phá ta luật kết hợp dạng: tuổi [40,50]đã kết hôn lương=500000 Sau tất luật sinh ra, luật nhóm lại theo nhóm giá trị Ví dụ: Với luật sau: (r1) tuổi=50đã kết hônlương=500000 (r2) tuổi=55đã kết hônlương=500000 ta kết hợp thành luật mới: (r3) tuổi  [50,55] đã kết hôn lương=500000 Cách có nhiều hạn chế có nhiều giá trị cho thuộc tính Như vậy, khai phá luật định lượng gồm bước sau: - Tiền xử lý: Nhiệm vụ bước chuyển đổi thuộc tính số phân loại thành thuộc tính nị phân để sử dụng thuật toán khai phá luật kết hợp nhị phân Cách làm: gán giá trị cho thuộc tính phân loại, ánh xạ khoảng giá trị thuộc tính số thành tập thuộc tính Điểm quan trọng bước phải xác định khoảng thuộc tính số cho phù hợp, việc làm ảnh hưởng tới việc khai phá liệu Người ta nghiên cứu có thuật toán để chia khoảng thuộc tính số cho phù hợp Sau tìm khoảng giá trị khoảng ánh xạ thành thuộc tính - Tìm tập mục phổ biến: sử dụng thuật toán khai phá luật kêt hợp nhị phân để tìm tập mục phổ biến với sở liệu ánh xạ - Sinh luật: sử dụng thủ tục sinh luật từ tập mục phổ biến nêu sở liệu nhị phân 54 2.4.3 Khai phá luật kết hợp đa mức 2.4.3.1 Luật kết hợp đa mức Trong nhiều ứng dụng, khó tìm luật kết hợp mạnh mục liệu mức trừu tượng gốc tính thưa thớt liệu không gian đa chiều Khám phá luật kết hợp mạnh mức khái niệm cao miêu tả tri thức có nghĩa phổ thông Tuy nhiên, luật tìm tầm thường với người lại lạ, quan trọng với người khác Do vậy, hệ thống khai phá liệu nên cung cấp khả để khai phá luật kết hợp nhiều mức trừu tượng khác Ví dụ: Xét tác vụ mua bán D bảng 2.10 sau: Bảng 2.10- Tác vụ mua bán sở liệu D Các mục mua TID Máy tính để bàn IBM, Máy in Sony đen trắng Phần mềm giáo dục, Phần mềm quản lý tài Misa Chuột LOGI Máy tính để bàn IBM, Phần mềm quản lý tài Misa Máy tính để bàn IBM Giả sử bảng cho biết tác vụ bán hàng cửa hàng máy tính: mục bán tác vụ định danh tác vụ TID Khái niệm phân cấp cho mục hình sau: 55 Khái niệm phân cấp xác định từ mức thấp đến mức cao, đến khái niệm tổng quát Trong hình trên, khái niệm phân cấp thành mức: 0,1,2,3 Ta quy ước mức đánh số từ xuống, mức nút gốc cho tất (mức tổng quát nhất) Mức bao gồm: máy tính, phần mềm, máy in, phụ kiện Mức bao gồm: Máy tính để bàn, máy tính laptop, máy in màu, máy in đen trắng, Mức mức cụ thể, riêng biệt phân cấp Các mục bảng liệu cho ban đầu mức thấp khái niệm phân cấp hình Khó tìm mẫu mua đáng quan tâm mức nguyên thủy Chẳng hạn: máy tính để bàn IBM máy in Sony đen trắng chúng xuất phần nhỏ tác vụ khó tìm luật kết hợp bao gồm chúng Tuy nhiên, tổng quát “máy in Sony đen trắng” dễ “máy tính để bàn IBM” “máy in Sony đen trắng” Các luật sinh từ khai phá luật kết hợp với khái niệm phân cấp luật kết hợp nhiều mức hay đa mức (vì chúng đề cập đến mức khái niệm 2.4.3.2 Các cách tiếp cận khai phá luật kết hợp đa mức Có số cách tiếp cận vấn đề dựa khung làm việc độ hỗ trợ độ tin cậy Nhìn chung, người ta sử dụng chiến lược top-down, tính tích lũy cho tập mục mức khái niệm, mức khái niệm xuống mức thấp hơn, mức khái niệm riêng biệt hơn, không tập mục phổ biến tìm Điều có nghĩa là: lần tất tập mục phổ biến mức khái niệm thứ tìm được, sau tập mục phổ biến mức khái niệm thứ hai tìm được, tiếp tục Với mục, sử dụng thuật toán để phát tập mục phổ biến chẳng hạn Apriori Có số cải tiến cho cách tiếp cận như:  Sử dụng độ hỗ trợ cực tiểu giống cho tất mức: Ngưỡng hỗ trợ sử dụng khai phá mức trừu tượng 56 Ví dụ: Trong hình sau, ngưỡng hỗ trợ 5% sử dụng Cả hai loại “máy tính” “máy tính laptop” tìm phổ biến “máy tính để bàn” không Máy tính [supp=10%] Mức minsupp =5% Mức minsupp =5% Máy tính để bàn [supp=10%] Máy tính laptop [supp=6%] Hình 2.10 - Khai phá nhiều mức với độ hỗ trợ Khi sử dụng ngưỡng độ hỗ trợ cực tiểu giống nhau, thủ tục tìm kiếm đơn giản Phương pháp đơn giản trường hợp người dùng yêu cầu ngưỡng hỗ trợ xác định Tuy nhiên, với độ hỗ trợ giống nảy sinh số khó khăn Nó không phù hợp với mục mà mức thấp trừu tượng có tính phổ biến cao Nếu ngưỡng độ hỗ trợ đặt cao số luật có ích mức trừu tượng thấp Nếu ngưỡng độ hỗ trợ đặt thấp sinh nhiều luật không cần quan tâm mức trừu tượng cao Điều dẫn đến cách tiếp cận khác trình bày sau Máy tính [supp=10%] Mức minsupp =5% Mức minsupp =3% Máy tính laptop [supp=6%] Máy tính để bàn [supp=10%] Hình 2.11 - Khai phá nhiều mức với độ hỗ trợ khác 57  Hạ thấp độ hỗ trợ cực tiểu mức thấp hơn: Mỗi mức trừu tượng có ngưỡng hỗ trợ cực tiểu Mức trừu tượng thấp có ngưỡng tương ứng nhỏ Ví dụ: hình sau, ngưỡng độ hỗ trợ mức trừu tượng 5%, mức 3% Trong cách này, “máy tính”, “máy tính laptop”, “máy tính để bàn” phổ biến Khi khai phá luật kết hợp nhiều mức với cách giảm độ hỗ trợ, có số cách tìm kiếm lựa chọn: - Từ mức đến mức khác cách độc lập (level-by-level independent): Đây cách tìm kiếm hoàn toàn theo chiều rộng, tri thức sở tập mục phổ biến dùng để tỉa Mỗi nút xét mà không ý đến nút cha xét có phổ biến hay không - Đi qua mức có chọn lọc (level-cross filtering): Một mục mức thứ i xét nút cha mức thứ (i-1) phổ biến Hay nói cách khác, ta nghiên cứu luật kết hợp riêng biệt từ luật tổng quát Nếu nút phổ biến nút xét, không nút thấp bị tỉa, điều giảm không gian tìm kiếm Ví dụ, hình sau nút thấp nút “máy tính” không xét “máy tính” không phổ biến Máy tính [supp=10%] Mức minsupp =12% Mức minsupp =3% Máy tính laptop [không xét] Máy tính để bàn [không xét] Hình 2.12 - Khai phá nhiều mức với giảm độ hỗ trợ, lọc mục đơn Đi qua mức lọc tập k- mục, tập k-mục mục thứ i xét nếu có cha tập k- mục mục thứ (i-1) phổ biến Ví dụ: hình sau 58 tập 2- mục {máy tính, máy in} phổ biến, nút sau xét: {máy tính laptop, máy in đen trắng} {máy tính laptop, máy in màu} {máy tính để bàn, máy in đen trắng} {máy tính để bàn, máy in màu} So sánh C ta có nhận xét sau:  Với cách mức độ hỗ trợ cực tiểu: dễ đưa đến xét số lớn tập mục không phổ biến tìm luật quan trọng  Với cách qua mức có lọc cho phép: Các hệ thống khai phá xét tập k- mục phổ biến 59  Với cách dùng khái niệm phân cấp: Nó cho phép khám phá tri thức mức trừu tượng khác nhau, luật kết hợp đa mức Vì mà phương pháp tỏ hữu ích khai phá Tuy nhiên luật kết hợp đa mức tìm ra, số luật rút gọn Ví dụ xem luật sau: (r1) máy tính để bàn  máy in đen trắng [supp=8%, conf=70%] (r1) máy tính để bàn IBM  máy in đen trắng [supp=2%, conf=72%] Nếu luật tìm thấy luật r2 có ích gì? Nếu luật r2 có tính tổng quát nhỏ mà không đưa thông tin nên bị loại Luật r1 thu từ luật r2 phép “máy tính để bàn” cho “máy tính để bàn IBM” khái niệm phân cấp Tóm lại: Trong phần xem xét luật kết hợp đa mức dựa khái niệm phân cấp Các luật kết hợp đa mức khai phá số chiến lược dựa xác định ngưỡng độ hỗ trợ cực tiểu cho mức trừu tượng Khi dùng chiến lược hạ thấp ngưỡng hỗ trợ cho mức thấp hơn, phương pháp tỉa bớt không gian tìm kiếm bao gồm cách lọc qua mức Luật kết hợp đa mức tìm cần thu gọn, giảm bớt 60 CHƯƠNG III: ỨNG DỤNG THỬ NGHIỆM CHO BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU NHỊ PHÂN Chương trình bày kết xây dựng chương trình thử nghiệm khai phá luật kết hợp dựa thuật toán Apriori trình bày kỹ phần Với mục đích xây dựng chương trình để mô cho thuật toán, bước thực trình khai phá liệu nhờ luật kết hợp nên bước làm tinh liệu bỏ qua mà quan tâm đến liệu dạng nhị phân Chương trình trọng đến việc minh họa thuật toán kết bước thuật toán để chứng minh đắn thuật toán Song liệu dùng chương trình để khai phá liệu nhị phân bất kỳ, tự sinh để mô thử nghiệm cho thuật toán bước thực trình khai phá liệu nhờ luật kết hợp Nhưng cần nâng cấp phát triển chương trình để trở thành chương trình ứng dụng cho việc khai phá liệu liệu thật hoàn toàn dễ dàng khả thi Chương trình xây dựng thử nghiệm ngôn ngữ lập trình C# , ngôn ngữ cung cấp nhiều công cụ xử lý sở liệu, công cụ thiết kế giao diện, 3.1 Đặt toán Giả sử cần khai phá luật kết hợp sở liệu nhị phân với liệu bảng liệu nhị phân cho sở liệu thunghiem.mdb Trong sở liệu xây dựng sẫn số bảng liệu nhằm phục vụ cho mục đích mô thuật toán khai phá liệu nhờ luật kết hợp Hoàn toàn không làm tính chất tổng quát toán khai phá liệu nhờ luật kết hợp mà định nghĩa chương 2, giả sử thuộc tính mã hóa theo thứ tự từ điển “ A, B,C, ” để dễ theo dõi trình kết bước khai phá Cụ thể: 61 - Bộ liệu bảng TEST bảng liệu lấy làm ví dụ minh họa chương luận văn - Một số bảng liệu nhị phân khác với số trường số ghi khác - Người sử dụng chương trình tự xây dựng liệu nhị phân để thử nghiệm kiểm chứng kết thuật toán 3.2 Thiết kế giao diện sử dụng Với mục đích trình bày để minh họa bước trình thực thuật toán nhằm phục vụ giảng dạy nên giao diện thiết kế theo hướng Sau số hình giao diện chương trình: Giao diện chương trình 62 Giao diện chọn sỏ liệu Giao diện tìm tập mục phổ biến 63 Giao diện sinh luật 3.3 Đánh giá kết hướng phát triển chương trình Chương trình chạy thử nhiều liệu khác thu kết đắn Và với mục đích đưa từ ban đầu mang tính mô thuật toán chương trình đáp ứng đủ yêu cầu Hướng phát triển chương trình chạy chương trình cở sở liệu khác có dung lượng lớn có nhiều dạng liệu, không đơn sở liệu hệ nhị phân 64 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt: Vũ Đức Thi, Cơ sở liệu – Kiến thức thực hành, Nhà xuất thống kê, 1997 Vũ Đức Thi, Lê Hải Khôi, Một số nguyên lý hoạt động kho liệu, Tạp chí Tin học Điều khiển, 1999 Phan Đình Diệu, Lô gic hệ tri thức, Hà Nội, 1999 Nguyễn Thanh Thủy, Khai phá liệu – Kĩ thuật ứng dụng Hà Nội Tháng 8-2001 Tài liệu Tiếng Anh: Alan Rea (1995), Data Mining – An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast Jiawei Han and Micheline Kamber (2002), Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets of items in large databases”, In Proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C Mohammed J.Zaki and Ching-Jui Hsiao (1999), CHAM: An Efficient Algorithm for Closed Association Rules Mining, RPI Technical Report 99 Jiawei Han and Micheline Kamber, Data mining: Concepts and Techniques Academic Pres 2001 Tài liệu Trên mạng: www.cs.waikato.ac.nz/ml/weka www.sgi.com/tech/mlc/ - 25k www.visual-basic-data-mining.net/ forum/ShowForum.aspx dmoz.org/Computers/Software/ Databases/Data_Mining/Public_Domain_Software www.planet-source-code.com/vb/ scripts/ShowCode.asp www.cs.concordia.ca/db/dbdm/dm.html http://citéer,nj.nec.com/agrawal93mining.html 65 66 [...]... sinh ra các mẫu cần quan tâm không? Đây chính là vấn đề tối ưu trong khai phá dữ liệu Vấn đề này còn là thách thức rất lớn đối với các nhà khoa học trong lĩnh vực khai phá dữ liệu 15 CHƯƠNG II: KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP Khai phá dữ liệu bằng luật kết hợp là một phương pháp quan trọng trong khai phá dữ liệu Nó được ra đời và phát triển mạnh mẽ trong những năm gần đây Lần đầu tiên được Rakesh... dụng rất rộng rãi trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng neural Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ tối ưu hóa là cần thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất 1.2.2 Lựa chọn các kỹ thuật khai phá Các giải thuật khai phá dữ liệu tự động mới chỉ ở giai đoạn phát triển ban đầu Hiện nay người ta vẫn chưa đưa ra... hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng 1.2.1.5 Mạng neural Mạng neural là một phương pháp khai phá dữ liệu phát triển dữ liệu trên cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác... độ giống nhau là cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu dễ hiểu hơn, đồng... định Tìm kiếm được những luật kết hợp “quý hiếm” và mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu Đây chính là một động lực không nhỏ thúc đẩy việc tập trung nghiên cứu của nhiều nhà tin học 2.2 Bài toán khai phá dữ liệu bằng luật kết hợp 2.2.1 Phát biểu bài toán và các pha thực hiện Cho I={i1, i2, , in} là tập gồm n mục (thuộc... với một hệ thống khai phá dữ liệu Hệ thống khai phá có thể sinh ra hàng nghìn mà thậm chí có thể hàng triệu mẫu hoặc luật, do vậy với câu hỏi trên thì câu trả lời là: Chỉ có một phần nhỏ trong các mẫu hay các luật là đáng quan tâm và hữu ích với người sử dụng Có một vài câu hỏi thường đặt ra đối với một hệ thống khai phá dữ liệu là: 1 Cái gì tạo ra các mẫu quan tâm? 2 Hệ thống khai phá có thể sinh ra... Mẫu phổ biến cực đại là mẫu phổ biến mà bất kỳ tập mục nào chứa nó và lớn hơn nó đều không phải tập phổ biến 2.4 Các thuật toán khai phá dữ liệu nhờ luật kết hợp 2.4.1 Khai phá luật kết hợp Boolean đơn chiều từ cơ sở dữ liệu tác vụ Trong phần này sẽ xem xét các phương pháp khai phá dạng đơn giản nhất của luật kết hợp đó là luật kết hợp đơn chiều, đơn mức, hay luật kết hợp Boolean Ta bắt đầu với thuật... giao dịch t thì ta viết (i,t)  Một cơ sở dữ liệu D, về mặt hình thức chính là một quan hệ nhị phân  như trên Về ý nghĩa, một cơ sở dữ liệu là một tập các giao dịch, mỗi giao dịch t là một tập mục: t  2 I (với 2I là tập các tập con của I)4 Sau đây là một ví dụ về cơ sở dữ liệu quan hệ (dạng giao dịch): I = {A, C, D, T, W}, T = {1, 2, 3, 4, 5, 6 } Với thông tin về các giao dịch cho ở bảng sau: 17 X... năng đối với cá hệ thống khai phá dữ liệu để sinh ra tất cả các mẫu có thể có, có thể tồn tại Thay cho điều đó người ta tập trung vào mục tiêu tìm kiếm Khai phá luật kết hợp là một ví dụ, ở đó người ta sử dụng các độ đo có thể đảm bảo khai phá trọn vẹn, có nghĩa là với ngưỡng độ hỗ trợ và độ tin cậy nhỏ nhất xác định trước thì có thể tìm được Đối với câu hỏi thứ ba: Hệ thống khai phá có thể chỉ sinh ra... trị từ 0 đến 1 Bài toán khai phá luật kết hợp (ở dạng đơn giản nhất) có thể phát biểu như sau: Cho một cơ sở dữ liệu D; Độ hỗ trợ tối thiểu minsup; Độ tin cậy tối thiểu minconf Hãy tìm tất cả cả các luật kết hợp có dạng X Y thỏa mãn độ hỗ trợ s(X  Y)  minsup và độ tin cậy của luật là: c(X Y) = s(X  Y) / s(X)  minconf Hầu hết các thuật toán được đề xuất để khai phá dữ liệu nhờ luật kết hợp đều

Ngày đăng: 10/08/2016, 14:50

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan