luận văn thạc sĩ Phương pháp luận kết hợp và ứng dụng

ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ THÔNG TIN LÊ THU HÀ LÊ THU HÀ PHƯƠNG PHÁP LUẬN KẾT HỢP VÀ ỨNG DỤNG PHƯƠNG PHÁP LUẬN KẾT HỢP VÀ ỨNG DỤNG Chuyên ngành: : Khoa học máy tính Mã số: 60 48 01 Luận văn Thạc sỹ Khoa học máy tính Luận văn thạc sỹ : Khoa học máy tính NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Thái Nguyên - 2009 Thái Nguyên - 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i DANH MỤC CÁC HÌNH .ii MỞ ĐẦU Chƣơng TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu 1.2 Quá trình phát tri thức từ sở liệu 1.2.1 Xác định vấn đề 1.2.2.Thu thập tiền xử lý liệu 1.2.3 Khai thác liệu 11 1.2.4 Minh họa đánh giá 11 1.2.5 Đưa kết vào thực tế 11 1.3 Khai phá liệu 12 1.3.1 Các quan niệm khai phá liệu 12 1.3.2 Nhiệm vụ khai phá liệu 13 1.3.3 Triển khai việc khai phá liệu 15 1.3.4 Một số ứng dụng khai phá liệu 15 1.3.5 Các kỹ thuật khai phá liệu 17 1.3.6 Kiến trúc hệ thống khai phá liệu 19 1.3.7 Quá trình khai phá liệu 21 1.3.8 Những khó khăn khai phá liệu 22 Chƣơng LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 25 2.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 25 2.2 Định nghĩa luật kết hợp 26 2.3 Một số hướng tiếp cận khai phá luật kết hợp 32 Chƣơng MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 35 3.1 Thuật toán AIS 35 3.2 Thuật toán SETM 36 3.3 Thuật toán Apriori 37 3.4 Thuật toán Apriori-TID 44 3.5.Thuật toán Apriori-Hybrid 46 3.6 Thuật toán FP_growth 47 3.7 Thuật toán PARTITION [Savasere 95] 55 Chƣơng KHAI THÁC LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ THIẾT BỊ TRƢỜNG THPT CHU VĂN AN- THÁI NGUYÊN 58 4.1 Phát biểu toán 58 4.2 Cơ sở liệu toán 59 4.3 Rời rạc thuộc tính gốc để tạo thành thuộc tính nhị phân 60 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4.4 Cơ sở liệu dạng nhị phân 62 4.5 Kết khai thác luật kết hợp thuật toán Apriori 62 4.6 Kết khai thác sở liệu quản lý thiết bị Trường THPT Chu Văn An – Thái Nguyên 63 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên2 http://www.lrc-tnu.edu.vn MỞ ĐẦU - Trong năm gần đây, phát triển mạnh mẽ công nghệ thông Dựa lý thuyết tổng kết được, sâu vào tìm hiểu, nghiên cứu phương pháp luật kết hợp làm chương trình thử nghiệm dựa tin làm cho khả thu thập lưu trữ thông tin hệ thống thông thuật toán Apriori tin tăng nhanh cách nhanh chóng Bên cạnh đó, việc tin học hóa cách Ý nghĩa khoa học đề tài: ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh - Đây phương pháp nhiều nhà khoa học nghiên cứu có - Có thể coi đề tài tài liệu tham khảo đầy đủ, rõ ràng vực hoạt động khác tạo cho lượng liệu cần lưu trữ khổng lồ Hàng triệu sở liệu sử dụng hoạt động sản xuất, kinh doanh, quản lý , có nhiều sở liệu cực lớn cỡ Gigabyte, chí Terabyte đóng góp thực tiễn kiến thức phương pháp phát luật kết hợp Phương pháp nghiên cứu: Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn - Lập kế hoạch, lên qui trình, tiến độ thực - Tham khảo nhiều tài liệu có liên quan, tham khảo ý kiến chuyên gia lĩnh vực nghiên cứu Phạm vi nghiên cứu: Các kiến thức phương pháp phát luật kết hợp sở làm luận văn thạc sỹ Các kết nghiên cứu đạt được: - Tổng kết kiến thức phương pháp khai phá luật kết hợp Mục đích nghiên cứu đề tài tìm hiểu kỹ thuật khai phá - Luận văn trở thành tài liệu tham khảo cho người liệu; vấn đề liên quan đến khai phá luật kết hợp nhằm phát đưa muốn tìm hiểu khai phá liệu phương pháp khai phá luật kết mối liên hệ giá trị liệu CSDL áp dụng chúng vào hợp toán quản lý trang thiết bị đồ dùng trường THPT Chu Văn An – Tỉnh - Xây dựng phần mềm thử nghiệm dựa thuật toán Apriori Thái Nguyên Luận văn bao gồm chương, với nội dung: Mục tiêu nghiên cứu đề tài: - Chương 1: Trình bày tổng quan khám phá tri thức khai phá liệu, Tổng kết kiến thức liên quan đến phát luật kết có đề cập đến khái niệm tri thức, liệu, trình khám phá tri hợp tìm kiếm tri thức từ liệu thức, nhiệm vụ kỹ thuật khám phá tri thức Số hóa Trung tâm Học liệu – Đại học Thái Nguyên3 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên4 http://www.lrc-tnu.edu.vn Chương 2: Trình bày luật kết hợp, trình bày khái niệm, định nghĩa, tính chất luật kết hợp Chương 3: Trình bày số kỹ thuật khai thác luật kết hợp Chương 4: Cài đặt chương trình tìm luật kết hợp, ứng dụng quản lý trang thiết bị, đồ dùng trường THPT Chu Văn An – Tỉnh Thái Nguyên Luận văn hoàn thành khoảng thời gian không dài Tuy nhiên, đạt số kết tốt, nghiên cứu để hoàn thiện đưa chương trình luận văn vào ứng dụng thực tiễn quản lý trang thiết bị trường THPT Chu Văn An – Tỉnh Thái Nguyên, mong nhận góp ý thầy cô, đồng nghiệp bạn bè để luận văn chương trình hoàn thiện Chƣơng TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu Trong thời đại bùng nổ công nghệ thông tin, công nghệ lưu trữ liệu ngày phát triển tạo điều kiện cho đơn vị thu thập liệu tốt Đặc biệt lĩnh vực kinh doanh, doanh nghiệp nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, nhằm giúp chủ doanh nghiệp việc vạch chiến lược kinh doanh kịp thời mang lại lợi nhuận to lớn cho doanh nghiệp Tất lí khiến cho quan, đơn vị doanh nghiệp tạo lượng liệu khổng lồ cỡ Gigabyte chí Terabyte cho riêng Khi lưu trữ liệu khổng lồ thấy chắn chúng phải chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số lại họ phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, môi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Thông thường coi liệu dãy bit, số ký hiệu, “đối tượng” với ý nghĩa gửi cho chương trình dạng định Chúng ta sử dụng bit để đo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên5 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên6 http://www.lrc-tnu.edu.vn lường thông tin xem liệu lọc bỏ dư thừa, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Chúng ta xem tri thức thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ hiểu ra, phát hiện, học Nói cách khác, tri thức coi liệu có độ trừu tượng tổ chức cao - Khai phá liệu (Data mining): Các kỹ thuật áp dụng để trích xuất thông tin có ích mẫu điển hình liệu - Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu tri thức thu - Trình diễn liệu (Knowledge Presentation): Biểu diễn tri thức khai phá cho người sử dụng Phát tri thức sở liệu qui trình nhận biết Đưa kết vào thực tiễn mẫu mô hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai thác liệu bước qui trình phát Minh họa đánh giá tri thức tri thức gồm có thuật toán khai thác liệu chuyên dùng số Khai thác liệu–trích mẫu/mô hình qui định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Nói cách khác, mục đích phát tri thức khai Thu thập tiền xử lý liệu phá liệu tìm mẫu và/hoặc mô hình tồn sở liệu bị che khuất hàng “núi” liệu Nhiều người coi khai phá liệu khám phá tri thức sở liệu Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình phát tri thức sở liệu Hiểu xác định vấn đề Hình 1.1 Quá trình khám phá tri thức từ sở liệu Hình 1.1 mô tả giai đoạn trình khám phá tri thức từ sở 1.2 Quá trình phát tri thức từ sở liệu liệu Mặc dù có giai đoạn xong trình khám phá tri thức từ sở Quá trình phát tri thức chia thành bước sau: liệu trình tương tác lặp di lặp lại theo chu trình liên tục kiểu - Làm liệu (Data cleaning): Loại bỏ liệu nhiễu liệu - Tích hợp liệu (Data integration): Tích hợp liệu từ nguồn khác nước Đây trình biện chứng mang tính chất khoa học lĩnh vực phát tri thức phương pháp luận việc xây dựng hệ thống - Chọn liệu (Data Selection): Chọn liệu liên quan trực tiếp đến nhiệm vụ phát tri thức 1.2.1 Xác định vấn đề - Chuyển đổi liệu (Data Transformation): Chuyển liệu dạng phù hợp cho viẹc khai phá Số hóa Trung tâm Học liệu – Đại học Thái Nguyên7 xoáy trôn ốc, lần lặp sau hoàn chỉnh lần lặp trước Ngoài ra, giai đoạn sau lại dựa kết thu giai đoạn trước theo kiểu thác không thích hợp Đây trình mang tính định tính với mục đích xác định lĩnh vực yêu cầu phát tri thức xây dựng toán tổng kết Trong thực tế, http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên8 http://www.lrc-tnu.edu.vn sở liệu chuyên môn hóa phân chia theo lĩnh vực khác khử trường hợp trùng lặp liệu thống ký hiệu Chẳng sản phẩm, kinh doanh, tài chính, … Với tri thức phát hạn, khách hàng có nhiều ghi việc nhập sai tên có giá trị lĩnh vực lại không mang nhiều ý nghĩa đối trình thay đổi số thông tin cá nhân gây tạo lầm với lĩnh vực khác Vì mà việc xác định lĩnh vực định nghĩa tưởng có nhiều khách hàng khác toán giúp định hướng cho giai đoạn thu thập tiền xử lý liệu - Xử lý giá trị khuyết: Tính không đầy đủ liệu gây tượng liệu chứa giá trị khuyết Đây tượng phổ 1.2.2.Thu thập tiền xử lý liệu Các sở liệu thu thường chứa nhiều thuộc tính lại biến Thông thường, người ta lựa chọn phương pháp khác không đầy đủ, không nhất, có nhiều lỗi giá trị đặc biệt Vì vậy, để thực việc xử lý giá trị khuyết như: bỏ qua có giai đoạn thu thập tiền xử lý liệu trở nên quan trọng trình giá trị khuyết, điểm bổ sung tay, dùng chung để điền phát tri thức từ sở liệu Có thể nói giai đoạn chiếm từ vào giá trị khuyết, dùng giá trị trung bình ghi lớp 70% đến 80% giá thành toàn toán dùng giá trị mà tần suất xuất lớn Người ta chia giai đoạn thu thập tiền xử lý liệu thành công - Xử lý nhiễu ngoại lệ: Thông thường, nhiễu liệu đoạn như: lựa chọn liệu, làm sạch, làm giàu, mã hóa liệu Các công nhiễu ngẫu nhiên giá trị bất thường Để làm nhiễu, người đoạn thực hhiện theo trình tự đưa sở liệu thích hợp ta sử dụng phương pháp làm trơn nhiễu dùng giải thuật cho giai đoạn sau Tuy nhiên, tùy liệu cụ thể mà trình phát ngoại lệ để xử lý điều chỉnh cho phù hợp người ta đưa phương pháp cho c Làm giàu liệu: Việc thu thập liệu không đảm bảo tính đầy đủ liệu Một số thông tin quan trọng thiếu không đầy loại liệu a Chọn lọc liệu: Đây bước chọn lọc liệu có liên quan đủ Chẳng hạn, liệu khách hàng lấy từ nguồn bên nguồn liệu khác Các thông tin chọn lọc cho có không đầy đủ thông tin thu nhập Nếu thông tin thu nhập quan chứa nhiều thông tin liên quan tới lĩnh vực cần phát tri thức xác định trọng trình khai thác liệu để phân tích hành vi khách hàng rõ giai đoạn xác định vấn đề ràng ta chấp nhận đưa liệu khuyết thiếu vào b Làm liệu:Dữ liệu thực tế, đặc biệt liệu lấy từ nhiều nguồn Quá trình làm giàu bao bao gồm việc tích hợp chuyển đổi khác thường không đồng Do cần có biện pháp xử lý để đưa liệu Các liệu từ nhiều nguồn khác tích hợp thành kho sở liệu thống phục vụ cho khai thác Nhiệm vụ làm thống Các khuôn dạng khác liệu quy đổi, tính liệu thường bao gồm: toán lại để đưa kiểu thống nhất, tiện cho trình phân tích Đôi khi, - Điều hòa liệu: Công việc nhằm giảm bớt tính không quán số thuộc tính xây dựng dựa thuộc tính cũ liệu lấy từ nhiều nguồn khác Phương pháp thông thường Số hóa Trung tâm Học liệu – Đại học Thái Nguyên9 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn d Mã hóa: Các phương pháp dùng để chọn lọc, làm sạch, làm giàu Quá trình phát tri thức tiến hành theo bước liệu mã hóa dạng thủ tục, chương trình hay tiện ích nhằm tự Ngoài trình khai thác người ta thực cải tiến, nâng động hóa việc kết xuất, biến đổi di chuyển liệu Các hệ thống có cấp cho phù hợp thể thực thi định kỳ làm tươi liệu phục vụ cho việc phân tích 1.3 Khai phá liệu 1.2.3 Khai thác liệu 1.3.1 Các quan niệm khai phá liệu Giai đoạn khai thác liệu bắt đầu sau liệu thu Sau số quan niệm khai phá liệu: thập tiến hành xử lý Trong giai đoạn này, công việc chủ yếu xác định toán khai thác liệu, tiến hành lựa chọn phương pháp khai thác Khai phá liệu tập hợp thuật toán nhằm chiết xuất thông tin có ích từ kho liệu khổng lồ phù hợp với liệu có tách tri thức cần thiết Khai phá liệu định nghĩa trình phát mẫu Thông thường, toán khai thác liệu bao gồm: toán liệu Quá trình tự động hay bán tự động, song phần mang tính chất mô tả - đưa tính chất chung liệu, nhiều bán tự động Các mẫu phát thường hữu ích theo nghĩa: toán khai thác dự báo – bao gồm việc thực suy diễn mẫu mang lại cho người sử dụng lợi đó, thường lợi kinh liệu Tùy theo toán xác định mà ta lựa chọn phương pháp khai tế thác liệu cho phù hợp Khai phá liệu giống trình tìm mô tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai 1.2.4 Minh họa đánh giá Các tri thức phát từ sở liệu cần tổng hợp dạng báo cáo phục vụ cho mục đích hỗ trợ định khác Do nhiều phương pháp khai thác áp dụng nên kết có mức độ tốt/xấu khác Việc đánh giá kết thu cần thiết, phá liệu dự báo vật hay kiện Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không gian, kho liệu phi cấu trúc, mà điển hình World Wide Web giúp tạo sở cho định chiến lược Thông thường chúng Khám phá tri thức trình nhận biết mẫu mô hình tổng hợp, so sánh biểu đồ kiểm nghiệm, tin học hóa Công liệu với tính chất: Đúng đắn, mới, khả ích hiểu việc thường chuyên gia, nhà phân tích định Khai phá liệu bước trình khám phá tri thức bao gồm 1.2.5 Đƣa kết vào thực tế thuật toán khai phá liệu chuyên dùng số quy định hiệu Các kết trình phát tri thức đưa vào ứng tính toán chấp nhận để tìm mẫu mô hình liệu dụng lĩnh vực khác Do kết dự báo Như vậy, mục đích khám phá tri thức khai phá liệu tìm mô tả nên chúng đưa vào hệ thống hỗ trợ mẫu mô hình tồn sở liệu bị định nhằm tự động hóa trình khuất số lượng liệu khổng lồ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 12 http://www.lrc-tnu.edu.vn hợp hiểu theo nghĩa: Biết trước tính chât X, tính chất 1.3.2 Nhiệm vụ khai phá liệu Các toán liên quan đến khai phá liệu chất toán Y tính chất nào? thống kê Điểm khác biệt kỹ thuật khai phá liệu công cụ  Lập mô hình dự báo, bao gồm hai nhiệm vụ: Hoặc phân nhóm dư phục vụ tính toán thống kê mà biết khối lượng cần tính toán liệu vào hay nhiều lớp liệu xác định từ trước, sử Một liệu trở nên khổng lồ khâu như: thu thập liệu, tiền dụng trường cho sở liệu để dự báo xuất xử lý xử lý liệu đòi hỏi phải tự động hóa Tuy nhiên công (hoặc không xuất hiện) trường hợp khác đoạn cuối cùng, việc phân tích kết sau khai phá liệu công việc người  Phân tích đối tượng cuộc: Một sở liệu có thể chứa đối tượng không tuân theo mô hình liệu Các đối tượng liệu Do lĩnh vực đa ngành, khai phá liệu thu hút lĩnh vực khoa gọi đối tượng Hầu hết phương pháp khai học khác trí tuệ nhân tạo, sở liệu, hiển thị liệu, marketing, toán phá liệu coi đối tượng nhiễu loại bỏ chúng học, vận trù học, tin sinh học, nhận dạng mẫu, tính toán thống kê … Tuy nhiên số ứng dụng, chẳng hạn phát nhiễu Điều mà khai phá liệu làm tốt phát giả kiện sảy lại ý thường xuyên gặp thuyết mạnh trước sử dụng công cụ tính toán thống kê Mô hình dự phải Sự phân tích liệu coi phai phá đối báo sử dụng kỹ thuật phân cụm (Crustering) để chia nhóm vật, kiện tượng Một số phương pháp ứng dụng để phát đối sau rút luật nhằm tìm đặc trưng cho nhóm cuối đề tượng cuộc: Sử dụng hình thức kiểm tra mang tính thống kê nghị mô hình Ví dụ, bạn đọc đăng ký dài hạn tạp chí có sở phân phối liệu hay mô hình xác suất cho liệu, thể phân nhóm dựa theo nhiều tiêu chí khác (lứa tuổi, giới tính, thu dùng độ đo khoảng cách mà theo đối tượng có khoảng nhập…), sau tạp chí vào đặc trưng riêng nhóm để đề cách đáng kể đến cụm khác coi đối tượng cuộc, mức phí thu năm cho phù hợp dùng phương pháp dựa độ lệch để kiểm tra khác Chúng ta thấy, nhiệm vụ khai phá liệu là: đặc trưng nhóm đối tượng  Phân cụm, phân loại, phân nhóm, phân lớp Nhiệm vụ trả lời câu hỏi:  Phân tích tiến hóa: Phân tích tiến hóa thực việc mô tả mô Một liệu thu thập thuộc nhóm nào? Quá trình thường hình hóa quy luật hay khuynh hướng đối tượng mà ứng thực cách tự động xử chúng thay đổi theo thời gian Phân tích tiến hóa bao  Khai phá luật kết hợp Nhiệm vụ phát mối quan hệ gồm đặc trưng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân giống nhâu ghi giao dịch Luật kết hợp X=>Y có dạng tổng cụm liệu liên quan đến thời gian, phân tích liệu theo chuỗi thời quát là: Nếu giao dịch sở hữu tính chất X đồng thời gian, so sánh mẫu theo chu kỳ phân tích liệu dựa tính tương sở hữu tính chất Y, mức độ Khai phá luật kết tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 13 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 14 http://www.lrc-tnu.edu.vn Những năm gần đây, người ta quan niệm khai phá liệu (Đôi 1.3.3 Triển khai việc khai phá liệu Nhóm tác giả Cabena et al đề nghị triển khai trình khai phá dùng thuật ngữ khám phá liệu hay phát tri thức) trình phân tích liệu từ viễn cảnh khác rút thông tin bổ ích – liệu theo bước: Bước 1: Xác định rõ mục tiêu thương mại cần khai phá thông tin dùng để tăng lợi nhuận, cắt giảm chi phí hai mục Bước 2: Chuẩn bị liệu (Thu thập, tiền xử lý, chuyển đổi khuôn dạng đích Phần mềm khai phá liệu công cụ phân tích dùng để phân tích liệu Nó cho phép người sử dụng phân tích liệu theo nhiều góc nhìn liệu thấy cần thiết) Bước 3: Khai phá liệu (Chọn thuật toán thích hợp) khác nhau, phân loại liệu thao quan điểm riêng biệt tổng kết Bước 4: Phân tích kết thu (Xem có thú vị không?) mối quan hệ bóc tách Xét khía cạnh kỹ thuật, khai phá liệu Bước 5: Tiêu hóa tri thức thu lượm (Nhằm đề kế hoạch khai trình tìm kiếm mối tương quan mẫu ẩn chứa hàng chục trường liệu sở liệu quan hệ cỡ lớn thác thông tin mới) Một tác giả khác nói tới quy trình bước khai phá liệu, với Hiện nay, kỹ thuật khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: quan điểm gần giống trên: Chiết xuất, biến đổi nạp liệu vào hệ thống kho liệu - Thương mại: Phân tích liệu bán hàng thi trường, phân tích đầu tư, Lưu trữ quản trị liệu sở liệu nhiều chiều định cho vay, phát gian lận, … Xác định mục tiêu cần khai phá (Sử dụng công cụ phân tích mặy - Thông tin sản xuất: Điều khiển lập kế hoạch, hệ thống quản lý, phân tích kết thử nghiệm, … tác nghiệp) Sử dụng phần mềm phân tích liệu để khai phá liệu - Thông tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, … Thể kết khai phá khuôn dạng hữu ích hay bảng biểu,đồ thị khoa học địa lý: dự báo động đất, … - Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet… 1.3.4 Một số ứng dụng khai phá liệu Ở thập kỷ 90 kỷ XX, người ta coi khai phá liệu trình Và thu thật đáng giá Điều chứng minh thực phân tích sở liệu nhằm phát thông tin giá trị, thường tế: Chẩn đoán bệnh y tế dựa kết xét nghiệm giúp cho bảo thể dạng mối quan hệ chưa biết đến biến số Những hiểm y tế phát nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm phát sử dụng nhằm tăng thêm tính hiệu doanh nghiệp nhiều kinh phí năm; dịch vụ viễn thông phát phải cạnh tranh thương trường Nhờ phân tích liệu liên nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu quan đến khách hàng, doanh nghiệp có khả dự báo trước số hành vi USD; IBM Suft-Aid áp dụng khai phá liệu vào phân tích lần đăng ứng xử khách hàng nhập Web vào trang liên quan đến thị trường để phát sở thích khách hàng, từ đánh giá hiệu việc tiếp thị qua Web cải thiện hoạt động Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 15 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 16 http://www.lrc-tnu.edu.vn Website; trang Web mua bán qua mạng Amazon tăng doanh thu ứng dụng phân đoạn thị trường, phan đoạn khách hàng, nhận dạng nhờ áp dụng khai phá liệu việc phân tích sở thích mua bán khách mẫu, phan loại trang Web… Ngoài phân cụm liệu sử hàng dụng bước tiền xử lý cho thuật toán khai phá liệu khác 1.3.5 Các kỹ thuật khai phá liệu b Phân lớp liệu: Thường chia thành hai nhóm chính: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho - Kỹ thuật khai phá liệu mô tả: Có nhiệm vụ mô tả tính chất đặc tính chung liệu tring sở liệu có Các kỹ mẫu liệu Quá trình phân lớp liệu thường gồm hai bước: Xây dựng mô hình sử dụng mô hình để phân lớp liệu thuật gồm có: Phân cụm (clustering), tóm tắt (summerization), trực - Bước 1: Một mô hình xây dựng dựa việc phân tích quan hóa (visualiztation), phân tích phát triển độ lệch (evolution mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định and deviation analyst), phân tích luật kết hợp (association rules) … thuộc tính gọi thuộc tính lớp Các lớp liệu - Kỹ thuật khai phá liệu dự đoán: Có nhiệm vụ đưa dự đoán gọi lớp liệu huấn luyện (training data set) Các nhãn lớp tập dựa vào suy diễn liệu thời Các kỹ thuật gồm có: liệu huấn luyện phải xác định trước xây dựng mô hình Phân lớp (classification), hồi quy (regession)… - Bước 2: Sử dụng mô hình để phân lớp liệu Trước hết, phải Tuy nhiên, có số phương pháp thông dụng là: Phân cụm tính độ xác mô hình Nếu độ xác chấp nhận được, liệu, phân lớp liệu, phương pháp hồi quy khai phá luật kết hợp mô hình sử dụng để dự đoán nhãn lớp cho mẫu liệu a Phân cụm liệu: khác tương lai Mục tiêu phương pháp phân cụm liệu nhóm đối Ví dụ việc sử dụng phương pháp phân lớp khai phá liệu ứng tượng tương tự tập liệu vào cụm cho đối tượng dụng phân lớp xu hướng thị trường tài ứng dụng tự động thuộc lớp tương đồng đối tượng thuộc cụm khác xác định đối tượng đáng quan tâm sở liệu ảnh lớn không tương đồng Phân cụm liệu ví dụ phương pháp học c Phương pháp hồi quy: thầy Không giống phân lớp liệu, phân cụm liệu không Phương pháp hồi quy khác với phân lớp liệu chỗ: Hồi quy dùng để đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì coi dự đoán giá trị liên tục phân lớp liệu dùng để dự đoán phân cụm liệu cách học quan sát (learning by observation), giá trị rời rạc phân lớp liệu học ví dụ (learning by example) Trong Hồi quy hàm học ánh xạ mục liệu thành biến dự đoán có phương pháp bạn biết kết cụm thu giá trị thực Có nhiều ứng dụng khai phá liệu với nhiệm vụ hồi quy, bắy đầu trình Vì vậy, thông thường cần có chuyên gia lĩnh vực chẳng hạn khả đánh giá tử vong bệnh nhân biết kết để đánh giá cụm thu Phân cụm liệu sử dụng nhiều Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 17 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 18 http://www.lrc-tnu.edu.vn Nhận xét: Khi ghép Baskets với nó, giỏ ta có 45 cách chế From Lk-1 is p, Lk-1 is q cặp ứng viên [do (10*9)/2=45], có 10 triệu giỏ mua hàng, nên ta phải Where p.I1 = q.I1 and….and p.Ik-2 = q.Ik-2 and p.Ik-1 < q.Ik-1 xét 45x10 trường hợp để lọc cặp  – thường xuyên //Bước tỉa bớt Trong sử dụng Thuật toán Apriori, trước hết ta giảm Forall itemsets c Ck đáng kể kích thước Baskets, bước ta tìm phần tử (mặt hàng) Forall (k-1)- subsets s of c xuất  – thường xuyên If (s is not of Lk-1) then SELECT * Delete c from Ck Hàm sau có nhiệm vụ rà soát tính chất đo đếm xem giá đỡ FROM Baskets GROUP BY item Nói cách khác, bước Agrawal dùng hàm HAVING COUNT (*) >= s; count() để tìm tập hợp xuất  – thường xuyên có phần tử Sự giảm kích thước Baskets chưa phải điểm cốt yếu Điểm cốt yếu ta kết hợp để tìm cặp, ta giảm bình phương lần Function count(C:a set of itemsets, D: database) begin for each transaction T  D =  Di Cốt lõi thuật toán Apriori hàm apriori_gen() Agrawal đề nghị năm 1994 Hàm hoạt động theo bước, bước 1- tập hợp Lk-1 tự kết nối begin (join) với để tạo tập ứng cử viên Ck Sau hàm apriori_gen() forall subsets x T loại bỏ tập hợp có hợp (k-1) phần tử không nằm Lk-1 (vì chúng tập hợp xuất  – thường xuyên, theo nhận xét if x  C then x.count++; end end ban đầu) Dưới toàn Thuật toán Apriori Method: apriori_gen() [Agrwal1994] Thuật toán 3- Apriori [Agrawal1994] Input: Lớp tập hợp xuất  – thường xuyên có (k-1) phần tử, ký hiệu Input: I, D,  Lk-1 Output: L Output: Lớp tập hợp xuất  – thường xuyên có k phần tử, ký hiệu Algorithm: Luật kết hợp //Apriori Algorithm prposed by Agrawal R., Srikant, R [Agrawal1994] // Bước tự kết nối //procedure LargeItemsets Ii = Items i 1) C1: = I; // Tập ứng cử viên có phần tử Insert into Ck 2) Sinh L1 cách tính tần số xuất mặt hàng giao dịch; Select p.I1, p.I2,…, p.Ik-1, q.Ik-1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 39 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 40 http://www.lrc-tnu.edu.vn 3) for (k=2; Lk-1  ; k++) begin C1 C1 //Tạo tập ứng cử viên Tập phần tử Quét // Các tập ứng cử viên có k phần tử sinh từ tập (k-1)- phần tử {Bánh mì} xuất  – thường xuyên {Bơ} để tính độ {Bơ} {Trứng} hỗ trợ 4) Ck = apriori-gen( Lk-1 ); toàn Tập hợp // Tính độ hỗ trợ cho Ck Độ hỗ trợ Tập hợp Độ tin cậy 50% {Bánh mì} 50% 100% {Bơ} 100% {Trứng} 50% {Trứng} 50% {Sữa} 25% CSDL {Bánh mì} {Sữa} C2 5) Count (Ck, D) C2 Tập phần tử 6) Lk = {c  Ck| c.count  } Tập hợp {Bánh mì, 7) end 8) L:= k Lk {Bánh mì, Bơ} Bơ} {Bánh mì, {Bánh mì, Bảng 3.1 minh họa áp dụng thuật toán cho ví dụ ( =40%) L1 Trứng} Trứng} {Bơ, {Bơ, Trứng} L2 Độ hỗ trợ Tập hợp 50% Độ tin cậy {Bánh mì, 50% Bơ} 25% {Bơ, 50% Trứng} 50% Trứng} C3 Quét Tập phần tử  toàn C3 L3 CSDL Tập hợp Độ hỗ trợ để tính độ  Tập hợp Độ tin cậy  hỗ trợ Bảng 3.1 Dùng thuật toán Apriori tính tập hợp xuất  – thường xuyên Bản thân Agrawal đưa nhận xét: thuật toán Apriori hiệu so với AIS SETM Trong ví dụ minh họa, bước thứ tư, thuật toán Apriori lược bỏ hết, giữ lại tập ứng cử viên nhất, hai thuật toán đề nghị tới ứng cử viên Do đó, để đạt kết Apriori, hai thuật toán chắn phải cần đến tính toán bổ trợ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 41 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 42 http://www.lrc-tnu.edu.vn Thuật toán Apriori cải tiến giải tình “xấu”, Các vector biểu diễn nhị phân cho tập thuộc tính có dạng sau: Ck Lk-1 to quá, không chứa đủ nhớ tính toán Khi đó, cần tu {A,B} {A,C} {A,D} {A,E} {B,C} {B,D} {B,E} {C,D} {C,E} {D,E} chỉnh lại hàm apriori_gen() chút 1 1 0 *Thuật toán Apriori nhị phân: 0 0 1 Thuật toán Apriori nhị phân sử dụng vector bit cho thuộc tính, 1 1 0 vector nhị phân n chiều ứng với n giao tác sở liệu Có thể biểu 1 0 1 diễn sở liệu ma trận nhị phân dòng thứ I tương ứng 1 1 1 1 1 với giao tác (bản ghi) ti cột thứ j tương ứng với mục (thuộc tính ) ij Ma 0 0 1 0 trận biểu diễn sở liệu ví dụ cho bảng dưới: TID A B C D E 1 1 1 1 1 1 1 1 1 1 trợ tối thiểu MinSupp=50% (cho trước) nên bị loại Các vector biểu diễn nhị phân cho tập thuộc tính có dạng: Bảng 3.2 Ma trận biểu diễn sở liệu Các vector biểu diễn nhị phân cho tập thuộc tính có dạng sau: {A} Vector {B} Vector {C} Vector {D} Vector {E} Bảng 3.4 Vector biểu diễn nhị phân cho tập thuộc tính Các vector biểu diễn cho thấy {A,C}, {C,D} có độ hỗ trợ 33% nhỏ độ hỗ Vector {A,B,D} {A,B,E} {B,C, E} {B,D,E} 1 0 1 1 1 1 1 0 0 Bảng 3.5 Vector biểu diễn nhị phân cho tập thuộc tính Các vector biểu diễn nhị phân cho tập thuộc tính có dạng: 1 1 1 {A,B,C,D} {A,B,C,E} {A,C,D,E} {B,C,D,E} 0 0 0 0 0 0 1 1 1 1 1 1 1 0 1 1 1 0 0 Bảng 3.3 Vector biểu diễn nhị phân cho tập thuộc tính Bảng 3.6 Vector biểu diễn nhị phân cho tập thuộc tính Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 43 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 44 http://www.lrc-tnu.edu.vn For all candidates c Ct 3.4 Thuật toán Apriori-TID Thuật toán Apriori-TID phần mở rộng theo hướng tiếp cận thuật toán Apriori Thay dựa vào sở liệu thô thuật toán AprioriTID biểu diễn bên giao dịch candidate hành Như ta thấy, thuật toán Apriori đòi hỏi phải quét toàn sở liệu để tính độ hỗ trợ cho tập hợp ứng cử viên bước Đây lãng phí lớn Dựa tư tưởng ước đoán đánh giá độ hỗ trợ, Agrawal đề nghị cải tiến Apriori theo hướng phải quét sở liệu lần đầu tiên, sau tính độ hỗ trợ cho tập hợp phần tử Từ bước thứ hai trở đi, Thuật toán Apriori-TID nhờ lưu trữ song song ID giao dịch ứng cử viên, đánh giá, ước lượng độ hỗ trợ mà khỏi phải quét lại toàn sở liệu c.count++; if (C1) then Ck  Ck   t.TID,C t  end Luật kết hợp= {c  Ck | c.count  minsup}; end Answer = k Lk Sự khác Apriori AprioriTID là: sở liệu không sử dụng để đếm support sau lần quét qua sở liệu Vì sau lần quét 1-itemset sinh (các L1), L1 dùng để lọc giao dịch sở liệu item không phổ biến giao dịch C1 chứa item không phổ biến Kết Nội dung thuật toán Apriori-TID Input: Tập giao dịch D, minsup đưa vào C sử dụng lần quét Vì kích thước C nhỏ Output: Tập Answer gồm tập mục thường xuyên D so với C1 Sự giống hai thuật toán sử dụng bước cắt tỉa Method: L1= {large – itemset}; hàm Apriori_gen() C1 = database D; 3.5.Thuật toán Apriori-Hybrid Thuật toán Apriori-Hybrid coi kết hợp Thuật toán for (k=2; Lk-1  ; k++) Apriori thuật toán Apriori-TID begin Trong thuật toán Apriori-Hybrid, sử dụng tổ chức lặp Ck   ; chuyển sang Apriori-TID chắn tập C k vào nhớ For all entries t  Ck 1 Thuật toán Apriori-Hybrid coi tốt so với Apriori AprioriTID begin Nhờ có nhận xét tinh tế thuật toán Apriori chạy nhanh //Xác định candidate itemset bước đầu tiên, thuật toán Apriori-TID chạy nhanh bước sau (và //được chứa giao dịch với định danh t.TID C1  c  Ck (c-c[k])  t.set_of_itemset  (c-c[k-1])  t.set_of_itemset; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 45 http://www.lrc-tnu.edu.vn đáng buồn chạy chậm bước đầu tiên), Agrawal đề nghị phương án lai ghép: không thiết phải chạy tất bước thuật Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 46 http://www.lrc-tnu.edu.vn toán giống Những bước đầu tiên, ông cho chạy thuật toán Apriori, sau Thứ nhất, thuật toán sử dụng cấu trúc mẫu thường xuyên FP_Tree tập ứng cử viên lớn, chứa đầy nhớ tính toán, để nén liệu Cấu trúc FP_Tree mở rộng cấu trúc prefix Những dùng thuật toán Apriori-TID nút mục có độ dài 1, gán nhãn tên mục Srikant đưa thêm nhận xét: thời gian chuyển từ thuật toán Apriori sang thuật toán Apriori-TID tương đối “đắt” (tốn kém), thuật toán lai ghép Apriori-Hybrid tỏ hiệu chuyển mạch diễn xếp theo tần suất xuất mục để mục có số lần xuất nhiều chia sẻ nhiều Thứ hai, khai thác phát triển đoạn mẫu dựa FP_Tree, bắt đầu gần cuối trình tìm kiếm tập xuất  – thường xuyên từ mẫu thường xuyên có kích thước kiểm tra sở mẫu phụ 3.6 Thuật toán FP_growth thuộc (conditional pattern base), khởi tạo FP_Tree mẫu phụ thuộc, thực Như ta biết thuật toán Apriori bước đột phá khai thác tập mục thường xuyên cách sử dụng kỹ thuật tỉa để rút gọn kích thước tập mục ứng cử Tuy nhiên, trường hợp số tập mục nhiều, tập mục dài ngưỡng độ hỗ trợ nhỏ thuật toán gặp phải hai chi phí lớn: - Sinh số lượng khổng lồ tập mục ứng cử Ví dụ có 10 tập mcụ 17 mục thường xuyên sinh 10 tập mục 2- mục ứng cử thực kiểm tra xem tập mục thường xuyên Hơn nữa, để phát khai thác đệ quy Mẫu kết nhận qua việc kết nối mẫu hậu tố với mẫu sinh từ FP_Tree phụ thuộc Thứ ba, dùng kỹ thuật tìm kiếm phân hoạch không gian tìm kiếm chia để trị để chia nhiệm vụ khai thác thành nhiệm vụ nhỏ giới hạn lại mẫu làm giảm không gian tìm kiếm Cây mẫu thường xuyên Cây mẫu thường xuyên có cấu trúc định nghĩa sau: tập mục thường xuyên có kích thước n, thuật toán phải kiểm tra -2 Định nghĩa: FP_Tree bao gồm nút gốc có nhãn “Null”, tập non prefix tập mục thường xuyên tiềm ẩn nút gốc bảng tiêu đề mục thường xuyên n - Phải duyệt qua sở liệu nhiều lần Số lần duyệt sở liệu thuật Mỗi nút prefix có trường: Item_name, count, nút liên kết toán Apriori độ dài tập mục thường xuyên dài tìm (node link); với item_name nhãn nút, count số giao tác mà mục Trong trường hợp tập mục thường xuyên dài sở liệu lớn không xuất hiện, node_link dùng để liên kết với nút có thể thực Thuật toán Apriori phù hợp với sở liệu thưa, Item_name hay Null Mỗi lối vào bảng tiêu đề có hai trường: Item_name node_link, với sở liệu dạy thuật toán hiệu Để khắc phục chi phí lớn thuật toán Apriori năm 2000 Jiawei node_link trỏ tới nút FP_Tree có chứa nhãn Item_name Han, Jian pei Yiwen Yin đưa thuật toán gọi FP_growth Ví dụ: Cho sở liệu với giao tác mục thường xuyên để tìm tập mục thường xuyên cách không sinh tập mục ứng cử từ giao tác xếp giảm dần theo độ hỗ trợ (minsup = 3/5) thể tập mục thường xuyên trước mà hiệu cách sử dụng ba kỹ bảng sau: thuật sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 47 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 48 http://www.lrc-tnu.edu.vn TID Các mục giao tác Các mục thường xuyên xếp T100 f, a, c, d, g, i, m, p f, c, a, m, p T200 a, b, c, f, l, m, o f, c, a, b, m T300 b, f, h, j, o f, b T400 b, c, k, s, p c, b, p T500 a, f, c, l, p, m, n f, c, a, m, p Header table Item Head of node_link Root f:4 f c c:1 c:3 b:1 b:1 a Bảng 3.7.Các giao tác sở liệu Từ định nghĩa có thuật toán xây dựng mẫu thường xuyên FP_Tree sau: a:3 b b:1 m p:1 m:2 p Thuật toán xây dựng FP_Tree m:1 p:2 Input: sở liệu ngưỡng độ hỗ trợ minsup Output: Cây mẫu thường xuyên FP_Tree Hình 3.8 Một mẫu thường xuyên Method: Bước 1: Duyệt qua sở liệu để đếm số lần xuất mục giao tác xác định mục thường xuyên độ hỗ trợ chúng, xếp Duyệt qua sở liệu để tìm tập mục thường xuyên xếp giảm dần theo độ hỗ trợ: Mục Số lần xuất F C A thực thêm vào FP_Tree cách gọi hàm insert_tree(p|T), thay đổi B trường count cho phù hợp M Ví dụ: Với sở liệu trình bày bảng 2.2 ta có: P mục thường xuyên giảm dần theo độ hỗ trợ, ta danh sách mục xếp L Bước 2: Xây dựng FP_Tree Đầu tiên tạo nút gốc, sau với giao tác t chọn xếp mục thường xuyên theo thứ tự danh sách L, Khởi tạo T, gốc có nhãn Null Duyệt qua sở liệu lần thứ hai, với giao tác loại bỏ mục không thường xuyên, mục lại xếp giảm dần theo số lần xuất hiện, dãy mục phổ biến thêm vào thay đổi số đếm cho phù hợp Quá trình xây dựng thể hình 3.6 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 49 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 50 http://www.lrc-tnu.edu.vn Kết thu FP_Tree đầy đủ sau: Root Item Head of Node_link f f:4 c:1 c:3 b:1 c b:1 a a:3 b b:1 p:1 m Root Root Root Root f:1 f:2 f:3 f:2 Root m:2 p m:1 T100 T200 T300 T400 fcamp fcabm fb cbb c:1 T500 f:4 c:1 p:2 fcamp c:2 c:2 c:2 a:2 a:2 a:2 b:1 a:1 c:3 b:1 a:1 Hình 3.10 Cây FP_Tree sở liệu bảng 2.2 a:1 c:1 m:1 m:1 b:1 m:1 b:1 p:1 p:1 m:1 p:1 m:1 p:1 a:3 p:1 m:1 b:1 m:2 b:1 p:1 m:1 p:2 m:1 Thủ tục thêm mục thường xuyên vào FP_Tree: Procedure Insert_Tree(string[p|P], Tree T) //Trong p mục dãy P phần lại dãy {If T có nút N mà N.Item_name = p Then N.count++ Else Tạo nút N; Hình 3.9 Quá trình xây dựng FP_Tree Số hóa Trung tâm Học liệu – Đại học Thái Nguyên N.Item_name:= p; N.count:=1; http://www.lrc-tnu.edu.vn 51 Thay đổi nút liên kết cho p; If p then Insert_Tree (p,N): } Khai thác tập mục thƣờng xuyên Sau xây dựng xong FP_Tree cho sở liệu việc tìm tập mục thường xuyên thực FP_Tree mà không cần duyệt sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 52 http://www.lrc-tnu.edu.vn Tính chất: Khi tìm mẫu có chứa mục cần tính toán cho nút tiếp đến thực với mẫu thường xuyên (am:3) thu tập mục tiền tố P số lần xuất nút đường dẫn tiền tố số lần cam, fam fcm Thực với fcam Như với đường dẫn xuất nút đơn kết khai thác tổ hợp tất mục đường dẫn Thuật toán FP_Growth thực sau: Cơ sở mẫu phụ thuộc m (f:2, c:2, a:2) (f:1, c:2, a:1, b:1) Bảng tiêu đề Root Bắt đầu từ lên bảng header cây, mục A dùng nút liên kết để duyệt qua tất nút mà xuất A, với nút N có n.Item_name = A tìm tất đường dẫn nút N xuất phát từ gốc f:4 c:4 Root tới nút N Từ đường dẫn ta xây dựng mẫu (partten tree) phụ thuộc cho A Sau tìm mục thường xuyên có chứa A từ mẫu phụ thuộc Ví c:3 b:1 f:4 dụ xét mục theo thứ tự từ lên p, m, , f sau: Xuất phát từ mục p:chiếu vào FP_Tree hình 3.7 ta có hai đường dẫn có Mục f:4 a:3 chứa p là: f:4, c:3, a:3, m:2, p:2 c:1, b:1, p:1 c Từ ta có hai tiền đường dẫn p là: {(f:2, c:2, a:2, m:2)}, {(c:1, b:1)} FP_Tree phụ thuộc m p:2 a:2 m:1 FP_Tree tổng quát sở mẫu phụ thuộc Khởi tạo mẫu thường xuyên sở mẫu phụ thuộc ta FP_Tree phụ thuộc thực hiên khai thác đệ quy ta thu kết quả, có nhánh (c:3) nên ta có tập mục thường xuyên c:2 a m:2 cb xuất lần với p Số lần xuất mục p 2+1= lần Vì ta tìm mục thường xuyên có chứa p mà có tần suất xuất p f:3 f b:1 Theo đường dẫn ta có tập mục fcam xuất lần với p, Head of node link Cơ sở mẫu phụ thuộc “cam”(f:3) FP_Tree phụ thuộc “cam”(f:3) Root Cơ sở mẫu phụ thuộc “am”: (f:3, c:3) FP_Tree phụ thuộc “am” (cp) thỏa mãn ngưỡng minsup=3/5 f:3 Mục m có tần suất xuất 3, có hai đường dẫn có chứa mục m (f:4, Root Cơ sở mẫu phụ thuộc “cm”(f:3) FP_Tree phụ thuộc “cm”(f:3) c:3, a:3, m:2) (f:4, c:3, b:1, m:1) (Ta không cần xét mục p tất tập mục thường xuyên có chứa p tìm f:3 Root thấy xử lý với mục p) Từ hai đường dẫn ta có hai sở mẫu phụ thuộc {(f:2, c:2, a:2), f:1, c:1, a:1, b:1} Khởi tạo điều kiện ta đường dẫn đơn f:3 c:3 sau thực khai thác đệ quy mẫu thường xuyên Hình 3.8 thể trình khai thác tập mục thường xuyên Bắt đầu thực khai thác lần Hình 3.11 Các FP_Tree phụ thuộc lượt với nút có nhãn a, c, f thu tập mục thường xuyên am, cm, fm, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 53 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 54 http://www.lrc-tnu.edu.vn Thuật toán Partition thuật toán tựa Apriori dùng tập giao để xác định giá Thuật toán FP_Growth trị support Như trình bày thuật toán Apriori xác định giá trị support Procedue FP_Growth(tree, ) tất k-1 candidate trước tính k candidate Vấn đề đặt thuật toán Partition muốn dùng TIDList tập phổ biến (k- { If (cây chứa đường đơn P) then For tổ hợp (kí hiệu ) nút đường dẫn P Do Sinh mẫu   với support = độ hỗ trợ nhỏ nút  1)-item để phát sinh IDList k candidate Một điều hiển nhiên kích thước phát sinh kết vượt giới hạn nhớ vật lý máy tính thông thường cách dễ dàng Else Để giải vấn đề thuật toán Partition chia sở liệu thành nhiều For header Do phần chúng xử lý độc lập Kích thước phần chọn { Sinh mẫu  =i   cách thức TIDList lưu nhớ support= i support Tìm sở mẫu phụ thuộc  khởi tạo FP_Tree phụ thuộc Tree If Tree   Then FP_Growth(Tree, ) Sau xác định tập hổ biến cho phần sở liệu, cần phải có motọ tao tác duyệt lại toàn sở liệu để đảm bảo tập phổ biến cục tập phổ biến toàn cục } Thuật toán FP_growth hiệu chỗ duyệt qua sở liệu hai lần để xác định mục thường xuyên tạo FP_Tree Nhờ sử dụng cấu trúc FP_Tree mà trình khai thác mẫu thường xuyên không cần phải duyệt lại sở liệu mà cần xuất phát từ mục a i bảng tiêu đề, sinh sở mẫu phụ thuộc, xử lý không xem xét xử lý sau Thuật toán phân hoạch không gian tìm kiếm để thu nhỏ không gian tìm kiếm, dùng phương pháp chia để trị để phân rã thành nhiệm vụ nhỏ tạo nên hiệu Thuật toán Partition làm giảm số lần quét liệu [18] Nó chia sở liệu thành phần nhỏ phần lưu trử nhớ chính, giả sử phàn D1 , D2 ,…., Dp Trong lần quét đầu tiên, tìm large-itemset đại phương Di (1  i  p), với large-itemset địa phương Li tìm cách sử dụng thuật toán Level-wise chẳng hạn Apriori Từ phần điều chỉnh nhớ Trong lần quét thứ hai, phần đếm candidate-itemset Input: I, , D1 , D2 ,…., Dp Sắp xếp mục giảm dần theo tần suất xuất mục dẫn đến Output: L mục thường xuyên chia sẻ nhiều Algorithm: Thuật toán phù hợp với liệu thưa, dày mẫu dài Đồng thời thuật toán //Tìm tập xuất  – thường xuyên lần phân hoạch loại bỏ mục không phổ biến từ đầu 1) for I from to p 3.7 Thuật toán PARTITION [Savasere 95] 2) Li = Apriori (I, Di,  ); //Li tập xuất  – thường xuyên Di Thuật toán Partition dùng kỹ thuật tìm kiếm theo bề rộng giao tập hợp // Ghép tập lại để tạo tập ứng cử viên 3) C= i Li biến nhận dạng (TID-List Intersection) 4) count (C,D)= i Di; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 56 http://www.lrc-tnu.edu.vn 5) return L= {x | x C, x.count   x|D|}; Chƣơng Thuật toán tỏ hiệu phân bố liệu sở liệu bị lệch KHAI THÁC LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ THIẾT BỊ TRƢỜNG THPT CHU VĂN AN- THÁI NGUYÊN 4.1 Phát biểu toán Trường THPT Chu Văn An – Tỉnh Thái Nguyên trường THPT Bộ Giáo dục Đào tạo công nhận trường đạt chuẩn Quốc gia giai đoạn 20012010 tỉnh Thái Nguyên, trường số 16 toàn quốc đạt chuẩn thời điểm (năm 2003) Hiện trường đơn vị đầu trường THPT ứng dụng có hiệu Công nghệ thông tin truyền thông việc quản lý giảng dạy Để có thành tích đáng trân trọng nhờ vào đội ngũ giáo viên 100% đạt chuẩn sở vật chất đại Nhà trường Ngoài sở vật chất (lớp học, bàn, ghế…) trường khác trường THPT Chu Văn An quản lý 150 máy vi tính, 27 máy chiếu projector, máy in, Trong 100% lớp học trang bị đầy đủ máy tính máy chiếu Với số lượng trang thiết bị đại nhiều đến vấn đề quản lý toàn trang thiết bị, đồ dùng trường sổ sách công việc nặng nhọc dành cho người quản lý Để giảm bớt khó khăn cần có chương trình quản lý trang thiết bị nhằm hỗ trợ cho người quản lý công việc ví dụ như: lựa chọn thiết bị, đồ dùng cần mua: mua thiết bị liên quan? mua số lượng bao nhiêu? cần thay có nhóm thiết bị để tránh lãng phí? Diện tích phòng thực hành 70m2 cần có thiết bị gì? Việc ứng dụng khai thác luật kết hợp quản lý trang thiết bị giúp người quản lý nắm bắt đặc thù trang thiết bị loại phòng, danh sách thiết bị hay liên quan tới nhau, từ cần mua sắm hay sửa chữa thay người quản lý có công cụ hỗ trợ đắc lực giúp đưa nhanh định Chương trình cài đặt thuật toán Apriori nhị phân biết, thuật toán Apriori nhị phân dựa nhận xét đơn giản tập tập xuất –thường xuyên tập xuất –thường xuyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 57 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 58 http://www.lrc-tnu.edu.vn Do đó, trình tìm tập ứng cử viên, cần dùng đến tập ứng + Nha: Ghi tên dãy nhà phòng cử viên vừa xuất bước trước đó, không cần tất tập ứng cử + Tang: Ghi tên tầng viên (cho đến thời điểm đó) Nhờ vậy, nhớ giải phóng đáng kể - Bảng thống kê chi tiết thiết bị phòng 4.2 Cơ sở liệu toán - Bảng danh mục phòng cần quản lý thiết bị Hình 4.2.Bảng thống kê chi tiết thiết bị phòng + Trường Maphong: Ghi mã phòng Hình 4.1.Bảng danh mục phòng + Các trường lại tên thiết bị cần quản lý như: Attomat, Ampli, Banhs (bàn học sinh), DieuHoa (điều hoà), liệu ghi số lượng thiết bị Cấu trúc ví dụ liệu bảng sau: + Maphong: Ghi mã phòng + Loaiphong: Ghi loại phòng phòng họp, phòng học hay phòng thực hành… + Tenphong: Ghi tên cụ thể phòng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 59 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 60 http://www.lrc-tnu.edu.vn 4.3 Rời rạc thuộc tính gốc để tạo thành thuộc tính nhị phân Tương tự ta rời rạc cho trường lưu trữ thiết bị khác như: rèm cửa, máy tính điều hoà,… 4.4 Cơ sở liệu dạng nhị phân Sau biến đổi bảng liệu gốc chi tiết tên số lượng thiết bị phòng quan thành bảng liệu dạng nhị phân, ta bảng liệu nhị phân sau: Hình 4.3.Bảng đăng ký tên thuộc tính rời rạc Bảng gồm trường + Mã TT gốc: ghi mã thuộc tính gốc + Mã TT rời rạc: ghi mã thuộc tính tách (rời rạc) từ thuộc tính gốc Một thuộc tính gốc tách thành n thuộc tính kiểu nhị phân (thuộc tính mà liệu có giá trị 1) Ví dụ: thuộc tính gốc Auttomat ta tạo thành ba thuộc tính At1, At2 At3 Nếu số lượng Attomat =3 < At2=1, At1, At3 = 4.5 Kết khai thác luật kết hợp thuật toán Apriori Nếu số lượng Attomat >=6 trường At3=1, At1, At2 =0 Cụ thể, trường Attomat có giá trị 1, 3, trường At1, At2 At3 có giá trị Với độ hỗ trợ (Min Support) = 0.65, độ tin cậy (Min Confidence) = 0.7 hình sau: Tổng số giao tác = 18 Attomat At1  0 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên At2 1 61 At3 0 http://www.lrc-tnu.edu.vn Tổng số thuộc tính = 35 Tổng số tập phổ biến 32 tập Tổng số luật 180 luật Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 62 http://www.lrc-tnu.edu.vn 4.6 Kết khai thác sở liệu quản lý thiết bị Trƣờng THPT Chu Văn An – Thái Nguyên KẾT LUẬN Có thể nói rằng, khai phá liệu kỹ thuật quan trọng, Kết khai thác luật kết hợp sở liệu thống kê phòng: có 100 giao tác tương ứng với thông ting 100 phòng có 43 thuộc tính mang tính thời không Việt Nam mà CNTT giới Sự bùng nổ thông tin, liệu toàn cầu, mặt đời sống xã hội Độ hỗ trợ tối Độ tin cậy tối Thời gian thực Tổng số tập Tổng số với phát triển ứng dụng ngày rộng rãi công nghệ thông tin thiểu Minsupp thiểu Min luật lĩnh vực khiến cho nhu cầu xử lý khối liệu khổng lồ để kết phổ biến xuất thông tin, tri thức hữu ích cho người sử dụng cách tự động, confidence 60 0,7 phút 29 giây 63 602 nhanh chóng xác trở thành nhân tố quan trọng hàng đầu cho thành 50 0,7 phút 12 giây 126 1932 công quan, tổ chức cá nhân giới Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Một phương pháp quan trọng kỹ thuật khai phá liệu mà đề tài sâu tìm hiểu khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm Phương pháp sử dụng hiệu lĩnh vực maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trường … Trong khoảng thời gian không dài song đề tài tổng kết kiến thức phương pháp khai phá luật kết hợp Có thể coi đề tài tài liệu tham khảo đầy đủ, rõ ràng kiến thức phương pháp phát luật kết hợp Đồng thời, từ việc tìm hiểu kỹ thuật khai phá liệu; vấn đề liên quan đến khai phá luật kết hợp nhằm phát đưa mối liên hệ giá trị liệu CSDL đề tài áp dụng chúng vào toán thử nghiệm quản lý trang thiết bị đồ dùng trường THPT Chu Văn An – Tỉnh Thái Nguyên dựa thuật toán Apriori Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 63 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 64 http://www.lrc-tnu.edu.vn Hƣớng phát triển luận văn: TÀI LIỆU THAM KHẢO Một công việc quan trọng khai phá luật kết hợp tìm tất tập phổ biến sở liệu, nên thời gian tới luận văn mở rộng [1] Lê Hoài Bắc (2002), Bài giảng khám phá tri thức khai thác liệu – tìm nghiên cứu theo hướng: ứng dụng thuật toán song song áp dụng cho toán khai luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP Hồ Chí Minh phá luật kết hợp mờ, luật kết hợp tập thuộc tính mờ Thuật toán song song chia sở liệu tập ứng viên cho vi xử lý tập ứng viên sau chia cho sử lý hoàn toàn độc lập với mục đích cải thiện chi phí tìm luật kết hợp mờ thời gian hoá liệu Tiếp tục hoàn thiện hệ thống quản lý trang thiết bị ứng dụng thêm vào lĩnh vực khác đào tạo, ngân hàng, siêu thị [2] Đỗ Phúc (2002), Nghiên cứu phát triển số thuật giải, mô hình ứng dụng khai thác liệu (data mining) Luận án tiến sĩ toán học, Đại học Quốc gia TP Hồ Chí Minh [3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets of items in large database”, In proc of the ACM SIGMOD Conference on Management of Data, Washington, D.C [4] Rakesh Agrawal, Ramakrishnan Srikant (1996), “Mining Quantilative Association in Large Rilation Table”, In proc of the ACM SIGMOD Conference on Management of Data, Montreal, Canada [5] Usama M.Fayyad, Gregory Piatetsky-Shapiro (1996), Advances in knowledge discovery and data mining, AAAI press/the MIT press [6] Krzystof J.Cios, and Witold Perdrycz and Roman W.Swiniarski (1998), Data Mining Methods for Knowledge Discovery, Kluwer Acsdemic Publicshers, Boston/Dordrecht/London [7] R Agrawal and R Srikant (1994) Fast algorithms for mining association rules The International Conference on Very Large Databases, pages 487–499 [8] D.Phuc, H Kiem (2000), Discovering the binary and fuzzy association rules from database, In proc of Int’l ConfAfss2000, Tsukuba, Japan, pp 981-986 [9] R Agrawal and R Srikant (1995) Mining sequential patterns In P S Yu and A L P Chen, editors, Proc 11th Int Conf Data Engineering, ICDE [10] N F.Ayan, A U Tansel, and M E Arkun (1999) An efficient algorithm to update large itemsets with early pruning In Knowledge Discovery and Data Mining [11] John Wang (Idea Group Publishing) (2003) Data Mining: Opportunities and Challenges Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 65 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 66 http://www.lrc-tnu.edu.vn [12] Jiawei Han and Micheline Kamber 2002, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers [13] N Pqaquier et al (1999), Discovering frequent closed item sets for association rules, In proc of the 7th intl conference ICDT’99, pp 398-410, Israel [14] Osmar R.Zaiane, Mohammad EI-Haij, and PaulLu (200), Fast paralled Association Rule Mining without Cadidacy Generation, University of Alberta, Edmonton, Alberta, Canada Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 67 http://www.lrc-tnu.edu.vn

luận văn thạc sĩ Phương pháp luận kết hợp và ứng dụng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan