Lựa chọn thuộc tính trong khai phá dữ liệu

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - TRỊNH VĂN HÀ TRỊNH VĂN HÀ LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hướng dẫn khoa học: TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2008 THÁI NGUYÊN 2008 3.1.4 Thuật toán EBR 35 MỤC LỤC Trang phụ bìa Mục lục .2 Lời mở đầu Chương KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.Tại phải khai phá liệu 1.2 Quá trình khai phá liệu .7 1.3 Các phương pháp khai phá liệu 1.4 Các loại liệu khai phá 10 1.5 Các ứng dụng khai phá liệu 10 3.1.5 Thuật toán SCRAP .38 3.1.6 Lựa chọn nhóm 40 3.2 Các thuật toán theo cách tiếp cận wrapper .42 3.3.1 Thuật toán LVW 42 3.3.2 Thuật toán NEURALNET 43 3.3 Một số thuật toán khác 44 3.3.1 Thuật toán Genetic .44 3.3.2 Lựa chọn thuộc tính thông qua rời rạc hóa liệu 46 3.4 Kết luận chương 53 1.6 Một số thách thức đặt cho việc khai phá liệu 14 KẾT LUẬN .54 1.7 Tổng kết chương 15 Tài liệu tham khảo 56 Chương KHÁI QUÁT VỀ LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU 16 2.1 Rút gọn thuộc tính 16 2.2 Khái quát lựa chọn thuộc tính 18 2.2.1 Bài toán lựa chọ thuộc tính 18 2.2.2 Đặc điểm chung thuật toán lựa chọn thuộc tính 20 2.2.3 Ứng dụng kỹ thuật lựa chọn thuộc tính 23 2.3 Kết luận chương 26 Chương MỘT SỐ THUẬT TOÁN LỰA CHỌN THUỘC TÍNH ĐIỂN HÌNH .28 3.1 Các thuật toán theo cách tiếp cận filter 28 3.1.1 Thuật toán RELIEF .28 3.1.2 Thuật toán FOCUS .31 3.1.3 Thuật toán LVF 33 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Như biết, năm gần công nghệ thông tin phát triển vô nhanh chóng ứng dụng rộng rãi lĩnh vực đời sống xã hội, quản lý, lĩnh vực mà yếu tố khoa học công nghệ có tính định Sự việc dẫn đến bùng nổ thông tin, làm cho nhà quản lý rơi vào tình trạng “ngập lụt thông tin" Chính vậy, chuyên gia cho rằng, sống xã hội “rất giàu thông tin nghèo tri thức” Tình hình đòi hỏi phải phát triển phương pháp khai phá, phát thông tin, tri thức có ích bị che giấu “núi” liệu phục vụ cho công việc nhà quản lý, chuyên gia, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Khai phá liệu (Data Mining) lĩnh vực khoa học liên ngành xuất gần nhằm đáp ứng nhu cầu Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Từ năm 1970 đến nay, rút gọn thuộc tính (hay gọi rút gọn số chiều – Dimension reduction) trở thành đề tài quan tâm nhiều nhà nghiên cứu thuộc lĩnh vực nhận dạng thống kê, học máy, khai phá liệu Chính lý trên, chọn đề tài “Lựa chọn thuộc tính khai phá liệu” làm đề tài nghiên cứu Nội dung luận văn trình bày chương phần kết luận Chương 1: Trình bày khái quát Khai phá liệu, bao gồm: Khai phá liệu gì, quy trình khai phá, kỹ thuật số ứng dụng quan trọng khai phá liệu Chương 2: Trình bày khái quát nội dung, cách tiếp cận, quy trình giải vấn đề lựa chọn thuộc tính số ứng dụng quan trọng lựa chọn thuộc tính Chương 3: Trình bày kết nghiên cứu số thuật toán lựa chọn thuộc tính điển hình Hiện nay, CSDL cần khai phá thường có kích thước lớn, chẳng hạn Thái nguyên, tháng 11 năm 2008 CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, Học viên … Các CSDL thường chứa tới hàng ngàn thuộc tính, gây nhiều khó khăn cho việc khai phá, chí làm cho nhiệm vụ khai phá trở nên bất khả thi Vấn đề đặt phải tìm cách rút gọn số thuộc tính mà không làm Trịnh Văn Hà thông tin cần thiết phục vụ nhiệm vụ khai phá Mục đích rút gọn thuộc tính làm giảm số chiều không gian thuộc tính, loại bỏ liệu dư thừa, không liên quan Rút gọn thuộc tính đóng vai trò quan trọng bước tiền xử lý liệu trình khai phá Kết rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Do phát triển nhanh chóng phạm vi áp dụng phương pháp tìm CHƢƠNG kiếm tri thức, nên có nhiều quan điểm khác khai phá liệu Tuy KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU nhiên, mức độ trừu tượng định, định nghĩa khai phá liệu sau : 1.1 Tại phải khai phá liệu Ước tính khoảng 20 tháng lượng thông tin giới lại tăng gấp đôi Chính vậy, lượng liệu mà người thu thập lưu trữ kho liệu lớn, nhiều vượt khả quản lý Thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người định tổ chức tài chính, thương mại, khoa học, Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Với khối lượng liệu tăng nhanh khổng lồ vậy, rõ ràng phương pháp thủ công truyền thống áp dụng để phân tích liệu không hiệu quả, tốn dễ dẫn đến sai lệch Do để khai phá hiệu sở liệu lớn cần phải có kỹ thuật mới, kỹ thuật khai phá Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khám phá tri thức CSDL (Knowledge Discovery in Databaes – KDD) mục tiêu khai phá liệu, hai khái niệm khai phá liệu KDD nhà khoa học xem tương đương Thế nhưng, phân chia cách chi tiết khai phá liệu bước trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành như: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song hiệu cao, Các kỹ thuật áp dụng khám phá tri thức phần lớn thừa kế từ ngành 1.2 Quá trình khai phá liệu Quá trình khám phá tri thức phân thành công đoạn sau : liệu (Data Mining) Khai phá liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thông tin, tri thức hữu ích, tiềm ẩn CSDL cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Hiện nay, khai phá liệu ứng dụng rộng rãi lĩnh vực như: Phân tích liệu hỗ trợ định, điều trị y học, tin-sinh học, thương mại, tài chính, Trích lọc liệu: Là bước tuyển chọn tập liệu cần khai phá từ tập liệu lớn ( databases, data warehouses, data repositories) ban đầu theo số tiêu chí định Tiền xử lý liệu: Là bước làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán, ), tổng hợp liệu (nén, nhóm liệu, tính tổng, xây dựng histograms, lấy mẫu, ), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, entropy, phân khoảng, ) Sau bước tiền sử lý này, liệu quán, đầy đủ, rút gọn rời rạc hóa bảo hiểm, text mining, web mining Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Biến đổi liệu: Là bước chuẩn hóa làm mịn liệu để đưa liệu  Học giám sát (Unsupervised Learning) : Là trình phân dạng thuận lợi nhằm phục vụ việc áp dụng kỹ thuật khai chia tập đối tượng thành lớp hay cụm (clusters) tương tự phá bước sau mà trước thông tin lớp ví dụ Khai phá liệu: Là bước áp dụng kỹ thuật phân tích (phần huấn luyện nhiều kỹ thuật học máy) nhằm khai thác liệu, trích lọc  Học nửa giám sát (Semi-Supervised Learning) : Là trình phân mẫu tin (information patterns), mối quan hệ đặc biệt chia tập đối tượng thành lớp dựa tập nhỏ ví liệu Đây xem bước quan trọng tiêu tốn thời gian dụ huấn luyện số thông tin số nhãn lớp biết toàn trình KDD 1.3 Các phƣơng pháp khai phá liệu Đánh giá biểu diễn tri thức: Những mẫu thông tin mối quan hệ Kỹ thuật khai phá liệu thường chia làm nhóm chính: liệu phát bước khai phá liệu chuyển sang biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khai phá theo tiêu chí định Kỹ thuật mô tả: Các nhiệm vụ mô tả ccác tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analysis), phân tích luật kết hợp Hình 1.1 mô tả công đoạn khai phá liệu: (association rules analysis)… Biểu diễn Kỹ thuật dự đoán: Có nhiệm vụ đưa dự đoán dựa vào suy diễn Khai phá Thu nhỏ Tri thức Làm (regression), … Mẫu Chọn lọc Thu nhỏ liệu Dữ liệu đích liệu thời Các kỹ thuật gồm: Phân lớp (classification), hồi quy Với hai đích khai phá liệu Dự đoán (Prediction) Mô tả Xử lý liệu đích (Description), người ta thường sử dụng kỹ thuật sau cho khai phá liệu: Dữ liệu  Phân lớp dự đoán (classification and prediction) : Là việc xếp Hình 1.1 Các bƣớc thực trình khai phá liệu Nếu theo quan điểm học máy (Machine Learning), kỹ thuật khai phá liệu bao gồm:  Học có giám sát (Supervised Learning) : Là trình phân lớp đối tượng sở liệu dựa tập ví dụ huấn luyện thông tin nhãn lớp biết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên đối tượng vào lớp biết trước Ví dụ, phân lớp bệnh nhân, phân lớp loài thực vật, Hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơ-ron nhân tạo (neural network), Phân lớp dự đoán gọi học có giám sát  Phân cụm (clustering/segmentation) : Là việc xếp đối tượng theo cụm tự nhiên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 11  Luật kết hợp (association rules) : Là việc phát luật biểu diễn Khai phá liệu lĩnh vực liên quan tới nhiều ngành học khác như: tri thức dạng đơn giản Ví dụ: “70% nữ giới vào siêu thị hệ CSDL, thống kê, trực quan hoá… nưa, tuỳ vào cách tiếp cận sử mua phấn có tới 80% số họ mua thêm son” dụng, khai phá liệu áp dụng số kỹ thuật mạng nơron, lý  Phân tích hồi quy (regression analysis) : Là việc học hàm ánh xạ từ tập liệu thành biến dự đoán có giá trị thực Nhiệm vụ phân tích hồi quy tương tự phân lớp, điểm khác chỗ thuộc tính dự báo liên tục rời rạc  Phân tích mẫu theo thời gian (sequential/temporal patterns) : thuyết tập thô, tập mờ, biểu diễn tri thức… So với phương pháp này, khai phá liệu có số ưu rõ rệt So với phương pháp học máy, khai phá liệu có lợi chỗ, khai phá liệu sử dụng với CSDL chứa nhiều nhiễu, liệu không đầy đủ biến đổi liên tục Trong phương pháp học máy chủ yếu Tương tự khai phá luật kết hợp có quan tâm đến tính thứ áp dụng CSDL đầy đủ, biến động tập liệu không tự theo thời gian qua lớn  Mô tả khái niệm (concept description and summarization) : Thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ tóm tắt văn Hiện nay, kỹ thuật khai phá liệu làm việc với nhiều kiểu liệu khác Một số dạng liệu điển hình là: CSDL quan hệ, CSDL đa chiều (Multidimensional Data Structures), CSDL giao tác, CSDL quan hệ hướng đối tượng, liệu không gian thời gian, CSDL đa phương tiện, liệu văn web, chỗ ví dụ chuyên gia thường mức cao nhiều so với liệu CSDL, chúng thường bao hàm trường hợp quan trọng Hơn chuyên gia xác nhận giá trị tính hữu ích mẫu phát Phương pháp thống kê tảng lý thuyết khai phá liệu, so sánh hai phương pháp với ta thấy 1.4 Các loại liệu khai phá Về bản, khai phá liệu ứng dụng cho kho thông tin bao gồm: phương pháp thống kê tồn số điểm yếu mà khai phá liệu khắc phục được: Với ưu điểm đó, khai phá liệu áp dụng + Các sở liệu quan hệ cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: + Kho liệu marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… + Cácc sở liệu giao tác nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá + Các hệ thống sở liệu tiên tiến liệu vào hoạt động sản xuất kinh doanh thu lợi ích + Các tệp to lớn Các công ty phần mềm lớn giới quan tâm trọng + …… tới việc nghiên cứu phát triển kỹ thuật khai phá liệu: Oracle tích hợp 1.5 Các ứng dụng khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Phương pháp hệ chuyên gia: phương pháp khác với khai phá liệu http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 13 công cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát điện thoại khách hàng sử dụng nhiều dịch vụ khác nhau, ví dụ : gọi điện triển ứng dụng khai phá liệu với ứng dụng Intelligence Miner… thoại, truy cập internet, tra cứu thông tin từ hộp thư tự động, nhắn tin, gọi 108, Các ứng dụng chia thành nhóm ứng dụng khác : Phát v.v Dựa sở liệu khách hàng khám phá mối liên kết gian lận (fraud detection), ứng dụng hỗ trợ tiếp thị quản lý khách hàng, việc sử dụng dịch vụ, đưa luật (khách hàng gọi điện cuối ứng dụng phát xử lý lỗi hệ thống mạng thoai quốc tế) => (truy cập internet), v.v Trên sở phân tích luật công ty viễn thông điều chỉnh việc bố trí nơi đăng ký Phát gian lận ( fraud detection ): Gian lận vấn đề nghiêm trọng công ty viễn thông, làm thất thoát hàng tỷ đồng năm Có thể chia làm hình thức gian lận khác thường xảy công ty viễn thông : Trường hợp thứ xảy khách hàng đăng ký thuê bao với ý định không toán khoản chi phí sử dụng dịch vụ Trường hợp thứ hai liên quan đến thuê bao hợp lệ lại có số hoạt động bất hợp pháp gây người khác Những ứng dụng thực theo thời gian thực cách sử dịch vụ phù hợp, ví dụ điểm đăng ký điện thoại quốc tế nên bố trí gần với điểm đăng ký Internet chẳng hạn Một ứng dụng phục vụ chiến lược marketing khác dựa kỹ thuật luật kết hợp data mining để tìm tập thành phố, tỉnh nước thường gọi điện thoại với Ví dụ ta tìm tập phổ biến ( Cần Thơ, HCM, Hà Nội ) chẳng hạn Điều thật hữu dụng việc hoạch định chiến lược tiếp thị xây dựng vùng cước phù hợp dụng liệu chi tiết gọi, xuất gọi nghi ngờ gian Một vấn đề phổ biến công ty viễn thông thay đổi nhà lận, hệ thống có hành động ứng xử phù hợp, ví dụ cảnh báo cung cấp dịch vụ (customer churn) đặc biệt với công ty điện thoại di động xuất từ chối gọi biết gọi gian lận Đây vấn đề nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, Hầu hết phương thức nhận diện gian lận dựa hành vi sử dụng điện thoại khách hàng trước so sánh với hành vi để xác định xem gọi hợp lệ không doanh thu nhà cung cấp dịch vụ Thời gian gần nhà cung cấp dịch vụ di động có sách khuyến lớn để lôi kéo khách hàng Điều dẫn đến lượng không nhỏ khách hàng thường xuyên thay đổi nhà cung cấp để hưởng sách khuyến Kỹ thuật data mining Các ứng dụng quản lý chăm sóc khách hàng dựa liệu tiền sử để tìm quy luật, từ tiên đoán Các công ty viễn thông quản lý khối lượng lớn liệu thông tin trước khách hàng có ý định rời khỏi mạng trước họ thực Dựa khách hàng liệu chi tiết gọi (call detail records) Những thông tin kỹ thuật data mining định (decision tree), mạng nơ ron cho ta nhận diện đặc tính khách hàng thông qua nhân tạo (neural nerwork) liệu cước (billing data), liệu chi tiết đưa sách chăm sóc khách hàng thích hợp dựa dự gọi (call detail data), liệu khách hàng (customer data) tìm quy luật mà đoán có chiến lược tiếp thị hiệu dựa ta tiên đoán trước ý định rời khỏi mạng khách hàng, từ Một ứng dụng data mining phổ biến dựa việc xem xét luật kết công ty viễn thông có ứng xử phù hợp nhằm lôi kéo khách hàng hợp dịch vụ viễn thông khách hàng sử dụng Hiện đường Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 15 Cuối cùng, ứng dụng phổ biến phân lớp khách hàng (classifying) Dựa vào kỹ thuật data mining học định (decision tree) liệu khách hàng chi tiết gọi tìm luật để phân  Số chiều lớn  Thay đổi liệu tri thức làm cho mẫu phát không phù hợp loại khách hàng Ví dụ ta phân biệt khách hàng thuộc đối tượng  Dữ liệu bị thiếu nhiễu kinh doanh hay nhà riêng dựa vào luật sau :  Quan hệ trường phức tạp Luật : không 43% gọi có thời gian từ đến 10 giây không đến 13% gọi vào cuối tuần khách hàng kinh doanh Luật : Nếu tháng có gọi đến hầu hết từ mã vùng giống (15) Tăngnếunhiềuthuộctínhkhácnhau(X ,W ) (16) R ←A (17) Wi , if Wi > then R ←R { i} Quá trình tìm kiếm tiến hành đối tượng ngẫu 3.1.5 Thuật toán SCRAP nhiên với trọng số đối tượng gán 0, trở thành PoC ban SCRAP (Selection Construction Ranking using Attribute Pattern) thuật toán dựa phương pháp filter, thuật toán tìm tập tối ưu cách tìm kiếm thuộc tính theo khoảng cách đối tượng Scrap xét tất đối tượng lúc cách tính khoảng cách đối tượng để từ đưa tăng hay giảm trọng số thuộc tính liên quan tới đầu Một đối tượng gần PoC ban đầu thuộc nhãn lớp khác trở thành PoC Từ hai PoC sau xác định đối tượng lân cận, đối tượng có nhãn lớp gần với PoC ban đầu đồng thời phải xa đối tượng PoC khoảng cách Công thức tính khoảng cách hai đối tượng Nếu đối tượng có nhãn lớp gần PoC đồng thời cho (1) Những thuộc tính có trọng số phù hợp đưa vào tập tối khác thuộc tính trọng số thuộc tính tương ứng giảm ưu giá trị thuộc tính xem thuộc tính có trọng số phù hợp với tất đối tượng, bất chấp trọng số cuối Giả mã thuật toán sau: thuộc tính đưa vào tập tối ưu Còn có nhiều đặc SCRAP(O) O, tập tất đối tượng; trưng thay đổi trọng số phù hợp kết hợp lại với cách (1) A ←{}; Wi , Wi = 0; (2) T ← Đốitượngngẫunhiên(); PoC ←T (3) while O ≠ {} (4) O ← O − PoC; PoCnew ←NewPoC(PoC) (5) n = dist(PoC,PoCnew) (6) if n == (7) i = Thuộctínhkhác(PoC,X ); A ←A {i} (8) N ← Lấylâncậngần nhất(PoC,n) (9) X N (10) if Nhãnlớp(X ) == Nhãnlớp(N) (11) O ←O − X (12) if dist(PoC,X )==1 (13) i = Thuộctínhkhác(PoC,X ); Wi = Wi − Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn tăng trọng số lên giá trị Những đối tượng xác định lân cận bị loại bỏ Thuật toán dừng tất đối tượng gán đối tượng lân cận Những thuộc tính có trọng số phù hợp với tất đối tượng có trọng số phù hợp ( best ) (7) A ←T (8) best = t (9) R ←R A (10) output R Thuật toán quy định mức giới hạn learn( R) ; Trước tiên LVW coi toàn tập thuộc tính điều kiện tập tốt Sau sinh tập cách ngẫu nhiên đánh giá chúng thông qua kết áp dụng thuật học Quá trình tiếp tục giá trị sai mức giới hạn dùng để số ε cập nhật đến lần thứ K (điều kiện dừng quy định trước) mà định thuộc tính cụm đánh giá thêm không phát tập tốt Cuối cùng, LVF thực việc kiểm vào tập tối ưu hay không, cụm thêm vào giá trị đánh giá chứng kết (tập con) thu Trong tài liệu hành, thuật học cụm thuộc tính không vượt Quá trình tiếp tục so đạt thường sử dụng để đánh giá tập thuộc tính thuật học luật phân tập tối ưu cuối lớp định C4.5 Quinlan, tính đơn giản độ hiệu Thuật toán sánh với phương pháp lựa chọn đặc trưng riêng lẻ chuẩn có lợi rút gọn thời gian tính toán 3.3.2 Thuật toán NEURALNET 3.2 Các thuật toán theo cách tiếp cận wrapper NEURALNET thuật toán lựa chọn thuộc tính kiểu wrapper sử 3.3.1 Thuật toán LVW dụng mạng nơron Thuật toán áp dụng phương pháp tìm kiếm tập tối ưu LVW thuật toán rút gọn thuộc tính kiểu wrapper, xây dựng dựa thuật cách loại dần Lược đồ NEURALNET sau: toán LVF trình bày mục 3.1.3 Tựa code sau: NEURALNET (C, LVW(C, K, ε) C : tập tất thuộc tính điều kiện; K : Ngưỡng cập nhật; ) (1) R ← C ; εw = ; (2) (3) T←R; x R (4) (5) S R x ; (6) S = trainNet(S) ; (7) if S w (8) x; w S; w (9) R R w ; ε : Ngưỡng sai số (1) R ← C ; k = ; (2) While ε chưa cập nhật lần thứ K (3) T ← randomfeatureSubset( ); (4) learn( R) ; t and T R ) (5) if if ( t ) or ( t (6) output T ; k k 1; (7) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên max C : tập tất thuộc tính điều kiện; max : ngưỡng sai số phân lớp cho phép mạng http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 44 45 (10) until R max ; (11) trainNet(T) ; NEURALNET sử dụng mạng nơron lớp hàm đánh giá sai số (bao gồm sai số phân lớp lẫn độ phức tạp mạng) suốt trình lựa chọn tập thuộc tính tối ưu Đầu tiên, NEURALNET coi toàn tập thuộc tính điều kiện ban đầu tập tốt với giá trị hàm đánh giá Sau thực trình tìm kiếm lùi Tại vòng lặp, mạng huấn luyện với tập thuộc tính thu cách bớt thuộc tính khỏi tập tốt thời Một thuộc tính bị loại bỏ vĩnh viễn khỏi tập thời việc Hình 3.1.Lựa chọn thuộc tính thuật toán Genetic loại bớt làm tăng giá trị hàm đánh giá (sai số phân lớp độ phức tạp Đầu tiên, quần thể sâu nhị phân tạo lập Việc tạo quần thể mạng) Quá trình lặp tiếp tục giá trị hàm đánh giá cập nhật lớn nào, với kích thước vấn đề quan trọng Khi mức ngưỡng cho phép có quần thể tập con, thuật toán tiến hành áp dụng toán tử genetic (lai 3.3 Một số thuật toán khác ghép, đột biến) Các toán tử với xác suất áp dụng chúng xem 3.3.1 Thuật toán Genetic xét lựa chọn cách kỹ lưỡng Sau áp dụng toán tử quần thể tập Các thuật toán genetic thuật toán hiệu cho việc lựa chọn nhanh thuộc tính Không giống chiến lược tìm kiếm kinh điển dẫn tạo Có hai cách đánh giá tập thuộc tính quần thể: đến lời giải nhất, thuật toán genetic cho ta nhiều tập thuộc tính Nếu việc lựa chọn thuộc tính sử dụng tiếp cận filter độ phù hợp tối ưu gần tối ưu tập thuộc tính X đánh giá thông qua hàm tiêu chuẩn Trong thuật toán genetic, tập thuộc tính biểu diễn J ( X ) Giá trị J ( X ) lớn tập X tốt Hàm tiêu chuẩn J ( X ) sâu nhị phân có độ dài số thuộc tính tập liệu ban đầu Vị trí thường sử dụng độ đo entropy theo Shannon hàm đánh thứ j sâu nhị phân tùy thuộc vào thuộc tính thứ j có mặt hay giá độ phụ thuộc theo lý thuyết tập thô mặt tập Quy trình chung thuật toán genetic sau: Đối với cách tiếp cận wrapper, tập thuộc tính đánh giá thông qua sai số phân lớp thuật học sử dụng Sai số phân lớp nhỏ tập tập tương ứng tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 46 47 Đối với hai cách tiếp cận filter wrapper, để định hướng cho việc tìm Ngoài lợi ích trên, gần người ta sử dụng số thuật toán rời tập tối ưu có kích thước nhỏ nhất, người ta đưa thêm vào hàm đánh giá độ rạc hóa vào việc giải vấn đề lựa chọn thuộc tính khai phá liệu phù hợp tham số kích thước tập Để dừng trình tiến hóa, tiêu học máy Mục trình bày hai thuật toán rời rạc hóa thế, ChiMerge chuẩn dừng Tiêu chuẩn dừng thường sử dụng số hệ sinh Chi2 Chi2 phát triển KhiMerge Cả hai thuật toán ngưỡng tối thiểu cho mức độ phù hợp tập chọn Nếu tiêu thuật toán rời rạc hóa có giám sát (nghĩa có sử dụng thông tin thuộc tính chuẩn dừng không thỏa mãn, tập thuộc tính lại tiếp tục lựa chọn định (nhãn lớp) Để rời rạc hóa thuộc tính, chúng áp dụng phương trình mô tả lặp lại Các chiến lược lựa chọn thường áp pháp kết nối bước khoảng giá trị (từ lên) sử dụng phép kiểm định dụng chiến lược bánh xe roulette chiến lược vào thứ hạng Với Khi-bình-phương giả thuyết độc lập thuộc tính nhãn lớp chiến lược lựa chọn bánh xe roulette, xác suất để tập chọn tỷ lệ cặp khoảng giá trị liền kề thuộc tính Khi trình rời rạc hóa kết thúc, thuận với độ phù hợp Với chiến lược lựa chọn vào thứ hạng, tất giá trị thuộc tính gộp lại thành khoảng tập thứ tự theo độ phù hợp chúng xác suất để tập thuộc tính bị loại khỏi tập thuộc tính lựa chọn chọn tỷ lệ thuận với thứ tự danh sách xếp hạng Cũng cách tiếp cận khác, thuật toán genetic thường lựa chọn tập thuộc tính tối ưu cục Bên cạnh đó, có nhiều hệ tập thuộc tính tạo, việc đánh giá độ phù hợp chúng tiêu tốn nhiều thời gian Trước trình bày thuật toán ChiMerge Chi2, ta trình bày khái niệm bảng tiếp liên (contingency table) phép kiểm định Khi-bình-phương Bảng tiếp liên phép kiểm định độc lập Khi-bình-phƣơng Trong thống kê toán học, để kiểm tra giả thuyết độc lập hai biến ngẫu nhiên X Y (liên tục hay rời rạc) người ta đề xuất phép kiểm định Khibình-phương sau: 3.3.2 Lựa chọn thuộc tính thông qua rời rạc hóa liệu Rời rạc hóa liệu khâu bước tiền xử lý Rời rạc hóa Chia miền giá trị X Y thành số hữu hạn khoảng Nếu X hay liệu việc biến đổi thuộc tính định lượng liên tục thành thuộc tính Y nhận số giá trị coi giá trị khoảng Đối với biến rời rạc thỏa mãn tiêu chuẩn quy định Rời rạc hóa liệu trước khai phá ngẫu nhiên liên tục nên chia miền giá trị thành khoảng có độ rộng có ba lợi ích: Cho phép áp dụng thuật toán khai phá hiệu có, Giả sử có mẫu cỡ N véc tơ ngẫu nhiên (X,Y) Gọi Làm giảm kích thước liệu, tăng tốc độ tính toán, - r s số khoảng chia miền giá trị X Y ; Làm tăng độ xác, tính dễ hiểu kết thu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 48 49 - A i biến cố X nhận giá trị khoảng thứ i, i = 1, 2, … , r ; Từ bảng liệu thu được: - B j biến cố Y nhận giá trị khoảng thứ j, j = 1, 2, … , s ; - Tần số quan sát biến cố Ai B j n i j , i = 1, 2, … , r ; j = 1, 2, … , s - n i j số cá thể mẫu có giá trị X khoảng thứ i giá trị Y - Ước lượng tần số lý thuyết cá thể mẫu có giá trị X thuộc khoảng thứ i khoảng thứ j, (tức n i j tần số quan sát biến cố A i B j ) ; giá trị Y thuộc khoảng thứ j giả thuyết độc lập X Y Ước lượng s n i j số cá thể mẫu có giá trị X thuộc khoảng i (tức tần số quan - ni N j sát biến cố A i ) ; ni n j n i n j N N N Để kiểm định giả thuyết r n i j số cá thể mẫu có giá trị Y thuộc khoảng j (tức tần số quan - n j H : X Y độc lập i với đối thuyết sát biến cố B j ) ; r H : X Y không độc lập, s Hiển nhiên, ni j N người ta sử dụng thống kê i j Các liệu vào bảng gọi bảng tiếp liên (hay bảng r chéo): ni j s Biến s n11 n12 n1s n 21 n 21 n 2s n r1 n r1 n r s n1 n nr Tổng n n n s N r i j Tổng n i n j N n i n j (1) N Có thể thấy số đo đánh giá mức độ sai khác tần số lý thuyết tần số quan sát biến cố Ai B j X Y độc lập Người ta chứng minh với cỡ mẫu N đủ lớn, có phân phối tiệm cận Khi-bình-phương với (r 1)( s 1) bậc tự Từ đó, suy quy tắc kiểm định gỉa thuyết H sau: - Chọn mức ý nghĩa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên sau đây: http://www.lrc-tnu.edu.vn (thường 0,05 0,1); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 50 - Tính giá trị thống kê 51 theo công thức (1); Lặp lại bước 2-3 tất giá - Tra bảng phân phối Khi-bình-phương (r 1)( s 1) bậc tự do, tìm phân vị (giá trị ngưỡng) ứng với mức ý nghĩa - Bác bỏ giả thuyết H ngược lại 2 2 2 cho; cặp khoảng lớn giá trị ngưỡng , chấp nhận H trường hợp bảng định Tuy vậy, với số thao tác tối ưu hóa làm giảm độ phức tạp xuống O(N.logN) có nghĩa với xác suất khẳng định hai biến ngẫu Thuật toán Chi2 Chi2 thuật toán Liu Setino phát triển dựa thuật toán ChiMerge [ ] Khó khăn gặp phải sử dụng ChiMerge việc chọn giá trị Thuật toán ChiMerge thích hợp cho mức ý nghĩa Giả sử thuộc tính định (nhãn lớp) bảng định có k giá trị phân biệt Thuật toán ChiMerge bao gồm bước sau đây: - Để cho thuật toán tự động xác định giá trị (thường 0,05 0,1) ; huấn luyện Hơn thế, giá trị rạc hóa cách coi giá trị khoảng ; Với cặp khoảng liền kề, tính giá trị thống kê k ni j i j n i n j N n i n j (Giá trị ngưỡng cần rời rạc hóa theo công thức: trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị Quá trình rời rạc hóa thuộc tính tiếp tục tiêu chuẩn dừng thỏa mãn (2) Thuật toán Chi2 bao gồm hai pha phân vị mức nhỏ thỏa mãn phân phối Khi- bình-phương với k – bậc tự do, (tra từ bảng phân phối Khi-bình- Pha 1: Cho mức ý nghĩa giá trị ban đầu lớn (chẳng hạn 0,5) ; Sắp thứ tự liệu theo thuộc tính rời rạc hóa ; Bắt đầu trình rời rạc hóa cách coi giá trị khoảng ; phương) Với cặp khoảng liền kề, tính giá trị thống kê Số hóa Trung tâm Học liệu – Đại học Thái Nguyên từ thân liệu tính toán riêng cho thuộc tính - Lấy tỷ lệ liệu không quán làm tiêu chuẩn dừng Thay cố định N Kết nối cặp khoảng liền kề cho giá trị Để giải khó khăn này, Liu Setino cải tiến ChiMerge theo hai hướng: Sắp thứ tự liệu thuộc tính cần rời rạc hóa Bắt đầu trình rời ChiMerge có độ phức tạp tính toán O( N ) N số đối tượng có nhiên X Y độc lập tính Chọn mức ý nghĩa 2 http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên theo (2) ; http://www.lrc-tnu.edu.vn 52 53 Kết nối thành khoảng cặp khoảng liền kề cho giá trị nhỏ ; Lặp lại bước 2-4 không cặp khoảng liền kề kết nối (không có giá trị nhỏ ngưỡng ); thông tin phân lớp liệu ban đầu khoảng giá trị thuộc tính tiếp tục kết nối (bằng cách cho ; Lặp lại toàn pha tỷ lệ không quán liệu vượt mức quy định Chi2 xác định cách tự động giá trị ngưỡng mà bảo tồn Pha thứ hai Chi2 pha tiếp tục cải thiện kết rời rạc hóa Nếu Lặp lại bước 2-5 cho thuộc tính cần rời rạc hóa ; Giảm mức ý nghĩa không quán sử dụng làm tiêu chuẩn dừng Các cải tiến làm cho giảm mức ý nghĩa) mà không làm cho tỷ lệ liệu không quán vượt qúa mức quy định, trình kết nối tiếp tục thực Trong pha thứ Chi2 sử dụng mức ý nghĩa Pha 2: Đối với thuộc tính, cho mức ý nghĩa giá trị nhỏ sau kết chung cho việc rời rạc hóa tất thuộc tính, pha thứ hai sử dụng mức ý nghĩa khác cho thuộc tính 3.4 Kết luận chƣơng thúc pha Trong chương trình bày kết nghiên cứu số thuật Sắp thứ tự liệu theo thuộc tính; Với cặp khoảng liền kề, tính giá trị thống kê theo (2); Kết nối thành khoảng cặp khoảng liền kề cho giá trị nhỏ ; Lặp lại bước 2-4 không cặp khoảng liền kề kết nối (không có giá trị nhỏ ngưỡng ); Kiểm tra tỷ lệ không quán liệu thuộc tính Nếu tỷ lệ không vượt mức quy định, cho giảm mức ý nghĩa tiếp tục trình rời rạc hóa Trường hợp ngược lại, kết thúc phép rời rạc hóa thuộc tính; Lặp lại bước 2-7 tất thuộc tính kết nối toán lựa chọn thuộc tính điển hình Các thuật toán trình bày theo ba nhóm chính: thuật toán kiểu filter, thuật toán kiểu wrapper số thuật toán khác Các thuật toán thường sử dụng để lựa chọn thuộc tính giải vấn đề phân cụm phân lớp khai phá liệu Mỗi thuật toán có tựa code, giải thích minh họa ví dụ tính toán cụ thể Độ phức tạp số thuật toán Các thuật toán trình bày mục 3.3 thuật toán đề xuất năm gần Đây thuật toán hiệu quả, thường áp dụng không thuộc tính tiếp tục kết nối Pha thứ Chi2 mở rộng ChiMerge Thay xác định trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị Tỷ lệ liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 55 Chương luận văn trình bày khái quát khai phá liệu Chương KẾT LUẬN chương nội dung luận văn Trong chương này, Nội dung nghiên cứu kết đạt luận văn trình bày khái quát nội dung, phương pháp quy trình giải vấn đề Khai phá liệu môn khoa học liên ngành: Cơ sở liệu, học máy lựa chọn thuộc tính Một số ứng dụng quan trọng lựa chọn thuộc tính thống kê toán học, nghiên cứu kỹ thuật “đào núi tìm vàng” nhằm phát bàn tới cuối chương Chương dành cho việc trình bày kết thông tin có giá trị, tiềm ẩn CSDL lớn mà người sở nghiên cứu số thuật toán lựa chọn thuộc tính điển hình Các thuật toán hữu ngày nhiều năm gần Các kết nghiên cứu với trình bày theo ba nhóm chính: thuật toán kiểu filter, thuật toán kiểu ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy wrapper số thuật toán khác Mỗi thuật toán có tựa code, giải khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, thích minh họa ví dụ tính toán cụ thể Độ phức tạp số thuật toán đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Các CSDL cần khai phá thường có kích thước lớn, chẳng hạn CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, … Các CSDL thường chứa tới hàng ngàn thuộc tính, gây nhiều khó khăn cho việc khai phá, chí làm cho nhiệm vụ khai phá trở nên bất khả thi Vấn Trên sở kết nghiên cứu trình bày luận văn, nhận thấy có nhiều vấn đề tiếp tục nghiên cứu Cụ thể là: Nghiên cứu vấn đề lựa chọn thuộc tính theo tiếp cận lý thuyết tập thô, đề đặt phải tìm cách rút gọn số thuộc tính Rút gọn thuộc tính (còn gọi rút gọn số chiều – Dimension reduction) làm giảm số chiều không gian thuộc tính, loại bỏ liệu dư thừa, không liên quan Rút gọn thuộc tính đóng vai trò quan trọng bước tiền xử lý liệu trình khai phá Thông qua việc lựa chọn thuộc tính quan trọng rút gọn liệu, tạo khả khai phá sở liệu kích thước lớn, nâng cao hiệu tính toán, làm tăng độ mạng nơron Vấn đề lựa chọn thuộc tính cho nhiệm vụ khai phá liệu cụ thể, chẳng hạn cho việc học luật định định, cho việc xây dựng hàm hồi quy, … Nghiên cứu cài đặt thuật toán ngôn ngữ lập trình cụ thể, tính toán thực nghiệm sở liệu lớn thu thập từ thực tiễn Internet xác kết khai phá từ CSDL Từ năm 1970 đến nay, rút gọn thuộc tính trở thành đề tài quan tâm nhiều nhà nghiên cứu thuộc lĩnh vực nhận dạng thống kê, học máy, khai phá liệu Luận văn trình bày kết nghiên cứu học viên vấn đề rời rạc hóa khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Hướng nghiên cứu Trong trình thực luận văn, cố gắng tập trung tìm hiểu tham khảo nhiều tài liệu liên quan Tuy nhiên, thời gian nghiên cứu trình độ có hạn nên không tránh khỏi thiếu sót Tôi mong nhận nhận xét, góp ý thầy cô giáo, bạn bè, đồng nghiệp quan tâm để luận văn hoàn thiện http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 57 1994 Tài liệu tham khảo [10] M A Hall Correlation-based feature selection for discrete and numeric class machine learning In ICML, 2000 Tiếng Việt [11] L Yu and H Liu Feature selection for highdimensional data: a fast [1] Lý Hoàng Tú, Lý thuyết Xác suất thống kê Nhà Xuất Khoa học Kỹ correlation-based filter solution In ICML, 2003 thuật, Hà nội 2001 [12] Kohavi, R., John, G.H.: Wrappers for feature subset selection Artificial [2] Nguyễn Bình, Lý thuyết Thông tin Học viện Công nghệ Bưu Viễn Intelligence 97(1-2) (1997) 273-324 thông, Hà nội, 2006 [14] Jakulin, A.: Attribute interactions in machine learning Master’s thesis, [3] Nguyễn Thanh Tùng, Một tiêu chuẩn lựa chọn node xây dựng University of Ljubljana, Faculty of Computer and Information Science (2003) định Báo cáo Hội thảo quốc gia “Một số vấn đề chọn lọc CNTT”, Huế, [15] Yeung, R.W.: A new outlook on Shannon’s information measures IEEE 8/2008 Transactions on Information Theory 37 (1991) 466-474 [16] Duch, W., Winiarski, T., Biesiada, J., Kachel, A.: Feature selection and Tiếng Anh ranking filters In: International Conference on Artificial Neural Networks [1] Dash, M., Liu, H ”Feature selection for classification” Intelligent Data (ICANN) and International Con-ference on Neural Information Processing Analysis pp 131-156 (1997) (ICONIP) (2003) 251-254 [2] Isabelle Guyon Andr Elisseeff, ”An Introduction to Variable and Feature [18] Fleuret, F.: Fast binary feature selection with conditional mutual Selection” Journal of Machine Learning Research pp 1157-1182 (2003) information Journal of Machine Learning Research (2004) 1531-1555 [3] Aleks Jakulin and Ivan Bratko Analyzing attribute dependencies In PKDD, [19] C.L Blake and C.J Merz UCI repository of machine learning databases, 2003 1998 [4] C.E Shannon, W Weaver, The Mathematical Theory of Communication, [20] Vapnik V, The Nature of Statistical Learning Theory, New York: Springer, University of Illinois Press, Urbana, IL, 1949 1995 [6] Yu, L., Liu, H.: Efficient feature selection via analysis of relevance and [21] Ian H Witten and Eibe Frank Data mining: Practical machine learning redundancy Journal of Machine Learning Research (2004) 1205-1224 tools and techniques with Java implementations Morgan Kaufman, San [7] C.H Chen, Statistical Pattern Recognition, Spartan Books, Washington, DC, Francisco, CA, 1973 USA, 2000 http://www.cs.waikato.ac.nz/ml/weka/ [8] A L Blum and P Langley Selection of relevant features and examples in [23] Moore, A.W and Lee, M.S., ”Efficient algorithms for minimizing cross machine learning Artificial Intelligence, 97:245-271, 1997 validation error.” In: Proceedings of Eleventh International Conference on [9] H Almuallim and T G Dietterich Learning boolean concepts in the Machine Learning, Morgan Kaufmann, New Brunswick, New Jersey, 190-198, presence of many irrelevant features Artificial Intelligence, 69(1- 2):279-305, (1994) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Lựa chọn thuộc tính trong khai phá dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan