ThS37 069 lựa chọn thuộc tính trong khai phá dữ liệu

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - TRỊNH VĂN HÀ LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN THÁI NGUYÊN 2008 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - TRỊNH VĂN HÀ LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hướng dẫn khoa học: TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2008 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC Trang phụ bìa Mục lục .2 Lời mở đầu Chương KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.Tại phải khai phá liệu 1.2 Quá trình khai phá liệu .7 1.3 Các phương pháp khai phá liệu 1.4 Các loại liệu khai phá 10 1.5 Các ứng dụng khai phá liệu 10 1.6 Một số thách thức đặt cho việc khai phá liệu 14 1.7 Tổng kết chương 15 Chương KHÁI QUÁT VỀ LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU 16 2.1 Rút gọn thuộc tính 16 2.2 Khái quát lựa chọn thuộc tính 18 2.2.1 Bài toán lựa chọ thuộc tính 18 2.2.2 Đặc điểm chung thuật toán lựa chọn thuộc tính 20 2.2.3 Ứng dụng kỹ thuật lựa chọn thuộc tính 23 2.3 Kết luận chương 26 Chương MỘT SỐ THUẬT TOÁN LỰA CHỌN THUỘC TÍNH ĐIỂN HÌNH .28 3.1 Các thuật toán theo cách tiếp cận filter 28 3.1.1 Thuật toán RELIEF .28 3.1.2 Thuật toán FOCUS .31 3.1.3 Thuật toán LVF 33 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 3.1.4 Thuật toán EBR 35 3.1.5 Thuật toán SCRAP .38 3.1.6 Lựa chọn nhóm 40 3.2 Các thuật toán theo cách tiếp cận wrapper .42 3.3.1 Thuật toán LVW 42 3.3.2 Thuật toán NEURALNET 43 3.3 Một số thuật toán khác 44 3.3.1 Thuật toán Genetic .44 3.3.2 Lựa chọn thuộc tính thông qua rời rạc hóa liệu 46 3.4 Kết luận chương 53 KẾT LUẬN .54 Tài liệu tham khảo 56 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Như biết, năm gần công nghệ thông tin phát triển vô nhanh chóng ứng dụng rộng rãi lĩnh vực đời sống xã hội, quản lý, lĩnh vực mà yếu tố khoa học công nghệ có tính định Sự việc dẫn đến bùng nổ thông tin, làm cho nhà quản lý rơi vào tình trạng “ngập lụt thông tin" Chính vậy, chuyên gia cho rằng, sống xã hội “rất giàu thông tin nghèo tri thức” Tình hình đòi hỏi phải phát triển phương pháp khai phá, phát thông tin, tri thức có ích bị che giấu “núi” liệu phục vụ cho công việc nhà quản lý, chuyên gia, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Khai phá liệu (Data Mining) lĩnh vực khoa học liên ngành xuất gần nhằm đáp ứng nhu cầu Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Hiện nay, CSDL cần khai phá thường có kích thước lớn, chẳng hạn CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, … Các CSDL thường chứa tới hàng ngàn thuộc tính, gây nhiều khó khăn cho việc khai phá, chí làm cho nhiệm vụ khai phá trở nên bất khả thi Vấn đề đặt phải tìm cách rút gọn số thuộc tính mà không làm thông tin cần thiết phục vụ nhiệm vụ khai phá Mục đích rút gọn thuộc tính làm giảm số chiều không gian thuộc tính, loại bỏ liệu dư thừa, không liên quan Rút gọn thuộc tính đóng vai trò quan trọng bước tiền xử lý liệu trình khai phá Kết rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Từ năm 1970 đến nay, rút gọn thuộc tính (hay gọi rút gọn số chiều – Dimension reduction) trở thành đề tài quan tâm nhiều nhà nghiên cứu thuộc lĩnh vực nhận dạng thống kê, học máy, khai phá liệu Chính lý trên, chọn đề tài “Lựa chọn thuộc tính khai phá liệu” làm đề tài nghiên cứu Nội dung luận văn trình bày chương phần kết luận Chương 1: Trình bày khái quát Khai phá liệu, bao gồm: Khai phá liệu gì, quy trình khai phá, kỹ thuật số ứng dụng quan trọng khai phá liệu Chương 2: Trình bày khái quát nội dung, cách tiếp cận, quy trình giải vấn đề lựa chọn thuộc tính số ứng dụng quan trọng lựa chọn thuộc tính Chương 3: Trình bày kết nghiên cứu số thuật toán lựa chọn thuộc tính điển hình Thái nguyên, tháng 11 năm 2008 Học viên Trịnh Văn Hà Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Tại phải khai phá liệu Ước tính khoảng 20 tháng lượng thông tin giới lại tăng gấp đôi Chính vậy, lượng liệu mà người thu thập lưu trữ kho liệu lớn, nhiều vượt khả quản lý Thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày cao cho người định tổ chức tài chính, thương mại, khoa học, Đúng John Naisbett cảnh báo “Chúng ta chìm ngập liệu mà đói tri thức” Với khối lượng liệu tăng nhanh khổng lồ vậy, rõ ràng phương pháp thủ công truyền thống áp dụng để phân tích liệu không hiệu quả, tốn dễ dẫn đến sai lệch Do để khai phá hiệu sở liệu lớn cần phải có kỹ thuật mới, kỹ thuật khai phá liệu (Data Mining) Khai phá liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thông tin, tri thức hữu ích, tiềm ẩn CSDL cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Hiện nay, khai phá liệu ứng dụng rộng rãi lĩnh vực như: Phân tích liệu hỗ trợ định, điều trị y học, tin-sinh học, thương mại, tài chính, bảo hiểm, text mining, web mining Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Do phát triển nhanh chóng phạm vi áp dụng phương pháp tìm kiếm tri thức, nên có nhiều quan điểm khác khai phá liệu Tuy nhiên, mức độ trừu tượng định, định nghĩa khai phá liệu sau : Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khám phá tri thức CSDL (Knowledge Discovery in Databaes – KDD) mục tiêu khai phá liệu, hai khái niệm khai phá liệu KDD nhà khoa học xem tương đương Thế nhưng, phân chia cách chi tiết khai phá liệu bước trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành như: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song hiệu cao, Các kỹ thuật áp dụng khám phá tri thức phần lớn thừa kế từ ngành 1.2 Quá trình khai phá liệu Quá trình khám phá tri thức phân thành công đoạn sau : Trích lọc liệu: Là bước tuyển chọn tập liệu cần khai phá từ tập liệu lớn ( databases, data warehouses, data repositories) ban đầu theo số tiêu chí định Tiền xử lý liệu: Là bước làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán, ), tổng hợp liệu (nén, nhóm liệu, tính tổng, xây dựng histograms, lấy mẫu, ), rời rạc hóa liệu (rời rạc hóa dựa vào histograms, entropy, phân khoảng, ) Sau bước tiền sử lý này, liệu quán, đầy đủ, rút gọn rời rạc hóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Biến đổi liệu: Là bước chuẩn hóa làm mịn liệu để đưa liệu dạng thuận lợi nhằm phục vụ việc áp dụng kỹ thuật khai phá bước sau Khai phá liệu: Là bước áp dụng kỹ thuật phân tích (phần nhiều kỹ thuật học máy) nhằm khai thác liệu, trích lọc mẫu tin (information patterns), mối quan hệ đặc biệt liệu Đây xem bước quan trọng tiêu tốn thời gian toàn trình KDD Đánh giá biểu diễn tri thức: Những mẫu thông tin mối quan hệ liệu phát bước khai phá liệu chuyển sang biểu diễn dạng gần gũi với người sử dụng đồ thị, cây, bảng biểu, luật, Đồng thời bước đánh giá tri thức khai phá theo tiêu chí định Hình 1.1 mô tả công đoạn khai phá liệu: Biểu diễn Khai phá Thu nhỏ Tri thức Làm Mẫu Chọn lọc Thu nhỏ liệu Dữ liệu đích Xử lý liệu đích Dữ liệu Hình 1.1 Các bƣớc thực trình khai phá liệu Nếu theo quan điểm học máy (Machine Learning), kỹ thuật khai phá liệu bao gồm:  Học có giám sát (Supervised Learning) : Là trình phân lớp đối tượng sở liệu dựa tập ví dụ huấn luyện thông tin nhãn lớp biết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn  Học giám sát (Unsupervised Learning) : Là trình phân chia tập đối tượng thành lớp hay cụm (clusters) tương tự mà trước thông tin lớp ví dụ huấn luyện  Học nửa giám sát (Semi-Supervised Learning) : Là trình phân chia tập đối tượng thành lớp dựa tập nhỏ ví dụ huấn luyện số thông tin số nhãn lớp biết 1.3 Các phƣơng pháp khai phá liệu Kỹ thuật khai phá liệu thường chia làm nhóm chính: Kỹ thuật mô tả: Các nhiệm vụ mô tả ccác tính chất đặc tính chung liệu CSDL có Các kỹ thuật gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualiztion), phân tích phát triển độ lệch (Evolution and deviation analysis), phân tích luật kết hợp (association rules analysis)… Kỹ thuật dự đoán: Có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Các kỹ thuật gồm: Phân lớp (classification), hồi quy (regression), … Với hai đích khai phá liệu Dự đoán (Prediction) Mô tả (Description), người ta thường sử dụng kỹ thuật sau cho khai phá liệu:  Phân lớp dự đoán (classification and prediction) : Là việc xếp đối tượng vào lớp biết trước Ví dụ, phân lớp bệnh nhân, phân lớp loài thực vật, Hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơ-ron nhân tạo (neural network), Phân lớp dự đoán gọi học có giám sát  Phân cụm (clustering/segmentation) : Là việc xếp đối tượng theo cụm tự nhiên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 43 (8) learn( R) ; Trước tiên LVW coi toàn tập thuộc tính điều kiện tập tốt Sau sinh tập cách ngẫu nhiên đánh giá chúng thông qua kết áp dụng thuật học Quá trình tiếp tục giá trị sai số ε cập nhật đến lần thứ K (điều kiện dừng quy định trước) mà không phát tập tốt Cuối cùng, LVF thực việc kiểm chứng kết (tập con) thu Trong tài liệu hành, thuật học thường sử dụng để đánh giá tập thuộc tính thuật học luật phân lớp định C4.5 Quinlan, tính đơn giản độ hiệu 3.3.2 Thuật toán NEURALNET NEURALNET thuật toán lựa chọn thuộc tính kiểu wrapper sử dụng mạng nơron Thuật toán áp dụng phương pháp tìm kiếm tập tối ưu cách loại dần Lược đồ NEURALNET sau: NEURALNET (C, max ) C : tập tất thuộc tính điều kiện; max : ngưỡng sai số phân lớp cho phép mạng (1) R ← C ; εw = ; (2) (3) T←R; x R (4) (5) S R x ; (6) S = trainNet(S) ; (7) if S w (8) x; w S; w (9) R R w ; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 44 (10) until R max ; (11) trainNet(T) ; NEURALNET sử dụng mạng nơron lớp hàm đánh giá sai số (bao gồm sai số phân lớp lẫn độ phức tạp mạng) suốt trình lựa chọn tập thuộc tính tối ưu Đầu tiên, NEURALNET coi toàn tập thuộc tính điều kiện ban đầu tập tốt với giá trị hàm đánh giá Sau thực trình tìm kiếm lùi Tại vòng lặp, mạng huấn luyện với tập thuộc tính thu cách bớt thuộc tính khỏi tập tốt thời Một thuộc tính bị loại bỏ vĩnh viễn khỏi tập thời việc loại bớt làm tăng giá trị hàm đánh giá (sai số phân lớp độ phức tạp mạng) Quá trình lặp tiếp tục giá trị hàm đánh giá cập nhật lớn mức ngưỡng cho phép 3.3 Một số thuật toán khác 3.3.1 Thuật toán Genetic Các thuật toán genetic thuật toán hiệu cho việc lựa chọn nhanh thuộc tính Không giống chiến lược tìm kiếm kinh điển dẫn đến lời giải nhất, thuật toán genetic cho ta nhiều tập thuộc tính tối ưu gần tối ưu Trong thuật toán genetic, tập thuộc tính biểu diễn sâu nhị phân có độ dài số thuộc tính tập liệu ban đầu Vị trí thứ j sâu nhị phân tùy thuộc vào thuộc tính thứ j có mặt hay mặt tập Quy trình chung thuật toán genetic sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 45 Hình 3.1.Lựa chọn thuộc tính thuật toán Genetic Đầu tiên, quần thể sâu nhị phân tạo lập Việc tạo quần thể nào, với kích thước vấn đề quan trọng Khi có quần thể tập con, thuật toán tiến hành áp dụng toán tử genetic (lai ghép, đột biến) Các toán tử với xác suất áp dụng chúng xem xét lựa chọn cách kỹ lưỡng Sau áp dụng toán tử quần thể tập tạo Có hai cách đánh giá tập thuộc tính quần thể: Nếu việc lựa chọn thuộc tính sử dụng tiếp cận filter độ phù hợp tập thuộc tính X đánh giá thông qua hàm tiêu chuẩn J ( X ) Giá trị J ( X ) lớn tập X tốt Hàm tiêu chuẩn J ( X ) thường sử dụng độ đo entropy theo Shannon hàm đánh giá độ phụ thuộc theo lý thuyết tập thô Đối với cách tiếp cận wrapper, tập thuộc tính đánh giá thông qua sai số phân lớp thuật học sử dụng Sai số phân lớp nhỏ tập tập tương ứng tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 46 Đối với hai cách tiếp cận filter wrapper, để định hướng cho việc tìm tập tối ưu có kích thước nhỏ nhất, người ta đưa thêm vào hàm đánh giá độ phù hợp tham số kích thước tập Để dừng trình tiến hóa, tiêu chuẩn dừng Tiêu chuẩn dừng thường sử dụng số hệ sinh ngưỡng tối thiểu cho mức độ phù hợp tập chọn Nếu tiêu chuẩn dừng không thỏa mãn, tập thuộc tính lại tiếp tục lựa chọn trình mô tả lặp lại Các chiến lược lựa chọn thường áp dụng chiến lược bánh xe roulette chiến lược vào thứ hạng Với chiến lược lựa chọn bánh xe roulette, xác suất để tập chọn tỷ lệ thuận với độ phù hợp Với chiến lược lựa chọn vào thứ hạng, tập thứ tự theo độ phù hợp chúng xác suất để tập chọn tỷ lệ thuận với thứ tự danh sách xếp hạng Cũng cách tiếp cận khác, thuật toán genetic thường lựa chọn tập thuộc tính tối ưu cục Bên cạnh đó, có nhiều hệ tập thuộc tính tạo, việc đánh giá độ phù hợp chúng tiêu tốn nhiều thời gian 3.3.2 Lựa chọn thuộc tính thông qua rời rạc hóa liệu Rời rạc hóa liệu khâu bước tiền xử lý Rời rạc hóa liệu việc biến đổi thuộc tính định lượng liên tục thành thuộc tính rời rạc thỏa mãn tiêu chuẩn quy định Rời rạc hóa liệu trước khai phá có ba lợi ích: Cho phép áp dụng thuật toán khai phá hiệu có, Làm giảm kích thước liệu, tăng tốc độ tính toán, Làm tăng độ xác, tính dễ hiểu kết thu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 47 Ngoài lợi ích trên, gần người ta sử dụng số thuật toán rời rạc hóa vào việc giải vấn đề lựa chọn thuộc tính khai phá liệu học máy Mục trình bày hai thuật toán rời rạc hóa thế, ChiMerge Chi2 Chi2 phát triển KhiMerge Cả hai thuật toán thuật toán rời rạc hóa có giám sát (nghĩa có sử dụng thông tin thuộc tính định (nhãn lớp) Để rời rạc hóa thuộc tính, chúng áp dụng phương pháp kết nối bước khoảng giá trị (từ lên) sử dụng phép kiểm định Khi-bình-phương giả thuyết độc lập thuộc tính nhãn lớp cặp khoảng giá trị liền kề thuộc tính Khi trình rời rạc hóa kết thúc, tất giá trị thuộc tính gộp lại thành khoảng thuộc tính bị loại khỏi tập thuộc tính lựa chọn Trước trình bày thuật toán ChiMerge Chi2, ta trình bày khái niệm bảng tiếp liên (contingency table) phép kiểm định Khi-bình-phương Bảng tiếp liên phép kiểm định độc lập Khi-bình-phƣơng Trong thống kê toán học, để kiểm tra giả thuyết độc lập hai biến ngẫu nhiên X Y (liên tục hay rời rạc) người ta đề xuất phép kiểm định Khibình-phương sau: Chia miền giá trị X Y thành số hữu hạn khoảng Nếu X hay Y nhận số giá trị coi giá trị khoảng Đối với biến ngẫu nhiên liên tục nên chia miền giá trị thành khoảng có độ rộng Giả sử có mẫu cỡ N véc tơ ngẫu nhiên (X,Y) Gọi - r s số khoảng chia miền giá trị X Y ; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 48 - A i biến cố X nhận giá trị khoảng thứ i, i = 1, 2, … , r ; - B j biến cố Y nhận giá trị khoảng thứ j, j = 1, 2, … , s ; - n i j số cá thể mẫu có giá trị X khoảng thứ i giá trị Y khoảng thứ j, (tức n i j tần số quan sát biến cố A i B j ) ; s n i j số cá thể mẫu có giá trị X thuộc khoảng i (tức tần số quan - ni j sát biến cố A i ) ; r n i j số cá thể mẫu có giá trị Y thuộc khoảng j (tức tần số quan - n j i sát biến cố B j ) ; r s Hiển nhiên, ni j N i j Các liệu vào bảng gọi bảng tiếp liên (hay bảng chéo): Biến s Tổng n11 n12 n1s n 21 n 21 n 2s n r1 n r1 n r s n1 n nr Tổng n n n s N r Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 49 Từ bảng liệu thu được: - Tần số quan sát biến cố Ai B j n i j , i = 1, 2, … , r ; j = 1, 2, … , s - Ước lượng tần số lý thuyết cá thể mẫu có giá trị X thuộc khoảng thứ i giá trị Y thuộc khoảng thứ j giả thuyết độc lập X Y Ước lượng N ni n j n i n j N N N Để kiểm định giả thuyết H : X Y độc lập với đối thuyết H : X Y không độc lập, người ta sử dụng thống kê r s i j sau đây: n i n j ni j N n i n j (1) N Có thể thấy số đo đánh giá mức độ sai khác tần số lý thuyết tần số quan sát biến cố Ai B j X Y độc lập Người ta chứng minh với cỡ mẫu N đủ lớn, có phân phối tiệm cận Khi-bình-phương với (r 1)( s 1) bậc tự Từ đó, suy quy tắc kiểm định gỉa thuyết H sau: - Chọn mức ý nghĩa (thường 0,05 0,1); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 50 - Tính giá trị thống kê theo công thức (1); - Tra bảng phân phối Khi-bình-phương (r 1)( s 1) bậc tự do, tìm phân vị (giá trị ngưỡng) ứng với mức ý nghĩa - Bác bỏ giả thuyết H ngược lại 2 2 2 cho; , chấp nhận H trường hợp có nghĩa với xác suất khẳng định hai biến ngẫu nhiên X Y độc lập Thuật toán ChiMerge Giả sử thuộc tính định (nhãn lớp) bảng định có k giá trị phân biệt Thuật toán ChiMerge bao gồm bước sau đây: Chọn mức ý nghĩa (thường 0,05 0,1) ; Sắp thứ tự liệu thuộc tính cần rời rạc hóa Bắt đầu trình rời rạc hóa cách coi giá trị khoảng ; Với cặp khoảng liền kề, tính giá trị thống kê k i j n i n j ni j N n i n j theo công thức: (2) N Kết nối cặp khoảng liền kề cho giá trị 2 (Giá trị ngưỡng 2 phân vị mức nhỏ thỏa mãn phân phối Khi- bình-phương với k – bậc tự do, (tra từ bảng phân phối Khi-bìnhphương) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 51 Lặp lại bước 2-3 tất giá cặp khoảng lớn giá trị ngưỡng 2 tính ChiMerge có độ phức tạp tính toán O( N ) N số đối tượng có bảng định Tuy vậy, với số thao tác tối ưu hóa làm giảm độ phức tạp xuống O(N.logN) Thuật toán Chi2 Chi2 thuật toán Liu Setino phát triển dựa thuật toán ChiMerge [ ] Khó khăn gặp phải sử dụng ChiMerge việc chọn giá trị thích hợp cho mức ý nghĩa Để giải khó khăn này, Liu Setino cải tiến ChiMerge theo hai hướng: - Để cho thuật toán tự động xác định giá trị huấn luyện Hơn thế, giá trị từ thân liệu tính toán riêng cho thuộc tính cần rời rạc hóa - Lấy tỷ lệ liệu không quán làm tiêu chuẩn dừng Thay cố định trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị Quá trình rời rạc hóa thuộc tính tiếp tục tiêu chuẩn dừng thỏa mãn Thuật toán Chi2 bao gồm hai pha Pha 1: Cho mức ý nghĩa giá trị ban đầu lớn (chẳng hạn 0,5) ; Sắp thứ tự liệu theo thuộc tính rời rạc hóa ; Bắt đầu trình rời rạc hóa cách coi giá trị khoảng ; Với cặp khoảng liền kề, tính giá trị thống kê Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 theo (2) ; http://www.lrc-tnu.edu.vn 52 Kết nối thành khoảng cặp khoảng liền kề cho giá trị nhỏ ; Lặp lại bước 2-4 không cặp khoảng liền kề kết nối (không có giá trị nhỏ ngưỡng ); Lặp lại bước 2-5 cho thuộc tính cần rời rạc hóa ; Giảm mức ý nghĩa ; Lặp lại toàn pha tỷ lệ không quán liệu vượt mức quy định Pha 2: Đối với thuộc tính, cho mức ý nghĩa giá trị nhỏ sau kết thúc pha Sắp thứ tự liệu theo thuộc tính; Với cặp khoảng liền kề, tính giá trị thống kê theo (2); Kết nối thành khoảng cặp khoảng liền kề cho giá trị nhỏ ; Lặp lại bước 2-4 không cặp khoảng liền kề kết nối (không có giá trị nhỏ ngưỡng ); Kiểm tra tỷ lệ không quán liệu thuộc tính Nếu tỷ lệ không vượt mức quy định, cho giảm mức ý nghĩa tiếp tục trình rời rạc hóa Trường hợp ngược lại, kết thúc phép rời rạc hóa thuộc tính; Lặp lại bước 2-7 tất thuộc tính kết nối không thuộc tính tiếp tục kết nối Pha thứ Chi2 mở rộng ChiMerge Thay xác định trước mức ý nghĩa , Chi2 cho phép tự động giảm dần giá trị Tỷ lệ liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 53 không quán sử dụng làm tiêu chuẩn dừng Các cải tiến làm cho Chi2 xác định cách tự động giá trị ngưỡng mà bảo tồn thông tin phân lớp liệu ban đầu Pha thứ hai Chi2 pha tiếp tục cải thiện kết rời rạc hóa Nếu khoảng giá trị thuộc tính tiếp tục kết nối (bằng cách cho giảm mức ý nghĩa) mà không làm cho tỷ lệ liệu không quán vượt qúa mức quy định, trình kết nối tiếp tục thực Trong pha thứ Chi2 sử dụng mức ý nghĩa chung cho việc rời rạc hóa tất thuộc tính, pha thứ hai sử dụng mức ý nghĩa khác cho thuộc tính 3.4 Kết luận chƣơng Trong chương trình bày kết nghiên cứu số thuật toán lựa chọn thuộc tính điển hình Các thuật toán trình bày theo ba nhóm chính: thuật toán kiểu filter, thuật toán kiểu wrapper số thuật toán khác Các thuật toán thường sử dụng để lựa chọn thuộc tính giải vấn đề phân cụm phân lớp khai phá liệu Mỗi thuật toán có tựa code, giải thích minh họa ví dụ tính toán cụ thể Độ phức tạp số thuật toán Các thuật toán trình bày mục 3.3 thuật toán đề xuất năm gần Đây thuật toán hiệu quả, thường áp dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 54 KẾT LUẬN Nội dung nghiên cứu kết đạt luận văn Khai phá liệu môn khoa học liên ngành: Cơ sở liệu, học máy thống kê toán học, nghiên cứu kỹ thuật “đào núi tìm vàng” nhằm phát thông tin có giá trị, tiềm ẩn CSDL lớn mà người sở hữu ngày nhiều năm gần Các kết nghiên cứu với ứng dụng thành công khai phá liệu, khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu hẳn so với công cụ phân tích liệu truyền thống Các CSDL cần khai phá thường có kích thước lớn, chẳng hạn CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, … Các CSDL thường chứa tới hàng ngàn thuộc tính, gây nhiều khó khăn cho việc khai phá, chí làm cho nhiệm vụ khai phá trở nên bất khả thi Vấn đề đặt phải tìm cách rút gọn số thuộc tính Rút gọn thuộc tính (còn gọi rút gọn số chiều – Dimension reduction) làm giảm số chiều không gian thuộc tính, loại bỏ liệu dư thừa, không liên quan Rút gọn thuộc tính đóng vai trò quan trọng bước tiền xử lý liệu trình khai phá Thông qua việc lựa chọn thuộc tính quan trọng rút gọn liệu, tạo khả khai phá sở liệu kích thước lớn, nâng cao hiệu tính toán, làm tăng độ xác kết khai phá từ CSDL Từ năm 1970 đến nay, rút gọn thuộc tính trở thành đề tài quan tâm nhiều nhà nghiên cứu thuộc lĩnh vực nhận dạng thống kê, học máy, khai phá liệu Luận văn trình bày kết nghiên cứu học viên vấn đề rời rạc hóa khai phá liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 55 Chương luận văn trình bày khái quát khai phá liệu Chương chương nội dung luận văn Trong chương này, trình bày khái quát nội dung, phương pháp quy trình giải vấn đề lựa chọn thuộc tính Một số ứng dụng quan trọng lựa chọn thuộc tính bàn tới cuối chương Chương dành cho việc trình bày kết nghiên cứu số thuật toán lựa chọn thuộc tính điển hình Các thuật toán trình bày theo ba nhóm chính: thuật toán kiểu filter, thuật toán kiểu wrapper số thuật toán khác Mỗi thuật toán có tựa code, giải thích minh họa ví dụ tính toán cụ thể Độ phức tạp số thuật toán Hướng nghiên cứu Trên sở kết nghiên cứu trình bày luận văn, nhận thấy có nhiều vấn đề tiếp tục nghiên cứu Cụ thể là: Nghiên cứu vấn đề lựa chọn thuộc tính theo tiếp cận lý thuyết tập thô, mạng nơron Vấn đề lựa chọn thuộc tính cho nhiệm vụ khai phá liệu cụ thể, chẳng hạn cho việc học luật định định, cho việc xây dựng hàm hồi quy, … Nghiên cứu cài đặt thuật toán ngôn ngữ lập trình cụ thể, tính toán thực nghiệm sở liệu lớn thu thập từ thực tiễn Internet Trong trình thực luận văn, cố gắng tập trung tìm hiểu tham khảo nhiều tài liệu liên quan Tuy nhiên, thời gian nghiên cứu trình độ có hạn nên không tránh khỏi thiếu sót Tôi mong nhận nhận xét, góp ý thầy cô giáo, bạn bè, đồng nghiệp quan tâm để luận văn hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 56 Tài liệu tham khảo Tiếng Việt [1] Lý Hoàng Tú, Lý thuyết Xác suất thống kê Nhà Xuất Khoa học Kỹ thuật, Hà nội 2001 [2] Nguyễn Bình, Lý thuyết Thông tin Học viện Công nghệ Bưu Viễn thông, Hà nội, 2006 [3] Nguyễn Thanh Tùng, Một tiêu chuẩn lựa chọn node xây dựng định Báo cáo Hội thảo quốc gia “Một số vấn đề chọn lọc CNTT”, Huế, 8/2008 Tiếng Anh [1] Dash, M., Liu, H ”Feature selection for classification” Intelligent Data Analysis pp 131-156 (1997) [2] Isabelle Guyon Andr Elisseeff, ”An Introduction to Variable and Feature Selection” Journal of Machine Learning Research pp 1157-1182 (2003) [3] Aleks Jakulin and Ivan Bratko Analyzing attribute dependencies In PKDD, 2003 [4] C.E Shannon, W Weaver, The Mathematical Theory of Communication, University of Illinois Press, Urbana, IL, 1949 [6] Yu, L., Liu, H.: Efficient feature selection via analysis of relevance and redundancy Journal of Machine Learning Research (2004) 1205-1224 [7] C.H Chen, Statistical Pattern Recognition, Spartan Books, Washington, DC, 1973 [8] A L Blum and P Langley Selection of relevant features and examples in machine learning Artificial Intelligence, 97:245-271, 1997 [9] H Almuallim and T G Dietterich Learning boolean concepts in the presence of many irrelevant features Artificial Intelligence, 69(1- 2):279-305, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 57 1994 [10] M A Hall Correlation-based feature selection for discrete and numeric class machine learning In ICML, 2000 [11] L Yu and H Liu Feature selection for highdimensional data: a fast correlation-based filter solution In ICML, 2003 [12] Kohavi, R., John, G.H.: Wrappers for feature subset selection Artificial Intelligence 97(1-2) (1997) 273-324 [14] Jakulin, A.: Attribute interactions in machine learning Master’s thesis, University of Ljubljana, Faculty of Computer and Information Science (2003) [15] Yeung, R.W.: A new outlook on Shannon’s information measures IEEE Transactions on Information Theory 37 (1991) 466-474 [16] Duch, W., Winiarski, T., Biesiada, J., Kachel, A.: Feature selection and ranking filters In: International Conference on Artificial Neural Networks (ICANN) and International Con-ference on Neural Information Processing (ICONIP) (2003) 251-254 [18] Fleuret, F.: Fast binary feature selection with conditional mutual information Journal of Machine Learning Research (2004) 1531-1555 [19] C.L Blake and C.J Merz UCI repository of machine learning databases, 1998 [20] Vapnik V, The Nature of Statistical Learning Theory, New York: Springer, 1995 [21] Ian H Witten and Eibe Frank Data mining: Practical machine learning tools and techniques with Java implementations Morgan Kaufman, San Francisco, CA, USA, 2000 http://www.cs.waikato.ac.nz/ml/weka/ [23] Moore, A.W and Lee, M.S., ”Efficient algorithms for minimizing cross validation error.” In: Proceedings of Eleventh International Conference on Machine Learning, Morgan Kaufmann, New Brunswick, New Jersey, 190-198, (1994) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn

ThS37 069 lựa chọn thuộc tính trong khai phá dữ liệu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan