Đang tải... (xem toàn văn)
Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn
Lời cảm ơn “ðể hồn thành khóa luận này, tơi xin gửi lời cảm ơn chân thành tới quý thầy trường ðại học Cơng Nghệ - ðHQGHN tận tình bảo tơi suốt bốn năm học ñại học Tôi xin cảm ơn hướng dẫn nhiệt tình thầy Nguyễn Hà Nam, giúp ñỡ anh ðặng Tất ðạt – nghiên cứu sinh khoa Toán Tin trường ðại học n Tự Nhiên, ðHQGHN Tôi thầm biết ơn ủng hộ gia đình, bạn bè – người thân u ln ith uc v chỗ dựa tinh thần vững cho tôi.” Hà Nội, tháng 05 năm 2009 Sinh viên htt p:/ / etr Trần Phương Nhung Tóm tắt khóa luận Trong khóa luận tơi áp dụng thuật tốn di truyền (Genetic Algorithm) ñể bước ñầu cải tiến hiệu phân lớp phương pháp minimax probability machine (MPM) Phần đầu tơi xin giới thiệu tổng quan khái niệm khai phá liệu Tiếp đó, tơi trình bày sở lý thuyết thuật toán di truyền phương pháp phân lớp minimax probability machine Cuối cùng, tơi mơ tả chi tiết q trình xây dựng hệ thống có n ứng dụng thuật tốn di truyền phân lớp minimax probability machine ñể chuẩn ith uc v đốn bệnh ung thư Mơ hình phân lớp ñược chạy thử số sở liệu lớn ñưa số liệu thống kê để thấy hiệu hệ thống so với htt p:/ / etr phương pháp phân lớp sử dụng MPM Mục lục Chương 1: Giới thiệu khai phá liệu 10 n Khai phá liệu gì? 10 Tại phải tiến hành khai phá liệu? 10 Quá trình khai phá liệu 11 Kiến trúc điển hình hệ khai phá liệu 13 Các toán khai phá liệu điển hình 14 Các lĩnh vực liên quan ñến khai phá liệu 16 Các ứng dụng điển hình khai phá liệu 17 Các thách thức với khai phá liệu 17 Kết luận 18 ith uc v 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Chương 2: Trích chọn thuộc tính phù hợp 19 htt p:/ / etr 2.1 Giới thiệu 19 2.2 Mơ hình tốn trích chọn 20 2.2.1 Các mơ hình trích chọn 20 2.2.2 ðánh giá hai mơ hình Filter Wrapper 22 2.2.2.1 Filter 22 2.2.2.2 Mơ hình Wrapper 22 2.3 Một số kỹ thuật xử lý 23 2.3.1 Bộ sinh tập (Feature Subset Generator) 23 2.3.2 Bộ ñánh giá tập ñặc trưng (Feature Subset Evaluator) 24 2.3.3 Thuật tốn học điều khiển (Central Machine learning Algorithm) 25 2.4 Kết luận 25 Chương 3: Genetic Algorithms 27 3.1 Giới thiệu 27 3.2 ðộng lực 27 3.3 Thuật giải di truyền 28 3.3.1 Nội dung thuật toán 28 3.3.2 Thể giả thuyết 30 3.3.3 Các toán tử di truyền 32 3.3.4 Hàm thích nghi chọn lọc 34 Chương 4: Minimax Probability Machine 36 4.1 Giới thiệu 36 4.2 Nội dung 36 4.3 Ưu ñiểm nhược ñiểm minimax probability machine 37 4.4 Các phiên cải tiến thuật toán minimax probability machine 38 4.4.1 Minimum error minimax probability machine (MEMPM) 38 4.4.2 Biased minimax probability machine (BMPM) 39 htt p:/ / etr ith uc v n Chương 5: Phương pháp ñề nghị 41 htt p:/ / etr ith uc v n Danh sách hình htt p:/ / etr ith uc v n Danh sách bảng Bảng từ viết tắt GA MPM htt p:/ / etr ith uc v n Genetic Algorithm Minimax Probability Machine Giới thiệu Những năm gần ñây, hệ thống sở liệu đem lại lợi ích vơ to lớn cho người Song hành phát triển nhanh chóng cơng nghệ thơng tin ứng dụng đời sống, kinh tế xã hội, lượng liệu thu thập ngày nhiều theo thời gian, dẫn ñến việc xuất ngày nhiều hệ thống sở liệu có kích thước lớn Trong xã hội đại, thơng tin ñược coi sức mạnh yếu n tố định thành cơng lĩnh vực, việc tìm thơng tin hữu ích ith uc v khối liệu khổng lồ ñược xem mục tiêu hàng ñầu tổ chức cá nhân Trong khóa luận này, tơi ứng dụng kỹ thuật giảm chiều tốn trích chọn để nhằm cải thiện hiệu phân lớp liệu, tảng cho hệ thống chuẩn đốn bệnh ung thư Hệ thống ñược huấn luyện với tập liệu bệnh nhân có từ trước có liệu bệnh nhân mới, hệ thống tự ñộng ñưa chuẩn đốn người có bị bệnh hay khơng? Tôi sử dụng phương pháp phân lớp Minimax Probability Machine etr (MPM) kết hợp thuật toán di truyền (Genetic Algorithm) để xây dựng hệ thống chuẩn đốn Với mục đích làm tăng độ xác q trình phân lớp liệu giảm thời gian huấn luyện phân lớp, tơi sử dụng thuật tốn di truyền ñể giảm p:/ / chiều tập liệu ban đầu nhằm tối ưu tập thuộc tính đầu vào cho phân lớp MPM Kết thực nghiệm ñã chứng minh phương pháp phân lớp sử dụng thuật tốn di htt truyền để tối ưu tập thuộc tính cho kết tốt phương pháp truyền thống Nội dung khóa luận bao gồm sáu chương, với nội dung cụ thể sau: Chương 1: Giới thiệu khai phá liệu Chương tập trung mô tả khai phá liệu (data mining), giới thiệu tốn điển hình khai phá liệu ứng dụng rộng rãi lĩnh vực Cuối thách thức ñặt cho q trình khai phá liệu Chương 2: Trích chọn thuộc tính phù hợp Nội dung chương nhừm giúp người đọc hiểu khái niệm trích chọn thuộc tính, mơ hình trích chọn điển hình số kỹ thuật xử lý q trình trích chọn Chương 3: Genetic Algorithm Ở chương này, người ñọc ñược giới thiệu nội dung bước thực thuật toán di truyền Chương 4: Minimax Probability Machine Chương mô tả phương pháp phân lớp n minimax probability machine Phân tích mặt mạnh yếu phương pháp ith uc v ñể ñề cải tiến nhằm nâng cao hiệu phân lớp minimax probability machine Chương 5: Phương pháp ñề nghị Chương mô tả chi tiết trình xây dựng mơ hình phân lớp minimax probability machine kết hợp với thuật tốn di truyền ðồng thời mơ tả q trình đánh giá chất lượng, từ đưa phân tích kỹ thuật kết luận hiệu mơ hình etr Chương 6: Kết luận Chương phần tổng kết khóa luận, đồng thời nêu mặt hạn chế phương pháp ñề nghị công việc tương lai nhằm cải htt p:/ / tiến hiệu phương pháp Chương 1: Giới thiệu khai phá liệu 1.1 Khai phá liệu gì? Có nhiều ñịnh nghĩa khai phá liệu (Data mining), định nghĩa đơn giản khai phá liệu việc trích rút thơng tin hay tri thức có ích từ n nguồn liệu khổng lồ ith uc v Ngoài ra, khai phá liệu cịn hiểu trích rút thơng tin có ích từ liệu khơng tường minh, trích rút lấy thơng tin khơng biết trước tiềm tàng liệu Cũng hiểu, khai phá liệu việc phân tích khảo sát cách tỉ mỉ số lượng lớn liệu phương pháp tự động bán tự động nhằm tìm mẫu có ích Có thể nhận xét rằng, khái niệm khai phá liệu rộng lớn, etr tất công việc liên quan ñến liệu ñều ñược coi khai phá liệu, chẳng hạn việc xử lý truy vấn ñơn giản tra cứu số ñiện thoại, hay thống kê p:/ / học sinh giỏi lớp, khơng thể coi khai phá liệu Nhưng cơng việc gom nhóm tài liệu trả từ máy tìm kiếm theo ngữ cảnh lại htt xem khai phá liệu 1.2 Tại phải tiến hành khai phá liệu? Trong năm gần ñây, khai phá liệu trở thành lĩnh vực nghiên cứu rộng rãi ngành công nghiệp thông tin, nguyên nhân chủ yếu khối lượng khổng lồ liệu mà người tạo ra, kèm với cần thiết biến đổi liệu thành tri thức Thơng tin tri thức áp dụng vào nhiều lĩnh vực từ phân tích thị trường tài chính, phát giả mạo, điều khiển sản xuất nghiên cứu khoa học ... tả phương pháp phân lớp n minimax probability machine Phân tích mặt mạnh yếu phương pháp ith uc v ñể ñề cải tiến nhằm nâng cao hiệu phân lớp minimax probability machine Chương 5: Phương pháp. .. mặt hạn chế phương pháp đề nghị cơng việc tương lai nhằm cải htt p:/ / tiến hiệu phương pháp Chương 1: Giới thiệu khai phá liệu 1.1 Khai phá liệu gì? Có nhiều ñịnh nghĩa khai phá liệu (Data mining),... Mơ hình phân lớp chạy thử số sở liệu lớn ñưa số liệu thống kê để thấy ñược hiệu hệ thống so với htt p:/ / etr phương pháp phân lớp sử dụng MPM Mục lục Chương 1: Giới thiệu khai phá liệu