Giải thuật di truyền cải tiến cho phân lớp

Lời cảm ơn “Để hoàn thành khóa luận này, tôi xin gửi lời cảm ơn chân thành tới quý thầy cô trong trường Đại học Công Nghệ - ĐHQGHN đã tận tình chỉ bảo tôi trong suốt bốn năm học đại học. Tôi cũng xin cảm ơn sự hướng dẫn nhiệt tình của thầy Nguyễn Hà Nam, cùng sự giúp đỡ của anh Đặng Tất Đạt – sinh viên cao học khoa Toán Tin trường Đại học Tự Nhiên, ĐHQGHN. Tôi cũng thầm biết ơn sự ủng hộ của gia đình, bạn bè – những người thân yêu luôn luôn là chỗ dựa tinh thần vững chắc cho tôi.” Hà Nội, tháng 05 năm 2009. Sinh viên Trần Phương Nhung 1 Tóm tắt khóa luận Trong khóa luận này tôi áp dụng thuật toán di truyền (Genetic Algorithm) để bước đầu cải tiến hiệu quả phân lớp của phương pháp minimax probability machine (MPM). Phần đầu tôi xin giới thiệu tổng quan về khái niệm khai phá dữ liệu. Tiếp đó, tôi sẽ trình bày về cơ sở lý thuyết của thuật toán di truyền và phương pháp phân lớp minimax probability machine. Cuối cùng, tôi sẽ mô tả chi tiết về quá trình xây dựng hệ thống có ứng dụng thuật toán di truyền trong phân lớp minimax probability machine để chuẩn đoán bệnh ung thư. Mô hình phân lớp mới này sẽ được chạy thử trên một số cơ sở dữ liệu lớn và đưa ra những số liệu thống kê để có thể thấy được hiệu quả của hệ thống so với phương pháp phân lớp chỉ sử dụng minimax probability machine. 2 Mục lục Giới thiệu 8 Chương 1: Giới thiệu về khai phá dữ liệu 10 1.1. Khai phá dữ liệu là gì? 10 1.2. Tại sao phải tiến hành khai phá dữ liệu? 10 1.3. Quá trình khai phá dữ liệu 11 1.4. Kiến trúc điển hình của một hệ khai phá dữ liệu 12 1.5. Các bài toán khai phá dữ liệu điển hình 13 1.6. Các lĩnh vực liên quan đến khai phá dữ liệu 15 1.7. Các ứng dụng điển hình của khai phá dữ liệu 15 1.8. Các thách thức với khai phá dữ liệu 16 1.9. Kết luận 16 Chương 2: Trích chọn thuộc tính phù hợp 17 2.1. Giới thiệu 17 2.2. Mô hình trong bài toán trích chọn 18 2.2.1. Các mô hình trong trích chọn 18 2.2.2. Đánh giá hai mô hình Filter và Wrapper 19 2.2.2.1. Mô hình Filter 19 2.2.2.2. Mô hình Wrapper 19 2.3. Một số kỹ thuật xử lý 20 2.3.1. Bộ sinh tập con (Feature Subset Generator) 20 2.3.2. Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator) 21 2.3.3. Thuật toán học điều khiển (Central machine learning algorithm) 22 2.4. Kết luận 22 3 Chương 3: Genetic algorithms 23 3.1. Giới thiệu 23 3.2. Động lực 23 3.3. Thuật giải di truyền 24 3.3.1. Nội dung thuật toán 24 3.3.2. Thể hiện các giả thuyết 26 3.3.3. Các toán tử di truyền 27 3.3.4. Hàm thích nghi và sự chọn lọc 29 Chương 4: Minimax probability machine 31 4.1. Giới thiệu 31 4.2. Nội dung thuật toán 31 4.3. Ưu điểm và nhược điểm của minimax probability machine 32 4.4. Các phiên bản cải tiến của minimax probability machine 32 4.4.1. Minimum error minimax probability machine (MEMPM) 32 4.4.2. Biased minimax probability machine (BMPM) 34 Chương 5: Phương pháp đề nghị 35 5.1. Tổng quan về phương pháp 35 5.1.1. Mô tả phương pháp 35 5.1.2. Mô hình bài toán 36 5.2. Mô tả dữ liệu sử dụng 36 5.3. Các module trong hệ thống và giao diện của chương trình 37 5.3.1. Chi tiết các module của Genetic Algorithm 37 5.3.2. Chi tiết các module của minimax probability machine 41 5.4. Thực nghiệm và phân tích kết quả 43 5.4.1. Phương pháp đánh giá 43 5.4.2. Phân tích kết quả 44 4 5.4.2.1. Kết quả thực hiện phân lớp trên bộ dữ liệu ban đầu 44 5.4.2.2. Kết quả thực hiện phân lớp trên bộ dữ liệu giảm chiều (outData.mat) 45 5.4.2.3. So sánh kết quả 4 trường hợp kiểm thử 51 5.4.2.4. Kết luận 52 Chương 6: Tổng kết 53 5 Danh sách các hình Hình 1.1: Quá trình phát hiện tri thức trong cơ sở dữ liệu [2]. 12 Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu [2]. 13 Hình 1.3: Tính đa/ liên ngành của khai phá dữ liệu [2]. 15 Hình 2.1: Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp [6]. 17 Hình 2.2: Mô hình Filter [6] 18 Hình 2.3: Mô hình Wrapper [6] 18 Hình 3.1: Các toán tử chung cho thuật giải di truyền [20] 28 Hình 4.1: Mô tả sự khác nhau giữa MEMPM (h.1) và MPM (h.2) với cùng xác suất tiên nghiệm cho 2 lớp. [17] 34 Hình 5.1: Mô hình kết hợp thuật toán di truyền và phương pháp phân lớp MPM. 36 Hình 5.2: 6 bước thực hiện để tìm ra chromosome tốt nhất. 38 Hình 5.3: Giá trị của hàm đánh giá tại mỗi thế hệ. 39 Hình 5.4: Hình ảnh biểu diễn hàm đánh giá của GA tại mỗi thế hệ. 40 Hình 5.5: Kết quả quá trình tối ưu tập thuộc tính của dữ liệu ban đầu 41 Hình 5.6: Giao diện kết quả của bộ phân lớp minimax probability machine. 42 Hình 5.7: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp 1). 46 Hình 5.8: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp 2). 47 Hình 5.9: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp 3). 49 Hình 5.10: So sánh tỷ lệ phân lớp chính xác của tập dữ liệu gốc và dữ liệu mới (trường hợp 4). 50 Hình 5.11: So sánh kết quả phân lớp trung bình trong 4 trường hợp kiểm thử và kết quả phân lớp của dữ liệu gốc. 51 6 Danh sách các bảng Bảng 3.1: Thuật giải di truyền mẫu. [20] 24 Bảng 5.1: Mô tả bảng dữ liệu sử dụng (file Stomach_Full.mat) 37 Bảng 5.2: Kết quả phân lớp trên bộ dữ liệu ban đầu 44 Bảng 5.3: Kết quả phân lớp trong trường hợp 1 45 Bảng 5.4: Kết quả phân lớp trong trường hợp 2 46 Bảng 5.5: Kết quả phân lớp trong trường hợp 3 48 Bảng 5.6: Kết quả phân lớp trong trường hợp 4. 49 7 Bảng các từ viết tắt Biased Minimax Probability Machine BMPM Genetic Algorithm GA Genetic Algorithms Gas Las Vegas LV Matlab Matrix Laboratory Minimax Probability Machine MPM Minimum Error Minimax Probability Machine MEMPM Online Analytical Processing OLAP 8 Giới thiệu Những năm gần đây, các cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho con người. Song hành cùng sự phát triển nhanh chóng của công nghệ thông tin và những ứng dụng của nó trong đời sống, kinh tế và xã hội, lượng dữ liệu thu thập ngày càng nhiều theo thời gian, dẫn đến việc xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong xã hội hiện đại, thông tin được coi như sức mạnh và là yếu tố quyết định thành công trong mọi lĩnh vực, do đó việc tìm ra thông tin hữu ích trong khối dữ liệu khổng lồ được xem như mục tiêu hàng đầu của mọi tổ chức và cá nhân. Trong khóa luận này, tôi sẽ ứng dụng kỹ thuật chọn lựa tập các thuộc tính có ích trong bài toán trích chọn để nhằm cải thiện hiệu quả phân lớp dữ liệu, là nền tảng cho hệ thống chuẩn đoán bệnh ung thư. Hệ thống này sẽ được huấn luyện với tập dữ liệu về các bệnh nhân có từ trước và khi có dữ liệu của bệnh nhân mới, hệ thống sẽ tự động đưa ra chuẩn đoán người đó có bị bệnh hay không? Tôi sử dụng phương pháp phân lớp Minimax Probability Machine (MPM) kết hợp cùng thuật toán di truyền (Genetic Algorithm) để xây dựng hệ thống này. Với mục đích làm tăng độ chính xác của quá trình phân lớp dữ liệu và giảm thời gian huấn luyện của bộ phân lớp, tôi sử dụng thuật toán di truyền để lựa chọn tập thuộc tính tốt nhất của tập dữ liệu ban đầu nhằm tìm ra bộ dữ liệu phù hợp nhất cho đầu vào của bộ phân lớp MPM. Kết quả thực nghiệm đã chứng minh rằng phương pháp phân lớp sử dụng thuật toán di truyền để tối ưu tập thuộc tính cho kết quả tốt hơn phương pháp truyền thống. Nội dung chính của khóa luận bao gồm sáu chương, với nội dung cụ thể như sau: Chương 1 tập trung mô tả về khai phá dữ liệu (data mining), giới thiệu những bài toán điển hình trong khai phá dữ liệu cũng như những ứng dụng rộng rãi của lĩnh vực này. Cuối cùng là những thách thức đặt ra cho quá trình khai phá dữ liệu. Chương 2 có nội dung chủ yếu trình bày về khái niệm trích chọn thuộc tính phù hợp, những mô hình trích chọn điển hình và một số kỹ thuật xử lý trong quá trình trích chọn. Chương 3 giới thiệu về cơ sở lý thuyết cũng như những bước thực hiện của thuật toán di truyền. Thuật toán này được sử dụng để tìm ra tập các thuộc tính phù hợp nhất với thuật toán MPM sẽ được trình bày ở chương sau. 9 Chương 4 sẽ mô tả phương pháp phân lớp minimax probability machine. Phân tích những mặt mạnh và yếu của phương pháp này để đề ra những cải tiến nhằm nâng cao hiệu quả phân lớp của minimax probability machine. Chương 5 trình bày chi tiết quá trình xây dựng mô hình dự kiến của tôi bao gồm phân lớp minimax probability machine kết hợp với thuật toán di truyền. Phần còn lại của chương dùng để mô tả quá trình đánh giá chất lượng, từ đó đưa ra những phân tích kỹ thuật và kết luận về hiệu quả của mô hình. Chương 6 tóm tắt lại những kết quả đã đạt được của khóa luận, đồng thời nêu ra những mặt còn hạn chế trong phương pháp đề nghị và những hướng nghiên cứu có thể trong tương lai nhằm cải tiến hiệu quả của phương pháp này. [...]...  Phân lớp (Classification)[5] Phân lớp còn được gọi là học máy có giám sát (supervised learning) Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân dữ liệu mới vào trong những lớp (còn gọi là loại) đã được định trước Một số phương pháp điển hình là cây quyết định, luật phân lớp, mạng neuron  Phân cụm... áp dụng một trong hai mô hình này 22 Chương 3: Genetic algorithms 3.1 Giới thiệu Thuật toán di truyền là thuật toán tối ưu ngẫu nhiên dựa trên cơ chế chọn lọc tự nhiên và tiến hóa di truyền Thuật toán di truyền được ứng dụng đầu tiên trong hai lĩnh vực chính: tối ưu hóa và học máy Trong lĩnh vực tối ưu hóa thuật toán di truyền được phát triển nhanh chóng và ứng dụng trong nhiều lĩnh vực khác nhau như... điểm: - Phi phân phối (distribution-free): không cần đưa ra một giả thuyết phân phối cụ thể, bộ phân lớp được xây dựng trực tiếp từ bộ dữ liệu - Trong các trường hợp tổng quát, độ chính xác của việc phân lớp được giới hạn bởi giá trị 𝛼  Nhược điểm: - Trong các trường hợp cụ thể, tầm quan trọng của hai phân lớp không phải luôn luôn ngang nhau, do vậy việc đặt cận dưới 𝛼 như nhau cho cả hai lớp là không... ghép cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các đột biến điểm đơn trong thế hệ giả thuyết kết quả Quá trình này được lặp cho đến khi các giả thuyết thích hợp được phát hiện Các toán tử lai ghép và đột biến tiêu biểu được định nghĩa trong bảng kế tiếp Một thuật giải di truyền mẫu được mô tả trong bảng 3.1 Các đầu vào cho thuật giải này bao gồm hàm tính độ thích nghi để tính hạng cho các... sẽ biểu di n những số liệu về một bệnh nhân cụ thể Ở bước đầu tiên, chúng ta sử dụng thuật toán di truyền (GA) để giải quyết vấn đề tối ưu tập thuộc tính từ tập dữ liệu ban đầu Bước thứ hai, phương pháp phân lớp MPM sẽ thực hiện phân lớp với tập thuộc tính đã được chọn lọc để đưa ra kết luận bệnh nhân đó có khả năng bị ung thư hay không? Ở đây ta áp dụng GA như một công cụ tối ưu hóa đầu vào cho quá... tạo ra các cá thể con bằng cách áp dụng các tác động di truyền: lai ghép và đột biến Bảng 3.1: Thuật giải di truyền mẫu [20] GA (Fitness, Fitness_threshold, p, r, m) { // Fitness: hàm gán thang điểm ước lượng cho một giả thuyết // Fitness_threshold: Ngưỡng xác định tiêu chuẩn dừng giài thuật tìm kiếm // p: Số cá thể trong quần thể giả thuyết // r: Phân số cá thể trong quần thể được áp dụng toán tử lai... dữ liệu được chia thành hai lớp chính bao gồm các ứng dụng phân tích – hỗ trợ ra quyết định và lớp các lĩnh vực ứng dụng khác  Lớp các ứng dụng trong phân tích dữ liệu và hỗ trợ ra quyết định bao gồm các ứng dụng trong [2] [4]: - Thông tin thương mại: Phân tích dữ liệu Marketing, khách hàng; Phân tích đầu - tư; Phê duyệt cho vay vốn hay phát hiện gian lận Thông tin kỹ thuật: Điều khiển và lập trình... phát từ bài toán phân lớp, giả sử cho tập dữ liệu trong đó các thuộc tính của các phần tử là các triệu chứng cua bênh nhân bị bênh ung thư chăng han Nhiệm vụ chính la ̉ ̣ ̣ ̉ ̣ ̀ phân biêt đươc ngươi bị bênh va ngươi không bị bênh Ở đây goi lơp X là nhóm người ̣ ̣ ̀ ̣ ̀ ̀ ̣ ̣ ́ không bị bệnh và lớp Y là nhóm người bị bệnh Minimax probability machine là một thuật toán phân hai lớp dữ liệu, cung... bán hàng, nhận dạng hệ thống và điều khiển Thuật toán di truyền cũng như các thuật toán tiến hóa nói chung, hình thành dựa trên quan niệm cho rằng, quá trình tiến hóa tự nhiên là quá trình hoàn hảo nhất, hợp lý nhất và tự nó đã mang tính tối ưu Quan niệm này có thể xem như một tiên đề đúng, không chứng minh được, nhưng phù hợp với thực tế khách quan Quá trình tiến hóa thể hiện tính tối ưu ở chỗ, thế... Machine 4.4 Các phiên bản cải tiến của minimax probability machine Phần này sẽ giới thiệu tổng quan về hai mô hình cải tiến của minimax probability machine là: Minimum error minimax probability machine và Biased minimax probability machine 4.4.1 Minimum error minimax probability machine (MEMPM) Minimum error minimax probability machine là mô hình phân lớp tối ưu Bayes phi phân phối (distribution-free), được . của minimax probability machine 32 4.4. Các phiên bản cải tiến của minimax probability machine 32 4.4.1. Minimum error minimax probability machine (MEMPM) 32 4.4.2. Biased minimax probability. chung cho thuật giải di truyền [20] 28 Hình 4.1: Mô tả sự khác nhau giữa MEMPM (h.1) và MPM (h.2) với cùng xác suất tiên nghiệm cho 2 lớp. [17] 34 Hình 5.1: Mô hình kết hợp thuật toán di truyền. kết quả thu được. 12 (7) Biểu di n tri thức (Knowledge Presentation): Sử dụng các công cụ biểu di n trực quan để biểu di n những tri thức khai phá được cho người dùng. Hình 1.1: Quá trình

Giải thuật di truyền cải tiến cho phân lớp

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan