Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

62 1.2K 4
Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Lời cảm ơn “ðể hồn thành khóa luận này, tơi xin gửi lời cảm ơn chân thành tới quý thầy trường ðại học Cơng Nghệ - ðHQGHN tận tình bảo tơi suốt bốn năm học ñại học Tôi xin cảm ơn hướng dẫn nhiệt tình thầy Nguyễn Hà Nam, giúp ñỡ anh ðặng Tất ðạt – nghiên cứu sinh khoa Toán Tin trường ðại học n Tự Nhiên, ðHQGHN Tôi thầm biết ơn ủng hộ gia đình, bạn bè – người thân u ln ith uc v chỗ dựa tinh thần vững cho tôi.” Hà Nội, tháng 05 năm 2009 Sinh viên htt p:/ / etr Trần Phương Nhung Tóm tắt khóa luận Trong khóa luận tơi áp dụng thuật tốn di truyền (Genetic Algorithm) ñể bước ñầu cải tiến hiệu phân lớp phương pháp minimax probability machine (MPM) Phần đầu tơi xin giới thiệu tổng quan khái niệm khai phá liệu Tiếp đó, tơi trình bày sở lý thuyết thuật toán di truyền phương pháp phân lớp minimax probability machine Cuối cùng, tơi mơ tả chi tiết q trình xây dựng hệ thống có n ứng dụng thuật tốn di truyền phân lớp minimax probability machine ñể chuẩn ith uc v đốn bệnh ung thư Mơ hình phân lớp ñược chạy thử số sở liệu lớn ñưa số liệu thống kê để thấy hiệu hệ thống so với htt p:/ / etr phương pháp phân lớp sử dụng MPM Mục lục Chương 1: Giới thiệu khai phá liệu 10 n Khai phá liệu gì? 10 Tại phải tiến hành khai phá liệu? 10 Quá trình khai phá liệu 11 Kiến trúc điển hình hệ khai phá liệu 13 Các toán khai phá liệu điển hình 14 Các lĩnh vực liên quan ñến khai phá liệu 16 Các ứng dụng điển hình khai phá liệu 17 Các thách thức với khai phá liệu 17 Kết luận 18 ith uc v 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Chương 2: Trích chọn thuộc tính phù hợp 19 htt p:/ / etr 2.1 Giới thiệu 19 2.2 Mơ hình tốn trích chọn 20 2.2.1 Các mơ hình trích chọn 20 2.2.2 ðánh giá hai mơ hình Filter Wrapper 22 2.2.2.1 Filter 22 2.2.2.2 Mơ hình Wrapper 22 2.3 Một số kỹ thuật xử lý 23 2.3.1 Bộ sinh tập (Feature Subset Generator) 23 2.3.2 Bộ ñánh giá tập ñặc trưng (Feature Subset Evaluator) 24 2.3.3 Thuật tốn học điều khiển (Central Machine learning Algorithm) 25 2.4 Kết luận 25 Chương 3: Genetic Algorithms 27 3.1 Giới thiệu 27 3.2 ðộng lực 27 3.3 Thuật giải di truyền 28 3.3.1 Nội dung thuật toán 28 3.3.2 Thể giả thuyết 30 3.3.3 Các toán tử di truyền 32 3.3.4 Hàm thích nghi chọn lọc 34 Chương 4: Minimax Probability Machine 36 4.1 Giới thiệu 36 4.2 Nội dung 36 4.3 Ưu ñiểm nhược ñiểm minimax probability machine 37 4.4 Các phiên cải tiến thuật toán minimax probability machine 38 4.4.1 Minimum error minimax probability machine (MEMPM) 38 4.4.2 Biased minimax probability machine (BMPM) 39 htt p:/ / etr ith uc v n Chương 5: Phương pháp ñề nghị 41 htt p:/ / etr ith uc v n Danh sách hình htt p:/ / etr ith uc v n Danh sách bảng Bảng từ viết tắt GA MPM htt p:/ / etr ith uc v n Genetic Algorithm Minimax Probability Machine Giới thiệu Những năm gần ñây, hệ thống sở liệu đem lại lợi ích vơ to lớn cho người Song hành phát triển nhanh chóng cơng nghệ thơng tin ứng dụng đời sống, kinh tế xã hội, lượng liệu thu thập ngày nhiều theo thời gian, dẫn ñến việc xuất ngày nhiều hệ thống sở liệu có kích thước lớn Trong xã hội đại, thơng tin ñược coi sức mạnh yếu n tố định thành cơng lĩnh vực, việc tìm thơng tin hữu ích ith uc v khối liệu khổng lồ ñược xem mục tiêu hàng ñầu tổ chức cá nhân Trong khóa luận này, tơi ứng dụng kỹ thuật giảm chiều tốn trích chọn để nhằm cải thiện hiệu phân lớp liệu, tảng cho hệ thống chuẩn đốn bệnh ung thư Hệ thống ñược huấn luyện với tập liệu bệnh nhân có từ trước có liệu bệnh nhân mới, hệ thống tự ñộng ñưa chuẩn đốn người có bị bệnh hay khơng? Tôi sử dụng phương pháp phân lớp Minimax Probability Machine etr (MPM) kết hợp thuật toán di truyền (Genetic Algorithm) để xây dựng hệ thống chuẩn đốn Với mục đích làm tăng độ xác q trình phân lớp liệu giảm thời gian huấn luyện phân lớp, tơi sử dụng thuật tốn di truyền ñể giảm p:/ / chiều tập liệu ban đầu nhằm tối ưu tập thuộc tính đầu vào cho phân lớp MPM Kết thực nghiệm ñã chứng minh phương pháp phân lớp sử dụng thuật tốn di htt truyền để tối ưu tập thuộc tính cho kết tốt phương pháp truyền thống Nội dung khóa luận bao gồm sáu chương, với nội dung cụ thể sau: Chương 1: Giới thiệu khai phá liệu Chương tập trung mô tả khai phá liệu (data mining), giới thiệu tốn điển hình khai phá liệu ứng dụng rộng rãi lĩnh vực Cuối thách thức ñặt cho q trình khai phá liệu Chương 2: Trích chọn thuộc tính phù hợp Nội dung chương nhừm giúp người đọc hiểu khái niệm trích chọn thuộc tính, mơ hình trích chọn điển hình số kỹ thuật xử lý q trình trích chọn Chương 3: Genetic Algorithm Ở chương này, người ñọc ñược giới thiệu nội dung bước thực thuật toán di truyền Chương 4: Minimax Probability Machine Chương mô tả phương pháp phân lớp n minimax probability machine Phân tích mặt mạnh yếu phương pháp ith uc v ñể ñề cải tiến nhằm nâng cao hiệu phân lớp minimax probability machine Chương 5: Phương pháp ñề nghị Chương mô tả chi tiết trình xây dựng mơ hình phân lớp minimax probability machine kết hợp với thuật tốn di truyền ðồng thời mơ tả q trình đánh giá chất lượng, từ đưa phân tích kỹ thuật kết luận hiệu mơ hình etr Chương 6: Kết luận Chương phần tổng kết khóa luận, đồng thời nêu mặt hạn chế phương pháp ñề nghị công việc tương lai nhằm cải htt p:/ / tiến hiệu phương pháp Chương 1: Giới thiệu khai phá liệu 1.1 Khai phá liệu gì? Có nhiều ñịnh nghĩa khai phá liệu (Data mining), định nghĩa đơn giản khai phá liệu việc trích rút thơng tin hay tri thức có ích từ n nguồn liệu khổng lồ ith uc v Ngoài ra, khai phá liệu cịn hiểu trích rút thơng tin có ích từ liệu khơng tường minh, trích rút lấy thơng tin khơng biết trước tiềm tàng liệu Cũng hiểu, khai phá liệu việc phân tích khảo sát cách tỉ mỉ số lượng lớn liệu phương pháp tự động bán tự động nhằm tìm mẫu có ích Có thể nhận xét rằng, khái niệm khai phá liệu rộng lớn, etr tất công việc liên quan ñến liệu ñều ñược coi khai phá liệu, chẳng hạn việc xử lý truy vấn ñơn giản tra cứu số ñiện thoại, hay thống kê p:/ / học sinh giỏi lớp, khơng thể coi khai phá liệu Nhưng cơng việc gom nhóm tài liệu trả từ máy tìm kiếm theo ngữ cảnh lại htt xem khai phá liệu 1.2 Tại phải tiến hành khai phá liệu? Trong năm gần ñây, khai phá liệu trở thành lĩnh vực nghiên cứu rộng rãi ngành công nghiệp thông tin, nguyên nhân chủ yếu khối lượng khổng lồ liệu mà người tạo ra, kèm với cần thiết biến đổi liệu thành tri thức Thơng tin tri thức áp dụng vào nhiều lĩnh vực từ phân tích thị trường tài chính, phát giả mạo, điều khiển sản xuất nghiên cứu khoa học ... tả phương pháp phân lớp n minimax probability machine Phân tích mặt mạnh yếu phương pháp ith uc v ñể ñề cải tiến nhằm nâng cao hiệu phân lớp minimax probability machine Chương 5: Phương pháp. .. mặt hạn chế phương pháp đề nghị cơng việc tương lai nhằm cải htt p:/ / tiến hiệu phương pháp Chương 1: Giới thiệu khai phá liệu 1.1 Khai phá liệu gì? Có nhiều ñịnh nghĩa khai phá liệu (Data mining),... Mơ hình phân lớp chạy thử số sở liệu lớn ñưa số liệu thống kê để thấy ñược hiệu hệ thống so với htt p:/ / etr phương pháp phân lớp sử dụng MPM Mục lục Chương 1: Giới thiệu khai phá liệu

Ngày đăng: 25/01/2013, 15:54

Hình ảnh liên quan

ñ oán bệnh ung thư. Mô hình phân lớp mới này sẽ ñượ c chạy thử trên một số cơ sở dữ liệu lớn và ñưa ra những số liệu thống kê ñể có thể thấy ñược hiệu quả của hệ thống so với  phương pháp phân lớp chỉ sử dụng MPM - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

o.

án bệnh ung thư. Mô hình phân lớp mới này sẽ ñượ c chạy thử trên một số cơ sở dữ liệu lớn và ñưa ra những số liệu thống kê ñể có thể thấy ñược hiệu quả của hệ thống so với phương pháp phân lớp chỉ sử dụng MPM Xem tại trang 2 của tài liệu.
Danh sách các hình - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

anh.

sách các hình Xem tại trang 5 của tài liệu.
Danh sách các bảng - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

anh.

sách các bảng Xem tại trang 6 của tài liệu.
Bảng các từ viết tắt - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Bảng c.

ác từ viết tắt Xem tại trang 7 của tài liệu.
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 1.1..

Quá trình phát hiện tri thức trong cơ sở dữ liệu Xem tại trang 13 của tài liệu.
Hình 1.2. Kiến trúc ñ iển hình của hệ thống khai phá dữ liệu. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 1.2..

Kiến trúc ñ iển hình của hệ thống khai phá dữ liệu Xem tại trang 14 của tài liệu.
Bài toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

i.

toán xây dựng mô hình phụ thuộc hướng tới việc tìm ra một mô hình mô tả sự Xem tại trang 16 của tài liệu.
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp. Subset generation là một thủ tục tìm kiếm - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 2.1..

Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp. Subset generation là một thủ tục tìm kiếm Xem tại trang 19 của tài liệu.
Hình 2.3. Mô hình Wrapper Giải thích hình vẽ:  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 2.3..

Mô hình Wrapper Giải thích hình vẽ: Xem tại trang 21 của tài liệu.
2.2.2. ð ánh giá hai mô hình Filter và Wrapper - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

2.2.2..

ð ánh giá hai mô hình Filter và Wrapper Xem tại trang 22 của tài liệu.
mà ta có thể áp dụng một trong hai mô hình này. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

m.

à ta có thể áp dụng một trong hai mô hình này Xem tại trang 26 của tài liệu.
Bảng 3.1. Thuật giải di truyền mẫu - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Bảng 3.1..

Thuật giải di truyền mẫu Xem tại trang 29 của tài liệu.
Bảng 3.2. Các toán tử chung cho thuật giải di truyền. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Bảng 3.2..

Các toán tử chung cho thuật giải di truyền Xem tại trang 33 của tài liệu.
Hình 4.1. Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng xác suất tiên nghiệm cho 2 lớp - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 4.1..

Mô tả sự khác nhau giữa MEMPM (hình trên) và MPM (hình dưới) với cùng xác suất tiên nghiệm cho 2 lớp Xem tại trang 39 của tài liệu.
5.1.2. Mô hình bài toán - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

5.1.2..

Mô hình bài toán Xem tại trang 43 của tài liệu.
Bảng 5.2. Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Bảng 5.2..

Mô tả bảng dữ liệu sử dụng (file Test_Train.mat) Xem tại trang 44 của tài liệu.
Hình 5.3. Giao diện của Genetic Algorithm Tool. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.3..

Giao diện của Genetic Algorithm Tool Xem tại trang 45 của tài liệu.
Hình 5.4: Giá trị của hàm ñ ánh giá tại mỗi thế hệ. Giải thích các thông tin trên màn hình như  f-count, best…  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.4.

Giá trị của hàm ñ ánh giá tại mỗi thế hệ. Giải thích các thông tin trên màn hình như f-count, best… Xem tại trang 47 của tài liệu.
Hình 5.5: Hình ảnh biểu diễn hàm ñ ánh giá của GA tại mỗi thế hệ. Giải thích hình 5.5  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.5.

Hình ảnh biểu diễn hàm ñ ánh giá của GA tại mỗi thế hệ. Giải thích hình 5.5 Xem tại trang 48 của tài liệu.
5.2.2. Chi tiết các module của minimax probability machine - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

5.2.2..

Chi tiết các module của minimax probability machine Xem tại trang 49 của tài liệu.
Hình 5.6. Kết quả quá trình tối ưu tập thuộc tính của DL ban ñầ u Giải thích  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.6..

Kết quả quá trình tối ưu tập thuộc tính của DL ban ñầ u Giải thích Xem tại trang 49 của tài liệu.
Hình 5.7. Giao diện của bộ phân lớp minimax probability machine. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.7..

Giao diện của bộ phân lớp minimax probability machine Xem tại trang 50 của tài liệu.
Các bước thực hiện quá trình ñ ánh giá mô hình xây dựng: - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

c.

bước thực hiện quá trình ñ ánh giá mô hình xây dựng: Xem tại trang 50 của tài liệu.
Hình 5.xx- Nhận xét:  - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

Hình 5.xx.

Nhận xét: Xem tại trang 54 của tài liệu.
hiệu quả với tập dữ liệu phi tuyến chúng ta sử dụng ñể ñ ánh giá mô hình. - Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn

hi.

ệu quả với tập dữ liệu phi tuyến chúng ta sử dụng ñể ñ ánh giá mô hình Xem tại trang 59 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan