LUẬN VĂN:ÁP DỤNG PHưƠNG PHÁP TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG ĐỂ NÂNG CAO HIỆU QUẢ PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN potx

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trần Phƣơng Nhung ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trần Phƣơng Nhung ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hƣớng dẫn: TS Nguyễn Hà Nam HÀ NỘI - 2009 Lời cảm ơn “Để hồn thành khóa luận này, tơi xin gửi lời cảm ơn chân thành tới quý thầy cô trường Đại học Cơng Nghệ - ĐHQGHN tận tình bảo suốt bốn năm học đại học Tơi xin cảm ơn hướng dẫn nhiệt tình thầy Nguyễn Hà Nam, giúp đỡ anh Đặng Tất Đạt – sinh viên cao học khoa Tốn Tin trường Đại học Tự Nhiên, ĐHQGHN Tơi thầm biết ơn ủng hộ gia đình, bạn bè – người thân yêu luôn chỗ dựa tinh thần vững cho tôi.” Hà Nội, tháng 05 năm 2009 Sinh viên Trần Phương Nhung Tóm tắt khóa luận Trong khóa luận tơi áp dụng thuật toán di truyền (Genetic Algorithm) để bước đầu cải tiến hiệu phân lớp phương pháp minimax probability machine (MPM) Phần đầu xin giới thiệu tổng quan khái niệm khai phá liệu Tiếp đó, tơi trình bày sở lý thuyết thuật tốn di truyền phương pháp phân lớp minimax probability machine Cuối cùng, mô tả chi tiết trình xây dựng hệ thống có ứng dụng thuật tốn di truyền phân lớp minimax probability machine để chuẩn đốn bệnh ung thư Mơ hình phân lớp chạy thử số sở liệu lớn đưa số liệu thống kê để thấy hiệu hệ thống so với phương pháp phân lớp sử dụng minimax probability machine Mục lục Giới thiệu Chương 1: Giới thiệu khai phá liệu 10 1.1 Khai phá liệu gì? 10 1.2 Tại phải tiến hành khai phá liệu? 10 1.3 Quá trình khai phá liệu 11 1.4 Kiến trúc điển hình hệ khai phá liệu 12 1.5 Các toán khai phá liệu điển hình 13 1.6 Các lĩnh vực liên quan đến khai phá liệu 15 1.7 Các ứng dụng điển hình khai phá liệu 15 1.8 Các thách thức với khai phá liệu 16 1.9 Kết luận 16 Chương 2: Trích chọn thuộc tính phù hợp 17 2.1 Giới thiệu 17 2.2 Mơ hình tốn trích chọn 18 2.2.1 Các mơ hình trích chọn 18 2.2.2 Đánh giá hai mô hình Filter Wrapper 19 2.2.2.1 2.2.2.2 2.3 Mơ hình Filter 19 Mô hình Wrapper 19 Một số kỹ thuật xử lý 20 2.3.1 Bộ sinh tập (Feature Subset Generator) 20 2.3.2 Bộ đánh giá tập đặc trưng (Feature Subset Evaluator) 21 2.3.3 Thuật toán học điều khiển (Central machine learning algorithm) 22 2.4 Kết luận 22 Chương 3: Genetic algorithms 23 3.1 Giới thiệu 23 3.2 Động lực 23 3.3 Thuật giải di truyền 24 3.3.1 Nội dung thuật toán 24 3.3.2 Thể giả thuyết 26 3.3.3 Các toán tử di truyền 27 3.3.4 Hàm thích nghi chọn lọc 29 Chương 4: Minimax probability machine 31 4.1 Giới thiệu 31 4.2 Nội dung thuật toán 31 4.3 Ưu điểm nhược điểm minimax probability machine 32 4.4 Các phiên cải tiến minimax probability machine 32 4.4.1 Minimum error minimax probability machine (MEMPM) 32 4.4.2 Biased minimax probability machine (BMPM) 34 Chương 5: Phương pháp đề nghị 35 5.1 Tổng quan phương pháp 35 5.1.1 Mô tả phương pháp 35 5.1.2 Mô hình tốn 36 5.2 Mô tả liệu sử dụng 36 5.3 Các module hệ thống giao diện chương trình 37 5.3.1 Chi tiết module Genetic Algorithm 37 5.3.2 Chi tiết module minimax probability machine 41 5.4 Thực nghiệm phân tích kết 43 5.4.1 Phương pháp đánh giá 43 5.4.2 Phân tích kết 44 5.4.2.1 Kết thực phân lớp liệu ban đầu 44 5.4.2.2 Kết thực phân lớp liệu giảm chiều (outData.mat) 45 5.4.2.3 So sánh kết trường hợp kiểm thử 51 5.4.2.4 Kết luận 52 Chương 6: Tổng kết 53 Danh sách hình Hình 1.1: Quá trình phát tri thức sở liệu [2] 12 Hình 1.2: Kiến trúc điển hình hệ thống khai phá liệu [2] 13 Hình 1.3: Tính đa/ liên ngành khai phá liệu [2] 15 Hình 2.1: Bốn bước q trình trích chọn thuộc tính phù hợp [6] 17 Hình 2.2: Mơ hình Filter [6] 18 Hình 2.3: Mơ hình Wrapper [6] 18 Hình 3.1: Các tốn tử chung cho thuật giải di truyền [20] 28 Hình 4.1: Mơ tả khác MEMPM (h.1) MPM (h.2) với xác suất tiên nghiệm cho lớp [17] 34 Hình 5.1: Mơ hình kết hợp thuật tốn di truyền phương pháp phân lớp MPM 36 Hình 5.2: bước thực để tìm chromosome tốt 38 Hình 5.3: Giá trị hàm đánh giá hệ 39 Hình 5.4: Hình ảnh biểu diễn hàm đánh giá GA hệ 40 Hình 5.5: Kết trình tối ưu tập thuộc tính liệu ban đầu 41 Hình 5.6: Giao diện kết phân lớp minimax probability machine 42 Hình 5.7: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 1) 46 Hình 5.8: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 2) 47 Hình 5.9: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 3) 49 Hình 5.10: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 4) 50 Hình 5.11: So sánh kết phân lớp trung bình trường hợp kiểm thử kết phân lớp liệu gốc 51 Danh sách bảng Bảng 3.1: Thuật giải di truyền mẫu [20] 24 Bảng 5.1: Mô tả bảng liệu sử dụng (file Stomach_Full.mat) 37 Bảng 5.2: Kết phân lớp liệu ban đầu 44 Bảng 5.3: Kết phân lớp trường hợp 45 Bảng 5.4: Kết phân lớp trường hợp 46 Bảng 5.5: Kết phân lớp trường hợp 48 Bảng 5.6: Kết phân lớp trường hợp 49 Bảng từ viết tắt Biased Minimax Probability Machine BMPM Genetic Algorithm GA Genetic Algorithms Gas Las Vegas LV Matlab Matrix Laboratory Minimax Probability Machine MPM Minimum Error Minimax Probability Machine MEMPM Online Analytical Processing OLAP Hình 5.5: Kết trình tối ưu tập thuộc tính liệu ban đầu Giải thích: o Current generation: Thế hệ thời điểm o Status and results: Cửa sổ hiển thị trạng thái thuật toán di truyền, giá trị hàm đánh giá hệ cuối nguyên nhân thuật toán kết thúc o Final point: hiển thị chromosome tốt (dạng nhị phân) - function DataSelection:  input: vector nhị phân, ma trận liệu ban đầu  output: ma trận gồm cột thuộc tính chọn tương ứng với vị trí có bit chuỗi nhị phân 5.3.2 Chi tiết module minimax probability machine Thuật toán MPM viết Matlab dùng để phân chia tập liệu phi tuyến thành lớp Chương trình gồm hàm sau: - function build_MPM_k_binclass_Lsreg: có chức tìm 𝑎∗𝑇 , 𝑏∗ 𝛼 41 - function eval_MPM_k_binclass: dựa kết tìm để đưa kết luận tập test xem khả xác - function run: thực phân lớp MPM liệu giảm chiều đưa tỷ lệ - phân lớp xác tập training tập test function example: thực phân lớp MPM liệu gốc đưa tỷ lệ phân lớp xác tập training tập test Hình 5.6: Giao diện kết phân lớp minimax probability machine 42 Giải thích: o Number of features: số lượng thuộc tính liệu o Training set accuracy: Tỷ lệ tập huấn luyện o Test set accuracy: Kết tập kiểm tra 5.4 Thực nghiệm phân tích kết 5.4.1 Phương pháp đánh giá  Các bước thực q trình đánh giá mơ hình xây dựng: - Bước 1: Bộ liệu gốc (Stomach_Full.mat) chia làm phần: liệu train chiếm 70% liệu ban đầu liệu test chiếm 30% liệu ban đầu Thực phân lớp MPM liệu chia  kết phân lớp - MPM liệu gốc Bước 2: Sử dụng liệu Train (Training_Validation.mat) chiếm 70% liệu gốc (trong liệu Validation chiếm 30% liệu Train) để thực q trình trích chọn thuộc tính GA tool Matlab 7.0, với tham số tùy chọn sau:  Fitness function: @fitness  Number of variables: 119  Population type: Bit string  Population size: 20  Selection function: Stochastic uniform  Crossover function: Scattered – khởi tạo ngẫu nhiên vector nhị phân Chọn gen mà vector có giá trị từ cha thứ gen mà vector có gí trị từ cha thứ hai, kết hợp gen thành Ví dụ: cha1 = [a b b d e f g h] cha2 = [1 8] vector lai ghép ngẫu nhiên = [1 0 0 0] = [a b e 8]  Mutation function: Gaussian – thêm số ngẫu nhiên vào vector đầu vào cá thể Số ngẫu nhiên lấy từ phân bố Gauss 43 - Bước 3: Chạy hàm DataSelection với đầu vào chromosome tốt vừa tìm liệu Test (TestSet.mat) chiếm 30% liệu gốc để sinh tập liệu (outData.mat) liệu giảm chiều làm đầu vào cho phân lớp MPM - Bước 4: chạy phân lớp MPM với tập liệu “outData” Bộ liệu giảm chiều chia làm phần với tỷ lệ phân chia 70% Training 30% Test để thực phân lớp  kết phân lớp liệu giảm chiều Lặp lại bước đến nhiều lần với điều kiện dừng bước “Generations” - để thu số liệu phục vụ cho trình phân tích Bước 5: thống kê số liệu lần thực bước đến so sánh kết thu từ bước 5.4.2 Phân tích kết 5.4.2.1 Kết thực phân lớp liệu ban đầu Stomach_Full (311x120) chia thành Training (218x120) Test (93x120) Bảng 5.2: Kết phân lớp liệu ban đầu Số lượng thuộc tính 10 11 12 13 14 15 MAX Phương sai Tỷ lệ tập huấn luyện Kết tập kiểm tra 119 119 119 119 119 119 119 119 119 119 119 119 119 119 119 98.17 97.2477 97.2477 95.8716 96.3303 97.2477 96.3303 95.8716 99.0826 99.0826 98.1651 95.8716 98.1651 99.0826 96.789 70.9677 72.043 75.2688 77.4194 76.3441 65.5914 69.8925 68.8172 73.1183 65.5914 67.7419 70.9677 76.3441 74.1935 64.5161 119 99.0826 77.4194 1.19 4.21 97.37 71.25 Trung bình 44 5.4.2.2 Kết thực phân lớp liệu giảm chiều (outData.mat) Chúng ta sử dụng điều kiện dừng cho q trình tìm kiếm chromosome tốt thuật tốn di truyền “Generations”  Trường hợp 1: Generations = 30 với 15 lần chạy thử Bảng 5.3: Kết phân lớp trường hợp Số lượng thuộc tính 10 11 12 13 14 15 MAX Phương sai Tỷ lệ tập huấn luyện Kết tập kiểm tra 55 57 54 60 54 54 60 65 63 61 51 48 50 56 59 100 100 100 100 100 100 100 100 100 100 98.4615 100 100 100 100 85.7143 57.1429 64.2857 82.1429 75 85.7143 71.4286 82.1429 85.7143 78.5714 89.2857 71.4286 85.7143 89.2857 89.2857 65 100 89.2857 4.87 0.40 9.78 99.90 79.52 Trung bình 45 100 90 80 Tỷ lệ 70 60 50 Tập DL 40 Tập DL gốc 30 20 10 10 11 12 13 14 15 Số lần thực Hình 5.7: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 1) Nhận xét: o Số chiều tập liệu giảm xấp xỉ 1.8 lần so với tập liệu ban đầu o Tỷ lệ phân lớp xác cải thiện rõ rệt: tăng từ 71.25 lên 79.52, nhiên phương sai lại tăng (từ 4.21 lên 9.78) nên mơ hình kiểm tra khơng ổn định o Tỷ lệ xác liệu huấn luyện tăng lên: từ 97.37 lên 99.9, đồng thời phương sai giảm (từ 1.19 cịn 0.4) nên mơ hình huấn luyện có tính ổn định  Trường hợp 2: Generations = 40 với 15 lần chạy thử Bảng 5.4: Kết phân lớp trường hợp Số lượng thuộc tính Tỷ lệ tập huấn luyện Kết tập kiểm tra 63 63 52 55 100 100 100 98.4615 92.8571 53.5714 60.7143 82.1429 46 10 11 12 13 14 15 64 62 62 54 66 58 53 54 56 58 45 100 100 100 100 100 100 100 100 100 100 100 78.5714 50 75 82.1429 96.4286 78.5714 57.1429 75 89.2857 85.7143 53.5714 66 96.4286 0.38 15.30 99.90 Phương sai 100 5.70 MAX 74.05 Trung bình 100 90 80 Tỷ lệ 70 60 50 Tập DL 40 Tập DL gốc 30 20 10 10 11 12 13 14 15 Số lần thực Hình 5.8: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 2) Nhận xét: o Số chiều tập liệu giảm xấp xỉ 1.8 lần so với tập liệu ban đầu 47 o Tỷ lệ phân lớp xác cải thiện rõ rệt: tăng từ 71.25 lên 74.05, nhiên phương sai lại tăng (từ 4.21 lên 15.3) nên mô hình kiểm tra khơng ổn định o Tỷ lệ xác liệu huấn luyện tăng lên: từ 97.37 lên 99.9, đồng thời phương sai giảm (từ 1.19 cịn 0.38) nên mơ hình huấn luyện có tính ổn định  Trường hợp 3: Generations = 50 với 15 lần chạy thử Bảng 5.5: Kết phân lớp trường hợp Số lượng thuộc tính 10 11 12 13 14 15 MAX Phương sai Tỷ lệ tập huấn luyện Kết tập kiểm tra 55 58 48 62 51 57 52 52 49 57 57 63 49 59 63 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 75 75 71.4286 85.7143 71.4286 53.5714 78.5714 78.5714 75 89.2857 92.8571 67.8571 92.8571 75 89.2857 63 100 92.8571 5.11 10.62 100 78.10 Trung bình 48 100 90 80 Tỷ lệ 70 60 50 Tập DL 40 Tập DL gốc 30 20 10 10 11 12 13 14 15 Số lần thực Hình 5.9: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 3) Nhận xét: o Số chiều tập liệu giảm xấp xỉ 1.9 lần so với tập liệu ban đầu o Tỷ lệ phân lớp xác cải thiện rõ rệt: tăng từ 71.25 lên 78.1, nhiên phương sai lại tăng (từ 4.21 lên 10.62) nên mô hình kiểm tra khơng ổn định o Tỷ lệ xác liệu huấn luyện tăng lên: từ 97.37 lên 100, đồng thời phương sai giảm (từ 1.19 cịn 0) nên mơ hình huấn luyện có tính ổn định cao  Trường hợp 4: Generations = 60 với 15 lần chạy thử Bảng 5.6: Kết phân lớp trường hợp Số lượng thuộc tính Tỷ lệ tập huấn luyện Kết tập kiểm tra 52 54 48 60 100 100 100 100 89.2857 53.5714 75 82.1429 49 10 11 12 13 14 15 59 58 43 65 64 57 63 65 67 57 54 100 100 98.4615 100 100 100 100 100 100 100 100 50 78.5714 96.4286 67.8571 78.5714 96.4286 85.7143 75 50 85.7143 60.7143 67 96.4286 0.40 15.57 99.90 Phương sai 100 6.76 MAX 75.00 Trung bình 120 Tỷ lệ 100 80 60 Tập DL Tập DL gốc 40 20 10 11 12 13 14 15 Số lần thực Hình 5.10: So sánh tỷ lệ phân lớp xác tập liệu gốc liệu (trường hợp 4) Nhận xét: o Số chiều tập liệu giảm xấp xỉ 1.8 lần so với tập liệu ban đầu 50 o Tỷ lệ phân lớp xác cải thiện rõ rệt: tăng từ 71.25 lên 75, nhiên phương sai lại tăng (từ 4.21 lên 15.57) nên mơ hình kiểm tra khơng ổn định o Tỷ lệ xác liệu huấn luyện tăng lên: từ 97.37 lên 99.9, đồng thời phưưng sai giảm (từ 1.19 cịn 0.4) nên mơ hình huấn luyện có tính ổn định 5.4.2.3 So sánh kết trường hợp kiểm thử Điều kiện dừng Generations tăng dần trường hợp 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 Generations=30 Generations=40 Generations=50 Generations=60 Dữ liệu gốc Tỷ lệ tập huấn luyện Kết tập kiểm tra Hình 5.11: So sánh kết phân lớp trung bình trường hợp kiểm thử kết phân lớp liệu gốc Nhận xét: o Tỷ lệ phân lớp xác liệu huấn luyện với tập thuộc tính khơng thay đổi nhiều ta tăng dần giá trị Generations tỷ lệ 51 lớn so với tỷ lệ phân lớp xác cho liệu huấn luyện gốc (119 thuộc tính) o Khi ta tăng dần giá trị Generations, tỷ lệ phân lớp xác liệu test khơng có cải thiện rõ ràng, mơ hình huấn luyện lại có tính ổn định 5.4.2.4 Kết luận o Sử dụng hàm kernel Poly (kernel tuyến tính) thuật tốn phân lớp MPM chưa thực hiệu với tập liệu phi tuyến sử dụng để đánh giá mơ hình o Số lượng đặc trưng giữ lại sau giảm chiều không làm ảnh hưởng nhiều tới kết phân lớp thu o Khi tiến hành giảm chiều tập liệu ban đầu (311x119), sử dụng phân lớp MPM rõ ràng tỷ lệ phân lớp xác tăng lên, đồng thời tỷ lệ xác phân lớp huấn luyện cải thiện o Khi ta tăng số hệ thuật toán di truyền nhằm tìm chromosome tốt hệ cuối làm liệu đầu vào cho phân lớp, tỷ lệ phân lớp xác MPM tăng lên độ ổn định kết không thực tốt Tuy nhiện tỷ lệ xác huấn luyện cải thiện rõ ràng ổn định 52 Chương 6: Tổng kết Trong khóa luận này, bước đầu tơi tìm hiểu sở lý thuyết thuật tốn cho việc giải tốn trích chọn thuộc tính phù hợp dựa kỹ thuật giảm chiều liệu Tơi trình bày ý tưởng kết hợp thuật toán di truyền (Genetic Algorithm) cải tiến hiệu phân lớp thuật toán phân lớp minimax probability machine Các kết thực nghiệm phương pháp cải thiện hiệu phân lớp so với thuật toán nguyên gốc, nhiên ta nhận thấy kết hợp điểm hạn chế như:  Chưa cải thiện rõ rệt tốc độ xử lý phân lớp kết hợp so với phân lớp gốc  Số lượng chiều liệu cần giảm để vừa giảm thuộc tính dư thừa vừa cải thiện hiệu phân lớp tốt  Trong trình giảm chiều khơng thể tránh khỏi mát hay sai sót, mát thơng tin quan trọng dẫn đến hiệu giảm chiều phương pháp phân lớp không ổn định  Kết phân lớp xác chưa thực làm hài lịng Để giải vấn đề tồn phương pháp này, thử nghiệm kết hợp hàm đánh giá (fitness function) khác thuật toán di truyền, nhằm tìm kết đầu vào tốt cho thuật toán phân lớp để cải thiện tốc độ tìm kiếm Ngồi ra, tơi thử nghiệm phương pháp tối ưu hàm kernel thuật toán MPM nhằm thu kết phân lớp xác (lớn 95%) ổn định Trong khóa luận hi vọng thử nghiệm giải toán phân lớp với liệu nhiều chiều tạo hệ thống đánh giá dự đoán để áp dụng cách thiết thực vào đời sống 53 Tài liệu tham khảo  Tài liệu tham khảo tiếng Anh [1] Fayyad, Piatesky-Shapiro, Smyth (1996) - From Data Mining to Knowledge Discovery: An Overview In Fayyad, Piatesky-Shapiro, Smyth, Uthurusamy - [2] Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, MenloPark, CA, 1996, 1-34 Jiawei Han and Micheline Kamber (2001) - Data Mining: Concepts and [3] Techniques (second edition) Chapter Boris Kovalerchuk and Evgenii Vityaev (2001) - Data mining in Finance: [4] Advances in Relational and Hybrid Methods, Kluwer Academic Publishers, Boston, Dordrecht – London, 2001 David Taniar, Monash University, Australia - Research and Trends in Data [5] Mining Techonologies and Application, 2007 Ralf Herbrich, the MIT Press, Cambridge, Massachussets, London, England - [6] Learning Kernel Classification and Algorithms H Liu and L.Yu, Department of Computer Science and Engineering, Arizona State University, Tempe - Feature Selection for Data mining [7] H Liu and H.Motoda - Feature Extraction, Construction and Selection: A Data [8] [9] Mining Perspective P.A Devijver and J.Kittler - Pattern Recoginition: A Statistical Approach Peter Norvig, Palo Alto, California (2006) - Feature Selection Book [10] JUN ZHAO(a,b), GUO-YIN WANG(b), HONG TANG(a), HUA LI(a) - The study on technologies for feature selection (a) Department of Computer Science of Chongqing University, Chongqing, 400065, China (b) Inst of Computer Sci & Tech Of Chongqing Univ of P & T., Chongqing, 400065, China [11] Ricardo Gutierrez-Osuna, Wright State University - Intelligent Sensor Systems (Cross Validation) [12] M Pei1, E D Goodman1, W F Punch2 - Feature Extraction Using Genetic Algorithms 54 Case Center for Computer – Aided Engineering and Manufacturing Department of Computer Science, Genetic Algorithms Research and Application Group (GARAGe), Michigan State University, 2325 Engineering Building, East Lansing, MI 48824 [13] Genetic Algorithm and Direct Search Toolbox 2.1.4 – Help Document http://www.mathworks.com/access/helpdesk/help/helpdesk.html [14] Laetitia Jourdan, Clarisse Dhaenens, El-Ghazali Talbi LIFL, University of Lille, [15] France - A Genetic Algorithm for Feature Selection in Data-Mining for Genetics Grefenstette, J J (1991) - Strategy acquisition with genetic algorithms, in Handbook of Genetic Algorithms, Davis, L D (Ed.), Boston: Van Nostrand Reinhold [16] Gert R G Lanckriet, Lauren El Ghaoui, Chrianjib Bhattacharyya and Micheal I Jordan University of California - Minimax Probability Machine http://robotics.eecs.berkeley.edu/~gert/index.htm [17] Kaizhu Huang, Haiqin Yang, Irwin King, Michael R Lyu and Laiwan Chan - The [19] Minimum Error Minimax Probability Machine Kaizhu Huang, Haiqin Yang, Irwin King, Michael R Lyu and Laiwan Chan Biased Minimax Probability Machine for Medical Diagnosis Zhen-Guo Chen and Shu Wang Department of Computer Science and Technology, [20] North China Institute of Science and Technology, East Yanjiao, Beijing, China Minimax Probability Machine with Genetic Feature Optimized for Intrusion Detection Genetic Algorithm: http://www.cs.rutgers.edu/~mlittman/courses/ml04/ [18]  Tài liệu tham khảo tiếng Việt [21] Nguyễn Đức Cường, Khoa Công nghệ thơng tin, Đại học Bách Khoa, Thành phố Hồ Chí Minh - Tổng quan khai phá liệu (Reviewing of Data Mining) [22] Vấn đề tri thức “xã hội tri thức” http://www.vninformatics.com/forum/topic/40076/Van-de-tri-thuc-va-xa-hoi-trithuc.html;jsessionid=7D49738B61116C5B527B009CC142141F?zone=2 Giáo sư Hà Quang Thụy, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - Giáo [23] trình giảng dạy mơn Khai phá liệu Web (2008) 55 ... TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trần Phƣơng Nhung ÁP DỤNG PHƢƠNG PHÁP TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƢNG ĐỂ NÂNG CAO HIỆU QUẢ PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:... tương lai nhằm cải tiến hiệu phương pháp Chương 1: Giới thiệu khai phá liệu 1.1 Khai phá liệu gì? Có nhiều định nghĩa khai phá liệu, định nghĩa đơn giản khai phá liệu việc trích rút thơng tin hay... Hình 1.3: Tính đa/ liên ngành khai phá liệu [2] 1.7 Các ứng dụng điển hình khai phá liệu Ứng dụng khai phá liệu chia thành hai lớp bao gồm ứng dụng phân tích – hỗ trợ định lớp lĩnh vực ứng dụng khác

LUẬN VĂN:ÁP DỤNG PHưƠNG PHÁP TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG ĐỂ NÂNG CAO HIỆU QUẢ PHÂN LỚP KHI KHAI PHÁ DỮ LIỆU LỚN potx

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan