ỨNG DỤNG PHƯƠNG PHÁP PHÂN lớp dữ LIỆU KHÔNG cân BẰNG dựa TRÊN TÍNH TOÁN hạt TRONG VIỆC dự đoán kết QUẢ THI TUYỂN SINH lớp 10 vào TRƯỜNG THPT CHUYÊN LONG AN (1)

82 142 0
ỨNG DỤNG PHƯƠNG PHÁP PHÂN lớp dữ LIỆU KHÔNG cân BẰNG dựa TRÊN TÍNH TOÁN hạt TRONG VIỆC dự đoán kết QUẢ THI TUYỂN SINH lớp 10 vào TRƯỜNG THPT CHUYÊN LONG AN (1)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRƢƠNG THỊ TUYẾT HOA ỨNG DỤNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TỐN HẠT TRONG VIỆC DỰ ĐỐN KẾT QUẢ THI TUYỂN SINH LỚP 10 VÀO TRƢỜNG THPT CHUYÊN LONG AN KHĨA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TP HỒ CHÍ MINH – Năm 2015 ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRƢƠNG THỊ TUYẾT HOA ỨNG DỤNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU KHƠNG CÂN BẰNG DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI TUYỂN SINH LỚP 10 VÀO TRƢỜNG THPT CHUYÊN LONG AN KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN HOÀNG TÚ ANH TP HỒ CHÍ MINH – Năm 2015 LỜI CAM ĐOAN Tơi xin cam đoan: (1) Khóa luận sản phẩm nghiên cứu riêng tôi; (2) Các số liệu, kết đƣợc trình bày khóa luận trung thực; (3) Tôi xin chịu trách nhiệm nghiên cứu Học viên Trƣơng Thị Tuyết Hoa MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ LỜI MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHÓA LUẬN 1 Giới thiệu Phát biểu toán Các thách thức 10 Mục tiêu, đối tƣợng phạm vi nghiên cứu 10 Mục tiêu 10 Đối tƣợng 11 Phạm vi 11 Các đóng góp từ kết nghiên cứu khóa luận 11 Bố cục khóa luận 12 CHƢƠNG TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG 14 Giới thiệu 14 2 Các hƣớng tiếp cận giải tốn phân lớp liệu khơng cân 14 2 Các kỹ thuật lấy mẫu (sampling methods) [5] 14 2 Học toàn (ensemble learning methods) 15 2 Học nhạy chi phí 17 2 Lựa chọn đặc trƣng [5] 18 2 Phƣơng pháp chỉnh sửa thuật toán: 18 Phƣơng pháp dựa tính tốn hạt 19 CHƢƠNG CƠ SỞ LÝ THUYẾT 21 Các lý thuyết liên quan phƣơng pháp dựa tính tốn hạt 21 1 Chuẩn hoá liệu số 21 Rời rạc liệu 21 3 Hạt thông tin 22 Tính tốn hạt 22 Thuật toán gom cụm K-means tập liệu hỗn hợp 23 Phân lớp liệu (thu nhận tri thức) 28 Đánh số ngữ nghĩa tiềm ẩn 30 Các mơ hình xử lí với liệu khơng cân dựa tính tốn hạt 32 Mơ hình thu nhận tri thức dựa tính tốn hạt KAIG Su đồng [10] 32 2 Mơ hình phân lớp liệu khơng cân dựa tính tốn hạt tổng quát Chen đồng 39 3 Phƣơng pháp phân lớp dựa tính tốn hạt Lại Đức Anh [1] 45 CHƢƠNG MƠ HÌNH PHÂN LỚP DỰA TRÊN TÍNH TỐN HẠT KHÓA LUẬN CÀI ĐẶT 50 Giới thiệu 50 Xây dựng hạt thông tin theo lớp tách biệt 50 Biểu diễn hạt thông tin dƣới dạng thuộc tính 51 4 Thực phân lớp liệu (thu thập tri thức) 52 Thuật tốn khóa luận đề xuất 52 Ví dụ minh họa 52 Nhận xét 64 CHƢƠNG CÀI ĐẶT ỨNG DỤNG 66 Tổ chức liệu 66 Các tập liệu 66 Các độ đo đánh giá 67 Các phƣơng pháp thực nghiệm 68 Môi trƣờng cài đặt 68 Các phƣơng pháp cài đặt 68 5 Các kết thực nghiệm 69 5 Độ xác 71 5 Thời gian tính tốn 73 Chƣơng trình dự đốn kết tuyển sinh lớp 10 vào trƣờng THPT Chuyên Long An 74 Giao diện chƣơng trình 74 Các chức chƣơng trình 74 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 76 Kết đạt đƣợc 76 Hƣớng phát triển 76 TÀI LIỆU THAM KHẢO 78 DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu GrC IG KLSI KK-Means LSI SVD SVM THCS Diễn giải Tính tốn hạt (Granular Computing) Hạt thông tin (information granule) Tham số K dùng LSI Tham số K dùng thuật toán K-Means Đánh số ngữ nghĩa tiềm ẩn (Latent Semantic Indexing) Phân tích giá trị riêng (Singular value decomposition) Máy hỗ trợ vector (Support Vector Machine) Trung học sở DANH MỤC CÁC BẢNG Bảng Tập liệu tuyển sinh 25 Bảng Tập liệu tuyển sinh sau đƣợc rời rạc 25 Bảng 3.Bảng xác suất có điều kiện 25 Bảng Ví dụ hạt thông tin 34 Bảng 5.Hạt thông tin phân biệt 34 Bảng Hai IG đƣợc biểu diễn dƣới hình thức hyperbox [10] 35 Bảng Các IG đƣợc biểu diễn dƣới dạng thuộc tính [10] 36 Bảng Kết thực nghiệm mơ hình KAIG [10] 38 Bảng Kết thực nghiệm Chen đồng [6] 44 Bảng 10 Biểu diễn IG đƣới dạng thuộc tính cho liệu số [1] 46 Bảng 11 Biểu diễn IG dƣới dạng thuộc tính cho liệu định danh [1] 47 Bảng 12 Kết thực nghiệm Lại Đức Anh [1] 48 Bảng Rời rạc giá trị điểm số thành 10 khoảng 51 Bảng Tập liệu ban đầu 53 Bảng Tập liệu huấn luyện 53 Bảng 4 Tập liệu dùng để kiểm nghiệm 54 Bảng Dữ liệu (số) đƣợc rời rạc hoá với 10 khoảng 54 Bảng Các IG đƣợc xây dựng lần 55 Bảng Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính hai thuộc tính điểm Tốn điểm Lý 55 Bảng Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính hai thuộc tính điểm Hóa điểm Sinh 55 Bảng Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính hai thuộc tính điểm Văn điểm Sử 56 Bảng 10 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính hai thuộc tính điểm Địa điểm Anh văn 56 Bảng 11 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính hai thuộc tính Giới tính nơi học THCS 56 Bảng 12 Kết phân lớp cho mẫu tập thử nghiệm lần 58 Bảng 13 Kết phân lớp cho mẫu tập thử nghiệm lần 59 Bảng 14 Các IG đƣợc xây dựng lần 59 Bảng 15 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính thuộc tính điểm Toán điểm Lý 60 Bảng 16 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính thuộc tính điểm Hóa điểm Sinh 60 Bảng 17 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính thuộc tính điểm Văn điểm Sử 60 Bảng 18 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính thuộc tính điểm Địa điểm Anh văn 60 Bảng 19 Biểu diễn IG đƣợc xây dựng lần dƣới dạng thuộc tính thuộc tính Giới tính nơi học THCS 61 Bảng 20 Kết phân lớp cho mẫu tập thử nghiệm lần 63 Bảng 21 Kết phân lớp cho mẫu tập thử nghiệm lần 64 Bảng 22 Kết phân lớp cho mẫu tập thử nghiệm lần 64 Bảng Chi tiết tập liệu 66 Bảng Sự khác phƣơng pháp 69 Bảng Ngƣỡng H-index, U-ratio để xây dựng IG tham số thiết đặt cho mạng neural ứng với tập liệu 70 Bảng Tham số phân lớp SVM số lƣợng IG lớp tƣơng ứng với tập liệu 70 Bảng 5 Độ xác tập liệu 71 Bảng Thời gian tính tốn trung bình phƣơng pháp tập liệu 73 DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.Minh họa phân tích giá trị riêng ma trận A [6], [7] 32 Hình Mơ hình thu nhận tri thức dựa tính tốn hạt KAIG [10] 33 Hình 3.Tình chồng chéo hai IG A B [9] 36 Hình Ba bƣớc q trình thu nhận tri thức từ hạt thơng tin [6] 39 Hình 5.Mơ tả IG: Khái niệm “thuộc tính con” dùng cho thuộc tính số Xi [6] 40 Hình Cấu trúc mạng neural truyền thẳng [6] 40 Hình 7.Sơ đồ thuật toán Chen đồng [6] 42 Hình Mơ tả IG dƣới dạng thuộc tính con, (a) dùng cho thuộc tính số Xi đƣợc rời rạc (10 giá trị rời rạc), (b) dùng cho thuộc tính định danh Xj (8 giá trị rời rạc) [1] 46 Hình Sự phân bố mẫu thuộc lớp Đậu lớp Không đậu tƣơng ứng tập liệu 67 Hình Biểu đồ độ xác tập liệu mơn Hóa 71 Hình Biểu đồ độ xác tập liệu môn Tiếng Anh 72 Hình Biểu đồ độ xác tập liệu mơn Tốn 72 Hình 5 Thời gian tính tốn trung bình năm phƣơng pháp với tập liệu 73 Hình Giao diện chƣơng trình 74 Hình Kết dự đốn dựa vào thông tin nhập vào từ giao diện chƣơng trình 75 Hình Kết dự đốn dựa vào thơng tin nhập vào từ file 75 Chƣơng Mô hình phân lớp dựa tính tốn hạt khóa luận cài đặt - Rời rạc thuộc tính số kỹ thuật rời rạc với khoảng cụ thể dựa tập thực tế - Sử dụng phân lớp SVM để phân lớp Việc chuẩn hóa liệu giúp giảm số phép tính tốn, đồng thời phân lớp SVM dùng để phân lớp mang lại hiệu cao 65 Chƣơng Cài đặt ứng dụng CHƢƠNG CÀI ĐẶT ỨNG DỤNG Tổ chức liệu Tập liệu gồm 11 thuộc tính: giới tính, nơi học trung học sở (THCS), điểm toán, điểm lý, điểm hoá, điểm sinh, điểm văn, điểm sử, điểm địa, điểm tiếng anh với giá trị nhƣ sau: - Giới tính: 1: nam, 2: nữ - Nơi học trung học sở gồm 14 huyện/thành phố: - 1: Bến Lức 8: Tân Thạnh 2: Cần Đƣớc 9: Tân Trụ 3: Cần Giuộc 10: Thạnh Hố 4: Châu Thành 11: Thủ Thừa 5: Đức Hồ 12: Thành phố Tân An 6: Đức Huệ 13: Vĩnh Hƣng 7: Mộc Hoá 14: Tân Hƣng Điểm số môn số thực dƣơng không lớn 10 Sau giảm số chiều, liệu đƣợc lƣu trữ file text theo định dạng file input LIBSVM để thực việc phân lớp Các tập liệu Dữ liệu đƣợc lấy từ liệu tuyển sinh trƣờng THPT Chuyên Long An Bảng Chi tiết tập liệu Số lƣợng Số mẫu thuộc Số mẫu thuộc mẫu lớp Đậu lớp Không đậu Môn Tốn 612 194 418 Mơn Hố 127 33 94 Mơn Tiếng Anh 146 49 97 Tập liệu 66 Chƣơng Cài đặt ứng dụng Mơn Tốn 32% Lớp Đậu Lớp Đậu 26% Lớp Không đậu 68% Môn Tiếng Anh Mơn Hố 74% Lớp Khơng đậu Lớp Đậu 34% Lớp Khơng đậu 66% Hình Sự phân bố mẫu thuộc lớp Đậu lớp Không đậu tƣơng ứng tập liệu Các độ đo đánh giá Để đánh giá độ xác phân lớp, khóa luận sử dụng Positive Accuracy, Negative Accuracy, Overall Accuracy G-mean nhƣ [6] Độ xác lớp đa số (Positive Accuracy): 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 𝑇𝑃+𝐹𝑁 (5.1) Độ xác lớp thiểu số (Negative Accuracy): 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑁 𝑇𝑁+𝐹𝑃 (5.2) Độ xác tổng thể (Overall Accuracy): 𝑂𝑣𝑒𝑟𝑎𝑙𝑙𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑁+𝑇𝑁+𝐹𝑃 (5.3) Trung bình hình học (G-mean): 𝐺 − 𝑚𝑒𝑎𝑛 = 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 × 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (5.4) Trong đó:  TP (True Positives): Số lƣợng mẫu lớp đa số đƣợc xác định thuộc lớp đa số  FP (False Positives): Số lƣợng mẫu lớp đa số đƣợc xác định sai thuộc lớp thiểu số  TN (True Negatives): Số lƣợng mẫu lớp thiểu số đƣợc xác định thuộc lớp thiểu số  FN (False Negatives): Số lƣợng mẫu lớp thiểu số đƣợc xác định sai thuộc lớp đa số 67 Chƣơng Cài đặt ứng dụng G-mean dùng để tối đa hóa độ xác cho lớp đồng thời giữ cho độ xác lớp cân Chẳng hạn, Positive Accuracy cao với Negative Accuracy thấp cho kết G-mean thấp [6] Các phƣơng pháp thực nghiệm Môi trƣờng cài đặt Chƣơng trình đƣợc thực thi máy tính Pentium(R) Dual-Core CPU T4400 @2.20 GHz 2.20 GHz Windows Ultimate 32-bit , ngôn ngữ C# Microsoft Visual Studio 2010 Các phƣơng pháp cài đặt Với mục đích so sánh phƣơng pháp khóa luận đề xuất với phƣơng pháp khác, khóa luận cài đặt phƣơng pháp: - Phƣơng pháp 1: Theo thuật toán Chen đồng đề xuất - Phƣơng pháp 2: Theo thuật toán Lại Đức Anh đề xuất - Phƣơng pháp 3: Phƣơng pháp Oversampling liệu kết hợp dùng phân lớp SVM để dự đoán kết quả; - Phƣơng pháp 4: Theo thuật toán Chen đồng sự, thay việc sử dụng mạng neural việc sử dụng phân lớp SVM để dự đoán kết quả; - Phƣơng pháp khóa luận đề xuất 68 Chƣơng Cài đặt ứng dụng Bảng Sự khác phƣơng pháp Giải Số lƣợng thuộc tính cân liệu Phƣơng pháp Gom cụm toàn liệu Phụ thuộc vào số đoạn giao giá trị lớn nhất, nhỏ thuộc tính IG Gom cụm Phƣơng pháp tập liệu Phƣơng pháp Phƣơng pháp Phƣơng pháp khóa xuất luận đề Oversampling liệu Gom cụm toàn liệu Gom cụm lớp Phân lớp liệu Mạng neural Phụ thuộc vào khoảng chia Mạng rời rạc liệu số neural Bộ - phân lớp SVM Phụ thuộc vào số đoạn giao giá trị lớn nhất, nhỏ thuộc tính IG Bộ lớp SVM Cố định (96 thuộc tính) rời Bộ rạc liệu số thành 10 khoảng phân phân lớp SVM 5 Các kết thực nghiệm Ứng với lớp tập liệu huấn luyện, mẫu đƣợc gom cụm dùng KMeans với số vòng lặp 96 để chọn KK-Means tối ƣu tƣơng ứng kết phân lớp có độ xác cao Khóa luận áp dụng LSI cho tập IG vừa đƣợc xây dựng với KLSI tăng dần từ 10 đến số lƣợng thuộc tính tập liệu, chọn KLSI tối ƣu tƣơng ứng kết phân lớp có độ xác cao Mỗi tập huấn luyện có giá trị KK-Means tối ƣu khác lớp KLSI tối ƣu khác 69 Chƣơng Cài đặt ứng dụng Bảng Ngƣỡng H-index, U-ratio để xây dựng IG tham số thiết đặt cho mạng neural ứng với tập liệu Ngƣỡng Ngƣỡng Cấu trúc mạng Số vòng lặp H-index U-ratio Neural mạng neural Toán 35-5-1 15000 Hoá 35-5-1 15000 Tiếng Anh 55-5-1 15000 Tập liệu Bảng Tham số phân lớp SVM số lƣợng IG lớp tƣơng ứng với tập liệu Tham số phân lớp Tập liệu SVM Số IG C  Toán 32+64 1 Hoá 26+70 1 Tiếng Anh 35+61 1 70 Chƣơng Cài đặt ứng dụng 5 Độ xác Bảng 5 Độ xác tập liệu Tập liệu Mơn Hóa Mơn Tiếng Anh Mơn Tốn Độ xác (%) Lớp Đậu Lớp Không đậu Overall G-mean Lớp Đậu Lớp Không đậu Overall G-mean Lớp Đậu Lớp Không đậu Overall G-mean Phƣơng Phƣơng Phƣơng Phƣơng pháp pháp pháp pháp 100 100 100 100 100 100 100 100 99.5 99.81 99.67 99.66 100 100 100 100 98 100 99.31 98.97 97.85 100 99.33 98.9 97 100 98.33 98.44 81.49 100 91.89 89.67 100 100 100 100 81.67 100 95.83 90.17 40.95 100 79.8 61.9 100 99.73 99.83 99.86 Phƣơng pháp khóa luận đề xuất 100 100 100 100 100 100 100 100 100 100 100 100 Mơn Hố 100 100 Độ xác (%) 100 100 100 100 100 100 100 100 100 100 98.33 97 100 100 100 98.44 95.83 95 90.17 90 Phƣơng pháp Phƣơng pháp Phƣơng pháp 85 Phƣơng pháp 81.67 80 Lớp Đậu Lớp Không Đậu Overall G-mean Phƣơng pháp khóa luận đề xuất Hình Biểu đồ độ xác tập liệu mơn Hóa 71 Chƣơng Cài đặt ứng dụng Mơn Tiếng Anh Độ xác (%) 100 100 98 100 100 100 100 100 100 10099.31 100 91.89 90 81.49 10098.97 Phƣơng pháp 100 89.67 Phƣơng pháp 79.8 80 70 Phƣơng pháp 61.9 60 Phƣơng pháp 50 40.95 Phƣơng pháp khóa luận đề xuất 40 Lớp Đậu Lớp Khơng Đậu Overall G-mean Hình Biểu đồ độ xác tập liệu mơn Tiếng Anh Mơn Tốn 100 100 100 100 100 99.81 100 100 99.73 Độ xác (%) 99.5 100 99.67 99.83 100 100 99.86 99.66 100 Phƣơng pháp 99.33 98.9 99 Phƣơng pháp Phƣơng pháp 98 97.85 Phƣơng pháp Phƣơng pháp khóa luận đề xuất 97 Lớp Đậu Lớp Khơng Đậu Overall G-mean Hình Biểu đồ độ xác tập liệu mơn Tốn Khố luận áp dụng phƣơng pháp xây dựng IG theo lớp tách biệt nên đảm bảo IG đƣợc xây dựng phân biệt lớp, từ huấn luyện phân lớp có chất lƣợng Tuy nhiên, sử dụng mạng neural lan truyền ngƣợc cho mục đích phân lớp chƣa đƣợc bảo đảm lúc tốt gặp sai sót việc chọn đƣợc tham số điều chỉnh nhƣ biến đầu vào, kích cỡ tầng ẩn, tốc độ học (learning rate), độ dao động (momentum) khơng tối ƣu Trong đó, sử dụng phân lớp SVM cho mục tiêu phân lớp với hàm nhân phi tuyến Gauss đạt hiệu phân lớp cao 72 Chƣơng Cài đặt ứng dụng Kết thực nghiệm cho thấy, phƣơng pháp khóa luận đề xuất có độ xác cao phƣơng pháp khác, khẳng định phƣơng pháp phù hợp với tập liệu tuyển sinh trƣờng THPT Chun Long An 5 Thời gian tính tốn Bảng Thời gian tính tốn trung bình phƣơng pháp tập liệu Thời gian tính tốn (giây) Phƣơng Phƣơng Phƣơng Phƣơng pháp pháp pháp pháp Thời gian thực thi (s) Mơn Hóa Mơn Tiếng Anh Mơn Tốn 16 19 59 21 23 52 70 17 19 69 69 59 60 52 50 16 18 50 50 Phƣơng pháp 45 40 Phƣơng pháp Phƣơng pháp 30 20 Phƣơng pháp khóa luận đề xuất 15 16 45 16 21 17 16 15 19 23 Phƣơng pháp 19 18 16 10 Mơn Hố Mơn Tiếng Anh Mơn Tốn Phƣơng pháp khóa luận đề xuất Hình 5 Thời gian tính tốn trung bình năm phƣơng pháp với tập liệu Thời gian tính tốn (tính giây) đƣợc tính trung bình lần thực thi Kết thực nghiệm cho thấy phƣơng pháp khóa luận đề xuất có thời gian thực thi thấp so với phƣơng pháp khác thực chuẩn hóa liệu trƣớc rời rạc liệu số, xây dựng IG theo lớp tách biệt mà lặp lặp lại việc tính tốn số H-index U-ratio 73 Chƣơng Cài đặt ứng dụng Chƣơng trình dự đoán kết tuyển sinh lớp 10 vào trƣờng THPT Chuyên Long An Giao diện chƣơng trình Hình Giao diện chƣơng trình Chƣơng trình gồm phần: Phần (1): Dự đoán kết thi cho học sinh Phần (2): Dự đoán kết thi cho danh sách học sinh Các chức chƣơng trình 5.6.2.1 Dự đốn kết thi cho học sinh Muốn dự đoán kết thi cho học sinh, cần thực theo bƣớc sau: - Bƣớc 1: Chọn giới tính học sinh (Nam/nữ) nơi học THCS; - Bƣớc 2: Nhấn nút Dự đoán Kết dự đoán thể nhƣ Hình 74 Chƣơng Cài đặt ứng dụng Hình Kết dự đốn dựa vào thông tin nhập vào từ giao diện chƣơng trình 5.6.2.2 Dự đốn kết thi cho danh sách học sinh Nếu muốn dự đoán cho danh sách học sinh thực theo bƣớc sau: - Bƣớc 1: Chọn đƣờng dẫn đến file nguồn file đích; - Bƣớc 2:Nhấn nút Dự đốn file Kết dự đốn đƣợc lƣu vào file đích chọn Hình Kết dự đốn dựa vào thông tin nhập vào từ file 75 Chƣơng Kết luận hƣớng phát triển CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết đạt đƣợc Để xây dựng ứng dụng dự đoán kết thi tuyển sinh lớp 10 vào trƣờng THPT Chuyên Long An khóa luận tiến hành nghiên cứu mơ hình tính toán hạt giải toán phân lớp liệu không cân Lại Đức Anh, Su, Chen đồng lý thuyết liên quan đến mơ hình tính tốn hạt: Thuật tốn Kmeans cho liệu hỗn hợp, kỹ thuật rút trích đặc trƣng LSI, vấn đề tiền xử lý liệu, mạng neural, phân lớp SVM, Từ kết nghiên cứu, khóa luận xây dựng đƣợc ứng dụng dự đoán kết thi tuyển sinh lớp 10 vào trƣờng THPT Chuyên Long An Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, khóa luận đề xuất sử dụng phân lớp SVM cho mục tiêu phân lớp phƣơng pháp phân lớp liệu khơng cân dựa tính tốn hạt đƣợc đề xuất [1] Dựa liệu thực tế, khóa luận đƣa cách rời rạc giá trị liên tục mà khơng phải chuẩn hóa liệu trƣớc, điều làm giảm số lƣợng phép tính đồng thời khắc phục đƣợc nhƣợc điểm giá trị nhỏ giá trị lớn thuộc tính ứng với IG đƣợc rời rạc cách cố định thành giá trị lớn nhỏ Khóa luận tiến hành cài đặt so sánh hiệu giải tốn phƣơng pháp khóa luận đề xuất với phƣơng pháp Chen đồng sự, phƣơng pháp Lại Đức Anh, phƣơng pháp Oversampling liệu, phƣơng pháp Chen đồng sự, thay việc sử dụng mạng neural việc sử dụng phân lớp SVM để phân lớp.Kết thực nghiệm khẳng định đề xuất giúp giảm thời gian thực thi nhƣ mang lại độ xác phân lớp cao Hƣớng phát triển Khóa luận xây dựng đƣợc chƣơng trình dự đốn kết thi mơn Hố, Tiếng Anh Tốn Do chƣơng trình cần mở rộng thêm môn khác 76 Chƣơng Kết luận hƣớng phát triển Khóa luận tốn nhiều thời gian thực nghiệm để đƣa số cụm tối ƣu cho lớp nhƣ tham số đầu vào phân lớp Trong tƣơng lai, đề tài tiếp tục nghiên cứu thêm phƣơng pháp dự đốn khác để có so sánh hiệu mơ hình tiếp tục nghiên cứu thực nghiệm để tìm đƣợc tham số đầu vào tốt cho thuật toán 77 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lại Đức Anh (2013), Phân lớp liệu khơng cân dựa tính tốn hạt, Luận văn thạc sĩ Khoa học máy tính, Trƣờng Đại học Khoa Học Tự Nhiên – ĐHQG TP HCM, Thành phố Hồ Chí Minh [2] Vạn Duy Thanh Long, Lê Minh Duy, Nguyễn Hồng Tú Anh, “Dự đốn xu hƣớng cổ phiếu thị trƣờng Việt Nam phƣơng pháp hai giai đoạn dựa việc kết hợp K-means SVM với ƣớc lƣợng xác suất lớp”, Kỷ yếu hội nghị khoa học công nghệ Quốc gia lần thứ V, FAIR 2011, Đồng Nai, 11-12 tháng năm 2011, NXB Khoa học Kỹ thuật, pp.13-25 [3] Nguyễn Hà Nam (2009), “Tối ƣu hóa KPCA GA để chọn thuộc tính đặc trƣng nhằm tăng hiệu phân lớp thuật tốn Random Forest”, Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ (25), tr 84-93 Tiếng Anh [4] Amir Ahmad, Lipika Dey (2007), “A k-mean clustering algorithm for mixed numeric and categorical data”, Data & Knowledge Engineering 63 (2), pp 503-527 [5] Mohamed Bekkar, Dr Taklit Akrouf Alitouche (2013), “Imbalanced data learning approaches review”, International Journal of Data Mining & Knowledge Management Process (IJDKP), Vol.3 (4), pp 15-33 [6] Mu-Chen Chen, Long-Sheng Chen, Chun-Chin Hsu, Wei-Rong Zeng (2008), “An infỏmation granulation based data mining approach for classifying imbalanced data”, Information Sciences 178 (16), pp 3214-3227 [7] Scott Deerwester, Susan T Dumais, George W Furnas, Thomas K Landauer, Richard Harshman (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science 41(6), pp 391-407 [8] Victoria López, Alberto Fernández, Jose G Moreno-Torres, Francisco Herrera (2012), “Analysis of preprocessing vs cost-sensitive learning for imbalanced classification Open problems on intrinsic data characteristics”, Expert Systems with Applications 39 (7), pp 6585-6608 78 [9] Chao-Ton Su, Long-Sheng Chen, Tai-Lin Chiang (2006), “A neural network based information granulation approach to shorten the cellular phone test process”, Computers in Industry 57, pp 412-423 [10] Chao–Ton Su, Long-Shen Chen, Yuehwern Yih (2006), “Knowledge acquisition through information granulation for imbalanced data”, Expert System with Application 31 (3), pp 531-541 [11] Min Wang, Niao-qing Hu, Guo-jun Qin (2013), “A Method for Rule Extraction Based on Granular Computing: Application in the Fault Diagnosis of a Helicopter Transmission System”, J Intell Robot Syst 71, pp 445-455 [12] Mu-sen XUE, Hong GAO (2011), “Prediction of Financial Time Series Based on Information Granulation”, Proceedings of 2011 IEEE the 18th International Conference on Industrial Engineering and Engineering Management, Vol.3, pp 1725-1727 [13] JingTao Yao, Athanasios V Vasilakos, Witold Pedrycz (2013), “Granular Computing: Perspectives and Challenges”, IEEE Transactions On Cybernetics, Vol 43 (6) , pp 1977-1986 79 ... TRƢƠNG THỊ TUYẾT HOA ỨNG DỤNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG DỰA TRÊN TÍNH TỐN HẠT TRONG VIỆC DỰ ĐỐN KẾT QUẢ THI TUYỂN SINH LỚP 10 VÀO TRƢỜNG THPT CHUYÊN LONG AN KHĨA LUẬN CAO HỌC... phƣơng pháp phân lớp liệu không cân dựa tính tốn hạt việc đốn kết thi tuyển sinh lớp 10 vào trƣờng THPT Chuyên Long An Chƣơng Tổng quan khóa luận CHƢƠNG TỔNG QUAN VỀ KHÓA LUẬN 1 Giới thi u Trƣờng THPT. .. quan phân lớp liệu không cân CHƢƠNG TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG Giới thi u Phân lớp liệu không cân 10 vấn đề khó đƣợc cộng đồng máy học khai thác liệu quan tâm Vấn đề không cân

Ngày đăng: 23/12/2018, 06:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan