Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)

68 637 2
Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)Ứng dụng thuật toán học máy svm trong tư vấn hướng nghiệp cho học sinh trung học phổ thôn (LV thạc sĩ)

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN VĂN HẢI ỨNG DỤNG THUẬT TOÁN HỌC MÁY SVM TRONG TƯ VẤN HƯỚNG NGHIỆP CHO HỌC SINH TRUNG HỌC PHỔ THÔNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2017 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN VĂN HẢI ỨNG DỤNG THUẬT TOÁN HỌC MÁY SVM TRONG TƯ VẤN HƯỚNG NGHIỆP CHO HỌC SINH TRUNG HỌC PHỔ THÔNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐÀO ĐÌNH KHẢ HÀ NỘI – 2017 i LỜI CAM ĐOAN Tôi cam đoan luận văn nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tác giả luận văn Trần Văn Hải ii LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn, biết ơn sâu sắc đến TS Đào Đình Khả, người trực tiếp hướng dẫn, tận tình bảo định hướng cho suốt trình thực luận văn, giúp có nhận thức đắn kiến thức khoa học giải vấn đề khó khăn, vướng mắc để luận văn hoàn thành Tôi xin gửi lời cảm ơn chân thành tới thầy giáo, cô giáo Học viện Công nghệ Bưu Viễn thông tạo điều kiện cho có môi trường học tập tốt, đồng thời truyền đạt cho nguồn vốn kiến thức quý báu suốt trình học tập trường Cuối cùng, xin gửi lời cảm ơn tới gia đình, đồng nghiệp người thân động viên, giúp đỡ trình hoàn thành luận văn Tôi xin cân thành cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH VẼ, BIỂU ĐỒ vii LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY VÀ BÀI TOÁN TƯ VẤN HƯỚNG NGHIỆP CHO HỌC SINH THPT 1.1 Tổng quan học máy 1.1.1 Giới thiệu học máy 1.1.2 Ứng dụng học máy 1.1.3 Phân loại phương pháp học máy 1.2 Tổng quan phương pháp Support Vector Machine 1.2.1 Giới thiệu Support Vector Machine 1.2.2 SVM tuyến tính SVM phi tuyến 11 1.2.3 SVM phân lớp đa lớp 23 1.3 Bài toán tư vấn hướng nghiệp cho học sinh trung học phổ thông 26 1.3.1 Giới thiệu tư vấn hướng nghiệp 26 1.3.2 Cơ sở lý thuyết tư vấn hướng nghiệp 28 1.3.3 Các kỹ liệu pháp tư vấn hướng nghiệp 31 1.3.4 Mô tả toán tư vấn hướng nghiệp cho học sinh THPT 32 1.4 Kết luận chương 33 CHƯƠNG 2: XÂY DỰNG MÔ HÌNH TƯ VẤN HƯỚNG NGHIỆP CHO HỌC SINH THPT DỰA TRÊN PHƯƠNG PHÁP SUPPORT VECTOR MACHINE 34 2.1 Đặt vấn đề toán 34 2.2 Mô hình toán 35 2.3 Quy trình phân lớp 37 2.3.1 Thu thập liệu nghiên cứu 37 2.3.2 Tiền xử lý liệu 39 2.3.3 Phân chia tập liệu thành tập huấn luyện kiểm chứng 40 iv 2.3.4 Xây dựng mô hình phân lớp theo phương pháp SVM 40 2.3.5 Kiểm chứng mô hình phân lớp 41 2.3.6 Đánh giá mô hình 42 2.4 Kết luận chương 43 CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ 44 3.1 Công cụ thực nghiệm 44 3.2 Chuẩn bị liệu 45 3.3 Thực thực nghiệm 47 3.4 Kết thực nghiệm 48 3.4.1 Kết thực nghiệm với tập liệu (1800 mẫu) 48 3.4.2 Kết thực nghiệm với tập liệu (3603 mẫu) 51 3.5 Phân tích đánh giá kết 54 3.6 Kết luận chương 56 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 59 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt SVM Support Vector Machine Máy véc-tơ hỗ trợ SMO Sequential Minimal Optimization Tối thiểu DT Decision Tree Cây định kNN k-Nearest Neighbor K láng giềng gần KKT Karush Kuhn Tucker Điều kiện Karush Kuhn OAR One-against-Rest OAO One-against-One HL Huấn luyện KC Kiểm chứng CSDL Cơ sở liệu THPT Trung học phổ thông TVHN Tư vấn hướng nghiệp vi DANH MỤC CÁC BẢNG Bảng 2.1 Số lượng mẫu nhóm ngành nghề 39 Bảng 3.1 Số lượng mẫu nhóm ngành nghề tập liệu (1800 mẫu) 45 Bảng 3.2 Số lượng mẫu nhóm ngành nghề tập liệu (3603 mẫu) 46 Bảng 3.3 Tệp tin liệu huấn luyện kiểm chứng 46 Bảng 3.4 Kết đánh giá theo chiến lược OAO với tập liệu 48 Bảng 3.5 Kết phân lớp theo chiến lược OAO với tập liệu 48 Bảng 3.6 Kết đánh giá theo chiến lược OAR với tập liệu 49 Bảng 3.7 Kết phân lớp theo chiến lược OAR với tập liệu 49 Bảng 3.8 So sánh hai chiến lược OAO OAR với tập liệu 49 Bảng 3.9 Kết đánh giá theo chiến lược OAO với tập liệu 51 Bảng 3.10 Kết phân lớp theo chiến lược OAO với tập liệu 51 Bảng 3.11 Kết đánh giá theo chiến lược OAR với tập liệu 52 Bảng 3.12 Kết phân lớp theo chiến lược OAR với tập liệu 52 Bảng 3.13 So sánh hai chiến lược OAO OAR với tập liệu 52 vii DANH MỤC HÌNH VẼ, BIỂU ĐỒ Hình 1.1 Mô tả phương pháp SVM Hình 1.2 Siêu phẳng phân tách với véc-tơ pháp tuyến w 11 Hình 1.3 Tập liệu phân chia tuyến tính 12 Hình 1.4 Tập liệu có nhiễu 17 Hình 1.5 Ánh xạ Φ từ không gian X sang không gian đặc trưng F 21 Hình 1.6 Chiến lược One-against-Rest 24 Hình 1.7 Chiến lược One-against-One 25 Hình 1.8 Mô hình lý thuyết nghề nghiệp [2] 28 Hình 2.1 Mô hình phân lớp nhóm ngành nghề 36 Hình 2.2 Quy trình phân lớp nhóm ngành nghề 37 Hình 3.1 Giao diện khởi động phần mềm Weka 44 Hình 3.2 Thực phân lớp nhóm ngành nghề 47 Biểu đồ 3.1 Độ xác phân lớp hai chiến lược OAO OAR với tập liệu 50 Biểu đồ 3.2 Thời gian xây dựng mô hình hai chiến lược OAO OAR với tập liệu 50 Biểu đồ 3.3 Độ xác phân lớp hai chiến lược OAO OAR với tập liệu 53 Biểu đồ 3.4 Thời gian xây dựng mô hình hai chiến lược OAO OAR với tập liệu 53 LỜI MỞ ĐẦU Việt Nam nước có dân số đông, số lượng người độ tuổi lao động lớn, cung cấp nguồn nhân lực dồi cho trình công nghiệp hóa, đại hóa đất nước Tuy nhiên, năm gần tình trạng nhiều sinh viên trường không tìm việc làm phải làm việc không với chuyên môn diễn phổ biến Điều gây lãng phí nguồn nhân lực lao động xã hội Một phần nguyên nhân việc đào tạo ngành nghề nhiều bất hợp lý, việc phân bố nguồn nhân lực vùng miền chưa đồng Bên cạnh đó, nguyên nhân thực trạng nằm việc phần lớn học sinh bậc học phổ thông lựa chọn ngành nghề chủ yếu theo cảm tính, theo xu tác động từ gia đình, cha mẹ, bạn bè, … không xác định khả năng, lực thân có phù hợp với ngành nghề hay không từ dẫn tới việc học tập làm việc không hiệu quả, gây lãng phí lớn cho thân, gia đình xã hội Tư vấn hướng nghiệp vấn đề cần phải quan tâm, cấp bậc phổ thông Khi định hướng đắn nghề nghiệp, người yên tâm với nghề lựa chọn, có thái độ tích cực, chủ động học tập, rèn luyện để hoạt động tốt lĩnh vực nghề nghiệp tương lai Đối với học sinh bậc phổ thông, tư vấn hướng nghiệp giúp em định hướng ngành nghề cách có sở, có nhận thức đắn nghề nghiệp, phát huy tối đa khả thân, khơi dậy niềm đam mê em công việc lựa chọn từ góp phần ổn định sống thân tương lai đồng thời đáp ứng nhu cầu xã hội, tránh lãng phí đào tạo sử dụng hợp lý nguồn nhân lực, góp phần vào việc phát triển kinh tế – xã hội đất nước Trong việc chọn nghề, để lựa chọn ngành nghề phù hợp ta phải dựa vào khả năng, lực thân sở thích tính cách người Do đó, công tác tư vấn hướng nghiệp cho học sinh trung học phổ thông, cần phải có phương pháp phân loại để phân nhóm em học sinh dựa yếu tố này, từ đưa tư vấn, định hướng nghề nghiệp cách 45 3.2 Chuẩn bị liệu Dữ liệu chuẩn bị cho việc tiến hành thực nghiệm trích xuất từ học bạ, hồ sơ tư vấn nguyện vọng đăng ký xét tuyển đại học năm 2016 em học sinh thuộc 17 trường trung học phổ thông địa bàn tỉnh Ninh Bình Qua trình tiền xử lý tâp liệu thu bao gồm 3603 mẫu đối tượng học sinh thuộc 08 nhóm ngành nghề khác Tập liệu thu sau tiền xử lý sử dụng để tạo hai tập liệu với kích cỡ khác trình thực nghiệm thực đồng thời hai tập liệu (tập liệu gồm 1800 mẫu, tập liệu gồm 3603 mẫu) Với tập liệu để tiến hành thực nghiệm, việc lựa chọn mẫu liệu huấn luyện (HL) kiểm chứng (KC) thực cách sử dụng lọc Resample Weka với tỷ lệ 70% số mẫu làm tập huấn luyện, 30% số mẫu làm tập kiểm chứng Sau thực lựa chọn mẫu huấn luyện kiểm chứng, ta kết phân bố chi tiết số lượng mẫu cho tập liệu sau: Bảng 3.1 Số lượng mẫu nhóm ngành nghề tập liệu (1800 mẫu) STT Tên nhóm ngành nghề SL Mẫu Mẫu mẫu HL KC Nhóm ngành Khoa học tự nhiên – Kỹ thuật 294 205 89 Nhóm ngành Công nghệ thông tin 242 169 73 Nhóm ngành Tài – Kế toán 316 221 95 Nhóm ngành Quản trị kinh doanh 241 168 73 Nhóm ngành Công nghệ sinh học – Môi trường 218 152 66 Nhóm ngành Khoa học xã hội – Nhân văn 227 158 69 Nhóm ngành Ngoại giao – Ngoại ngữ 142 99 43 Nhóm ngành Du lịch – Nhà hàng – Khách sạn 120 84 36 46 Bảng 3.2 Số lượng mẫu nhóm ngành nghề tập liệu (3603 mẫu) STT Tên nhóm ngành nghề SL Mẫu Mẫu mẫu HL KC Nhóm ngành Khoa học tự nhiên – Kỹ thuật 589 414 175 Nhóm ngành Công nghệ thông tin 485 330 155 Nhóm ngành Tài – Kế toán 632 437 195 Nhóm ngành Quản trị kinh doanh 482 351 131 Nhóm ngành Công nghệ sinh học – Môi trường 436 309 127 Nhóm ngành Khoa học xã hội – Nhân văn 455 326 129 Nhóm ngành Ngoại giao – Ngoại ngữ 284 191 93 Nhóm ngành Du lịch – Nhà hàng – Khách sạn 240 164 76 Sau đó, liệu tập huấn luyện kiểm chứng chuyển đổi sang dạng chuẩn arff Weka để tiến hành thực nghiệm Bảng 3.3 Tệp tin liệu huấn luyện kiểm chứng STT Tên tệp tin Nội dung Số mẫu Nghe1-Train.arff Mẫu huấn luyện tập liệu 1256 Nghe1-Test.arff Mẫu kiểm chứng tập liệu 544 Nghe2-Train.arff Mẫu huấn luyện tập liệu 2522 Nghe2-Test.arff Mẫu kiểm chứng tập liệu 1081 47 3.3 Thực thực nghiệm Trong phần này, luận văn thực việc xây dựng mô hình phân lớp nhóm ngành nghề theo chiến lược OAR OAO tập liệu để đánh giá độ xác phân lớp thời gian xây dựng mô hình hai chiến lược Quy trình thực thực nghiệm tiến hành theo bước sau: - Bước 1: Khởi động Weka - Bước 2: Tải liệu tập huấn luyện - Bước 3: Chọn tab Classify - Bước 4: Tải liệu tập kiểm chứng - Bước 5: Chọn MultiClassClassifier, thông số classifier chọn SMO method chọn 1-against-all (chiến lược OAR) 1-against-1 (chiến lược OAO) - Bước 6: Chọn Start - Bước 7: Lưu lại thời gian xây dựng mô hình, bảng phân tích độ xác bảng kết phân lớp nhóm ngành nghề Hình 3.2 Thực phân lớp nhóm ngành nghề 48 3.4 Kết thực nghiệm 3.4.1 Kết thực nghiệm với tập liệu (1800 mẫu) 3.4.1.1 Chiến lược OAO Bảng 3.4 Kết đánh giá theo chiến lược OAO với tập liệu TP Rate FP Rate Precision Recall F-Measure Class 0,910 0,059 0,750 0,910 0,822 Nhom1 0,836 0,017 0,884 0,836 0,859 Nhom2 0,853 0,022 0,890 0,853 0,871 Nhom3 0,959 0,000 1,000 0,959 0,979 Nhom4 0,909 0,000 1,000 0,909 0,952 Nhom5 1,000 0,006 0,958 1,000 0,979 Nhom6 0,930 0,012 0,870 0,930 0,899 Nhom7 0,722 0,004 0,929 0,722 0,813 Nhom8 Weighted 0,897 0,018 0,904 0,897 0,898 Avg Bảng 3.5 Kết phân lớp theo chiến lược OAO với tập liệu Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 81 13 0 61 0 0 4 81 0 1 0 70 0 0 0 0 60 0 0 0 0 69 0 0 0 40 0 0 0 26 Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 49 3.4.1.2 Chiến lược OAR Bảng 3.6 Kết đánh giá theo chiến lược OAR với tập liệu TP Rate FP Rate Precision Recall F-Measure Class 0,573 0,055 0,671 0,573 0,618 Nhom1 0,808 0,004 0,967 0,808 0,881 Nhom2 0,905 0,243 0,441 0,905 0,593 Nhom3 0,548 0,004 0,952 0,548 0,696 Nhom4 0,773 0,006 0,944 0,773 0,850 Nhom5 0,986 0,006 0,958 0,986 0,971 Nhom6 0,558 0,006 0,889 0,558 0,686 Nhom7 0,500 0,000 1,000 0,500 0,667 Nhom8 Weighted 0,730 0,055 0,817 0,730 0,741 Avg Bảng 3.7 Kết phân lớp theo chiến lược OAR với tập liệu Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 51 11 0 59 0 0 34 12 86 29 16 13 0 40 0 0 51 0 0 0 0 68 0 0 0 24 0 0 0 18 Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 3.4.1.3 So sánh hai chiến lược Bảng 3.8 So sánh hai chiến lược OAO OAR với tập liệu Thời gian xây dựng mô hình Chiến lược Độ xác phân lớp (%) OAO 89,8 4,2 OAR 74,1 4,9 (giây) 50 Độ xác phân lớp (%) 100 89.8 90 80 74.1 70 60 50 40 30 20 10 Chiến lược OAO Chiến lược OAR Độ xác phân lớp (%) Biểu đồ 3.1 Độ xác phân lớp hai chiến lược OAO OAR với tập liệu Thời gian xây dựng mô hình (s) 4.9 4.8 4.6 4.4 4.2 4.2 3.8 Chiến lược OAO Chiến lược OAR Thời gian xây dựng mô hình (s) Biểu đồ 3.2 Thời gian xây dựng mô hình hai chiến lược OAO OAR với tập liệu 51 3.4.2 Kết thực nghiệm với tập liệu (3603 mẫu) 3.4.2.1 Chiến lược OAO Bảng 3.9 Kết đánh giá theo chiến lược OAO với tập liệu TP Rate FP Rate Precision Recall F-Measure Class 0,960 0,042 0,816 0,960 0,882 Nhom1 0,884 0,012 0,926 0,884 0,904 Nhom2 0,913 0,017 0,922 0,913 0,918 Nhom3 0,985 0,007 0,949 0,985 0,966 Nhom4 0,874 0,000 1,000 0,874 0,933 Nhom5 0,992 0,005 0,962 0,992 0,977 Nhom6 0,882 0,004 0,953 0,882 0,916 Nhom7 0,763 0,010 0,853 0,763 0,806 Nhom8 Weighted 0,917 0,014 0,920 0,917 0,917 Avg Bảng 3.10 Kết phân lớp theo chiến lược OAO với tập liệu Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 168 13 16 0 137 0 0 178 0 129 0 0 0 111 0 0 0 0 128 0 0 0 82 0 0 0 10 58 Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 52 3.4.2.2 Chiến lược OAR Bảng 3.11 Kết đánh giá theo chiến lược OAR với tập liệu TP Rate FP Rate Precision Recall F-Measure Class 0,669 0,058 0,688 0,669 0,678 Nhom1 0,806 0,013 0,912 0,806 0,856 Nhom2 0,913 0,200 0,501 0,913 0,647 Nhom3 0,649 0,014 0,867 0,649 0,742 Nhom4 0,717 0,006 0,938 0,717 0,813 Nhom5 0,984 0,007 0,948 0,984 0,966 Nhom6 0,484 0,001 0,978 0,484 0,647 Nhom7 0,539 0,003 0,932 0,539 0,683 Nhom8 Weighted 0,748 0,051 0,811 0,748 0,754 Avg Bảng 3.12 Kết phân lớp theo chiến lược OAR với tập liệu Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 117 12 29 0 125 0 0 46 25 178 35 38 24 0 85 0 0 91 0 0 0 0 127 0 0 0 45 0 0 0 41 Nhom1 Nhom2 Nhom3 Nhom4 Nhom5 Nhom6 Nhom7 Nhom8 3.4.2.3 So sánh hai chiến lược Bảng 3.13 So sánh hai chiến lược OAO OAR với tập liệu Thời gian xây dựng mô hình Chiến lược Độ xác phân lớp (%) OAO 91,7 6,1 OAR 75,4 18,6 (giây) 53 Độ xác phân lớp (%) 100 91.7 90 75.4 80 70 60 50 40 30 20 10 Chiến lược OAO Chiến lược OAR Độ xác phân lớp (%) Biểu đồ 3.3 Độ xác phân lớp hai chiến lược OAO OAR với tập liệu Thời gian xây dựng mô hình (s) 20 18.6 18 16 14 12 10 6.1 Chiến lược OAO Chiến lược OAR Thời gian xây dựng mô hình (s) Biểu đồ 3.4 Thời gian xây dựng mô hình hai chiến lược OAO OAR với tập liệu 54 3.5 Phân tích đánh giá kết Qua bảng 3.4 3.5 so sánh hai chiến lược OAR OAO thực thực nghiệm đồng thời hai tập liệu (1800 mẫu 3603 mẫu) cho thấy: - Tỷ lệ dự đoán theo chiến lược OAO cao nhiều so với chiến lược OAR (89,8% so với 74,1% tập liệu 1800 mẫu 91,7% so với 75,4% tập liệu 3603 mẫu) Điều giải thích với chiến lược OAO, mẫu đánh giá 28 phân lớp nhị phân (k.(k-1)/2 phân lớp, với k = số lớp phân loại) phân vào lớp có số lần dự đoán nhiều Trong đó, theo chiến lược OAR mẫu có lần đánh giá để lựa chọn lớp - Với tập liệu có số mẫu lớn độ xác cao hai chiến lược OAO OAR (tăng 1,9% chiến lược OAO 1,3% chiến lược OAR) - Thời gian xây dựng mô hình hai chiến lược khác biệt đáng kể thực tập liệu 1800 mẫu (chiến lược OAO 4,2 giây OAR 4,9 giây) Tuy nhiên, thực tập liệu 3603 mẫu (số mẫu tăng gấp đôi) thời gian xây dựng mô hình chiến lược OAR tăng lên nhiều (18,6 giây) chiến lược OAO thời gian xây dựng mô hình tăng không đáng kể (6,1 giây) Kết cho thấy, với số mẫu lớn chiến lược OAO phải xây dựng 28 phân lớp lớn nhiều so với phân lớp chiến lược OAR (k-1 phân lớp, với k = số lớp phân loại) Tuy nhiên, chi phí xây dựng phân lớp chiến lược OAR lại cao phải xây dựng dựa tất mẫu huấn luyện (n mẫu) Trong đó, chi phí xây dựng phân lớp chiến lược OAO lại nhỏ nhiều lại xây dựng dựa 2n/k mẫu (n tổng số mẫu huấn luyện, k số lớp phân loại) Do đó, tốc độ xây dựng tổng thể mô hình chiến lược OAO nhanh nhiều so với chiến lược OAR Qua so sánh độ xác thời gian xây dựng mô hình hai chiến lược, thấy, chiến lược OAO cho tỷ lệ dự đoán cao thời gian xây 55 dựng mô hình thấp so với chiến lược OAR Do kết luận, toán phân lớp ngành nghề, chiến lược OAO phù hợp so với chiến lược OAR Ngoài ra, số lượng mẫu tăng gấp đôi thời gian xây dựng mô hình chiến lược OAO tăng xấp xỉ 1,5 lần Điều cho thấy, số lượng mẫu tăng lên thời gian xây dựng mô hình không tăng tuyến tính với số lượng mẫu Đây yếu tố vô quan trọng cần quan tâm muốn mở rộng mô hình hệ thống để phục vụ việc tư vấn cho em học sinh diện rộng Với tỷ lệ tăng trên, thấy chiến lược OAO bước đầu đáp ứng yêu cầu mặt thời gian áp dụng mô hình diện rộng cho em học sinh kỳ xét tuyển đại học hàng năm Luận văn ước tính thời gian xây dựng mô hình cho khoảng 650.000 mẫu học sinh (số lượng thí sinh đăng ký dự thi xét tuyển đại học kỳ thi trung học phổ thông năm 2017) khoảng từ – 2,5 phút Bảng 3.4 3.9 phân tích kết chiến lược OAO cho thấy: - Nhóm nghành nghề phân lớp nhóm ngành nghề Khoa học xã hội – Nhân văn (Nhóm 6) với tỷ lệ F-measure đạt 97,9% 97,7% tập liệu Điều cho thấy nhóm ngành Khoa học xã hội – Nhân văn có đặc trưng riêng biệt so với nhóm ngành khác - Nhóm nghành nghề phân lớp nhóm ngành Du lịch – Nhà hàng – Khách sạn (Nhóm 8) với tỷ lệ F-measure đạt 81,3% 80,6% tập liệu Điều cho thấy nhóm ngành Du lịch – Nhà hàng – Khách sạn có nhiều đặc trưng giống với nhóm ngành khác Bảng 3.5 3.10 cho thấy, nhóm ngành nghề Tài – Kế toán (Nhóm 3) thường bị phân lớp nhầm sang nhóm ngành Khoa học tự nhiên – Kỹ thuật (nhóm 1) Điều cho thấy hai nhóm ngành nghề có nhiều đặc trưng giống 56 3.6 Kết luận chương Trong chương này, luận văn trình bày bước cụ thể trình tiến hành thực nghiệm cho toán phân lớp ngành nghề dựa phương pháp SVM Trong trình tiến hành thực nghiệm, luận văn tiến hành đồng thời hai chiến lược phân lớp đa lớp OAO (One-against-One) OAR (One-against-Rest) hai tập liệu với số lượng mẫu khác nhau, sau đưa kết độ xác phân lớp thời gian xây dựng mô hình hai chiến lược Với kết thu được, luận văn kết luận mô hình xây dựng phương pháp SVM chiến lược OAO cho độ xác tương đối cao, thời gian xây dựng mô hình thấp phù hợp toán phân lớp ngành nghề dành cho học sinh trung học phổ thông 57 KẾT LUẬN Những đóng góp luận văn Qua nghiên cứu thực nghiệm, luận văn đạt số kết sau: - Nghiên cứu tổng quan học máy, phương pháp học máy ứng dụng thực tiễn học máy - Tìm hiểu vấn đề tư vấn hướng nghiệp, loại hình tư vấn hướng nghiệp yếu tố định mức độ phù hợp việc lựa chọn ngành nghề - Nghiên cứu thuật toán SVM ứng dụng vào toán phân lớp nhóm ngành nghề nhằm hỗ trợ việc tư vấn hướng nghiệp cho học sinh trung học phổ thông - Tiến hành thu thập liệu đối tượng học sinh trung học phổ thông, thực xây dựng mô hình phân lớp thực thực nghiệm, đánh giá kết Bước đầu cho thấy ứng dụng SVM vào phân lớp nhóm ngành nghề đạt hiệu khả quan Hướng phát triển luận văn Tuy đạt số kết khả quan luận văn hạn chế định điều kiện kiến thức khoa học học viên thời gian nghiên cứu Dưới số hướng nghiên cứu luận văn học viên đặt ra: - Nghiên cứu sâu vấn đề tư vấn hướng nghiệp để lựa chọn thêm đặc trưng mang tính định cho việc lựa chọn ngành nghề - Tiếp tục nghiên cứu thêm thuật toán SVM số thuật toán học máy khác để tăng độ xác việc phân lớp - Mở rộng nhóm ngành nghề đa dạng hóa đối tượng cần phân lớp - Phát triển toán phân nhóm ngành nghề thành ứng dụng để hỗ trợ công tác tư vấn hướng nghiệp 58 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Tuấn Anh (2015), Ứng dụng máy véc-tơ hỗ trợ phân loại bệnh dựa xét nghiệm hóa nghiệm, Học viện Công nghệ Bưu Viễn Thông, Hà Nội [2] Cục nhà giáo cán quản lý sở giáo dục, Bộ giáo dục đào tạo (2015), Kỹ tư vấn cá nhân khám phá, lựa chọn phát triển nghề nghiệp cho học sinh trung học, Nhà xuất Đại học quốc gia Hà Nội [3] Hội liên hiệp Phụ nữ Việt Nam (2013), Kỹ tư vấn cá nhân lựa chọn phát triển nghề nghiệp, Nhà xuất Đại học quốc gia Hà Nội [4] Từ Minh Phương (2014), Nhập môn trí tuệ nhân tạo, Học viện Công nghệ Bưu Viễn Thông, Hà Nội [5] Trung tâm hỗ trợ đào tạo cung ứng nhân lực, Bộ giáo dục đào tạo (2011), Định hướng đổi nội dung, phương pháp giáo dục hướng nghiệp cho học sinh trung học, Hà Nội Tiếng Anh [6] Shigeo Abe & Takuya Inoue (2002), “Fuzzy Support Vector Machines for Multiclass Problems” ESANN’2002 proceedings, pp 113-118 [7] Burges C (1998) “A tutorial on Support Vector Machines for pattern recognition” Proceedings of Int Conference on Data Mining and Knowledge Discovery, pp 121-167 [8] Chang, C.C & Lin, C.J (2011), “LIBSVM: A library for support vector machines” ACM Transactions on Intelligent Systems and Technology [9] Gottfredson, G.D & Holland, J.L (1996), Dictionary of Holland Occupational Codes, 3rd Edition, Psych Assessment Resources [10] Hsu, C.W & Lin, C.J (2002), “A Comparison of Methods for Multiclass Support Vector Machines” IEEE Tran on Neural Networks , pp 415-425 [11] Lei, H & Govindaraju, V (2005), “Half-against-half multi-class support vector machines” MCS 2005: Multiple Classifier Systems, pp 156-164 [12] Xindong Wu & Vipin Kumar (2009), The Top Ten Algorithms in Data Mining, Chapman and Hall/CRC 59 PHỤ LỤC Các thuộc tính lựa chọn STT Tên thuộc tính Giải thích Giới tính Giới tính học sinh Nơi Tên huyện học sinh cư trú Trường Tên trường học sinh học Toán Điểm học tập môn toán Văn Điểm học tập môn văn Lý Điểm học tập môn lý Hóa Điểm học tập môn Hóa Sinh Điểm học tập môn Sinh Sử Điểm học tập môn Sử 10 Địa Điểm học tập môn Địa 11 Ngoại ngữ Điểm học tập môn Ngoại ngữ 12 Tin học Điểm học tập môn Tin học 13 Công nghệ Điểm học tập môn Công nghệ 14 Giáo dục công dân Điểm học tập môn GDCD 15 Giáo dục quốc phòng Điểm học tập môn GDQP 16 Học lực Xếp loại học lực 17 Hạnh kiểm Xếp loại hạnh kiểm 18 Hứng thú Môn học học sinh ưa thích 19 Xu hướng ngành nghề Sở thích đối tượng lao động học sinh 20 Tính cách Kiểu tính cách học sinh 21 Phản ứng Kiểu phản ứng học sinh 22 Khí chất Kiểu khí chất học sinh 23 Nhãn Tên nhóm ngành nghề phân loại ... máy SVM - Áp dụng học máy thuật toán học máy SVM cho toán tư vấn hướng nghiệp cho học sinh trung học phổ thông - Cài đặt thử nghiệm thuật toán học máy SVM cho toán tư vấn hướng nghiệp cho học sinh. .. hướng nghiệp cho học sinh trung học phổ thông” Mục tiêu cụ thể trình bày luận văn sau: - Phát biểu toán tư vấn hướng nghiệp cho học sinh trung học phổ thông - Nghiên cứu học máy thuật toán học máy. ..HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN VĂN HẢI ỨNG DỤNG THUẬT TOÁN HỌC MÁY SVM TRONG TƯ VẤN HƯỚNG NGHIỆP CHO HỌC SINH TRUNG HỌC PHỔ THÔNG CHUYÊN NGÀNH: KHOA HỌC MÁY

Ngày đăng: 23/10/2017, 12:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan