Ứng dụng khai phá dữ liệu để xây dựng hệ thống tư vấn học tập tại trường đại học công nghiệp hà nội

62 707 0
Ứng dụng khai phá dữ liệu để xây dựng hệ thống tư vấn học tập tại trường đại học công nghiệp hà nội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH HƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH HƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI Ngành: Cơng nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2015 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, ngƣời thầy dành nhiều thời gian tận tình bảo, hƣớng dẫn, giúp đỡ tơi suốt q trình tìm hiểu, nghiên cứu.Thầy ngƣời đinh ̣ hƣớng và đƣa nhiều góp ý q báu q trình thƣ̣c luâ ̣n văn Tôi xin chân thành cảm ơn thầy, cô khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ - ĐHQGHN cung cấp cho kiến thức tạo cho tơi điều kiện thuận lợi suốt q trình tơi học tập trƣờng Tơi bày tỏ lịng biết ơn giúp đỡ lãnh đạo quan, đồng nghiệp cung cấp liệu, tài liệu cho lời khuyên quý báu Tôi xin cảm ơn gia đình, ngƣời thân, bạn bè thành viên nhóm nghiên cứu ln động viên tạo điều kiện tốt cho Tôi xin chân thành cảm ơn! Hà Nội, tháng năm 2016 Họ tên Nguyễn Thị Thanh Hƣơng LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu riêng tôi, thực dƣới hƣớng dẫn PGS.TS Nguyễn Hà Nam Các kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Hà Nội, tháng năm 2016 Họ tên Nguyễn Thị Thanh Hƣơng MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Chƣơng Giới thiệu tổng quan 1.1.Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn trƣờng ĐHCNHN 1.2 Một số hƣớng nghiên cứu khai phá liệu lĩnh vực giáo dục 10 1.3 Hƣớng tiếp cận luận văn 11 1.4 Kết luận chƣơng 11 Chƣơng Các kiến thức sở liên quan 12 2.1 Khai phá liệu 12 2.1.1 Khái niệm KPDL 12 2.1.2 Những nhóm tốn KPDL 13 2.1.3 Các bƣớc xây dựng giải pháp KPDL 14 2.1.4 Ứng dụng KPDL giáo dục 15 2.2 Một số kỹ thuật KPDL phân lớp, dự báo 16 2.2.1 Cây định 16 2.2.2 Phân lớp Naïve Bayes 18 2.2.3 Mạng nơ ron nhân tạo 19 2.2.4 Luật kết hợp 21 2.3 KPDL với hệ quản trị CSDL SQL Server 23 2.3.1 Giới thiệu chung 23 2.3.2 Ngôn ngữ truy vấn KPDL DMX (Data Mining Extensions) 25 2.3.3 Bộ công cụ SQL Server Business Intelligence Development Studio 29 2.3.4 Lập trình KPDL với Analysis Services APIs 29 2.3.5 Đánh giá hiệu mô hình KPDL 30 2.4 Kết luận chƣơng 30 Chƣơng Phƣơng pháp giải toán 31 3.1 Tìm hiểu thu thập liệu điểm 31 3.2 Xây dựng mơ hình 37 3.3 Lập trình KPDL với Analysis Services APIs 42 3.4 Đánh giá mơ hình 44 3.4.1 Đánh giá mơ hình dự báo với Lift Chart 44 3.4.2 Đánh giá mơ hình dự báo với Classification Matrix 48 3.5 Kết luận chƣơng 50 Chƣơng Xây dựng hệ thống tƣ vấn học tập trƣờng ĐHCNHN 51 KẾT LUẬN 59 HƢỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa BIDS Bussiness Intelligence Development Studio CSDL Cơ sở liệu DMX Data Mining Extensions DMM Data Mining Model KPDL Khai phá liệu SOM Self-Organizing Map MS ĐHCNHN Microsoft Đại học Công Nghiệp Hà Nội DANH MỤC CÁC BẢNG Bảng 2.4: Lựa chọn thuật toán khai phá liệu theo mục đích 23 Bảng 3.1: Bảng liệu xây dựng hệ thống tƣ vấn học tập 34 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Các bƣớc xây dựng hệ thống KPDL 12 Hình 1: Biểu diễn định 17 Hình 2: Cây định cho việc chơi Tennis 17 Hình 3: Mơ hình mạng nơron nhiều lớp 19 Hình 4: Tiến trình học 20 Hình 5: Hình ảnh tổng quan KPDL với SQL 2008 23 Hình 1: Mơ hình CSDL quan hệ đƣợc thu thập để xây dựng hệ thống 32 Hình 2: Một phần bảng lộ trình học theo ngành 34 Hình 3: Một phần liệu xây dựng hệ thống 36 Hình 4: Tạo 04 Mining Models cho Mining Structure 37 Hình 5: Kết tạo viewer cho mơ hình Cây định 38 Hình 6: Kết tạo viewer cho mơ hình Luật kết hợp 38 Hình 7: Kết tạo viewer cho mơ hình Naïve Bayes 39 Hình 8: Kết tạo viewer cho mơ hình mạng nơ ron nhân tạo 39 Hình 9: Biểu đồ Lift Chart cho 04 mơ hình 40 Hình 10: Kết ma trận Classification Matrix 04 mơ hình 40 Hình 11: Thiết kế truy vấn DMX với mô hình đƣợc chọn 41 Hình 12: Kết truy vấn với mơ hình đƣợc chọn 42 Hình 13: Sự phụ thuộc thuộc tính dự đốn vào thuộc tính khác 44 Hình 14: Lựa chọn Lift Chart với Predict Value=”K” 45 Hình 15: Kết Lift Chart khơng xác định giá trị thuộc tính dự đốn 47 Hình 16: Classification Matrix 04 mơ hình 49 Hình 17: Biểu đồ so sánh mức độ xác mơ hình 50 Hình 1: Sơ đồ hoạt động hệ thống 52 Hình 2: Kết tƣ vấn học tập với mơ hình Nạve Bayes 53 Hình 3: Kết tƣ vấn học tập với mơ hình Cây định 54 Hình 4: Kết tƣ vấn học tập với mơ hình Luật kết hợp 54 Hình 5: Kết tƣ vấn học tập với mơ hình Neural Network 55 Hình 6: Kết tƣ vấn học tập với sinh viên nam 56 Hình 7: Kết tƣ vấn học tập với sinh viên nữ 57 Hình 8: Xem chi tiết lộ trình học 57 LỜI MỞ ĐẦU Trƣờng ĐHCNHN trƣờng nằm hệ thống trƣờng chuyên nghiệp trực thuộc Bộ công thƣơng Một vấn đề cấp thiết đặt công tác quản lý đào tạo nhà trƣờng xây dựng mục tiêu, chiến lƣợc nhằm mở rộng quy mô đào tạo, thu hút đƣợc nhiều sinh viên, bên cạnh việc nâng cao chất lƣợng giảng dạy, đảm bảo đào tạo sinh viên trƣờng đáp ứng đƣợc yêu cầu công việc Công nghệ thông tin đƣợc ứng dụng công tác quản lý nhà trƣờng, song việc khai thác nhiều hạn chế Xuất phát từ yêu cầu đặt đơn vị mình, tơi thực đề tài luận văn “ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI” Luận văn sâu vào việc khai phá liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để dự đoán kết học tập sinh viên, hỗ trợ tƣ vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt đƣợc kết học tập cao Luận văn gồm có phần mở đầu, kết luận 04 chƣơng, cụ thể nhƣ sau: Chƣơng 1: Giới thiệu tổng quan Giới thiệu toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn trƣờng ĐHCNHN, trình bày số hƣớng nghiên cứu KPDL giáo dục hƣớng tiếp cận luận văn Chƣơng 2: Các kiến thức sở liên quan Nghiên cứu sở lý thuyết KPDL, vấn đề liên quan đến KPDL lĩnh vực giáo dục Tìm hiểu kỹ thuật khai phá liệu sử dụng toán phân lớp, dự báo (cây định, phân lớp Naïve Bayes, mạng nơ ron nhân tạo, luật kết hợp) kỹ thuật KPDL hệ quản trị CSDL MS SQL Server Chƣơng Phƣơng pháp giải tốn Mơ tả ứng dụng, xây dựng tốn liệt kê lộ trình học cho ngành học để tƣ vấn cho sinh viên chọn lộ trình phù hợp với ngành theo học Thu thập xử lý liệu liên quan để phát triển hệ thống Xây dựng mơ hình: Cây định, Naïve Bayes, Neural Networks, Luật kết hợp đƣa đánh giá mơ hình tƣơng ứng Chƣơng 4: Xây dựng hệ thống tƣ vấn học tập trƣờng ĐHCNHN Dựa đánh giá mơ hình, lựa chọn mơ hình cho kết tốt Xây dựng chƣơng trình thực nghiệm để tƣ vấn cho sinh viên Hình 3.5: Kết Lift Chart với Ketqua=”K” cho 04 mơ hình Trong hình trên, trục X biểu diễn phần trăm test dataset sử dụng để so sánh với kết dự đoán, trục Y biểu diễn phần trăm giá trị dự đoán - Đƣờng Ideal Model: đƣờng biểu diễn mơ hình lý tƣởng (dự đốn xác trƣờng hợp) Đƣờng ln cao tất đƣờng lại, điều tất yếu - Đƣờng màu xanh blue (Random Guess Model): đƣờng biểu diễn dự đốn ngẫu nhiên (khơng cần mơ hình) Đƣờng thấp nhất, tức ln cho tỷ lệ dự đốn xác thấp mơ hình - Đƣờng màu vàng (LuatKetHop Model): đƣờng biểu diễn khả dự đốn mơ hình Luật kết hợp - Đƣờng màu tím (Nạve Bayes Model): đƣờng biểu diễn khả dự đốn mơ hình Nạve Bayes - Đƣờng màu xanh nhạt (NeuralNetwork Model): đƣờng biểu diễn khả dự đốn mơ hình Neural Network - Đƣờng màu hồng (CayQuyetDinh Model): đƣờng biểu diễn khả dự đốn mơ hình Cây định Nhận xét: 46 Trong mơ hình xây dựng mơ hình Nạve Bayes cho kết tốt nhất, sau đến Neural Network, Cây định cuối Luật kết hợp, cụ thể nhƣ sau: - Nhìn vào biểu đồ ta thấy đƣờng biểu diễn Nạve Bayes ln trên, tiếp đến Neural Network, Cây định cuối Luật kết hợp (khơng kể đến đƣờng lý tƣởng dự đốn ngẫu nhiên) - Điểm xếp hạng Naïve Bayes cao (0,93), tiếp đến Neural Network (0.92), Cây định (0,90) cuối Luật kết hợp (0,86) Lift Chart không xác định giá trị cụ thể thuộc tính dự đốn: Lift Chart cho tất trƣờng hợp thuộc tính dự đốn Dƣới kết Lift Chart cho tất trƣờng hợp thuộc tính dự đốn với 04 mơ hình đề xuất: Hình 15: Kết Lift Chart khơng xác định giá trị thuộc tính dự đốn Đồ thị mơ tả khả dự đốn mơ hình tất trƣờng hợp xếp loại tổng kết sinh viên Trục X trƣờng hợp giống nhƣ loại Lift Chart có giá trị thuộc tính dự đốn (là phần trăm Test Data set) Tuy nhiên, trục Y phần trăm dự đốn xác Vì mơ hình lý tƣởng (Ideal Line) đƣờng chéo - Đƣờng màu xanh blue (Ideal Model): đƣờng biểu diễn mơ hình lý tƣởng (dự đốn xác trƣờng hợp) Đƣờng cao tất đƣờng lại 47 đƣờng chéo, tức % tập dataset tỷ lệ dự đốn nhiêu (đúng 100%) - Đƣờng màu hồng (CayQuyetDinh Model): đƣờng biểu diễn khả dự đoán mơ hình Cây định - Đƣờng màu xanh nhạt (Naïve Bayes Model): đƣờng biểu diễn khả dự đốn mơ hình Nạve Bayes - Đƣờng màu tím (LuatKetHop Model): đƣờng biểu diễn khả dự đoán mơ hình Luật kết hợp - Đƣờng màu vàng (NeuralNetwork Model): đƣờng biểu diễn khả dự đoán mơ hình Neural Network Nhận xét: Trong bốn mơ hình xây dựng mơ hình Nạve Bayes cho kết tốt nhất, sau đến Neural Network, Cây định cuối mạng Luật kết hợp, cụ thể nhƣ sau: - Nhìn vào biểu đồ ta thấy đƣờng biểu diễn Naïve Bayes trên, tiếp đến Neural Network, Cây định cuối Luật kết hợp (không kể đến đƣờng lý tƣởng) - Điểm xếp hạng Naïve Bayes cao (0,87), tiếp đến Neural Network (0.86), Cây định (0,85) cuối Luật kết hợp (0,80) - Khi áp dụng dự báo 40,02% tổng số ghi tập test dataset, Naïve Bayes cho phần trăm số trƣờng hợp dự đốn xác 43,73% với xác suất dự đoán 92,92%, Neural Network cho phần trăm số sinh viên dự đốn xác 44,12% với xác suất dự đoán 82,01%, Cây định cho phần trăm số ngƣời dự đốn xác 42,94% với xác suất dự đoán 83,39% Luật kết hợp cho phần trăm số sinh viên dự đốn xác 40,59% với xác suất dự đoán 85,01% 3.4.2 Đánh giá mơ hình dự báo với Classification Matrix Classification Matrix biểu diễn so sánh kết dự đoán mơ hình KPDL với kết thực tế tập test dataset dƣới dạng ma trận Dƣới kết cụ thể 04 mơ hình: 48 Hình 16: Classification Matrix 04 mơ hình Nhật xét: Tập test dataset gồm ghi 510 sinh viên, 01 sinh viên đạt loại Xuất sắc, 28 sinh viên đạt loại giỏi, 335 sinh viên đat loại 146 sinh viên đạt loại trung bình Dƣới kết dự báo cụ thể mơ hình: - Mơ hình Nạve Bayes cho kết tốt với tỉ lệ dự báo sinh viên đạt loại Giỏi xác 19/28 = 67,86%, đạt loại Khá xác 278/335 = 82,99% dự báo đạt loại Trung bình xác 116/146 = 79,45%, tỷ lệ dự báo xác trung bình 413/510 = 80,98% - Mơ hình Neural Network cho kết tốt thứ hai với tỉ lệ dự báo sinh viên đạt loại Giỏi xác 12/28 = 42,85% (dự đoán tồi với sinh viên giỏi), đạt loại Khá xác 292/335 = 87,16% (rất tốt với sinh viên khá) dự báo đạt loại Trung bình xác 98/146 = 67,12%, tỷ lệ dự báo xác trung bình 402/510 = 78,82% - Mơ hình Cây định cho kết tốt thứ ba với tỉ lệ dự báo sinh viên đạt loại Giỏi xác 7/28 = 25% (khơng tốt dự đốn sinh viên giỏi), đạt loại Khá xác 317/335 = 94,62% (rất tốt dự đoán sinh viên khá) dự báo đạt loại Trung bình xác 77/146 = 52,73%, tỷ lệ dự báo xác trung bình 401/510 = 78,62% 49 - Mơ hình Luật kết hợp cho kết tốt với tỉ lệ dự báo sinh viên đạt loại Giỏi xác 0/28 = 0% (dự báo hồn tồn khơng xác với sinh viên giỏi), đạt loại Khá xác 323/335 = 96,41% (rất tốt với sinh viên khá) dự báo đạt loại Trung bình xác 61/146 = 41,78%, tỷ lệ dự báo xác trung bình 384/510 = 75,29% - Tất mơ hình khơng dự báo xác cho sinh viên đạt loại Xuất sắc (độ xác 0%), liệu phục vụ xây dựng mơ hình có 02 sinh viên đạt xếp loại tổng kết Xuất sắc, số lƣợng nhƣ khơng có ý nghĩa việc KPDL Hình 17: Biểu đồ so sánh mức độ xác mơ hình 3.5 Kết luận chƣơng Chƣơng trình bày việc thu thập xử lý liệu sinh viên trƣờng, xây dựng lộ trình học tƣơng ứng với ngành, từ xây dựng CSDL cho hệ thống tƣ vấn học tập Xây dựng mơ hình tƣ vấn học tập với 04 thuật toán đề xuất luật kết hợp, định, mạng nơ ron nhân tạo Naive Bayes, đánh giá mức độ xác mơ hình cho thấy mơ hình Naive Bayes cho mức độ dự đốn xác cao (80,98%), tiếp đến mơ hình Neural Network với 78,82%, sau đến Decision Tree (78,62%) thấp Luật kết hợp (75,29%) 50 Chƣơng 4.Xây dựng hệ thống tƣ vấn học tập trƣờng ĐHCNHN Với đánh giá mơ hình mục 3.3.2, mơ hình Nạve Bayes cho kết dự đoán kết học tập sinh viên với độ xác cao nên mơ hình đƣợc lựa chọn để xây dựng hệ thống tƣ vấn học tập Trong khuôn khổ luận văn, để giúp ngƣời dùng thấy đƣợc khác biệt kết dự đoán mơ hình, hệ thống tƣ vấn có đƣa thêm vào chức cho phép ngƣời dùng chọn mơ hình khác (trong 04 mơ hình xây dựng) để kiểm tra so sánh kết Hệ thống đƣợc xây dựng ngôn ngữ Visual C#.NET với hệ quản trị CSDL MS SQL Server 2008 Windows Forms (việc xây dựng Web tƣơng tự) Nếu ứng dụng triển khai thực tế nên xây dựng Web dễ dàng việc triển khai sử dụng hệ thống sinh viên nhƣ giáo viên muốn sử dụng hệ thống nhà thông qua mạng internet, nhiên ứng dụng minh họa cho kết nghiên cứu luận văn nên hệ thống tƣ vấn đƣợc xây dựng Windows Forms Hệ thống đƣợc triển khai hỗ trợ tốt cho tân sinh viên lựa chọn lộ trình học phù hợp để đạt đƣợc kết học tập cao Ngoài ra, hệ thống hỗ trợ giáo viên, nhà quản lý giáo dục việc định hƣớng cho sinh viên nhƣ lựa chọn học phần xuất nhiều lộ trình để có kế hoạch mở lớp đầu tƣ cho học phần tốt nhằm cải thiện chất lƣợng đào tạo 51 Sơ đồ hoạt động hệ thống: Begin Đọc liệu nhập vào - Duyệt toàn lộ trình học tƣơng ứng với ngành học nhập vào - Kết hợp liệu nhập vào với lộ trình Kết nối đến Analysis Services Kết nối thành công Thông báo lỗi Thực thi lệnh truy vấn DMX dự đốn kết học với lộ trình học Hiển thị kết dự đoán lên GridView theo tất lộ trình Đóng kết nối End Hình 1: Sơ đồ hoạt động hệ thống 52 Để sử dụng hệ thống, ngƣời dùng nhập vào thông tin nhƣ: ngành học, điểm thi tuyển sinh, giới tính lựa chọn mơ hình sử dụng để dự báo (nếu khơng lựa chọn mặc định hệ thống sử dụng mơ hình Nạve Bayes) Trong phạm vi thử nghiệm, chƣơng trình cho hiển thị kết dự đốn 03 mơ hình khơng đƣợc lựa chọn Luật kết hợp, Neural Network Decision Tree để mang tính chất tham khảo nhƣ đánh giá lại mơ hình dự đốn thực tế Tuy nhiên, nhƣ phân tích trên, ngƣời dùng cần tin tƣởng mơ hình Nạve Bayes đƣợc đánh giá dự đoán kết học tập với độ xác tốt Tình 1: Sử dụng hệ thống để đƣa kết tƣ vấn học tập cho sinh viên nhập học với giá trị thuộc tính đầu vào nhƣ sau: - Giới tính: Nữ - Ngành học: Kế tốn - Điểm thi tuyển sinh đầu vào: 24 - Khối thi: A Sau chạy chƣơng trình, kết tƣ vấn với mơ hình khác nhau: Hình 2: Kết tƣ vấn học tập với mơ hình Nạve Bayes 53 Hình 3: Kết tƣ vấn học tập với mô hình Cây định Hình 4: Kết tƣ vấn học tập với mơ hình Luật kết hợp 54 Hình 5: Kết tƣ vấn học tập với mơ hình Neural Network Nhận xét kết quả: - 04 mơ hình đƣa kết dự báo cho sinh viên với 12 lộ trình đƣa tƣơng ứng với ngành học sinh viên kết xếp loại trƣờng ứng với lộ trình - Mơ hình Nạve Bayes cho kết lộ trình học giúp sinh viên đạt loại giỏi, có lộ trình khiến sinh viên đạt loại - 02 mơ hình Cây định Luật kết hợp cho dự báo 01 lộ trình giúp sinh viên đạt loại giỏi cịn 11 lộ trình cịn lại khiến sinh viên xếp loại - Mơ hình Neural Network cho 02 lộ trình giúp sinh viên đạt loại giỏi 10 lộ trình cịn lại đạt loại - Theo đánh giá mơ hình từ trƣớc mơ hình Nạve Bayes cho kết dự báo tốt nên sinh viên cần lấy kết mô hình để tham khảo Cũng theo cảm tính, sinh viên thi điểm đầu vào cao học sinh nữ, học ngành kế toán nên tỷ lệ sinh viên học đạt kết giỏi cao (sinh viên nữ thƣờng chăm sinh viên nam ngành kế toán hợp với sinh viên nữ hơn) - Do kết dự đốn có tới lộ trình cho kết dự báo đạt loại Giỏi mà sinh viên đƣợc phép chọn cho lộ trình để học nên lúc sinh viên cần tham khảo thêm cột “Xác suất dự đoán” “Trƣờng hợp hỗ trợ” Nếu kết dự đốn, sinh viên nên chọn lộ trình có xác suất dự đoán trƣờng hợp hỗ trợ cao 55 Trên hệ thống, cần bấm vào cột tƣơng ứng giá trị cột xếp theo thứ tự để sinh viên dễ dàng lựa chọn Tình 2: Sử dụng hệ thống để đƣa kết tƣ vấn học tập cho hai sinh viên ngành với điểm thi nhƣ nhƣng giới tính khác nhƣ sau: - Giới tính: Nữ, Nam - Ngành học: Ngôn ngữ Anh - Điểm thi tuyển sinh đầu vào: 22 - Khối thi: D1 - Mô hình dự đốn: Nạve Bayes Sau chạy chƣơng trình, kết tƣ vấn với mơ hình khác nhau: Hình 6: Kết tƣ vấn học tập với sinh viên nam 56 Hình 7: Kết tƣ vấn học tập với sinh viên nữ Nhận xét kết quả: - Với mơ hình dự báo Nạve Bayes, hai sinh viên có thuộc tính đầu vào nhƣ nhƣng khác giới tính, cho kết tƣơng đối khác Cụ thể, 24 lộ trình học, có tới 17 lộ trình giúp sinh viên nữ đạt loại giỏi, lộ trình đạt loại Cịn với sinh viên nam có lộ trình giúp sinh viên đạt loại giỏi 23 lộ trình cịn lại loại Để xem chi tiết lộ trình học, sinh viên cần bấm chuột vào hàng tƣơng ứng bảng kết dự đốn Lộ trình hiển thị theo định dạng giới thiệu mục 3.1: Hình 8: Xem chi tiết lộ trình học 57 Sau năm học, nhà trƣờng lại có khóa sinh viên trƣờng, liệu sinh viên lại đƣợc sử dụng để xây dựng mơ hình tƣ vấn học tập Việc xây dựng mơ hình liệu sinh viên qua nhiều khóa học giúp mơ hình đạt độ xác cao khách quan Để thực việc này, ngƣời quản trị hệ thống cần bấm nút “Xây dựng CSDL” phần mềm để hệ thống cập nhật thêm liệu cho mơ hình tiến hành chạy lại mơ hình Kết luận chƣơng Chƣơng luận văn tập trung trình bày cách xây dựng hệ thống tƣ vấn học tập với đầu vào điểm thi tuyển sinh, ngành học, giới tính sinh viên, sử dụng mơ hình dự báo Naive Bayes (có cho phép lựa chọn 03 mơ hình lại để so sánh) Hệ thống hoạt động ổn định, cho kết nhanh cho phép hiển thị chi tiết lộ trình học cho sinh viên lựa chọn Trƣờng hợp có nhiều lộ trình học có kết học tập cao nhất, hệ thống đƣa thêm hai độ đo xác suất dự báo số trƣờng hợp hỗ trợ Sinh viên lựa chọn lộ trình mà hai độ đo đạt kết cao tỷ lệ dự báo đạt độ xác 58 KẾT LUẬN Từ việc nghiên cứu yêu cầu cấp thiết đặt công tác quản lý vào đào tạo trƣờng ĐHCNHN, luận văn đạt đƣợc số kết sau đây: - Xây dựng hệ thống tƣ vấn học tập với đầu vào thông tin cá nhân sinh viên nhƣ: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mơ hình dự báo Naive Bayes Hệ thống hoạt động ổn định, cho kết nhanh hiển thị kết dự đoán cho tất lộ trình học tập sinh viên (sắp xếp theo thứ tự từ cao xuống thấp), giúp sinh viên dễ dàng lựa chọn cho lộ trình học phù hợp Các độ đo nhƣ xác suất dự báo số trƣờng hợp hỗ trợ đƣợc đƣa vào để gợi ý sinh viên lựa chọn tốt (trong trƣờng hợp có nhiều lộ trình cho kết học tập cao nhất) Lộ trình đƣợc xem chi tiết theo tên mơn học kỳ học (sắp xếp theo thứ tự tăng dần học kỳ) - Hệ thống có chức cho phép ngƣời quản trị cập nhật sở liệu cập nhật lại mơ hình kết thúc năm học với khóa tốt nghiệp, qua giúp hệ thống ngày đạt độ xác cao khách quan - Với việc triển khai hệ thống thử nghiệm cho thấy khả ứng dụng kết việc dự đoán kết học tập sinh viên Hệ thống không hỗ trợ cho sinh viên mà hỗ trợ cho giáo viên chủ nhiệm, khoa chuyên ngành, phòng đào tạo quan tâm + Đối với sinh viên: giúp lựa chọn lộ trình học phù hợp với điều kiện lực thân để đạt đƣợc kết học tập tối ƣu + Đối với cố vấn học tập: tƣ vấn cho sinh viên việc chọn lộ trình học phù hợp + Đối với khoa chuyên ngành phòng đào tạo: hỗ trợ việc đánh giá chất lƣợng cho lộ trình học nhằm nâng cao, cải thiện việc xây dựng lộ trình học để phù hợp với điều kiện lực sinh viên HƢỚNG PHÁT TRIỂN Để hệ thống triển khai rộng rãi, thời gian tới phát triển hệ thống web Do phần liệu thu thập đƣợc cịn hạn chế nên độ xác mơ hình chƣa thực cao, mơ hình Nạve Bayes cho kết tốt đạt 80,98% Trong thời gian tới tơi tiếp tục cập nhật mơ hình với liệu khóa trƣờng để kết dự đoán đƣợc cải thiện Do thời gian thực luận văn không nhiều nên chắn khơng thể tránh khỏi thiếu sót Tơi mong nhận đƣợc góp ý thầy, giáo bạn đọc để luận văn đƣợc hoàn thiện Xin chân thành cảm ơn! 59 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Phan Xuân Hiếu (2013), Bài giảng môn học KPDL kho liệu, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội [2] Hà Quang Thụy (2010), Bài giảng môn học Kho liệu KPDL, Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội [3] Đỗ Phúc, Giáo trình khai thác liệu, NXB Đại học Quốc gia TP HCM, 2005 [4] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy, Một phân tích kỹ thuật dự đốn kết học tập, Khoa Công nghệ thông tin Truyền thông, Đại học Cần Thơ Tiếng Anh [5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat Data Mining with Microsoft SQL Server 2008 Published by Wiley Publishing, Inc., Indianapolis, Indiana 2008 [6] Jiawei Han and Micheline Kamber Data Mining Concepts and Techniques, Second Edition Published by Elsevier Inc 2006 [7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis Knight's Microsoft Business Intelligence 24-Hour Trainer Published by Wiley Publishing, Inc 2010 [8] Tang, Z H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis: Wiley, 2005 [9] Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press 60 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH HƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI Ngành: Cơng nghệ... mình, tơi thực đề tài luận văn ? ?ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI” Luận văn sâu vào việc khai phá liệu từ thông tin cá nhân, điểm... tốt Xây dựng chƣơng trình thực nghiệm để tƣ vấn cho sinh viên Chƣơng 1.Giới thiệu tổng quan 1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn trƣờng ĐHCNHN Trƣờng Đại học Công nghiệp Hà Nội

Ngày đăng: 29/03/2016, 21:35

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • Hà Nội, tháng 1 năm 2016 Họ và tên

  • Nguyễn Thị Thanh Hương

  • LỜI CAM ĐOAN

  • Hà Nội, tháng 1 năm 2016 Họ và tên

  • Nguyễn Thị Thanh Hương

  • MỤC LỤC

  • DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • LỜI MỞ ĐẦU

  • Giới thiệu tổng quan

    • Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường ĐHCNHN

    • 1.2. Một số hướng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay

    • 1.3. Hướng tiếp cận của luận văn

    • 1.4. Kết luận chương 1

    • Các kiến thức cơ sở liên quan

      • 2.1. Khai phá dữ liệu

        • 2.1.1. Khái niệm KPDL

        • 2.1.2. Những nhóm bài toán của KPDL

        • 2.1.3. Các bước xây dựng một giải pháp về KPDL

        • 2.1.4. Ứng dụng KPDL trong giáo dục

        • 2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo

          • 2.2.1 Cây quyết định

Tài liệu cùng người dùng

Tài liệu liên quan