BÁO CÁO "ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN " potx

8 1.2K 15
BÁO CÁO "ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN " potx

Đang tải... (xem toàn văn)

Thông tin tài liệu

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 1 ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG CÔNG CỤ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN THE APPLICATION OF DATA MINING FOR BUILDING TOOL TO FORCAST THE LEARNING RESULTS OF STUDENTS SVTH: Nguyễn Thị Thanh Thủy Lớp 34K14, Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng GVHD: TS. Nguyễn Trần Quốc Vinh Khoa Thống kê - Tin học, Trường Đại học Kinh tế, Đại học Đà Nẵng TÓM TẮT Trên cơ sở dữ liệu thông tin tuyển sinh đầu vào và kết quả học tập đã thu thập được của sinh viên thuộc hệ đào tạo chính quy của một trường cao đẳng ở Miền Trung, đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng mô hình dự đoán kết quả học tập của sinh viên. Đề tài tiến hành so sánh kết quả của các kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác nhất. Từ đó, xây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên để tư vấn cho sinh viên chọn lộ trình học phù hợp nhất để đạt được kết quả học tập cao nhất. Từ khóa: Sinh viên; các kỹ thuật; kết quả; dự đoán kết quả học tập; dữ liệu ABSTRACT Basing on the university entrance examination enrollment and result data of students studying at a Junior college in central Viet Nam, this studies different techniques for classification tasks by exploiting the above data and applies these techniques to formulate a model for student’s academic result prediction. This also compares the effectiveness of each technique to that of the others to finally select the best one that will be used as the foundation for establishing a program of student’s academic result prediction so as to advise students the most suitable way of study for the best academic result. Key words: Student; techniques; result; academic result prediction; data 1. Đặt vấn đề Ngày nay, các trường đại họccao đẳng đã chuyển sang đào tạo theo học chế tín chỉ. Việc tư vấn học tập, chủ yếu liên quan đến việc lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm. Đó cũng là khó khăn chung không chỉ của mỗi sinh viên, mà còn của các bên tham gia tư vấn, từ các tổ chức quản lý trong trường đại học cho đến các cán bộ được phân công chuyên trách như giảng viên chủ nhiệm. Các giảng viên chuyên trách không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên. Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ để đưa ra những tư vấn tốt trong việc chọn lộ trình học cho mỗi sinh viên không phải là khả thi. Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chưa được quan tâm đúng mức. Đã có một số công trình được công bố sử dụng hồ sơ cá nhân cũng như điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc giai đoạn của sinh viên, nhưng tác giả chưa gặp công trình nghiên cứu nào có sử dụng lộ trình học để dự báo kết quả học tập. Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 2 Vì vậy, đề tài “Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên” đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên. Đề tài tiến hành nghiên cứu các kỹ thuật cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên bằng công cụ SQL Server Business Intelligence Development Studio. Từ đó, đánh giá và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụngxây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên. Kết quả dự đoán đó có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất. 2. Phân tích xây dựng mô hình Quá trình khai phá dữ liệu được tiến hành theo quy trình chuẩn, bao gồm các bước thu thập, làm sạch, trích lọc, chuyển đổi dữ liệu về dạng phù hợp, ứng dụng kỹ thuật khai phá dữ liệu để xây dựng mô hình và đánh giá kết quả thu được. Nguồn dữ liệu cho việc khai phá nhằm dự đoán kết quả học tập sẽ được thu thập từ nhiều nguồn dữ liệu khác nhau. Hồ sơ cá nhân của sinh viên đã nộp vào trường để dự tuyển được phân công nhập vào các bảng tính excel, bao gồm các thông tin như họ tên, ngày sinh, nơi sinh, phái, dân tộc, khu vực, điểm ưu tiên Ngoài hồ sơ mà thí sinh nộp vào trường còn một nguồn dữ liệu quan trọng khác đó là dữ liệu từ kết quả thi tuyển hằng năm như số báo danh, khối thi, ngành chọn thi, điểm thi các môn, điểm ưu tiên, kết quả (Đậu, Hỏng). Nguồn dữ liệu quan trọng nữa, đó là thông tin kết quả học tập toàn khoá cũng như các môn học mỗi sinh viên chọn học ở mỗi học kỳ như: mã sinh viên, ngành học, môn học, kết quả Dữ liệu cần xử lý được thu thập từ các bộ phận quản lý. Vì vậy, dữ liệu có tính trung thực cao, hầu hết đều phản ánh đúng ngữ nghĩa. Tuy nhiên, do bộ phận quản lý hay thay đổi và hệ thống lưu trữ quản lý thông tin sinh viên chưa được nâng cao, nên dữ liệu thu thập không được liên tục theo thời gian, một số trường dữ liệu bị thiếu do việc cập nhật ban đầu không đầy đủ hoặc chưa được nhập liệu. Từ đó loại bỏ ra các bản ghi có trường dữ liệu bị thiếu hoặc bị trùng lặp, các môn học, ngành học đều được quy ước mã. Kết quả, tác giả thu được gần 70.000 bản ghi về điểm tổng kết học phần và dữ liệu cá nhân, tuyển sinh cho hơn 2000 sinh viên thuộc hệ đào tạo chính quy bậc cao đẳng tại một trường cao đẳng ở Miền Trung. Dữ liệu trong các tệp excel đó được chuyển vào cơ sở dữ liệu trong hệ quản trị Microsoft SQL Server 2008 R2 bằng chức năng Import. Sau đó, chúng được tổ chức dưới dạng có thể sử dụng để khai phá bằng cách thiết kế và thực hiện các lệnh truy vấn SQL. Đối với dữ liệu cần thiết để thực hiện nghiên cứu là lộ trình học, ta không thể liệt kê và gắn với mỗi sinh viên bằng các truy vấn SQL đơn giản. Đề tài đề xuất xây dựng một công cụ riêng để thực hiện việc này bằng ngôn ngữ lập trình C#. 2.1. Bài toán liệt kê lộ trình học của từng sinh viên Lượng dữ liệu bao gồm thông tin cá nhân và tuyển sinh của hơn 2000 sinh viên thu thập được tổ chức thành một bảng tương ứng với hơn 2000 bản ghi, cùng với thông tin của 12 ngành học và 330 môn học của tất cả các ngành, cũng như gần 70.000 bản ghi chứa kết quả tổng kết học phần của số sinh viên đó. Để liệt kê tất cả các lộ trình họcsinh viên đã chọn và gắn với mỗi sinh viên, ta cần một cách thức biểu diễn lộ trình học nào đó. Tác giả Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 3 đề xuất phân biệt lộ trình học theo cách thức: a) gắn môn học theo bước học (học kỳ) và sắp xếp các bộ này theo thứ tự tăng dần của môn học; b) bỏ qua thứ tự các môn học trong một bước bằng cách sắp xếp môn học theo thứ tự bảng chữ cái; c) so sánh hai lộ trình với nhau theo từng bộ môn họchọc kỳ một từ đầu đến cuối lộ trình. Nếu hai sinh viên học các môn học giống nhau trong cùng một học kỳ nhưng thứ tự sắp xếp các môn trong cùng học kỳ khác nhau, thì để nhận dạng đây là 2 lộ trình học khác nhau, ta phải so sánh như so sánh hai tập hợp. Rõ ràng, cách tiếp cận này yêu cầu phức tạp và đòi hỏi nhiều tài nguyên hệ thống hơn. Mỗi lộ trình sẽ được gán với một mã và mã này sẽ gắn với mỗi sinh viên để xác định lộ trình học của sinh viên đó. Qua đó, có thể liệt kê danh sách tất cả lộ trình học cho từng ngành học. 2.2. Xây dựng và lựa chọn mô hình Sau khi nghiên cứu các kỹ thuật khai phá dữ liệu và các thuật toán tương ứng, đề tài đề xuất lựa chọn mô hình dự đoán kết quả học tập của sinh viên theo cách tiếp cận xây dựng nhiều mô hình khác nhau theo các kỹ thuật và trường hợp dữ liệu đầu vào cho mô hình – có hay không có lộ trình học và lựa chọn mô hình cho kết quả dự đoán tốt nhất. Các kỹ thuật khai phá dữ liệu có thể cho phép phân lớp được đề xuất sử dụng là Decision Trees (cây quyết định, DT), Association Rules (luật kết hợp, AR) [8, 9] và phân lớp Naive Bayes (NB). Dữ liệu đầu vào bao gồm các thuộc tính sinh viên, phái, khối thi, dân tộc, huyện-tỉnh, khu vực, ưu tiên, điểm thi tuyển sinh, ngành học, kết quả học tập toàn khoá và có thể mã lộ trình học. Nguồn dữ liệu bao gồm hơn 2000 bản ghi được chia thành hai tập với số lượng bản ghi tương ứng 70% để huấn luyện mô hình (Training Data: 70%) và 30% để kiểm tra mô hình (Testing data: 30%). Với công cụ Microsoft Bussines Intelligence Development Studio 2008 R2, tác giả đã xây dựng được 6 mô hình. Sau đó, dùng biểu đồ Lift Chart để kiểm tra độ chính xác của mỗi mô hình. Kết quả cho thấy nếu kết hợp với lộ trình học, việc dự đoán kết quả học tập của sinh viên sẽ chính xác hơn. Trong tường hợp này, mô hình cây quyết định đã xây dựng với khả năng đạt được mục tiêu là 96,15%, trong khi đó mô hình NaiveBayes là 93,59% và mô hình luật kết hợp cho kết quả thấp hơn nhiều. Chính vì thế, mô hình DecisionTrees được lựa chọn để xây dựng ứng dụng dự đoán kết quả học tập của sinh viên, qua đó, tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để cho kết quả học tập toàn khoá cao nhất. 2.3. Xây dựng ứng dụng dự đoán kết quả học tập Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên được xây dựng theo sơ đồ (xem Hình 1): Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 4 Hình1. Sơ đồ khối của chức năng dự đoán kết quả học tập T Begin Đọc dữ liệu do người dùng nhập vào Kết hợp tất cả các lộ trình với ngành học tương ứng Kết nối đến Analysis Services Kết nối mở Thông báo lỗi Thông báo kết nối thành công F Thực thi câu lệnh truy vấn để dự đoán kết quả học tập Hiển thị kết quả truy vấn lên DataGridView Đóng kết nối End Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 5 Để trình diễn kết quả nghiên cứu, tác giả chỉ xây dựng giao diện dự đoán kết quả học tập như trong hình vẽ bên dưới và chỉ cho phép tư vấn cho một sinh viên. Khi triển khai ứng dụng, giao diện và chức năng sẽ được xây dựng tùy vào nhóm người dùng. Chẳng hạn, với người dùng là giảng viên chủ nhiệm hoặc các cấp quản lý, ứng dụng có thể liệt kê thông tin của tất cả các sinh viên theo từng lớp, kết hợp với các lộ trình có thể, thực hiện dự báo và trên cơ sở đó cho phép tư vấn cho từng sinh viên trong lớp. Đối với sinh viên, giao diện sẽ được thiết kế trong một trang web để sinh viên có thể truy cập từ xa. Hình 2. Giao diện dự đoán kết quả học tập Khi người dùng chọn một lộ trình học, ứng dụng sẽ hiển thị chi tiết các môn học cùng với học kỳ của lộ trình học đó. Hình 3. Chi tiết lộ trình học Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 6 Ngoài ra, hệ thống cho phép xem các mô hình đã được xây dựng nhằm hỗ trợ cho người dùng cuối là các nhà quản lý, không phải là các kỹ thuật viên xây dựng mô hình. Ngoài ra, dữ liệu đào tạo trong cơ sở dữ liệu có thể được bổ sung theo thời gian, mô hình đề xuất có thể sẽ không còn là tối ưu. Vì vậy, ứng dụng cung cấp chức năng cho phép người dùng cuối – các nhà quản lý cập nhật mô hình. Để xây dựng ứng dụng với các chức năng đã nêu, tác giả đã tiến hành nghiên cứu và sử dụng thư viện API do Microsoft cung cấp cùng với ngôn ngữ truy vấn khai phá dữ liệu DMX – Data Mining Extensions. Hình 4. Giao diện xem các mô hình khai phá dữ liệu 3. Kết luận Đề tài đã nghiên cứu cơ sở lý thuyết liên quan đến ba kỹ thuật cây quyết định, luật kết hợp và Naïve Bayes, nghiên cứu quy trình triển khai ứng dụng khai phá dữ liệu. Ngoài ra, đề tài cũng tìm hiểu các vấn đề cơ bản về dịch vụ Microsoft SQL Server 2008 R2 Analysis Services và các công cụ liên quan. Đối với bài toán dự đoán kết quả học tập cuối khóa của sinh viên, đề tài đã đề xuất xây dựng sáu mô hình dự đoán dựa trên các kỹ thuật cây quyết định, luật kết hợp và Naïve Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 7 Bayes với dữ liệu đầu vào bao gồm thông tin cá nhân, điểm tuyển sinh cũng như bao gồm hoặc không bao gồm lộ trình học. Từ đó, so sánh sáu mô hình với nhau để chọn ra mô hình tối ưu. Với dữ liệu huấn luyện ban đầu, mô hình cho phép phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên, mức độ tác động của từng yếu tố đầu vào, từ đó dự đoán được kết quả học tập cuối khóa của sinh viên qua việc kết hợp thông tin đầu vào và lộ trình học. Bên cạnh đó, chuyên đề còn xây dựng được chương trình demo hiển thị các mô hình đã xây dựng đến người dùng cuối. Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu đề ra. Để đưa mô hình dự đoán vào ứng dụng một cách hiệu quả hơn thì cần tiếp tục đầu tư thu thập dữ liệu sinh viên nhiều hơn nữa. Triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên. Bản thân nhận thấy đây là hướng tiếp cận đúng đắn và có tính thực tiễn cao. Hướng phát triển của đề tài có thể nghiên cứu thêm một số mô hình mới để áp dụng vào bài toán khai phá dữ liệu giáo dục. Chẳng hạn: sử dụng các thông tin tuyển sinh đầu vào và kết quả học tập của học kì 1 để dự đoán xem kết quả học kì 2 sinh viên đạt loại gì (xuất sắc, giỏi, khá, trung bình…) hoặc sử dụng luật kết hợp để tìm ra các luật liên quan giữa các môn họcsinh viên đã học tốt hoặc chưa đạt. Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này trong việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinh viên mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và những ai quan tâm. + Đối với sinh viên: giúp cho sinh viên lựa chọn cho mình một lộ trình học phù hợp với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu. + Đối với giáo viên chủ nhiệm: hỗ trợ cho giáo viên chủ nhiệm có thể tư vấn cho sinh viên trong việc chọn một lộ trình học phù hợp. + Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên. TÀI LIỆU THAM KHẢO [1] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008 [2] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second Edition. Published by Elsevier Inc 2006 [3] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc. 2010 [4] Khai phá dữ liệu (Data Mining). http://bis.net.vn/forums/p/366/628.aspx#628 (truy cập ngày 2/3/2012) Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 Đại học Đà Nẵng năm 2012 8 [5] Developing Application that uses Analysis Services. http://social.msdn.microsoft.com/Forums/zh/sqldatamining/thread/fb74ab56-1172- 4460-8953-f566ca0a0cf3 (truy cập ngày 20/2/2012) [6] SQL server Data Mining. http://www.sqlserverdatamining.com/ssdm/Home/Downloads/tabid/60/Default.aspx (truy cập ngày 10/3/2012) [7] Nguyễn Thái Nghe, Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ. Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập. https://sites.google.com/site/ntnghe/NTNghe- studentGPAprediction.pdf?attredirects=0 (truy cập ngày 15/3/2012) [8] Mustafa Nofal, Sulieman Bani-Ahmad. Classification based on association rules mining techniques: a general survey and empirical comparative evalution. http://www.ubicc.org/files/pdf/507_507.pdf Xiaoxin Yin, Jiawei Han. CPAR: Classification based on Predictive Association Rules. www.cs.uiuc.edu/~hanj/pdf/sdm03_cpar.pdf Họ và tên: Nguyễn Thị Thanh Thủy Địa chỉ: Thanh Khê, Đà Nẵng Số điện thoại: 01675 298195 Email: nguyenthithanhthuydn@gmail.com . “Ứng dụng khai phá dữ liệu xây dựng công cụ dự đoán kết quả học tập của sinh viên đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh. cao nhất. 2.3. Xây dựng ứng dụng dự đoán kết quả học tập Với ý tưởng đã nêu, ứng dụng dự đoán kết quả học tập của sinh viên được xây dựng theo sơ đồ

Ngày đăng: 22/03/2014, 17:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan