Ứng dụng khai phá dữ liệu trong phân tích đánh giá kết quả học tập của sinh viên trường đại học hải phòng

54 445 4
Ứng dụng khai phá dữ liệu trong phân tích đánh giá kết quả học tập của sinh viên trường đại học hải phòng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tơi xin cam đoan thơng tin trích dẫn luận văn rõ nguồn gốc Hải Phòng, ngày 15 tháng 09 năm 2015 i LỜI CẢM ƠN Trước tiên, muốn gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn, TS Trần Đăng Hoan, khơng có hướng dẫn tận tình, chu đáo thầy tơi khơng thể hồn thành luận văn Tôi xin chân thành cảm ơn thầy giáo giảng dạy tơi suốt q trình học tập, nghiên cứu rèn luyện Trường Đại học Hàng Hải Việt Nam, kiến thức mà nhận từ thầy cô hành trang giúp vững bước tương lai Tôi xin gửi lời cảm ơn đến bạn lớp Công nghệ Thơng tin khóa 2013-2015 Trường Đại học Hàng Hải Việt Nam chia sẻ khó khăn trình nghiên cứu Tơi đặc biệt gửi lời cảm đến đồng chí Hà Khánh Lâm đồng chí Đỗ Thị Thu Thủy phòng Đào tạo trường Đại học Hải Phòng giúp đỡ tơi nhiều q trình thu thập liệu sinh viên Cuối cùng, muốn gửi lời cảm ơn sâu sắc đến tất bạn bè đặc biệt chồng kịp thời động viên, giúp đỡ tơi vượt qua khó khăn sống để hoàn thành luận văn Mặc dù có nhiều cố gắng để thực luận văn cách hoàn chỉnh nhất, song hạn chế kiến thức kinh nghiệm nên khơng thể tránh khỏi thiếu sót định mà thân chưa thấy Tôi mong góp ý q thầy, giáo bạn đồng nghiệp để luận văn hoàn chỉnh Tôi xin chân thành cảm ơn ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii LỜI MỞ ĐẦU CHƢƠNG KHÁI QUÁT PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU 1.1 Sự cần thiết ứng dụng KDD 1.1.1 Sự cần thiết KDD 1.1.2 Ứng dụng KDD 1.2 Định nghĩa nhiệm vụ KDD 1.2.1 Định nghĩa phát tri thức 1.2.2 Các nhiệm vụ KDD 1.3 Các lĩnh vực liên quan 1.4 Các trình khám phá tri thức 1.5 Những thách thức nghiên cứu ứng dụng 15 1.6 Khai phá liệu giáo dục 16 1.7 Khai phá liệu sinh viên trường Đại học Hải Phòng 17 1.8 Kết luận 17 CHƢƠNG TÌM HIỂU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU 19 2.1 Cây định 19 2.1.1 Giới thiệu 19 2.1.2 Xây dựng định 20 2.2 Thuật toán K-means 23 2.2.1 Giới thiệu 23 2.2.2 Giải thuật K-means 24 2.3 Thuật toán EM (Expectation Maximization) 24 2.4 Kết luận 26 iii CHƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC HẢI PHÒNG 27 3.1 Giới thiệu chung 27 3.2 Dự đốn nguy sinh viên thơi học 28 3.2.1 Xác định mục tiêu toán 28 3.2.2 Mô tả công cụ thử nghiệm 29 3.2.3 Mô tả liệu thử nghiệm 29 3.2.4 Khai phá liệu 33 3.2.5 Một số kết đánh giá phân tích 35 3.3 Tìm mối tương quan môn học với kết học tập sinh viên 37 3.3.1 Mục tiêu toán 37 3.3.2 Mô tả công cụ thử nghiệm 39 3.3.3 Mô tả liệu thử nghiệm 39 3.3.4 Khai phá liệu 41 3.3.5 Một số kết đánh giá phân tích 42 3.4 Kết luận 45 KẾT LUẬN .46 TÀI LIỆU THAM KHẢO 47 iv DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU Chữ viết tắt Giải thích CSDL Cơ sở liệu KDD Knowledge Discovery in Databases EM Expectation maximization DM Data Mining SQL Structured Query Language EDM Educational Data Mining v DANH MỤC CÁC BẢNG Số bảng Tên bảng Trang 2.1 Bảng liệu ví dụ sinh viên 22 3.1 Kết học tập sinh viên theo học kỳ 30 3.2 Kết học tập chuyển đổi 31 3.3 Kết học tập sinh viên theo học kỳ 38 Báo cáo kết học tập sinh viên khoa kế toán tài 3.4 3.5 38 năm 2015 Chi tiết điểm học kỳ lưu phòng Đào tạo 39 Chi tiết điểm học kỳ chuyển từ bảng điểm lưu 3.6 3.7 40 phòng Đào tạo Mô tả chi tiết cụm với thuật tốn EM k=5 42 Mơ tả chi tiết cụm với thuật toán K-means 3.8 44 k=5 vi DANH MỤC CÁC HÌNH Số hình Tên hình Trang 1.1 Nhiệm vụ KDD 1.2 Phát tri thức lĩnh vực liên quan 1.3 Quá trình Khám phá tri thức từ liệu 2.1 Mơ hình định 19 2.2 Kết định với tập liệu học bảng 2.1 22 3.1 Thống kê tỷ lệ sinh viên học theo năm học 28 3.2 Danh sách thuộc tính dùng dự đoán 34 3.3 Thiết lập tỷ lệ liệu kiểm thử 34 Kết xây dựng mơ hình dự đốn sinh viên thơi 3.4 35 học 3.5 Độ xác mơ hình dự đốn sinh viên học 37 3.6 Thiết lập tham số cho thuật toán EM với k=5 41 3.7 Thiết lập tham số cho thuật toán K-means với k=5 41 3.8 Kết phân cụm theo thuật toán EM với k=5 42 3.9 Kết phân cụm theo thuật toán K-means với k=5 43 vii LỜI MỞ ĐẦU Hiện giới khai phá liệu (data mining) phát tri thức từ sở liệu (Knowledge Discovery in Databases - KDD) áp dụng cách rộng rãi nhiều lĩnh vực khác [2] Đặc biệt, khai phá liệu giáo dục ngành năm gần thu hút quan tâm đông đảo cộng đồng khoa học Năm 2005, hội thảo mang tên "Educational Data Mining" (EDM) tổ chức Pittsburgh với Hội nghị AAAI (Association for the Advancement of Artificial Intelligence) Sau đó, hội nghị quốc tế khai phá liệu giáo dục lần tổ chức Canada hai ngày 20 21 tháng năm 2008 với mục đích tập trung nhà nghiên cứu từ nhiều lĩnh vực khác khoa học máy tính, thống kê, giáo dục, tâm lý học… để phân tích tập liệu lớn từ giáo dục tìm lời giải đáp cho câu hỏi quan trọng giáo dục Kể từ năm 2008, Hội nghị quốc khai phá liệu giáo dục (Hội nghị quốc tế EDM) tổ chức đặn hàng năm đất nước khác giới Khai phá liệu giáo dục nhằm giải đáp câu hỏi giáo dục, làm sáng tỏ tiến trình học tập từ hỗ trợ cho nhà quản lý giáo dục việc định để nâng cao hiệu suất giảng dạy học tập Với số lượng lớn (khoảng 20000 sinh viên theo học không bao gồm sinh viên theo học hệ chức, từ xa, liên thơng) việc thực cơng tác phân tích, đánh giá hiệu học tập sinh viên trường Đại học Hải Phịng gặp nhiều khó khăn Từ liệu lý lịch sinh viên, kết học tập sinh viên làm để thu thập thơng tin có ích, hỗ trợ cho việc định chẳng hạn như: Dự đoán sinh viên học bị buộc thơi học để từ có tác động kịp thời giảm số trường hợp học xuống mức thấp nhất; Dự đoán số lượng trúng tuyển từ hồ sơ đăng ký vào; dự đốn lượng thí sinh nguyện vọng một, nguyện vọng hai; Dự đoán chất lượng sinh viên từ điểm đầu vào thơng tin lý lịch; Tìm mối tương quan mơn học (Tốn, Vật lý, Hóa Học, Tiếng Anh ) với mơn học chun ngành sinh viên; Tìm nhóm sinh viên bị tụt dốc học tập… Thấy rõ vai trò tầm quan trọng EDM bối cảnh trường Đại học Hải Phòng nên lựa chọn đề tài “Ứng dụng khai phá liệu phân tích đánh giá kết học tập sinh viên trường Đại học Hải Phòng” cho luận văn tốt nghiệp CHƢƠNG KHÁI QUÁT PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU Chương trình bày tổng quan phát tri thức từ sở liệu (Knowledge Discovery in Databases), làm rõ mối liên hệ phát tri thức từ sở liệu khai phá liệu (Data Mining) KDD với lĩnh vực liên quan, chẳng hạn học máy, thống kê, sở liệu Các ứng dụng thực tế, thách thức nghiên cứu ứng dụng KDD trình bày chương 1.1 Sự cần thiết ứng dụng KDD 1.1.1 Sự cần thiết KDD Các phương thức truyền thống nhằm chuyển liệu thành tri thức phụ thuộc vào phân tích giải thích chuyên gia Chẳng hạn lĩnh vực chăm sóc sức khỏe, chuyên gia thường phải định kỳ phân tích xu hướng thay đổi liệu chăm sóc sức khỏe Sau họ lập báo cáo phân tích chi tiết để gửi lên trên, báo cáo sở để đưa định tương lai lập kế hoạch cho công tác quản lý y tế Trong nhiều lĩnh vực khác khoa học, tài chính, tiếp thị, hoạt động bán lẻ hoạt động phân tích liệu chủ yếu nhờ vào chuyên gia có kinh nghiệm [2] Với lĩnh vực trên, việc tìm kiếm thông tin từ tập liệu cách thủ cơng nhiều thời gian, tiền bạc mang tính chủ quan Trên thực tế, năm 90 với phát triển mạnh công nghệ vi xử lý, công nghệ lưu trữ, công nghệ truyền thông ứng dụng công nghệ thông tin nhiều lĩnh vực dẫn đến liệu gia tăng cách nhanh chóng, cách phân tích trở nên khơng khả thi CSDL gia tăng kích thước theo hai cách: 1.Số lượng đối tượng ghi CSDL; Số luợng trường thuộc tính đối tượng ghi Một CSDL lớn bao gồm khoảng 1.000.000.000 đối tượng ngày tăng, ví dụ liệu thiên văn Tương tự, số lượng trường tăng lên thành 100 hay 1000 trường, ví dụ liệu chẩn đoán bệnh [2] Theo số liệu thông kê vào năm 2003 hãng truyền thông AT&T tiếp nhận 275 gọi/ngày lưu trữ 26 Tb thông tin khách hàng, hãng France Telecom lưu trữ  Điểm tổng cộng  Điểm hệ số tổng cộng Nhưng thách thức đặt làm thể kết nối bảng kết học tập 3.2 bảng thơng tin tuyển sinh Khóa bảng kết học tập mã sinh viên, khóa bảng thông tin tuyển sinh số báo danh bảng kết học tập lại khơng có trường thơng tin số báo danh Thơng thường ngành học trường Đại học Hải Phòng có trường hợp sinh viên trùng họ tên năm sinh Do ta cịn cách thực kết nối thông tin bảng trường thông tin chung ngành học, họ tên năm sinh Như vậy, tập liệu thử nghiệm tập liệu bao gồm 1273 ghi sinh viên K13 K14 với thông tin lý lịch sinh viên, kết học tập sinh viên kết tuyển sinh đại học sinh viên Tập liệu tổng hợp từ liệu điểm sinh viên lưu phòng Đào tạo liệu tuyển sinh quản lý phần mềm Quản lý Tuyển sinh Bộ giáo dục nên có độ trung thực cao, đầy đủ không cần thực việc xử lý liệu thiếu, liệu nhiễu Riêng thuộc tính điểm trung bình sinh viên có giá trị xác đến hai số thập phân toán để giảm chi phí tính tốn mà cho kết xác ta cần làm trịn đến chữ số thập phân 3.2.4 Khai phá liệu Tôi thực khai phá công cụ BIDS với tập liệu gồm thông tin 1273 sinh viên K13 K14 Vì tập liệu để thực khai phá có kiểu liệu kiểu số, kiểu rời rạc, kiểu logic mục đích tốn dự đốn tơi chọn thuật tốn định Bài tốn thuộc nhóm tốn phân lớp cần xác định thuộc tính cần dự đốn (Predictable), thuộc tính đầu vào (input), khóa (key) Các thuộc tính tập liệu xác định hình 3.2 bên 33 Hình 3.2 Danh sách thuộc tính dùng dự đốn Đối với tốn phân lớp, liệu đầu vào chia ngẫu nhiên làm hai phần: Dữ liệu huấn luyện (training set) liệu kiểm thử (testing set) Do đó, cần nhập tỷ lệ hai liệu Hình 3.3 Thiết lập tỷ lệ liệu kiểm thử Tỷ lệ khuyến nghị cho mơ hình phân lớp tập liệu chia làm ba phần, hai phần dùng cho huấn luyện, phần dùng cho kiểm thử [1] 34 3.2.5 Một số kết đánh giá phân tích Kết mơ hình khai phá hình 3.4 Hình 3.4 Kết xây dựng mơ hình dự đốn sinh viên thơi học Kết cho thấy:  Mỗi nút chứa biểu đồ hình cột (màu xanh biểu diễn cho trạng thái tương ứng với trường hợp sinh viên không bỏ học, màu hồng biểu cho trạng thái tương ứng với trường hợp sinh bỏ học) cho biết tỷ lệ trạng thái thuộc tính dự đốn thỏa mãn luật nút 35  Mỗi đường từ nút gốc đến nút định dạng luật.Ví dụ bắt đầu từ nút gốc qua nút điểm tổng cộng nhỏ 0.800 đến nút phái “not false” ta rút luật sau: sinh viên có giới tính nam có điểm trung bình tồn khóa 0.8 có khả thơi học 78% Bằng cách tương tự thấy nhóm sinh viên có nguy thơi học cao bao gồm:  Những sinh viên có giới tính nam có điểm trung bình tồn khóa 0.8 có khả thơi học 78%  Những sinh viên có giới tính nữ, có điểm trung bình tồn khóa 0.8 có khả thơi học 42%  Những sinh viên thuộc nhóm ngành Việt Nam học, có điểm trung bình lớn 0.8 có địa huyện An Lão, Hải Phịng có khả thơi học 40%  Những sinh viên thuộc nhóm ngành kiến trúc, giới tính nữ, điểm trung bình lớn 0.8 khơng thuộc khu vực có khả thơi học 33% Nhóm sinh viên có nguy thơi thấp bao gồm:  Những sinh viên có điểm trung bình lớn 0.8 học ngành khác ngành Việt Nam học ngành kiến trúc có khả thơi học 2%  Những sinh viên học ngành sư phạm toán, sư phạm văn có điểm trung bình lớn 0.8 có khả thơi 1%  Những sinh viên có điểm trung bình lớn 0.8 học ngành kiến trúc có khả thơi học 5% Kết thông tin vô hữu ích cho giáo viên cố vấn học tập, chun viên phịng ban có liên quan gia đình sinh viên để từ có quan tâm, sâu sát với nhóm sinh viên thuộc nguy thơi học cao, tìm hiểu ngun nhân em thơi học để kịp thời có biện pháp phù hợp ngăn chặn trường hợp em học Chẳng hạn với em thuộc nhóm 36 có nguy thơi học thành tích học tập Nhà trường có biện pháp kèm cặp giúp em có phương pháp học tập phù hợp để nâng cao thành tích học tập Với em có thành tích học tập tốt thuộc nhóm có nguy thơi học cao giáo viên cố vấn học tập cần gần gũi em để tìm hiểu nguyên nhân em thơi học từ đưa biện pháp hợp lý Mơ hình cho độ xác 90% kết hình 3.5 Hình 3.5 Độ xác mơ hình dự đốn sinh viên thơi học 3.3 Tìm mối tƣơng quan mơn học với kết học tập sinh viên 3.3.1 Mục tiêu toán Trường Đại học Hải Phịng chuyển sang đào tạo theo học chế tín từ khóa 11 (năm học 2010-2014) địi hỏi phải xây dựng lại khung chương trình đào tạo trình độ đại học cho tất ngành Một câu hỏi quan trọng đặt phân bố học phần với số tín cách hợp lý, nên cắt giảm bớt học phần mà không ảnh hưởng đến kết học tập sinh viên Hiện tại, trường Đại học Hải Phịng cơng việc tổng hợp thông tin kết học tập sinh viên thực cán phòng Đào tạo Dựa vào bảng điểm sinh viên bảng 3.3, cán sử dụng phần mềm excel tạo báo cáo tổng hợp bảng 3.4 bên 37 Bảng 3.3 Kết học tập sinh viên theo học kỳ Lớp Số sinh viên Số sinh viên Số sinh viên Số sinh viên Số sinh viên xếp loại yếu xếp loại TB xếp loại xếp loại giỏi xếp loại XS TCDNK14A 10 20 12 TCDNK14B 31 19 TCNHK14 16 24 10 KTDNK14A 21 16 KTDNK14B 24 12 Toàn khoa 26 112 83 27 Bảng 3.4 Báo cáo kết học tập sinh viên khoa kế tốn tài năm 2015 Kết thống kê chưa góp phần giải đáp trọn vẹn cầu hỏi làm để xây dựng khung chương trình đào tạo hiệu Do đó, mục tiêu tốn đánh giá ảnh hưởng môn học đến kết học tập sinh viên để từ hỗ trợ cho nhà quản ly giáo dục xây dựng khung chương trình đào tạo hiệu có biện pháp phù hợp để nâng cao kết học tập sinh viên Tuy nhiên, hạn chế thời gian nên khuôn khổ luận văn xin trình bày tìm mối tương quan điểm mơn tiếng anh, điểm mơn tốn cao cấp điểm trung bình tồn khóa sinh viên ngành xây dựng khóa 11,12,13 38 3.3.2 Mơ tả cơng cụ thử nghiệm Tôi thực khai phá liệu cho tốn tìm mối tương quan mơn tốn cao cấp, mơn tiếng anh điểm trung bình tồn khóa sinh viên công cụ BIDS (Business Intelligence Development Studio) thuộc công cụ Microsorf SQL Server phiên 2008 3.3.3 Mô tả liệu thử nghiệm Tôi tiến hành khảo sát phận tác nghiệp liên quan đến việc quản lý điểm sinh viên thu kết sau: Đối với công tác quản lý điểm sinh viên trường Đại học Hải Phịng liệu điểm lưu trữ quản lý hai phịng sau:  Phịng khảo thí: lưu trữ bảng điểm chi tiết sinh viên dạng file excel theo môn học bao gồm điểm chuyên cần, điểm điều kiện điểm thi hết môn  Phòng Đào tạo: lưu trữ bảng điểm sinh viên dạng file excel theo kỳ bao gồm tổng điểm mơn kỳ số tín nợ tính đến thời điểm kỳ bảng sau: Bảng 3.5 Chi tiết điểm học kỳ lưu phòng Đào tạo Như với mục tiêu tốn tìm mối liên quan điểm mơn tiếng anh, mơn tốn cao cấp điểm trung bình tồn khóa sinh viên khơng quan tâm đến điểm thành phần bao gồm điểm chuyên cần, điểm điều kiện liệu lấy bảng điểm phịng đào tạo Tuy nhiên, khơng thể 39 nhập (import) file excel bảng điểm vào máy chủ CSDL định dạng file excel khơng phù hợp Do từ liệu bảng 3.5 cần chuyển bảng 3.6 hình dưới: Ho Ten NgaySinh DiemToan DienTA DTLTK Lop Khoa Nguyễn Thị Phương Anh 3/21/1995 0.47 0.47 1.00 XDK10 XD Nguyễn Thị Thảo Anh 12/31/1995 0.20 0.20 1.00 XDK10 XD Nguyễn Thị Vân Anh 11/19/1995 1.27 1.27 1.46 XDK10 XD Phạm Hồng Anh 8/30/1995 2.20 2.20 2.20 XDK10 XD Vũ Thị Phương Anh 8/14/1995 1.27 1.27 1.73 XDK10 XD Nguyễn Thị Cảnh 3/11/1995 1.67 1.67 1.67 XDK10 XD Nguyễn Mạnh Cầm 1/12/1995 1.00 1.00 1.36 XDK10 XD Mai Thị Minh Châu 5/19/1995 1.67 1.67 1.67 XDK10 XD Nguyễn Thiện Chí 12/31/1995 1.80 1.80 2.08 XDK10 XD Bảng 3.6 Chi tiết điểm học kỳ chuyển từ bảng điểm lưu phòng Đào tạo Trong đó:  DiemToan: lưu thơng tin điểm tốn cao cấp  DiemAnh: lưu thơng tin điểm tiếng anh  DTLTK: lưu thông tin điểm trung bình tích lũy tồn khóa Cơng việc chuyển đổi nhiều thời gian điểm kỳ lớp lưu file excel riêng biệt Để lấy điểm toán, điểm tiếng anh điểm trung bình tích lũy tồn khóa lớp ta phải tổng hợp liệu từ nhiều file excel Một khóa học lại có nhiều lớp nên phải thực công việc chuyển đổi nhiều lần Thêm vào đó, cơng việc chuyển đổi địi hỏi độ xác tuyệt đối, không kết khai phá không phản ánh thực tế Kết việc thu thập liệu bao gồm thông tin họ tên, lớp, khoa, điểm toán, điểm tiếng anh, điểm trung bình tích lũy tồn khóa 846 sinh viên khóa 11,12,13,14 khoa Xây dựng trường Đại học Hải Phòng Dữ liệu điểm thu thập từ phịng Đào tạo có độ trung thực cao, đầy đủ nên không cần thực việc làm liệu hay xử lý liệu thiếu 40 3.3.4 Khai phá liệu Với mục tiêu tốn tìm mối tương quan mơn tốn, tiếng anh điểm trung bình tồn khóa nên bước xây dựng mơ hình tơi chọn kỹ thuật khai phá Microsorf Clustering Thực phân cụm liệu dựa vào độ tương tự thuộc tính bao gồm: điểm tốn, điểm tiếng anh, điểm trung bình Kịch 1: Thực thuật tốn EM với số cụm k=5 Hình 3.6 Thiết lập tham số cho thuật toán EM với k=5 Kịch 2: Thực thuật tốn K-means với số cụm k=5 Hình 3.7 Thiết lập tham số cho thuật toán K-means với k=5 41 3.3.5 Một số kết đánh giá phân tích Kết thu thực phân cụm liệu theo thuật toán EM với số cụm k=5 hình 3.8 bảng 3.7 bên Hình 3.8 Kết phân cụm theo thuật tốn EM với k=5 Tên cụm Số lượng Giá trị Tỷ lệ mơn tiếng anh Tỷ lệ mơn tốn tâm cụm Cụm Cụm Cụm 234 210 192 1.68 1.77 2.16 1: khoảng 15% 1: khoảng 60% 2: khoảng 58% 2: khoảng 30% 3: khoảng 27% 3: khoảng 10% 0: khoảng 17% 1: khoảng 2% 1: khoảng 81% 2: khoảng 72% 3: khoảng 2% 3: khoảng 26% 1: khoảng 2% 1: khoảng 10% 2: khoảng 59% 2: khoảng 55% 3: khoảng 39% 3: khoảng 25% 4: khoảng 10% Cụm Cụm 108 102 1.2 0.77 0: khoảng 67% 0: khoảng 6% 1: khoảng 21% 1: khoảng 65% 2: khoảng 8% 2: khoảng 26% 0: khoảng 31% 0: khoảng 91% 1: khoảng 40% 1: khoảng 9% 2: khoảng 20% Bảng 3.7 Mơ tả chi tiết cụm với thuật tốn EM k=5 42 Từ kết khai phá với thuật tốn phân cụm EM có số cụm k=5 ta thấy hầu hết sinh viên có điểm tốn điểm tiếng anh cao có điểm trung bình cao ngược lại Cụ thể:  Cụm với số lượng sinh viên 102 cụm có thuộc tính điểm trung bình có giá thấp (bằng 0.77) thuộc tính điểm tốn có giá trị chiếm tỷ lệ chủ yếu (khoảng 91%) điểm tiếng anh có giá trị chiếm tỷ lệ chủ yếu (khoảng 60%)  Cụm với số lượng sinh viên 192 cụm có thuộc tính điểm trung bình có giá trị cao (bằng 2.16) thuộc tính điểm tốn có giá trị 2, 3, chiến tỷ lệ chủ yếu (khoảng 90%), khơng có giá trị điểm tiếng anh có giá trị chiếm tỷ lệ chủ yếu (khoảng 98%), khơng có điểm Kết thu thực phân cụm liệu theo thuật tốn K-means với số cụm k=5 hình 3.9 bảng 3.8 bên dưới: Hình 3.9 Kết phân cụm theo thuật toán K-means với k=5 43 Tên cụm Số lượng Giá trị Tỷ lệ môn tiếng anh Tỷ lệ mơn tốn tâm cụm Cụm Cụm Cụm Cụm Cụm 450 150 138 60 48 1.27 1.8 2.01 2.25 2.55 0: khoảng 31% 0: khoảng 31% 1: khoảng 46% 1: khoảng 48% 2: khoảng 27% 2: khoảng 27% 3: khoảng 6% 3: khoảng 4% 0: khoảng 24% 0: khoảng 24% 1: khoảng 36% 1: khoảng 26% 2: khoảng 40% 2: khoảng 44% 3: khoảng 24% 3: khoảng 16% 0: khoảng 0% 0: khoảng 0% 1: khoảng 34% 1: khoảng 30% 2: khoảng 36% 2: khoảng 48% 3: khoảng 30% 3: khoảng 22% 0: khoảng 10% 0: khoảng 0% 1: khoảng 10% 1: khoảng 20% 2: khoảng 40% 2: khoảng 50% 3: khoảng 40% 3: khoảng 20% 4: khoảng 0% 4: khoảng 20% 0: khoảng 0% 0: khoảng 0% 1: khoảng 0% 1: khoảng 0% 2: khoảng 36% 2: khoảng 23% 3: khoảng 52% 3: khoảng 51% 4: khoảng 12% 4: khoảng 26% Bảng 3.8 Mơ tả chi tiết cụm với thuật tốn K-means k=5 Kết khai phá với hai kịch cho thấy mơ hình khai phá sử dụng thuật toán EM cho kết tốt thuật toán K-mean nhiên hai mơ hình cho thấy sinh viên có điểm tốn điểm tiếng anh cao kết học tập cao ngược lại Như vậy, muốn sinh viên có kết học tập tồn khóa tốt em cần có kiến thức tốt tốn tiếng anh Trong trình xây dựng khung chương trình, 44 lãnh đạo khoa Xây dựng phịng ban liên quan cần phân bố hợp lý lượng tín cho hai mơn học tốn tiếng anh 3.4 Kết luận Chương trình bày chi tiết bước thực khai phá liệu với hai tốn: dự đốn nguy sinh viên thơi học tìm mối tương quan mơn học với kết học tập sinh viên Với tốn dự đốn nguy sinh viên thơi học, thực khai phá liệu kỹ thuật định với tập liệu gồm thông tin 1273 sinh viên K13 K14 dự đốn nhóm sinh viên có nguy thơi học cao Kết thơng tin vơ hữu ích cho giáo viên cố vấn học tập, chuyên viên phịng ban có liên quan gia đình sinh viên để từ có quan tâm, sâu sát với nhóm sinh viên thuộc nguy thơi học cao, tìm hiểu ngun nhân em thơi học để kịp thời có biện pháp phù hợp ngăn chặn trường hợp em học.Chẳng hạn với em thuộc nhóm có nguy thơi học thành tích học tập Nhà trường có biện pháp kèm cặp giúp em có phương pháp học tập phù hợp để nâng cao thành tích học tập Với em có thành tích học tập tốt thuộc nhóm có nguy thơi học cao giáo viên cố vấn học tập cần gần gũi em để tìm hiểu ngun nhân em thơi học từ đưa biện pháp hợp lý Với tốn tìm mối tương quan mơn học với kết học tập sinh viên thực khai phá liệu thuật toán phân cụm K-means thuật toán phân cụm EM Kết cho thấy sinh viên có điểm tốn điểm tiếng anh cao kết học tập cao ngược lại Như vậy, muốn sinh viên có kết học tập tồn khóa tốt em cần có kiến thức tốt tốn tiếng anh Trong q trình xây dựng khung chương trình, lãnh đạo khoa Xây dựng phòng ban liên quan cần phân bố hợp lý lượng tín cho hai mơn học tốn tiếng anh 45 KẾT LUẬN Luận văn trình bày chất KDD gì, bước quy trình phát tri thức thực ứng dụng khai phá liệu lĩnh vực đặc biệt lĩnh vực giáo dục Luận văn trình bày kỹ thuật khai phá liệu tác giả ứng dụng để đưa dự báo, đánh giá hiệu học tập sinh viên Đại học Hải Phịng từ hỗ trợ Ban lãnh đạo Trường đưa định để nâng cao chất lượng dạy học Đóng góp luận văn tập trung vào hai vấn đề: - Dự đốn sinh viên thơi học bị buộc thơi học để từ có tác động kịp thời - Tìm mối tương quan môn học với kết học tập sinh viên Trong thời gian tới tác giả tiếp tục ứng dụng khai phá liệu nhằm giải đáp nhiều câu hỏi quan trọng giáo dục 46 TÀI LIỆU THAM KHẢO [1] Oded Maimon, Lior Rokach Data Mining and Knowledge Discovery Handbook, Springer Science+Business Media, 2010 [2] U.Fayyad, G Piatetsky-Shapiro, P.Smyth From Data Mining to Knowledge Discovery in Databases, AI Magazine, 1996 [3]http://www.kdnuggets.com/data_mining_course/x1-intro-to-data-miningnotes.html [4] S.M.Weiss, N.Indurkhya, Predictive Data Mining A Pratical Guide, Mogan Kaufman Publisher, 1998 [5] T Mitchell Machine learning and data mining Communications of the ACM, 42(11): 30–36, 1999 [6] R.M Gray and D.L Neuhoff The history of k-means type of algorithms (lbg algorithm, 1980) IEEE Transactions on Information Theory, 44:2325–2384, 1998 [7] Bing Liu Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data Spinger, 2007 [8] U M Fayyad, G P Shapiro, P Smyth, and R Uthurusamy Advances in Knowledge Discovery and Data Mining AAAI Press, Menlo Park, CA, 1996 [9]D Hand, H Mannila, and P Smyth Principles of Data Mining The MIT Press, London, England, 2001 [10] J Han and M Kamber Data Mining: Concepts and Techniques, UniversityofIllinois, Morgan Kaufmann Publishers, 2006 47 ... toán phân cụm liệu Thuật toán K-means sử dụng rộng rãi giải thuật đơn giản, cho kết dễ hiểu 26 CHƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC HẢI... lịch sinh viên, kết học tập sinh viên kết tuyển sinh đại học sinh viên Tập liệu tổng hợp từ liệu điểm sinh viên lưu phòng Đào tạo liệu tuyển sinh quản lý phần mềm Quản lý Tuyển sinh Bộ giáo dục... (Expectation Maximization) 24 2.4 Kết luận 26 iii CHƢƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN ĐẠI HỌC HẢI PHÒNG 27 3.1 Giới

Ngày đăng: 14/10/2017, 16:29

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan