ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỂM CỦA HỌC SINH

26 1.3K 8
ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỂM CỦA HỌC SINH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỂM CỦA HỌC SINH Bố cục luận văn gồm 3 chương: Chương 1: Tìm hiểu tổng quan về khai phá dữ liệu và kỹ thuật phân cụm dữ liệu trong KPDL. Chương 2: Tìm hiểu một số thuật toán điển hình trong phân cụm dữ liệu. Chương 3: Ứng dụng thuật toán kmeans để thử nghiệm phân cụm trên dữ liệu điểm của học sinh.

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Đỗ Văn Minh ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỂM CỦA HỌC SINH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: GS.TS. Vũ Đức Thi Phản biện 1: ………………………………………… Phản biện 2: ………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng nhiều trong các lĩnh vực khác nhau và mang lại những lợi ích to lớn. Những vấn đề được quan tâm trong khai phá dữ liệu là phân lớp, luật kết hợp, phân cụm dữ liệu… Phân cụm dữ liệu (PCDL) là quá trình tìm kiếm để phân ra các cụm dữ liệu, các mẫu dữ liệu từ tập CSDL lớn. PCDL là một trong những kỹ thuật để khai thác dữ liệu có hiệu quả. PCDL đã được ứng dụng trong nhiều lĩnh vực khác nhau: kinh tế, y học, sinh học, bảo hiểm, quy hoạch đô thị, phân đoạn ảnh … Ngành giáo dục nói chung và các trường học nói riêng có lượng dữ liệu lưu trữ khá lớn nhưng việc phân tích, đánh giá để đưa ra các chiến lược phát triển phù hợp, cung cấp chất lượng giáo dục tốt hơn và hỗ trợ các hoạt động quản lí hiện nay chưa thực sự được quan tâm đúng mức và khai thác có hiệu quả. Với những lý do như vậy tôi chọn đề tài “Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả điểm của học sinh” làm đề tài luận văn tốt nghiệp. Bố cục luận văn gồm 3 chương: Chương 1: Tìm hiểu tổng quan về khai phá dữ liệu và kỹ thuật phân cụm dữ liệu trong KPDL. Chương 2: Tìm hiểu một số thuật toán điển hình trong phân cụm dữ liệu. Chương 3: Ứng dụng thuật toán k-means để thử nghiệm phân cụm trên dữ liệu điểm của học sinh. 2 CHƯƠNG I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÂN CỤM DỮ LIỆU 1.1 Khai phá dữ liệu 1.1.1. Giới thiệu về Khai phá dữ liệu Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối thập kỷ 80 của thế kỉ XX. Khai phá dữ liệu là một lĩnh vực được nghiên cứu nhằm tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ các CSDL lớn, kho dữ liệu… Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới. Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới về KPDL liên tục được công bố. Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớn của khai phá dữ liệu. 1.1.2 Quá trình khai phá dữ liệu Về bản chất khai phá dữ liệu là giai đoạn duy nhất tìm ra được những thông tin mới, tiềm ẩn trong CSDL và chủ yếu phục vụ cho quá trình mô tả và dự đoán. Quá trình khai phá dữ liệu gồm các bước chính được thể hiện như hình sau: Hình 1.2 Quá trình khai phá dữ liệu 3 1.1.3 Các kỹ thuật khai phá dữ liệu Với mục đích mô tả và dự đoán, các kỹ thuật thường sử dụng là: - Luật kết hợp (Association rules) - Phân cụm (Clustering) - Phân lớp (Classfication) - Hồi quy (Regression) - Cây quyết định (Decision Trees) - Mạng nơ-ron (Neural Network) - Trực quan hóa (Visualization) - Biểu diễn mô hình (Model Evaluation) - Phương pháp tìm kiếm (Search Method) - Phân tích theo trình tự thời gian (Time series Analysis) 1.1.4 Ứng dụng của Khai phá dữ liệu 1.1.5 Các xu thế và vấn đề cần giải quyết trong khai phá dữ liệu 1.2 Kỹ thuật phân cụm trong Khai phá dữ liệu 1.2.1 Tổng quan về kỹ thuật phân cụm Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một kỹ thuật trong KPDL nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định. 4 Phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm. 1.2.2 Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu 1.2.2.1 Các kiểu dữ liệu và thuộc tính trong phép phân cụm 1.2.2.2 Đo độ tương đồng 1.2.3 Các yêu cầu đối với kỹ thuật phân cụm dữ liệu - Có khả năng mở rộng - Thích nghi với các kiểu dữ liệu khác nhau - Khám phá ra các cụm với hình thù bất kỳ - Tối thiểu lượng tri thức cần cho xác định các tham số vào - Khả năng thích nghi với dữ liệu nhiễu cao - Ít nhạy cảm với các tham số đầu vào - Thích nghi với dữ liệu đa chiều - Dễ hiểu, dễ cài đặt và khả thi 1.2.4 Các hướng tiếp cận trong phân cụm dữ liệu 1.2.4.1 Phương pháp phân hoạch (Partitioning Methods) chia một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập. Số các cụm được thiết lập là các đặc trưng được lựa chọn trước. Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclid. 1.2.4.2 Phương pháp phân cụm phân cấp (Hierarchical Methods) xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem 5 xét. Phương pháp này là có thể làm việc tốt với các tập dữ liệu lớn nhưng khó khăn với các cụm có hình dạng lồi. 1.2.4.3 Phương pháp phân cụm dựa trên mật độ (Density- Based Methods) nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó. Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ. 1.2.4.4 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods) thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian 1.2.4.5 Phương pháp phân cụm dựa trên mô hình (Model- Based Clustering Methods) khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Kết luận chương Chương 1 tìm hiểu những kiến thức cơ bản về khai phá dữ liệu và các kỹ thuật áp dụng trong KPDL, những ứng dụng và xu thế của KPDL, Chương này cũng tìm hiểu một hướng nghiên cứu và ứng dụng trong KPDL là phân cụm dữ liệu, gồm tổng quan về kỹ thuật phân cụm, các yêu cầu đối với kỹ thuật phân cụm, các hướng tiếp cận trong phân cụm dữ liệu, các kiểu dữ liệu, độ đo tương tự, v.v 6 CHƯƠNG II. MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH 2.1 Các thuật toán phân cụm phân hoạch 2.1.1 Thuật toán K-means Đầu vào: Một CSDL gồm n đối tượng và số các cụm k. Đầu ra: Các cụm C i (i=1, ,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu. Bước 1: Khởi tạo Chọn k đối tượng m j (j=1 k) là trọng tâm ban đầu của k cụm từ tập dữ liệu Bước 2: Tính toán khoảng cách Đối với mỗi đối tượng X i (i=1, ,n) , tính toán khoảng cách từ nó tới mỗi trọng tâm m j với j=1, ,k; sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng. Bước 3: Cập nhật lại trọng tâm Đối với mỗi j=1, ,k; cập nhật trọng tâm cụm m j bằng cách xác định trung bình cộng của các véc-tơ đối tượng dữ liệu. Bước 4: Điều kiện dừng Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi 2.1.2 Thuật toán PAM Đầu vào: Số cụm k và một cơ sở dữ liệu D chứa n đối tượng Đầu ra: Một tập k cụm đã tối thiểu hoá tổng các độ đo không tương đồng của tất cả các đối tượng tới medoid gần nhất của chúng 7 Bắt đầu 1. Chọn tuỳ ý k đối tượng đại diện ban đầu; 2. Repeat 3. Ấn định mỗi đối tượng vào cụm có các đối tượng đại diện (medoid) gần nó nhất; 4. Lựa chọn ngẫu nhiên một đối tượng không điển hình o random 5. Tính hàm mục tiêu S (tổng các độ đo tương đồng của tất cả các đối tượng tới medoid gần nhất cùa chúng) bằng việc tráo đổi o j với o random ; 6. Nếu S<0 tráo đổi o j với o random để tạo thành các tập mới của k đối tượng đại diện; 7. Until không có sự thay đổi nào Kết thúc 2.1.3 Thuật toán CLARANS For i=1 to numlocal do Begin Khởi tạo ngẫu nhiên k đối tượng medois j = 1; while j < maxneighbor do Begin Chọn ngẫu nhiên một láng giềng R của S. Tính toán độ phi tương tự về khoảng cách giữa 2 láng giềng S và R. Nếu R có chi phí thấp hơn thì hoán đối R cho S và j=1 ngược lại j++; End; 8 Kiểm tra khoảng cách của phân hoạch S có nhỏ hơn khoảng cách nhỏ nhất không, nếu nhỏ hơn thì lấy giá trị này để cập nhật lại khoảng cách nhỏ nhất và phân hoạch S là phân hoạch tốt nhất tại thời điểm hiện tại. End. 2.2 Các thuật toán phân cụm phân cấp 2.2.1 Thuật toán BIRCH Bước 1: Duyệt tất cả các đối tượng trong CSDL và xây dựng một cây CF khởi tạo. Một đối tượng được chèn vào nút lá gần nhất tạo thành cụm con. Nếu đường kính của cụm con này lớn hơn T thì nút lá được tách. Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết. Bước 2: Nếu cây CF hiện thời không có đủ bộ nhớ trong thì tiến hành xây dựng một cây CF nhỏ hơn bằng cách điều khiển bởi tham số T (vì tăng T sẽ làm hoà nhập một số các cụm con thành một cụm, điều này làm cho cây CF nhỏ hơn). Bước này không cần yêu cầu bắt đầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn. Bước 3: Thực hiện phân cụm: Các nút lá của cây CF lưu giữ các đại lượng thống kê của các cụm con. Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm thí dụ như k- means và tạo ra một khởi tạo cho phân cụm. Bước 4: Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các cụm đã được khám phá từ bước 3: Đây là một bước tuỳ chọn để duyệt lại tập dữ liệu và gán nhãn lại cho các đối tượng dữ liệu tới các trọng tâm gần nhất. Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoại lai [...]... thể đánh giá chính xác kết quả học tập của học sinh và từ đó các nhà trường chưa có được các các biện pháp giáo dục phù hợp nhất Vì vậy, tôi có ý tưởng áp dụng kỹ thuật phân cụm trong khai phá dữ liệu để phân tích, đánh giá dữ liệu điểm của học sinh 3.2 Giải quyết vấn đề 3.2.1 Xác định bài toán Dữ liệu vào (Input): Dữ liệu được thu thập từ ĐTB, điểm tổng kết cuối học kì, cuối năm học của học sinh Dữ liệu. .. biểu đồ của các cụm và thông tin chi tiết cụm (tên học sinh trong cụm, các dữ liệu điểm tương ứng của từng học sinh, thống kê số lượng theo từng lớp) … các kết quả phân cụm có thể xuất ra tệp Excel để tiện sử dụng cho nhiều công việc khác 18 Hình 3.2 Giao diện nhập và xem dữ liệu 3.3 Kết quả thử nghiệm Trên thực tế, kết quả học tập của học sinh được đánh giá dựa trên học lực và hạnh kiểm Trong luận... toán k-means trong chương trình phân cụm học sinh theo kết quả điểm trung bình môn học và điểm trung bình cuối kì, cuối năm học nhằm hỗ trợ phân tích, đánh giá kết quả học tập của học sinh đa chiều hơn, đa dạng hơn và giúp Ban giám hiệu Nhà trường, các nhà quản lý giáo dục có thêm cơ sở để đánh giá đúng đắn nhất, chính xác nhất về tình hình học tập của học sinh, hoạt động giảng dạy của giáo viên từ... (Output): Các cụm học sinh được phân nhóm theo kết quả ĐTB của một hay một số bộ môn, hoặc phân cụm theo ĐTB học kỳ, ĐTB cả năm 17 Dựa vào những kết quả phân cụm người quản lí sẽ có những định hướng cho việc dạy và học của giáo viên và học sinh, đánh giá được năng lực học tập hiện tại của các nhóm học sinh dựa trên CSDL đưa vào 3.2.2 Lựa chọn thuật toán Trong các thuật toán phân cụm dữ liệu đã tìm hiểu... chỉ phân tích các dữ liệu về ĐTB của học sinh (đánh giá về học lực) Có 5 mức xếp loại học lực của học sinh: Giỏi, Khá, Trung bình, Yếu, Kém Vì vậy, trong quá trình thử nghiệm tôi chọn số cụm để phân tích từ 3 đến 5 cụm và có thể phân tích theo ĐTB cuối mỗi học kì hoặc ĐTB cuối năm học 19 3.3.1 Phân cụm theo ĐTB cả năm Hình 3.3 Phân cụm dữ liệu theo điểm trung bình cả năm Ví dụ, từ kết quả phân cụm. .. để tiện sử dụng Sau khi nhập dữ liệu người sử dụng có thể xem lại dữ liệu theo từng năm học và từng khối lớp - Phân cụm dữ liệu theo ĐTB cả năm hoặc phân cụm theo ĐTB một hoặc nhiều môn học: Chương trình cho phép chọn năm học, khối lớp cần phân tích, số cụm muốn phân tích, các môn học được phân tích … trong phần Tùy chọn phân cụm Phần hiển thị kết quả phân cụm đưa ra thông tin các cụm: tên cụm, số phần... để các em có môi trường học tập tốt nhất 21 Hình 3.4 Phân cụm dữ liệu theo điểm trung bình môn học 3.3.3 Phân cụm dữ liệu điểm trên phần mềm WEKA và SPSS Phân cụm dữ liệu điểm trên phần mềm WEKA: - Các học sinh có học lực khá tập trung ở cụm 0 và cụm 3 - Các học sinh có học lực trung bình tập trung ở các cụm 1, cụm 2 và cụm 4 22 Số học sinh có học lực trung bình chiếm tỷ lệ tương đối cao (khoảng 60%),... Việc phân cụm các học sinh chính là việc nhóm các học sinh có khả năng học tốt hay học yếu ở cùng một số môn học vào một cụm Nói cách khác, phân cụm học sinh là quá trình nhóm các học sinh có sự tương đồng về điểm số vào một cụm Các học sinh ở các cụm khác nhau thì có đặc tính điểm số khác nhau Từ những kết quả phân cụm, các nhà quản lí, các giáo viên có thể đưa ra các chiến lược đào tạo để bồi dưỡng học. .. + Đánh giá kết quả thử nghiệm: Các chương trình như WEKA, SPSS thường chỉ đưa ra trọng tâm các cụm và thống kê số phần tử và tỷ lệ trong từng cụm Kết quả đó chưa hỗ trợ tốt cho việc phân tích và đánh giá kết quả học tập của học sinh Với chương trình ứng dụng tôi xây dựng phần nào đã hỗ trợ tốt hơn khi đưa ra được thông tin các cụm, đồ thị tương ứng và danh sách học sinh tương ứng trong từng cụm Kết. .. dạy -học với một số lớp như 12A12 (có 25 em xếp loại trung bình, 15 em khá giỏi), lớp 12A1 có sự phân cấp quá rõ ràng giữa 2 loại học sinh khá giỏi và yếu kém, cần có biện pháp hay kế hoạch phụ đạo các học sinh yếu kém - So sánh với kết quả phân cụm trên dữ liệu điểm của học kì 1 và kết quả phân cụm học sinh năm học trước (năm 2011) cho thấy sự ổn định và tiến bộ trong việc học tập của học sinh 3.3.2 Phân . o random 5. Tính hàm mục tiêu S (tổng các độ đo tương đồng của tất cả các đối tượng tới medoid gần nhất cùa chúng) bằng việc tráo đổi o j với o random ; 6. Nếu S<0 tráo đổi o j với o random . thúc 2.1.3 Thuật toán CLARANS For i=1 to numlocal do Begin Khởi tạo ngẫu nhiên k đối tượng medois j = 1; while j < maxneighbor do Begin Chọn ngẫu nhiên một láng giềng R của S. Tính. các đối tượng tới medoid gần nhất của chúng 7 Bắt đầu 1. Chọn tuỳ ý k đối tượng đại diện ban đầu; 2. Repeat 3. Ấn định mỗi đối tượng vào cụm có các đối tượng đại diện (medoid) gần nó nhất;

Ngày đăng: 23/10/2014, 20:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan