Đồ án tốt nghiệp đại học tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

MỤC LỤC 1.2 Những thách thức Khai phá liệu 1.3 Những vấn đề trọng Khai phá liệu 11 CHƯƠNG II: PHÂN LỚP DỮ LIỆU .12 2.1 Bài toán phân lớp 12 2.1.1 Phát biểu toán 12 2.1.2 Một số ứng dụng toán phân lớp 12 2.2 Các kỹ thuật phân lớp .13 2.2.1 Kỹ thuật sử dụng khoảng cách 13 2.2.2 Kỹ thuật phân lớp theo tiếp cận thống kê xác xuất 17 2.2.3 Cây định 30 2.2.4 Mạng neural 40 2.2.5 Các kỹ thuật khác .54 Bảng từ viết tắt Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Khai phá liệu KPDL Data Mining LỜI NÓI ĐẦU Trong thời đại ngày nay, Internet phát triển rộng lớn khắp toàn cầu, với bùng nổ ngành Công nghệ thông tin điều kiện phát triển nó, cơng nghệ lưu trữ liệu phục hồi liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Chính lý mà sở liệu quan, doanh nghiệp, đơn vị, trường học ngày nhiều thông tin tiềm ẩn, phong phú đa dạng; đặc biệt việc học tập các môn học của học viên, các nhà trường đã nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, sử dụng tri thức chiết xuất từ sở liệu để phục vụ cho việc dự đoán phân loại học viên các môn học tiếp theo quá trình học tập của học viên tại nhà trường Trước điều kiện yêu cầu đặt nhiệm vụ đào tạo, đòi hỏi phải có phương pháp nhanh, phù hợp, tự động, xác có hiệu để lấy thơng tin có giá trị Khai phá liệu kỹ thuật áp dụng hiệu phục vụ cho mục đích này; khâu q trình khám phá tri thức, khai phá liệu làm nhiệm vụ trích xuất thơng tin có giá trị tiềm ẩn kho liệu; nay, kỹ thuật áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: y tế, marketing, ngân hàng, viễn thông, Internet,… Khơng phủ nhận lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại Nhận thấy tầm quan trọng vấn đề này, nợi dung đờ án tớt nghiệp em nghiên cứu kỹ thuật khai phá liệu, tập trung sâu nghiên cứu lĩnh vực phân lớp dữ liệu và tìm luật kết hợp khai phá liệu với mục đích dựa kết học tập của các học viên, sinh viên mà cụ thể liệu điểm của các môn học để phân lớp học viên và tìm mối liên hệ mơn học, tìm sự phụ tḥc của các môn học Cung cấp thêm thông tin việc học tập của học viên, sở thích, sự say mê, ham học hỏi của học viên cho giáo viên, nhà trường; giúp họ có được những thông tin cần thiết, quan trọng; giảm bớt thời gian tìm hiểu, phân tích, đánh giá, có được sở tin cậy, chính xác giúp ích việc học tập và giảng dạy Em xin chân thành cảm ơn thầy giáo hướng dẫn tận tình hướng dẫn, bảo, giúp đỡ cho em q trình làm đờ án em hồn thành đờ án tớt nghiệp CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu q trình khai thác thơng tin tiềm ẩn có tính dự đốn, thơng tin có nhiều ý nghĩa từ sở liệu lớn, coi bước trình khám phá tri thức (Knowledge Discovery in Databases – KDD) Khai phá liệu giai đoạn quan trọng tiến trình khám phá tri thức từ sở liệu, tri thức có nhiều ý nghĩa, sở hỗ trợ việc định khoa học kinh doanh Các bước trình khám phá tri thức: - Làm liệu (Data cleaning): loại bỏ liệu nhiễu liệu khơng thích hợp - Tích hợp liệu (Data Intergration): Tích hợp liệu từ nguồn khác CSDL, kho liệu, file text, - Trích chọn liệu (data selection): trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu (database, data warehouses,…) theo số tiêu chí định - Biến đổi liệu (data transformation): chuẩn hoá làm mịn liệu, đưa liệu dạng thuận lợi nhất, phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp - Khai phá liệu (data mining): giai đoạn thiết yếu, bước quan trọng tốn nhiều thời gian tồn q trình khám phá tri thức, bước áp dụng kỹ thuật khai phá để khai thác, trích xuất thơng tin có ích, mẫu điển hình, mối liên hệ đặc biệt có nhiều giá trị, mang nhiều ý nghĩa từ liệu - Đánh giá mẫu (Pattern Evaluation): đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo - Trình diễn liệu (knowledge presentation): sử dụng kỹ thuật trình diễn trực quan hoá liệu để biểu diễn tri thức khai phá cho người sử dụng Hình 1.1 Các bước q trình khám phá trí thức Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ Cơ sở dữ liệu, thống kê, trực quan hoá Tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật mạng nơron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri thức,… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt, cụ thể:  Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của hệ chuyên gia thường ở mức chất lượng cao nhiều so với các dữ liệu sở dữ liệu và chúng thường chỉ bao hàm được các trường hợp quan trọng Ngoài ra, các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được  So sánh với phương pháp học máy, khai phá dữ liệu có lợi thế ở chỗ, khai phá dữ liệu có thể sử dụng với các sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong đó, phương pháp học máy chủ yếu được áp dụng các sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn  Phương pháp thống kê là một những nền tảng lý thuyết của Khai phá dữ liệu phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:  Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc rất nhiều các sở dữ liệu  Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực  Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được  Phương pháp thống kê còn có sự hướng dẫn của người dùng để xác định phân tích dữ liệu thế nào và ở đâu Các kỹ thuật khai phá liệu chia làm nhóm chính: - Kỹ thuật khai phá liệu mô tả: mô tả tính chất đặc tính chung liệu CSDL, kỹ thuật gồm có: phân cụm (clustering), tóm tắt (sumerization), trực quan hố (visualization), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules),… - Kỹ thuật khai phá liệu dự đoán: đưa dự đoán dựa vào suy diễn liệu thời, kỹ thuật gồm có: phân lớp (classification), hồi quy (regression),… Các tốn khai phá liệu: tốn thơng dụng phổ biến là: - Bài toán phân lớp liệu hồi quy: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân lớp + Xây dựng mơ hình: mơ hình xây dựng việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có giám sát, khác với phân cụm liệu học khơng có giám sát + Sử dụng mơ hình để phân lớp liệu: trước hết ta tính tốn độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai Phương pháp hồi quy khác với phân lớp liệu chỗ, hồi quy dùng để dự đốn giá trị liên tục cịn phân lớp liệu dùng để dự đốn giá trị rời rạc - Bài toán phân cụm (clustering/segmentation): Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học không giám sát Không giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luỵện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Với phương pháp ta biết kết cụm thu bắt đầu q trình, ln cần chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web…Ngồi ra, phân cụm liệu cịn sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác - Bài toán luật kết hợp: dạng biểu diễn tri thức dạng đơn giản, mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm được, ví dụ: “75% học viên học tốt môn cấu trúc dữ liệu và giải thuật thì học tốt môn lập trình hướng đối tượng, 30% sinh viên học tốt cả môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng” Ở đây, “học tốt môn cấu trúc dữ liệu và giải thuật” vế trái luật, “học tốt môn lập trình hướng đối tượng” vế phải luật, số 75% độ tin cậy luật, số 30% độ hỗ trợ luật Độ hỗ trợ độ tin cậy độ đo đặc trưng và quan trọng luật Chúng tương ứng phản ánh hữu ích chắn luật khám phá Độ hỗ trợ 30% có nghĩa 30% tất học viên phân tích học viên đồng thời học tốt cả hai môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng Độ tin cậy 75% có nghĩa 75% học viên học tớt mơn cấu trúc dữ liệu và giải thuật cũng học tốt mơn lập trình hướng đới tượng Ngồi cịn số toán khác như: - Bài toán khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian - Bài tốn mơ tả khái niệm (concept description & summarization): tập trung vào việc mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn bản, mơ tả khái niệm,… Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu mang lại Những ứng dụng điển hình khai phá liệu:  Phân tích liệu hỗ trợ định (data analysis and decision support)  Text mining & Webmining: phân lớp văn trang Web, tóm tắt văn bản, tìm kiếm thơng tin,…  Tin – sinh: tìm kiếm, đối sánh quan hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền,…  Điều trị y học: (medical treatment): mối liên hệ triệu chứng, chẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, …)  Tài thị trường chứng khoán (finance & stock market): phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán,… Những ứng dụng thực tế: + Ngành bảo hiểm y tế Australia dựa vào việc chẩn đoán bệnh y tế dựa kết xét nghiệm phát nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm triệu USD/năm + Trang Web mua bán qua mạng Amazon.com tăng doanh thu nhờ áp dụng khái phá liệu việc phân tích sở thích mua bán khách hàng + Bitish Telecom phát nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu USD 1.2 Những thách thức Khai phá liệu • CSDL có kích thước lớn: Các CSDL có tới hàng trăm bảng, bảng hàng trăm trường, số lượng ghi cỡ hàng triệu, kích thước CSDL dạng mức gigabyte • Số chiều liệu nhiều: Một vấn đề khó khăn giải toán KPDL số chiều liệu lớn (số thuộc tính, số biến) Việc gia tăng số chiều khiến thuật tốn tìm kiếm khơng gian tìm kiếm khơng mở rộng khó đạt hiệu • Over-fitting: Với hệ thống KPDL theo mơ hình học có giám sát, tức học quy nạp rất diễn tình trạng hệ thống học vẹt, tập liệu huấn luyện kết tốt, tập kiểm tra kết tồi Đây vấn đề mang tính chất cố hữu hệ thống học máy • Sự thay đổi liệu tri thức: Sự thay đổi nhanh chóng liệu làm cho hệ thống KPDL xây dựng trước hoạt động khơng xác Các thuộc tính đầu vào hệ KPDL q trình thực tế, bị chỉnh sửa, loại bỏ… • Dữ liệu nhiễu, liệu không đầy đủ: Vấn đề xử lý liệu không đầy đủ lẫn nhiễu trở thành phần tồn q trình KPDL Vấn đề trở nên nghiêm trọng liệu ứng dụng thực tế có tỷ lệ lỗi lên đến 20% • Mối quan hệ phức tạp lĩnh vực: Cấu trúc hình thuộc tính giá trị, mối quan hệ thuộc tính, thuộc tính ẩn, có tính trừu tượng cao… địi hỏi phải có thuật tốn đủ mạnh để giải • Khả giải thích: Một số hệ thống KPDL yêu cầu tính giải thích tri thức rút từ liệu Những tri thức mơ tả dạng tập luật, mơ hình đồ thị, ngôn ngữ tự nhiên hay sử dụng kỹ thuật trực quan hoá liệu tri thức… 10 - nút chuyển thành nút số nút vượt ngưỡng + Sau xây dựng hash-tree cho Ck, hàm tìm ứng cử viên chứa t sau: - nút lá, tìm tập item chứa t - nút có qua việc băm item i, hash on item sau i t, áp dụng cách đệ quy tới nút bucket tương ứng - nút gốc, hash on item t Bước kết hợp sử dụng Hash Tree Chỉ tập phổ biến k-1 item có cha chung xem xét cho bước kết hợp Vì việc kiểm tra tất tập k-1 item L k-1 tránh Bước tỉa sử dụng Hash Tree Để xác định tập k-1 item có phổ biến khơng, tìm tập item có cha chung tránh việc phải qua tất tập k-1 item Lk-1 Các ưu điểm thêm vào hash tree Bộ đếm thay đường ngang cây, ví dụ: khơng cần thiết phải đếm tất k tập giao dịch, xem xét bị giới hạn tree traversal Tốc độ tìm kiếm kết nối Tìm kiếm kết hợp tập ứng cử viên nhanh chóng qua sử dụng đếm hash để lọc ứng cử viên, đếm tập ứng cử viên k-1 item, thực đếm cho “hash-groups” tập k-item thay cho việc đếm tất tập k-item, thủ tục giải thích Sử dụng hàm hash h tập k-item 77 Với giao dịch t, tập k-item s tập t thêm vào đếm h(s) Xoá tất ứng cử viên q (được tạo Apriori) cho h(q)’s count in < minsup Ví dụ: có tập liệu giao dịch D = [134, 235, 1235, 25] giả sử hash function h là: h(x,y) = ((bậc x)* 10 + (bậc y)) mod với bậc 1, tương tự ta có h(1,4) = 0; h(1,5) = 1, h(2,4) = 3,… bucket0 bucket1 bucket2 bucket3 bucket4 bucket5 bucket6 14 15 23 24 25 12 35 counts 13 34 3 Bảng 3.2 Bảng thể hiện giá trị của bộ đếm hash Tập – item hashed thành bucket khơng phải phổ biến (ví dụ 15, 12), ta loại bỏ chúng từ C2 ** Hash tree làm giảm số phép so sánh, lưu trữ tất tập ứng cử viên cấu trúc hash Thay cho việc phải nối giao dịch dựa vào tập ứng cử viên, việc nối chúng dựa vào tập ứng cử viên chứa hashed buckets Hình 3.6 Cấu trúc hash bucket 78 Ví dụ: Tạo Hash Tree Giả sử ta có 15 tập ứng cử viên có chiều dài 3: {1, 4, 5}, {1, 2, 4}, {4, 5, 7}, {1, 2, 5}, {4, 5, 8}, {1, 5, 9}, {1, 3, 6}, {2, 3, 4}, {5, 6, 7}, {3, 4, 5}, {3, 5, 6}, {3, 5, 7}, {6, 8, 9}, {3, 6, 7}, {3, 6, 8} Ta cần: + hash function (hàm băm) + max leaf size (kích thước lớn nút lá): số itemset lớn lưu trữ nút (nếu số tập ứng cử viên vượt kích thước lớn nút lá, thực chia nút) Hình 3.7 Cây Hash Tree Hình 3.8 Tạo sử dụng hash function (hash on 1, or 7) 79 Hình 3.9 Tạo sử dụng hash function (hash on 2, or 8) Hình 3.10 Tạo sử dụng hash function (hash on 3, or 9) Subset Operation (Phép toán tập con): Cho giao dịch t, có tập có kích thước 3? 80 Hình 3.11 Phép toán tập Phép toán tập sử dụng Hash Tree Hình 3.12 Phép toán tập sử dụng Hash Tree 81 Hình 3.13 Phép toán tập sử dụng Hash Tree Hình 3.14 Phép toán tập sử dụng Hash Tree 82 3.3.4 Thuật tốn Eclat (tìm tập phổ biến) Eclat biến đổi sở liệu theo chiều dọc, thay liệt kê tất gao dịch, ta liệt kê tất item có giao dịch, cột item Mỗi cột item lưu danh sách TID giao dịch mà xuất Ví dụ: Hình 3.16 Biểu diễn dữ liệu theo chiều dọc Để tính độ hộ trợ tập k items ta cho danh sách TID tập (k-1) items giao với Hình 3.17 Lấy giao của tập items để tính đợ hỡ trợ Có cách tiếp cận: top-down, bottom-up, hybrid Ưu điểm: tính tốn độ hỗ trợ nhanh Nhược điểm: TID-list trung gian lớn với nhớ 83 Ví dụ tìm tập phổ biến theo thuật toán Eclat Hình 3.18 Ví dụ tìm tập phổ biến theo thuật toán Eclat 84 CHƯƠNG IV: CÀI ĐẶT THUẬT TỐN 4.1 Cài đặt thuật tốn Thuật tốn cài đặt chương trình thuật tốn K-means và thuật toán Apriori, nội dung thuật toán trình bày chương trước, chương thể cách cài đặt thuật toán, thuật toán xây dựng theo các lớp, mỗi lớp có file có đuôi (.cs), cụ thể có các lớp: K-Means: chức chủ yếu của lớp này là để phân lớp dữ liệu Apriori: chức chủ yếu lớp tìm tập item phổ biến và tạo luật kết hợp, phương thức chính: Candidates(tạo tập ứng cử viên), prune (tỉa, bỏ tập item không thoả mãn tính chất tập item phổ biến ), GenerateRules (sinh các luật), Processing (tìm tập phổ biến lớn nhất và tạo luật), 4.2 Chạy thuật toán với bộ dữ liệu điểm của học viên 4.2.1 Xử lý dữ liệu Dữ liệu lưu trữ CSDL dạng bảng, điểm của mỗi môn học lưu trữ cột (dữ liệu chạy chương trình là dữ liệu điểm của trường THPT Công Nghiệp – Hoà Bình) Để thuận tiện chạy thuật toán K-means ta phân các học viên làm lớp: Giỏi, Khá và Trung Bình; Đối tượng cần phân lớp là các học viên; Số thuộc tính là các môn học Sau phân lớp học viên xong ta tiến hành tìm luật theo thuật toán Apriori Để chạy thuật toán Apriori ta phải nhập ngưỡng điểm đối với từng lớp đã phân theo thuật toán K-means Ta tiến hành chuẩn hoá dữ liệu thay thế điểm các môn học bằng Id môn học nếu điểm lớn bằng ngưỡng điểm và tiến hành tìm luật 85 4.2.2 Thiết kế giao diện Giao diện chính của chương trình Hình 4.1 Giao diện chính Form Phân lớp và Tìm luật: ô TextBox phía của form để nhập tên bảng dữ liệu, liệu lấy trực tiếp từ CSDL Nút Button “Phân lớp dữ liệu” thực hiện phân lớp từ bảng dữ liệu đã nhập vào, kết quả phân lớp được thể hiện các Tab tương ứng Với từng Tab có một DataGridView ở bên trái để thể hiện chi tiết về các học viên đã được phân lớp Phía bên phải có ba TextBox cho phép nhập Ngưỡng điểm, Độ hỗ trợ và Độ tin cậy Nút Button “Tìm luật” thực tìm luật kết hợp từ liệu được phân lớp, kết quả được thể DataGridView ở bên dưới Để xem thêm chi tiết về nội dung của luật, ta đặt chuột vào từng luật để đọc thông tin được thể hiện màn hình 86 RichTextBox phía dưới, đó có diễn giải những giá trị số đặc trưng cho luật Hình 4.2 Giao diện của form Phân lớp và Tìm luật Số lượng luật thu giải giáp gồm luật có giá trị cao (Sau phân lớp các luật tìm được có độ hỗ trợ và độ tin cậy khá cao) Đây tri thức chiết xuất trình khai thác Vấn đề đặt phải ứng dụng hiệu luật vào quá trình giảng dạy và học tập của học viên sống dựa vào đặc điểm tính chất ứng dụng luật ứng với luật tập luật Việc sử dụng hàm đánh giá để xem xét tiền đề, kết luật đạt tập luật, giai đoạn mang tính tư quan trọng ta ứng dụng thực tế Từ ghi nhận đến ghi nhận tính ứng dụng cho luật, trình tốn nhiều thời gian, song 87 kết đạt hữu ích cho lãnh đạo, giáo viên việc phân loại học viên và quá trình giảng dạy, học tập thời gian tới Tính ứng dụng tri thức chiết xuất giúp cho lãnh đạo, giáo viên thấy với mỗi lớp học viên những môn học nào thường học tớt cùng bởi các sinh viên, từ tìm hiểu nắm bắt sở thích người học đồng thời thúc đẩy nhà lãnh đạo, quản lý, giáo viên theo dõi các học viên học tốt thời gian trước đó để làm sở bồi dưỡng, nâng cao chất lượng dạy và học thời gian tới Với tính ứng dụng khai thác luật kết hợp sở liệu, không vậy, kết khai thác lưu trữ sở liệu tri thức để phục vụ cho mục đích xây dựng hệ chuyên gia sau 88 KẾT LUẬN Trong thời gian nghiên cứu, thực hiện kết quả mà đồ án đã đạt là: - Nắm bắt đưa nội dung khái quát nhất, nhất, nêu bật ý nghĩa, tầm quan trọng việc phân lớp dữ liệu và luật kết hợp khai phá liệu - Trình bày tương đối đầy đủ, chi tiết thuật toán từ đơn giản đến phức tạp để phân lớp dữ liệu và tìm luật kết hợp - Cài đặt thuật toán K-means và thuật toán Apriori chạy với liệu thực - Thiết kế, xây dựng chương trình ứng dụng phân tích kết học tập của học viên dựa việc phân lớp dữ liệu và tìm luật kết hợp từ điểm các mơn học của học viên - Phân tích, đánh giá kết tìm khả ứng dụng luật thực tế Những kết đạt chức hệ thống, để có chương trình chạy tốt, hiệu hệ thống cần có thời gian chỉnh sửa, bổ sung, hoàn thiện cách chi tiết đầy đủ Hướng phát triển: thuật toán phân lớp và tìm luật kết hợp mặc kết tốt thời gian chạy chương trình lâu, nhiều phép tính tốn, hướng phát triển đề tài nghiên cứu, tìm hiểu cải tiến thuật toán để phân lớp và tìm luật kết hợp nhanh chóng, giảm phép tính tốn, tăng hiệu thực hiện, giảm bớt thời gian chạy chương trình Việc cải tiến thực sau: Cải tiến cấu trúc nhằm lưu trữ liệu thích hợp cho thuật tốn Cải tiến cách thực thi thuật toán sở song song hoá dựa phát triển công nghệ chế tạo 89 TÀI LIỆU THAM KHẢO Byung-Hoon Park and Hillol Kargupta; Distributed Data Mining: Algoriths, Sestems… – Department of Computer Science and Electrical Engineering Universty of Margland Baltimore County 1000 Hillol Cricle Baltimore, MD 21250 Data mining Concepts and techniques Data Mining Algorithms Journal, 2002 http://www.cs.uh.edu/~ceick/6340/grue-assoc.pdf J.MacQueen; J Some Methods for Classification and Analysis of Multivariate Observations Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla; Effcient Mining for Association Rules with Relational Database Systems; Dept of Elec And Comp Engg., Rice University, karthich@rice.edu; Dept of Computer Science, Rice University, alc@rice.edu Ming-Syan Chen, Jiawei*, Philip S Yu; Data Mining: An Overview from Database Perspective; Elect Eng Department National Taiwan Univ IBM T.J Watson Res Ctr P.O.Box 704 Yorktown, NY 10598, U.S.A Principles_of_data_mining Rekesh Arawal, Ramakrishnan Srikant*; Fast Algorithms for Mining Association, IBM Almadem Research Center 650 Harry Road, San Jose, CA 95120 10 Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami; Mining Association Rules Between Sets of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207-216, Washington, D.C., May 1993 90 ... lĩnh vực phân lớp dữ liệu và tìm luật kết hợp khai phá liệu với mục đích dựa kết học tập của các học viên, sinh viên mà cụ thể liệu điểm của các môn học để phân lớp học viên và tìm... “75% học viên học tốt môn cấu trúc dữ liệu và giải thuật thì học tốt môn lập trình hướng đối tượng, 30% sinh viên học tốt cả môn cấu trúc dữ liệu và giải thuật và môn... mối liên hệ mơn học, tìm sự phụ tḥc của các môn học Cung cấp thêm thông tin việc học tập của học viên, sở thích, sự say mê, ham học hỏi của học viên cho giáo viên, nhà trường;

Đồ án tốt nghiệp đại học tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1.2 Những thách thức trong Khai phá dữ liệu

1.3 Những vấn đề được chú trọng trong Khai phá dữ liệu

CHƯƠNG II: PHÂN LỚP DỮ LIỆU

2.1 Bài toán phân lớp

2.1.1 Phát biểu bài toán

2.1.2 Một số ứng dụng của bài toán phân lớp

2.2 Các kỹ thuật phân lớp

2.2.1 Kỹ thuật sử dụng khoảng cách

a) Tiếp cận phân lớp bằng khoảng cách

b) Thuật toán k người láng giềng gần nhất (K - Means)

c) Đánh giá ưu nhược điểm

2.2.2 Kỹ thuật phân lớp theo tiếp cận thống kê xác xuất

a) Lý thuyết xác xuất thống kê

b) Thuật toán phân lớp Bayesian

c) Mạng tin cậy Bayesian

d) Đánh giá ưu nhược điểm

2.2.3 Cây quyết định

a) Một số khái niệm cơ sở

b) Thuật toán xây dựng cây quyết định

c) Đánh giá các thuật toán học cây quyết định

2.2.4 Mạng neural

a) Cấu trúc mạng neural

b) Perceptron

c) Mạng neural truyền thẳng với thuật học lan truyền ngược

d) Mạng LVQ

* Cấu trúc mạng LVQ

* Thuật học trong mạng LVQ

e) Ưu nhược điểm của mạng neural

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan