Đồ án tốt nghiệp đại học tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

91 1.9K 4
Đồ án tốt nghiệp đại học tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC 1.2 Những thách thức Khai phá liệu 1.3 Những vấn đề trọng Khai phá liệu 11 CHƯƠNG II: PHÂN LỚP DỮ LIỆU .12 2.1 Bài toán phân lớp 12 2.1.1 Phát biểu toán 12 2.1.2 Một số ứng dụng toán phân lớp 12 2.2 Các kỹ thuật phân lớp .13 2.2.1 Kỹ thuật sử dụng khoảng cách 13 2.2.2 Kỹ thuật phân lớp theo tiếp cận thống kê xác xuất 17 2.2.3 Cây định 30 2.2.4 Mạng neural 40 2.2.5 Các kỹ thuật khác .54 Bảng từ viết tắt Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Khai phá liệu KPDL Data Mining LỜI NÓI ĐẦU Trong thời đại ngày nay, Internet phát triển rộng lớn khắp toàn cầu, với bùng nổ ngành Công nghệ thông tin điều kiện phát triển nó, cơng nghệ lưu trữ liệu phục hồi liệu ngày phát triển nhanh chóng tạo điều kiện cho đơn vị thu thập liệu nhiều tốt Chính lý mà sở liệu quan, doanh nghiệp, đơn vị, trường học ngày nhiều thông tin tiềm ẩn, phong phú đa dạng; đặc biệt việc học tập các môn học của học viên, các nhà trường đã nhận thức tầm quan trọng việc nắm bắt xử lý thông tin, sử dụng tri thức chiết xuất từ sở liệu để phục vụ cho việc dự đoán phân loại học viên các môn học tiếp theo quá trình học tập của học viên tại nhà trường Trước điều kiện yêu cầu đặt nhiệm vụ đào tạo, đòi hỏi phải có phương pháp nhanh, phù hợp, tự động, xác có hiệu để lấy thơng tin có giá trị Khai phá liệu kỹ thuật áp dụng hiệu phục vụ cho mục đích này; khâu q trình khám phá tri thức, khai phá liệu làm nhiệm vụ trích xuất thơng tin có giá trị tiềm ẩn kho liệu; nay, kỹ thuật áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: y tế, marketing, ngân hàng, viễn thông, Internet,… Khơng phủ nhận lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại Nhận thấy tầm quan trọng vấn đề này, nợi dung đờ án tớt nghiệp em nghiên cứu kỹ thuật khai phá liệu, tập trung sâu nghiên cứu lĩnh vực phân lớp dữ liệu và tìm luật kết hợp khai phá liệu với mục đích dựa kết học tập của các học viên, sinh viên mà cụ thể liệu điểm của các môn học để phân lớp học viên và tìm mối liên hệ mơn học, tìm sự phụ tḥc của các môn học Cung cấp thêm thông tin việc học tập của học viên, sở thích, sự say mê, ham học hỏi của học viên cho giáo viên, nhà trường; giúp họ có được những thông tin cần thiết, quan trọng; giảm bớt thời gian tìm hiểu, phân tích, đánh giá, có được sở tin cậy, chính xác giúp ích việc học tập và giảng dạy Em xin chân thành cảm ơn thầy giáo hướng dẫn tận tình hướng dẫn, bảo, giúp đỡ cho em q trình làm đờ án em hồn thành đờ án tớt nghiệp CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu q trình khai thác thơng tin tiềm ẩn có tính dự đốn, thơng tin có nhiều ý nghĩa từ sở liệu lớn, coi bước trình khám phá tri thức (Knowledge Discovery in Databases – KDD) Khai phá liệu giai đoạn quan trọng tiến trình khám phá tri thức từ sở liệu, tri thức có nhiều ý nghĩa, sở hỗ trợ việc định khoa học kinh doanh Các bước trình khám phá tri thức: - Làm liệu (Data cleaning): loại bỏ liệu nhiễu liệu khơng thích hợp - Tích hợp liệu (Data Intergration): Tích hợp liệu từ nguồn khác CSDL, kho liệu, file text, - Trích chọn liệu (data selection): trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu (database, data warehouses,…) theo số tiêu chí định - Biến đổi liệu (data transformation): chuẩn hoá làm mịn liệu, đưa liệu dạng thuận lợi nhất, phù hợp cho việc khai phá cách thực thao tác nhóm tập hợp - Khai phá liệu (data mining): giai đoạn thiết yếu, bước quan trọng tốn nhiều thời gian tồn q trình khám phá tri thức, bước áp dụng kỹ thuật khai phá để khai thác, trích xuất thơng tin có ích, mẫu điển hình, mối liên hệ đặc biệt có nhiều giá trị, mang nhiều ý nghĩa từ liệu - Đánh giá mẫu (Pattern Evaluation): đánh giá hữu ích mẫu biểu diễn tri thức dựa vào số phép đo - Trình diễn liệu (knowledge presentation): sử dụng kỹ thuật trình diễn trực quan hoá liệu để biểu diễn tri thức khai phá cho người sử dụng Hình 1.1 Các bước q trình khám phá trí thức Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ Cơ sở dữ liệu, thống kê, trực quan hoá Tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật mạng nơron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri thức,… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt, cụ thể:  Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của hệ chuyên gia thường ở mức chất lượng cao nhiều so với các dữ liệu sở dữ liệu và chúng thường chỉ bao hàm được các trường hợp quan trọng Ngoài ra, các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được  So sánh với phương pháp học máy, khai phá dữ liệu có lợi thế ở chỗ, khai phá dữ liệu có thể sử dụng với các sở dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong đó, phương pháp học máy chủ yếu được áp dụng các sở dữ liệu đầy đủ, ít biến động và tập dữ liệu không quá lớn  Phương pháp thống kê là một những nền tảng lý thuyết của Khai phá dữ liệu phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:  Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc rất nhiều các sở dữ liệu  Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực  Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được  Phương pháp thống kê còn có sự hướng dẫn của người dùng để xác định phân tích dữ liệu thế nào và ở đâu Các kỹ thuật khai phá liệu chia làm nhóm chính: - Kỹ thuật khai phá liệu mô tả: mô tả tính chất đặc tính chung liệu CSDL, kỹ thuật gồm có: phân cụm (clustering), tóm tắt (sumerization), trực quan hố (visualization), phân tích phát triển độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules),… - Kỹ thuật khai phá liệu dự đoán: đưa dự đoán dựa vào suy diễn liệu thời, kỹ thuật gồm có: phân lớp (classification), hồi quy (regression),… Các tốn khai phá liệu: tốn thơng dụng phổ biến là: - Bài toán phân lớp liệu hồi quy: Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm bước: xây dựng mơ hình sử dụng mơ hình để phân lớp + Xây dựng mơ hình: mơ hình xây dựng việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có giám sát, khác với phân cụm liệu học khơng có giám sát + Sử dụng mơ hình để phân lớp liệu: trước hết ta tính tốn độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai Phương pháp hồi quy khác với phân lớp liệu chỗ, hồi quy dùng để dự đốn giá trị liên tục cịn phân lớp liệu dùng để dự đốn giá trị rời rạc - Bài toán phân cụm (clustering/segmentation): Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học không giám sát Không giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luỵện Vì thế, coi phân cụm liệu cách học quan sát (learning by observation), phân lớp liệu học ví dụ (learning by example) Với phương pháp ta biết kết cụm thu bắt đầu q trình, ln cần chun gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web…Ngồi ra, phân cụm liệu cịn sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác - Bài toán luật kết hợp: dạng biểu diễn tri thức dạng đơn giản, mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm được, ví dụ: “75% học viên học tốt môn cấu trúc dữ liệu và giải thuật thì học tốt môn lập trình hướng đối tượng, 30% sinh viên học tốt cả môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng” Ở đây, “học tốt môn cấu trúc dữ liệu và giải thuật” vế trái luật, “học tốt môn lập trình hướng đối tượng” vế phải luật, số 75% độ tin cậy luật, số 30% độ hỗ trợ luật Độ hỗ trợ độ tin cậy độ đo đặc trưng và quan trọng luật Chúng tương ứng phản ánh hữu ích chắn luật khám phá Độ hỗ trợ 30% có nghĩa 30% tất học viên phân tích học viên đồng thời học tốt cả hai môn cấu trúc dữ liệu và giải thuật và môn lập trình hướng đối tượng Độ tin cậy 75% có nghĩa 75% học viên học tớt mơn cấu trúc dữ liệu và giải thuật cũng học tốt mơn lập trình hướng đới tượng Ngồi cịn số toán khác như: - Bài toán khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian - Bài tốn mơ tả khái niệm (concept description & summarization): tập trung vào việc mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn bản, mơ tả khái niệm,… Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu mang lại Những ứng dụng điển hình khai phá liệu:  Phân tích liệu hỗ trợ định (data analysis and decision support)  Text mining & Webmining: phân lớp văn trang Web, tóm tắt văn bản, tìm kiếm thơng tin,…  Tin – sinh: tìm kiếm, đối sánh quan hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền,…  Điều trị y học: (medical treatment): mối liên hệ triệu chứng, chẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, …)  Tài thị trường chứng khoán (finance & stock market): phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khoán,… Những ứng dụng thực tế: + Ngành bảo hiểm y tế Australia dựa vào việc chẩn đoán bệnh y tế dựa kết xét nghiệm phát nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm triệu USD/năm + Trang Web mua bán qua mạng Amazon.com tăng doanh thu nhờ áp dụng khái phá liệu việc phân tích sở thích mua bán khách hàng + Bitish Telecom phát nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu USD 1.2 Những thách thức Khai phá liệu • CSDL có kích thước lớn: Các CSDL có tới hàng trăm bảng, bảng hàng trăm trường, số lượng ghi cỡ hàng triệu, kích thước CSDL dạng mức gigabyte • Số chiều liệu nhiều: Một vấn đề khó khăn giải toán KPDL số chiều liệu lớn (số thuộc tính, số biến) Việc gia tăng số chiều khiến thuật tốn tìm kiếm khơng gian tìm kiếm khơng mở rộng khó đạt hiệu • Over-fitting: Với hệ thống KPDL theo mơ hình học có giám sát, tức học quy nạp rất diễn tình trạng hệ thống học vẹt, tập liệu huấn luyện kết tốt, tập kiểm tra kết tồi Đây vấn đề mang tính chất cố hữu hệ thống học máy • Sự thay đổi liệu tri thức: Sự thay đổi nhanh chóng liệu làm cho hệ thống KPDL xây dựng trước hoạt động khơng xác Các thuộc tính đầu vào hệ KPDL q trình thực tế, bị chỉnh sửa, loại bỏ… • Dữ liệu nhiễu, liệu không đầy đủ: Vấn đề xử lý liệu không đầy đủ lẫn nhiễu trở thành phần tồn q trình KPDL Vấn đề trở nên nghiêm trọng liệu ứng dụng thực tế có tỷ lệ lỗi lên đến 20% • Mối quan hệ phức tạp lĩnh vực: Cấu trúc hình thuộc tính giá trị, mối quan hệ thuộc tính, thuộc tính ẩn, có tính trừu tượng cao… địi hỏi phải có thuật tốn đủ mạnh để giải • Khả giải thích: Một số hệ thống KPDL yêu cầu tính giải thích tri thức rút từ liệu Những tri thức mơ tả dạng tập luật, mơ hình đồ thị, ngôn ngữ tự nhiên hay sử dụng kỹ thuật trực quan hoá liệu tri thức… 10 - nút chuyển thành nút số nút vượt ngưỡng + Sau xây dựng hash-tree cho Ck, hàm tìm ứng cử viên chứa t sau: - nút lá, tìm tập item chứa t - nút có qua việc băm item i, hash on item sau i t, áp dụng cách đệ quy tới nút bucket tương ứng - nút gốc, hash on item t Bước kết hợp sử dụng Hash Tree Chỉ tập phổ biến k-1 item có cha chung xem xét cho bước kết hợp Vì việc kiểm tra tất tập k-1 item L k-1 tránh Bước tỉa sử dụng Hash Tree Để xác định tập k-1 item có phổ biến khơng, tìm tập item có cha chung tránh việc phải qua tất tập k-1 item Lk-1 Các ưu điểm thêm vào hash tree Bộ đếm thay đường ngang cây, ví dụ: khơng cần thiết phải đếm tất k tập giao dịch, xem xét bị giới hạn tree traversal Tốc độ tìm kiếm kết nối Tìm kiếm kết hợp tập ứng cử viên nhanh chóng qua sử dụng đếm hash để lọc ứng cử viên, đếm tập ứng cử viên k-1 item, thực đếm cho “hash-groups” tập k-item thay cho việc đếm tất tập k-item, thủ tục giải thích Sử dụng hàm hash h tập k-item 77 Với giao dịch t, tập k-item s tập t thêm vào đếm h(s) Xoá tất ứng cử viên q (được tạo Apriori) cho h(q)’s count in < minsup Ví dụ: có tập liệu giao dịch D = [134, 235, 1235, 25] giả sử hash function h là: h(x,y) = ((bậc x)* 10 + (bậc y)) mod với bậc 1, tương tự ta có h(1,4) = 0; h(1,5) = 1, h(2,4) = 3,… bucket0 bucket1 bucket2 bucket3 bucket4 bucket5 bucket6 14 15 23 24 25 12 35 counts 13 34 3 Bảng 3.2 Bảng thể hiện giá trị của bộ đếm hash Tập – item hashed thành bucket khơng phải phổ biến (ví dụ 15, 12), ta loại bỏ chúng từ C2 ** Hash tree làm giảm số phép so sánh, lưu trữ tất tập ứng cử viên cấu trúc hash Thay cho việc phải nối giao dịch dựa vào tập ứng cử viên, việc nối chúng dựa vào tập ứng cử viên chứa hashed buckets Hình 3.6 Cấu trúc hash bucket 78 Ví dụ: Tạo Hash Tree Giả sử ta có 15 tập ứng cử viên có chiều dài 3: {1, 4, 5}, {1, 2, 4}, {4, 5, 7}, {1, 2, 5}, {4, 5, 8}, {1, 5, 9}, {1, 3, 6}, {2, 3, 4}, {5, 6, 7}, {3, 4, 5}, {3, 5, 6}, {3, 5, 7}, {6, 8, 9}, {3, 6, 7}, {3, 6, 8} Ta cần: + hash function (hàm băm) + max leaf size (kích thước lớn nút lá): số itemset lớn lưu trữ nút (nếu số tập ứng cử viên vượt kích thước lớn nút lá, thực chia nút) Hình 3.7 Cây Hash Tree Hình 3.8 Tạo sử dụng hash function (hash on 1, or 7) 79 Hình 3.9 Tạo sử dụng hash function (hash on 2, or 8) Hình 3.10 Tạo sử dụng hash function (hash on 3, or 9) Subset Operation (Phép toán tập con): Cho giao dịch t, có tập có kích thước 3? 80 Hình 3.11 Phép toán tập Phép toán tập sử dụng Hash Tree Hình 3.12 Phép toán tập sử dụng Hash Tree 81 Hình 3.13 Phép toán tập sử dụng Hash Tree Hình 3.14 Phép toán tập sử dụng Hash Tree 82 3.3.4 Thuật tốn Eclat (tìm tập phổ biến) Eclat biến đổi sở liệu theo chiều dọc, thay liệt kê tất gao dịch, ta liệt kê tất item có giao dịch, cột item Mỗi cột item lưu danh sách TID giao dịch mà xuất Ví dụ: Hình 3.16 Biểu diễn dữ liệu theo chiều dọc Để tính độ hộ trợ tập k items ta cho danh sách TID tập (k-1) items giao với Hình 3.17 Lấy giao của tập items để tính đợ hỡ trợ Có cách tiếp cận: top-down, bottom-up, hybrid Ưu điểm: tính tốn độ hỗ trợ nhanh Nhược điểm: TID-list trung gian lớn với nhớ 83 Ví dụ tìm tập phổ biến theo thuật toán Eclat Hình 3.18 Ví dụ tìm tập phổ biến theo thuật toán Eclat 84 CHƯƠNG IV: CÀI ĐẶT THUẬT TỐN 4.1 Cài đặt thuật tốn Thuật tốn cài đặt chương trình thuật tốn K-means và thuật toán Apriori, nội dung thuật toán trình bày chương trước, chương thể cách cài đặt thuật toán, thuật toán xây dựng theo các lớp, mỗi lớp có file có đuôi (.cs), cụ thể có các lớp: K-Means: chức chủ yếu của lớp này là để phân lớp dữ liệu Apriori: chức chủ yếu lớp tìm tập item phổ biến và tạo luật kết hợp, phương thức chính: Candidates(tạo tập ứng cử viên), prune (tỉa, bỏ tập item không thoả mãn tính chất tập item phổ biến ), GenerateRules (sinh các luật), Processing (tìm tập phổ biến lớn nhất và tạo luật), 4.2 Chạy thuật toán với bộ dữ liệu điểm của học viên 4.2.1 Xử lý dữ liệu Dữ liệu lưu trữ CSDL dạng bảng, điểm của mỗi môn học lưu trữ cột (dữ liệu chạy chương trình là dữ liệu điểm của trường THPT Công Nghiệp – Hoà Bình) Để thuận tiện chạy thuật toán K-means ta phân các học viên làm lớp: Giỏi, Khá và Trung Bình; Đối tượng cần phân lớp là các học viên; Số thuộc tính là các môn học Sau phân lớp học viên xong ta tiến hành tìm luật theo thuật toán Apriori Để chạy thuật toán Apriori ta phải nhập ngưỡng điểm đối với từng lớp đã phân theo thuật toán K-means Ta tiến hành chuẩn hoá dữ liệu thay thế điểm các môn học bằng Id môn học nếu điểm lớn bằng ngưỡng điểm và tiến hành tìm luật 85 4.2.2 Thiết kế giao diện Giao diện chính của chương trình Hình 4.1 Giao diện chính Form Phân lớp và Tìm luật: ô TextBox phía của form để nhập tên bảng dữ liệu, liệu lấy trực tiếp từ CSDL Nút Button “Phân lớp dữ liệu” thực hiện phân lớp từ bảng dữ liệu đã nhập vào, kết quả phân lớp được thể hiện các Tab tương ứng Với từng Tab có một DataGridView ở bên trái để thể hiện chi tiết về các học viên đã được phân lớp Phía bên phải có ba TextBox cho phép nhập Ngưỡng điểm, Độ hỗ trợ và Độ tin cậy Nút Button “Tìm luật” thực tìm luật kết hợp từ liệu được phân lớp, kết quả được thể DataGridView ở bên dưới Để xem thêm chi tiết về nội dung của luật, ta đặt chuột vào từng luật để đọc thông tin được thể hiện màn hình 86 RichTextBox phía dưới, đó có diễn giải những giá trị số đặc trưng cho luật Hình 4.2 Giao diện của form Phân lớp và Tìm luật Số lượng luật thu giải giáp gồm luật có giá trị cao (Sau phân lớp các luật tìm được có độ hỗ trợ và độ tin cậy khá cao) Đây tri thức chiết xuất trình khai thác Vấn đề đặt phải ứng dụng hiệu luật vào quá trình giảng dạy và học tập của học viên sống dựa vào đặc điểm tính chất ứng dụng luật ứng với luật tập luật Việc sử dụng hàm đánh giá để xem xét tiền đề, kết luật đạt tập luật, giai đoạn mang tính tư quan trọng ta ứng dụng thực tế Từ ghi nhận đến ghi nhận tính ứng dụng cho luật, trình tốn nhiều thời gian, song 87 kết đạt hữu ích cho lãnh đạo, giáo viên việc phân loại học viên và quá trình giảng dạy, học tập thời gian tới Tính ứng dụng tri thức chiết xuất giúp cho lãnh đạo, giáo viên thấy với mỗi lớp học viên những môn học nào thường học tớt cùng bởi các sinh viên, từ tìm hiểu nắm bắt sở thích người học đồng thời thúc đẩy nhà lãnh đạo, quản lý, giáo viên theo dõi các học viên học tốt thời gian trước đó để làm sở bồi dưỡng, nâng cao chất lượng dạy và học thời gian tới Với tính ứng dụng khai thác luật kết hợp sở liệu, không vậy, kết khai thác lưu trữ sở liệu tri thức để phục vụ cho mục đích xây dựng hệ chuyên gia sau 88 KẾT LUẬN Trong thời gian nghiên cứu, thực hiện kết quả mà đồ án đã đạt là: - Nắm bắt đưa nội dung khái quát nhất, nhất, nêu bật ý nghĩa, tầm quan trọng việc phân lớp dữ liệu và luật kết hợp khai phá liệu - Trình bày tương đối đầy đủ, chi tiết thuật toán từ đơn giản đến phức tạp để phân lớp dữ liệu và tìm luật kết hợp - Cài đặt thuật toán K-means và thuật toán Apriori chạy với liệu thực - Thiết kế, xây dựng chương trình ứng dụng phân tích kết học tập của học viên dựa việc phân lớp dữ liệu và tìm luật kết hợp từ điểm các mơn học của học viên - Phân tích, đánh giá kết tìm khả ứng dụng luật thực tế Những kết đạt chức hệ thống, để có chương trình chạy tốt, hiệu hệ thống cần có thời gian chỉnh sửa, bổ sung, hoàn thiện cách chi tiết đầy đủ Hướng phát triển: thuật toán phân lớp và tìm luật kết hợp mặc kết tốt thời gian chạy chương trình lâu, nhiều phép tính tốn, hướng phát triển đề tài nghiên cứu, tìm hiểu cải tiến thuật toán để phân lớp và tìm luật kết hợp nhanh chóng, giảm phép tính tốn, tăng hiệu thực hiện, giảm bớt thời gian chạy chương trình Việc cải tiến thực sau: Cải tiến cấu trúc nhằm lưu trữ liệu thích hợp cho thuật tốn Cải tiến cách thực thi thuật toán sở song song hoá dựa phát triển công nghệ chế tạo 89 TÀI LIỆU THAM KHẢO Byung-Hoon Park and Hillol Kargupta; Distributed Data Mining: Algoriths, Sestems… – Department of Computer Science and Electrical Engineering Universty of Margland Baltimore County 1000 Hillol Cricle Baltimore, MD 21250 Data mining Concepts and techniques Data Mining Algorithms Journal, 2002 http://www.cs.uh.edu/~ceick/6340/grue-assoc.pdf J.MacQueen; J Some Methods for Classification and Analysis of Multivariate Observations Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla; Effcient Mining for Association Rules with Relational Database Systems; Dept of Elec And Comp Engg., Rice University, karthich@rice.edu; Dept of Computer Science, Rice University, alc@rice.edu Ming-Syan Chen, Jiawei*, Philip S Yu; Data Mining: An Overview from Database Perspective; Elect Eng Department National Taiwan Univ IBM T.J Watson Res Ctr P.O.Box 704 Yorktown, NY 10598, U.S.A Principles_of_data_mining Rekesh Arawal, Ramakrishnan Srikant*; Fast Algorithms for Mining Association, IBM Almadem Research Center 650 Harry Road, San Jose, CA 95120 10 Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami; Mining Association Rules Between Sets of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207-216, Washington, D.C., May 1993 90 ... lĩnh vực phân lớp dữ liệu và tìm luật kết hợp khai phá liệu với mục đích dựa kết học tập của các học viên, sinh viên mà cụ thể liệu điểm của các môn học để phân lớp học viên và tìm... “75% học viên học tốt môn cấu trúc dữ liệu và giải thuật thì học tốt môn lập trình hướng đối tượng, 30% sinh viên học tốt cả môn cấu trúc dữ liệu và giải thuật và môn... mối liên hệ mơn học, tìm sự phụ tḥc của các môn học Cung cấp thêm thông tin việc học tập của học viên, sở thích, sự say mê, ham học hỏi của học viên cho giáo viên, nhà trường;

Ngày đăng: 19/06/2014, 21:09

Từ khóa liên quan

Mục lục

  • 1.2 Những thách thức trong Khai phá dữ liệu

  • 1.3 Những vấn đề được chú trọng trong Khai phá dữ liệu

  • CHƯƠNG II: PHÂN LỚP DỮ LIỆU

    • 2.1 Bài toán phân lớp

      • 2.1.1 Phát biểu bài toán

      • 2.1.2 Một số ứng dụng của bài toán phân lớp

      • 2.2 Các kỹ thuật phân lớp

        • 2.2.1 Kỹ thuật sử dụng khoảng cách

          • a) Tiếp cận phân lớp bằng khoảng cách

          • b) Thuật toán k người láng giềng gần nhất (K - Means)

          • c) Đánh giá ưu nhược điểm

          • 2.2.2 Kỹ thuật phân lớp theo tiếp cận thống kê xác xuất

            • a) Lý thuyết xác xuất thống kê

            • b) Thuật toán phân lớp Bayesian

            • c) Mạng tin cậy Bayesian

            • d) Đánh giá ưu nhược điểm

            • 2.2.3 Cây quyết định

              • a) Một số khái niệm cơ sở

              • b) Thuật toán xây dựng cây quyết định

              • c) Đánh giá các thuật toán học cây quyết định

              • 2.2.4 Mạng neural

                • a) Cấu trúc mạng neural

                • b) Perceptron

                • c) Mạng neural truyền thẳng với thuật học lan truyền ngược

                • d) Mạng LVQ

                  • * Cấu trúc mạng LVQ

                  • * Thuật học trong mạng LVQ

                  • e) Ưu nhược điểm của mạng neural

Tài liệu cùng người dùng

Tài liệu liên quan