phát hiện luật kết hợp ứng dụng trong cơ sở dữ liệu quản lý sinh viên

72 769 0
phát hiện luật kết hợp ứng dụng trong cơ sở dữ liệu quản lý sinh viên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 0 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ XUÂN LƢỢNG PHÁT HIỆN LUẬT KẾT HỢP ỨNG DỤNG TRONG CƠ SỞ DỮ LIỆU QUẢN LÝ SINH VIÊN Chuyên nghành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS Vũ Mạnh Xuân THÁI NGUYÊN - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng nội dung đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung luận văn, các phần trích lục các tài liệu hoàn toàn chính xác. Nếu có sai sót tôi hoàn toàn chịu trách nhiệm. Tác giả luận văn Lê Xuân Lượng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC Lời cam đoan i Mục lục ii Danh mục các chữ viết tắt iv Danh mục các bảng v Danh mục các hình vẽ vi MỞ ĐẦU 1 Chƣơng 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 3 1.1. Một số khái niệm về cơ sở dữ liệu 3 1.1.1. Cơ sở dữ liệu 3 1.1.2. Hệ quản trị cơ sở dữ liệu 4 1.2. Tổ chức và khai thác cơ sở dữ liệu truyền thống 5 1.3. Kho dữ liệu 6 1.3.1. Đinh nghĩa kho dữ liệu 6 1.3.2. Cấu trúc của kho dữ liệu 7 1.3.3. Mục đích của việc xây dựng kho dữ liệu 9 1.4. Khai phá dữ liệu 11 1.4.1. Khái niệm 11 1.4.2. Các bước của quá trình phát hiện tri thức 11 1.4.3. Một số phương pháp khai phá dữ liệu 13 1.4.3.1. Phương pháp suy diễn và quy nạp 13 1.4.3.2. Cây quyết định và luật 14 1.4.3.3. Phân nhóm và phân đoạn 16 1.4.3.4. Phương pháp ứng dụng K-láng giềng gần 16 1.4.3.5. Các phương pháp dựa trên mẫu 17 1.4.3.6. Phát hiện các luật kết hợp 17 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 1.4.4. Nhiệm vụ chính của khai phá dữ liệu 19 1.4.5. Những khó khăn trong nghiên cứu khai phá dữ liệu 21 1.4.6. Một số ứng dụng khai phá dữ liệu 24 Chƣơng 2. PHÁT HIỆN LUẬT KẾT HỢP 25 2.1. Các khái niệm và tính chất của luật kết hợp 25 2.1.1. Một số khái niệm 25 2.1.2. Thuật toán cơ bản 28 2.1.3. Tính chất của luật kết hợp và tập mục phổ biến 32 2.1.4. Một số hướng tiếp cận trong khai phá luật kết hợp 33 2.2. Một số thuật toán phát hiện luật kết hợp 35 2.2.1. Thuật toán AIS 35 2.2.2. Thuật toán SETM 36 2.2.3. Thuật toán Apriori 38 2.2.4. Thuật toán Apriori-TID 44 2.2.5. Thuật toán Apriori-Hybrid 46 2.2.6. Thuật toán PARTITION 47 2.2.7. Sinh các luật kết hợp từ tập mục phổ biến 48 Chƣơng 3. ỨNG DỤNG PHÁT HIỆN LUẬT KẾT HỢP KHAI PHÁ DỮ LIỆU QUẢN LÝ SINH VIÊN 52 3.1. Đặt vấn đề 52 3.2. Xây dựng chương trình demo thuật toán Apriori ứng dụng phát hiện luận kết hợp trong CSDL quản lý sinh viên 54 3.2.1. Các bước tiến hành khai phá dữ liệu quản lý sinh viên 54 3.2.2. Xây dựng bảng cơ sở dữ liệu để khai phá 54 3.2.3. Chương trình demo 57 3.2.4. Một số kết quả thử nghiệm 58 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 65 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải supp: Độ hỗ trợ (support) conf: Độ tin cậy (confidence) minsup: Ngưỡng độ hỗ trợ tối thiểu mincof: Ngưỡng độ tin cậy tối thiểu SQL: Structured Query Language KDD: Kownledge Discovery in Database FI: Frenquent Itemset MFI: Maximally Frequent Itemset CSDL: Cơ sở dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 2.1. Giao dịch mua hàng 30 Bảng 2.2. Tính độ hỗ trợ cho các tập hợp chứa các mặt hàng 30 Bảng 2.3. Các luật kết hợp và độ tin cậy của chúng 31 Bảng 2.4. Ma trận biểu diễn cơ sở dữ liệu 43 Bảng 2.5. Vector biểu diễn nhị phân cho tập 1 thuộc tính 43 Bảng 2.6. Vector biểu diễn nhị phân cho các tập 2 thuộc tính 43 Bảng 2.7. Vector biểu diễn nhị phân cho các tập 3 thuộc tính 44 Bảng 2.8. Vector biểu diễn nhị phân cho các tập 4 thuộc tính 44 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1. Cấu trúc kho dữ liệu 8 Hình 1.2. Quy trình phát hiện tri thức 12 Hình 1.3. Mẫu kết quả với phương pháp cây quyết định 15 Hình 3.1. Sơ đồ khai phá dữ liệu quản lý sinh viên 54 Hình 3.2. Bảng cơ sở dữ liệu khai phá 56 Hinh 3.3. Giao diện chính của chương trình demo 57 Hình 3.4. Giao diện “Thao tác với CSDL” 58 Hình 3.5. Kết quả khai phá lần thứ 1 59 Hình 3.6. Kết quả thử nghiệm lần thứ 2 60 Hình 3.7. Kết quả thử nghiệm lần thứ 3 61 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Một trong những ứng dụng quan trọng nhất của công nghệ thông tin trong đời sống là giúp giải quyết các bài toán quản lý. Kể từ khi máy tính điện tử trở thành một công cụ lao động quan trọng thì một trong những nhu cầu đầu tiên là lưu trữ, tìm kiếm và xử lý số liệu thống kê. Đến nay, các cơ sở dữ liệu đã trở nên khổng lồ và người ta mong muốn kho dữ liệu đó cần được khai thác hiệu quả hơn trên nhiều bình diện. Trong những năm gần đây, khai phá dữ liệu (Data mining) đã trở thành một trong những hướng nghiên cứu lớn nhất của lĩnh vực khoa học máy tính và công nghệ thông tin. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Việc khai phá dữ liệu từ kho dữ liệu có nhiều hướng tiếp cận. Các bài toán chủ yếu trong khai thác dữ liệu là: Khai thác chuỗi, khai thác web, đặc biệt là việc phát hiện luật kết hợp (association rules mining) và việc gom cụm (clustering), phân lớp (classification) dữ liệu, Trong đó, phát hiện luật kết hợp là một trong những nội dung quan trọng của khai phá dữ liệu và là một lĩnh vực nghiên cứu nhiều triển vọng với khả năng ứng dụng cao vào thực tế. Vì tất cả nhưng lí do trên mà tôi đã chọn đề tài luận văn: “Phát hiện luật kết hợp ứng dụng trong cơ sở dữ liệu quản lý sinh viên” làm chủ đề nghiên cứu của mình. Mục đích của luận văn là nghiên cứu những vấn đề cơ bản về phát hiện luật kết hợp, một số thuật toán khai phá dữ liệu đã được giới thiệu. Trên cơ sở đó áp dụng vào một bài toán cụ thể là cài đặt chương trình phát hiện luật kết hợp từ cơ sở dữ liệu quản lý sinh viên nhằm rút ra những kết luận hữu ích cho quá trình đào tạo và quản lý sinh viên. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 Với mục tiêu đó, luận văn được trình bày trong 3 chương: Chương 1: Tổng quan về cơ sở dữ liệu và khai phá dữ liệu Chương 2: Phát hiện luật kết hợp Chương 3: Phát hiện luật kết hợp trong cơ sở dữ liệu quản lý sinh viên Ngoài phần tổng hợp những kiến thức về khai phá dữ liệu, các thuật toán phát hiện luật kết hợp, luận văn cũng đã trình bày kết quả thử nghiệm qua một bài toán cụ thể để minh họa. Để có được kết quả này tôi đã nhận được sự quan tâm, động viên, giúp đỡ rất nhiều của các Thầy giáo, Cô giáo trong Khoa Công nghệ thông tin - Đại học Thái Nguyên cũng như của bạn bè, đồng nghiệp, đặc biệt là sự chỉ bảo tận tình của TS. Vũ Mạnh Xuân và sự nỗ lực của bản thân, đến nay tôi đã hoàn thành đề tài. Tuy nhiên trong quá trình làm việc, mặc dù đã cố gắng, nỗ lực hết sức nhưng không thể tránh khỏi thiếu sót, em kính mong nhận được sự chỉ bảo của các thầy cô để đề tài được hoàn thiện hơn. Tôi xin chân thành cảm ơn ! Thái Nguyên, ngày 29 tháng 09 năm 2011 Học viên Lê Xuân Lượng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Chƣơng 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương này trình bày những nét khái quát về cơ sở dữ liệu, kho dữ liệu và một số phương pháp khai phá dữ liệu. 1.1. Một số khái niệm về cơ sở dữ liệu (CSDL) 1.1.1. Cơ sở dữ liệu Cơ sở dữ liệu (Database) là một hệ thống các thông tin có cấu trúc được lưu trữ trên các thiết bị lưu trữ thông tin thứ cấp (như băng từ, đĩa từ ) để có thể thỏa mãn yêu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác nhau. Như vậy đặc trưng của cơ sở dữ liệu là: - Giảm sự trùng lặp thông tin xuống mức thấp nhất và do đó bảo đảm được tính nhất quán và toàn vẹn dữ liệu. - Đảm bảo dữ liệu có thể được truy xuất theo nhiều cách khác nhau. - Khả năng chia sẻ thông tin cho nhiều người sử dụng và nhiều ứng dụng khác nhau. Các loại cơ sở dữ liệu [2] - Cơ sở dữ liệu dạng file: dữ liệu được lưu trữ dưới dạng các file có thể là text, ascii, *.dbf. Tiêu biểu cho cơ sở dữ liệu dạng file là *.mbd Foxpro - Cơ sở dữ liệu quan hệ: dữ liệu được lưu trữ trong các bảng dữ liệu gọi là các thực thể, giữa các thực thể này có mối liên hệ với nhau gọi là các quan hệ, mỗi quan hệ có các thuộc tính, trong đó có một thuộc tính là khóa chính. Các hệ quản trị hỗ trợ cơ sở dữ liệu quan hệ như: MS SQL server, Oracle, MySQL - Cơ sở dữ liệu hướng đối tượng: dữ liệu cũng được lưu trữ trong các bản dữ liệu nhưng các bảng có bổ sung thêm các tính năng hướng đối tượng như lưu trữ thêm các hành vi, nhằm thể hiện hành vi của đối tượng. Mỗi bảng [...]... liệu Làm sạch dữ liệu Nạp dữ liệu Data Mart Các công cụ khai phá dữ liệu Kho dữ liệu trong DBMS Dữ liệu nguồn Các công cụ trợ giúp và các ứng dụng Hình 1.1 Cấu trúc kho dữ liệu Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần: - Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu - Kho dữ liệu về dữ liệu (MetaData)... xem như một lớp dữ liệu, một dòng dữ liệu trong bảng là một đối tượng Các hệ quản trị có hỗ trợ cơ sở dữ liệu quan hệ như: MS SQL server, Oracle, Postgres - Cơ sở dữ liệu bán cấu trúc: dữ liệu được lưu dưới dạng XML, với định dạng này thông tin mô tả về đối tượng thể hiện trong các tag Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc... khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu Bước thứ hai: Thu thập và tiền xử lý dữ liệu: Tiến hành thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu) , xử lý việc thiếu dữ liệu (làm giàu dữ liệu) , biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri... hệ thống phần mềm khai thác hoặc Hệ quản trị cơ sở dữ liệu 1.1.2 Hệ quản trị cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu (Database Management System): là phần mềm hay hệ thống được thiết kế để quản trị một cơ sở dữ liệu Cụ thể, các chương trình thuộc loại này hỗ trợ khả năng lưu trữ, sửa chữa, xóa và tìm kiếm thông tin trong một cơ sở dữ liệu (CSDL) Có rất nhiều loại hệ quản trị CSDL khác nhau: từ phần mềm... mạnh trong việc đánh giá xấp xỉ các thuộc tính, nhưng lại rất khó hiểu vì mô hình không được định dạng rõ ràng mà tiềm ẩn trong dữ liệu 1.4.3.6 Phát hiện các luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 18 tập luật. .. hoặc hiện tại Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định Nói cách khác, một kho dữ liệu bao gồm: - Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào - Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu. .. tác động của bài toán và sử dụng các tri thức biết trước để xác định các biến không phù hợp c) Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên tục Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hưởng bởi thời điểm quan sát dữ liệu Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác... biến nhất trong việc khám phá tri thức và khai thác dữ liệu Chương này trình bày những khái niệm và một số thuật toán phát hiện luật kết hợp 2.1 Các khái niệm và tính chất của luật kết hợp Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiệnnhững sự kiện xuất hiện thường xuyên một cách đồng thời Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một... tổ chức xác đinh, quản lý và điều hành các dự án, các nghiệp vụ một các hiệu quả và chính xác - Tích hợp dữ liệu và siêu dữ liệu từ nhiều nguồn khác nhau Muốn đạt được những yêu cầu trên thì kho dữ liệu phải: - Tăng chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc - Tổng hợp và kết nối dữ liệu - Đồng bộ hoá các nguồn dữ liệu với kho dữ liệu - Phân định và đồng nhất các hệ quản trị CSDL tác... quyết để hoàn thiện hơn các kỹ thuật khai phá dữ liệu Ta có thể liệt kê một số khó khăn như sau: a) Dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và với kích thước đến gigabytes đã là chuyện bình thường Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu có kích thước tới terabytes Các phương pháp giải quyết hiện nay là đưa ra một ngưỡng cho cơ sở dữ liệu, lấu . sở dữ liệu và khai phá dữ liệu Chương 2: Phát hiện luật kết hợp Chương 3: Phát hiện luật kết hợp trong cơ sở dữ liệu quản lý sinh viên Ngoài phần tổng hợp những kiến thức về khai phá dữ liệu, . QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 3 1.1. Một số khái niệm về cơ sở dữ liệu 3 1.1.1. Cơ sở dữ liệu 3 1.1.2. Hệ quản trị cơ sở dữ liệu 4 1.2. Tổ chức và khai thác cơ sở dữ liệu truyền. văn: Phát hiện luật kết hợp ứng dụng trong cơ sở dữ liệu quản lý sinh viên làm chủ đề nghiên cứu của mình. Mục đích của luận văn là nghiên cứu những vấn đề cơ bản về phát hiện luật kết hợp,

Ngày đăng: 20/12/2014, 23:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan