Các phương pháp khai phá dữ liệu sử dụng cây quyết định và ứng dụng (2014)

72 94 0
Các phương pháp khai phá dữ liệu sử dụng cây quyết định và ứng dụng (2014)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - NGUYỄN THỊ CHANH CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành Tin học H N – 2014 TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN - - NGUYỄN THỊ CHANH CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Chuyên ngành Tin học Ngườ hướng dẫn khoa học Ts Trịnh Đình V nh H N – 2014 LỜI CẢM ƠN Để hồn thành khóa luận em nhận giúp đỡ tận tình thầy Khoa Cơng nghệ thông tin – trường Đại học Sư phạm Hà Nội Đặc biệt TS Trịnh Đình Vinh, người trực tiếp hướng dẫn em trình nghiên cứu thực khóa luận Nhân dịp em xin bày tỏ lời cảm ơn tới tất thầy cô giáo Khoa Công nghệ thông tin – trường Đại học Sư phạm Hà Nội giảng dạy tạo điều kiện thuận lợi giúp đỡ chúng em trình học tập nghiên cứu Em xin bày tỏ biết ơn sâu sắc tới TS Trịnh Đình Vinh người trực tiếp hướng dẫn, bảo tận tình, cung cấp tài liệu phương pháp nghiên cứu khoa học để em hoàn thành khóa luận Em xin cảm ơn bạn lớp gia đình giúp đỡ, đóng góp ý kiến động viên em suốt trình học, q trình nghiên cứu hồn thành khóa luận Trong suốt trình nghiên cứu, cố gắng chắn khóa luận khơng tránh khỏi thiếu sót, mong q thầy góp ý để khóa luận em hoàn chỉnh Em xin chân thành cảm ơn! Hà Nội, tháng năm 2014 Ký tên Nguyễn Thị Chanh LỜI CAM ĐOAN Em xin cam đoan toàn nội dung khóa luận em tự sưu tầm, tra cứu thông tin mạng internet, số sách tham khảo để xếp, hoàn thiện cho phù hợp với nội dung yêu cầu đề tài Đến nay, nội dung khóa luận em chưa cơng bố hay xuất hình thức Nếu sai em xin chịu hoàn toàn trách nhiệm Hà Nội, tháng năm 2014 Kí tên Nguyễn Thị Chanh MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khám phá tri thức khai phá liệu 1.2 Quá trình phát tri thức 1.2.1 Các bước trình phát tri thức 1.2.1.1 Xác định toán 1.2.1.2 Thu thập tiền xử lý liệu 1.2.1.3 Khai phá liệu 1.2.1.4 Phân tích đánh giá tri thức 1.2.1.5 Sử dụng tri thức phát 1.2.2 Nhiệm vụ trình khám phá tri thức 1.2.3 Sự cần thiết khám phá tri thức 10 1.3 Khai phá liệu 11 1.3.1 Các khái niệm khai phá liệu 11 1.3.2 Quá trình khai phá liệu 12 1.3.3 Kiến trúc hệ thống khai phá liệu 13 1.3.3.1 Cơ sở liệu, kho liệu, World Wide Web nguồn chứa thông tin khác 14 1.3.3.2 Máy chủ sở liệu kho liệu 15 1.3.3.3 Cơ sở tri thức 15 1.3.3.4 Thành phần khai phá liệu 15 1.3.3.5 Đánh giá mẫu khai phá 15 1.3.3.6 Giao diện người sử dụng: 16 1.4 Các kĩ thuật khai phá liệu 16 1.4.1 Phân lớp liệu 17 1.4.2 Phân cụm liệu 17 1.4.3 Cây định 17 1.4.4 Luật kết hợp 17 1.4.5 Hồi quy 18 1.4.6 Mạng Nơron 18 1.4.7 Giải thuật di truyền 18 1.5 Các lĩnh vực ứng dụng khai phá liệu 19 Chương 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 20 2.1 Cây định 20 2.1.1 Định nghĩa 20 2.1.2 Phân lớp liệu định 21 2.1.3 Phương pháp xây dựng định 22 2.1.3.1 Chọn thuộc tính phân tách 23 2.1.3.2 Phép kiểm tra để chọn phép phân tách tốt 24 2.1.4 Rút luật từ định 24 2.2 Các thuật toán khai phá liệu định 26 2.2.1 Thuật toán CLS 26 2.2.2 Thuật toán ID3 27 2.2.2.1 Giới thiệu 27 2.2.2.2 Thuật toán ID3 30 2.2.2.3 Tìm kiếm không gian giả thuyết ID3 35 2.2.2.4 Đánh giá hiệu suất định 36 2.2.3 Thuật toán C45 37 2.2.3.1 Giới thiệu 37 2.2.3.2 Thuật toán C4.5 xây dựng định 37 2.2.3.3 Độ đo sử dụng để xác định điểm chia tốt 40 2.2.3.4 Một số vấn đề thuộc tính 40 2.3 Cắt tỉa định 43 2.3.1 Tiền cắt tỉa (Prepruning) 43 2.3.2 Hậu cắt tỉa (Postpruning) 43 Chương 3: XÂY DỰNG ỨNG DỤNG 46 3.1 Bài toán 46 3.2 Thu thập tiền xử lí liệu 48 3.3 Thiết kế chương trình 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 TÀI LIỆU THAM KHẢO 55 DANH SÁCH CÁC HÌNH Hình 1 Quá trình khai phá liệu từ sở liệu Hình Các nhiệm vụ trình khám phá tri thức Hình Quá trình khai phá liệu 13 Hình Kiến trúc điển hình hệ thống khai phá liệu 14 Hình 2.1 Ví dụ định 25 Hình 2 Cây định chơi tennis, khơng chơi 29 Hình Mô tả định với trắc nghiệm Outlook làm gốc 31 Hình Giải thuật ID3 32 Hình Cây định sử dụng giải thuật ID3 33 Hình Ví dụ định .47 Hình Form giao diện 50 Hình 3 Form giao diện toán 51 Hình Form giao diện ví dụ 52 Hình Form giao diện ví dụ 52 MỞ ĐẦU Lí chọn đề tài Trong năm gần Công nghệ thông tin phát triển mạnh mẽ có tiến vượt bậc Cùng với phát triển Công nghệ thông tin bùng nổ thông tin Các thông tin tổ chức theo phương thức sử dụng giấy giao dịch dần số hóa, nhiều tính vượt trội mà phương thức mang lại như: lưu trữ lâu dài, cập nhật, sửa đổi, tìm kiếm cách nhanh chóng Đó lý khiến cho số lượng thơng tin số hóa ngày tăng dần theo cấp số nhân Hiện nay, không lĩnh vực lại không cần đến hỗ trợ Công nghệ thông tin thành cơng lĩnh vực phụ thuộc nhiều vào việc nắm bắt thông tin cách nhạy bén, nhanh chóng hữu ích Với nhu cầu sử dụng thao tác thủ cơng truyền thống độ xác khơng cao nhiều thời gian Do việc khám phá tri thức từ liệu tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thơng tin có vai trò to lớn Việc khám phá tri thức có từ lâu bùng nổ xảy năm gần Các công cụ thu thập liệu tự động công nghệ sở liệu phát triển dẫn đến vấn đề lượng liệu khổng lồ lưu trữ sở liệu kho thông tin tổ chức, cá nhân, … Do việc khám phá tri thức từ liệu vấn đề nhận nhiều quan tâm nhà nghiên cứu Lĩnh vực khám phá tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh cực khác giới Ở Việt Nam lĩnh vực tương đối mẻ nhiên nghiên cứu bắt đầu đưa vào số ứng dụng thực tế Vì vậy, vấn đề phát tri thức khai phá liệu thu hút quan tâm nhiều người Với mong muốn tiếp cận với lĩnh vực mới, bổ sung kiến thức khoa học kỹ thuật đại, tổng kết kỹ thuật, kiến thức suốt trình học tập trường, em chọn đề tài “Các phương pháp khai phá liệu sử dụng định ứng dụng” làm khóa luận tốt nghiệp Mục tiêu nghiên cứu Mục tiêu khóa luận nghiên cứu vấn đề khám phá tri thức khai phá liệu, định, phương pháp khai phá liệu sử dụng định, cài đặt đánh giá thuật toán khai phá liệu định Phạm vi nghiên cứu Các phương pháp khai phá liệu sử dụng định Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học: Các phương pháp khai phá liệu sử dụng định nghiên cứu giúp hiểu khám phá tri thức, khai phá liệu, thuật toán xây dựng định Ý nghĩa thực tiễn: Chương trình thực nghiệm thành cơng góp phần hỗ trợ trình định áp dụng thuật toán xây dựng định Phương pháp ngh ên cứu a Phương pháp nghiên cứu lý luận Nghiên cứu qua việc đọc sách, báo tài liệu liên quan nhằm xây dựng sở lý thuyết đề tài biện pháp cần thiết để giải vấn đề đề tài 2.3 Cắt tỉa định Qua tìm hiểu thuật toán xây dựng định trên, ta thấy việc xây dựng cách phát triển nhánh đầy đủ theo chiều sâu để phân lớp hoàn toàn mẫu huấn luyện; thuật toán CLS thuật tốn ID3 đơi gặp khó khăn trường hợp liệu bị nhiễu (Noisy Data) liệu bị thiếu (Missing Data) không đủ để đại diện cho quy luật; tức tạo nút có số mẫu nhỏ Trong trường hợp này, thuật tốn phát triển ta dẫn đến tình mà ta gọi tình trạng "Over fitting" định Vẫn đề Over fitting khó khăn việc nghiên cứu ứng dụng định Để giải tình trạng người ta sử dụng phương pháp cắt tỉa định Có hai phương pháp cắt tỉa định 2.3.1 Tiền cắt tỉa (Prepruning) Chiến thuật tiến cắt tỉa nghĩa dừng sớm việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hoàn thành Nghĩa là, trình xây dựng cây, nút khơng tách thêm bước kết phép tách rơi vào ngưỡng gần chắn Nút trở thành nút gán nhãn nhãn lớp phổ biến tập mẫu nút 2.3.2 Hậu cắt tỉa (Postpruning) Chiến thuật ngược với chiến thuật tiền cắt tỉa Nó cho phép phát triển đầy đủ sau cắt tỉa Nghĩa xây dựng sau thực cắt bỏ nhánh không hợp lý Trong trình xây dựng theo chiến thuật hậu cắt tỉa cho phép tình trạng Over fitting xảy Nếu nút mà bị cắt trở thành nút nhãn gán nhãn lớp phổ biến trước 43 Trong thực tế, phương pháp hậu cắt tỉa phương pháp thành cơng cho việc tìm giả thuyết xác cao Chiến thuật hậu cắt tỉa tiến hành thơng qua việc tính tốn lỗi sau: Giả sử ta gọi: E(S) lỗi tĩnh (Static error hay expected error) nút S; BackUpError(S) lỗi từ nút S (Back Up Error); Error(S) lỗi nút S Các giá trị tính sau: Error(S) = Min(E(S), BackUpError(S))E(S) = (N - n + 1)/(N + 2) Trong đó: N tổng số mẫu nút S n số mẫu lớp phổ biến S 44 Trong trường hợp tổng qt, thuộc tính lớp có K giá trị (K lớp) thì: E(S) = (N-n+K-1) / (N+K) ) Trong đó: Si nút S Pi tỷ lệ số mẫu Si số mẫu S Như nút có lỗi Error(Si) = E(Si) nút khơng có nút dẫn đến khơng có lỗi BackUpError Nếu BackUpError(S) >= E(S) chiến thuật hậu cắt tỉa định cắt nút S (tức cắt bỏ S) Tóm lại, việc cắt tỉa nhằm: tối ưu hố kết Tối ưu kích cỡ độ xác việc phân lớp cách cắt bỏ nhánh không phù hợp (over fitted branches) Để thực việc cắt tỉa có kỹ thuật sau đây: 45 - Sử dụng tập hợp tách rời mẫu học để đánh giá tính hữu dụng việc hậu cắt tỉa nút Sử dụng kỹ thuật cắt tỉa có thuật tốn CART, gọi tắt chi phí phức tạp (Cost - Complexity prunning) - Áp dụng phương pháp thống kê để đánh giá cắt bỏ nhánh có độ tin cậy mở rộng tiếp nhánh có độ xác cao Kỹ thuật cắt tỉa gọi cắt tỉa bi quan thường sử dụng để cắt tỉa xây dựng theo thuật toán ID3 C4.5 - Kỹ thuật mô tả độ dài tối thiểu - MDL (Minimum Description Length) (với kỹ thuật không cần kiểm tra mẫu) Kỹ thuật không cần thiết phải kiểm tra mẫu thường sử dụng thuật toán SLIQ, SPRINT Chương 3: XÂY DỰNG ỨNG DỤNG 3.1 Bài toán David quản lý câu lạc đánh tennis tiếng Anh ta có rắc rối chuyện thành viên đến hay khơng đến Có ngày muốn chơi tennis số nhân viên câu lạc lại không đủ phục vụ Có hơm, khơng hiểu lý mà chẳng đến chơi, câu lạc lại thừa nhân viên Mục tiêu David tối ưu hóa số nhân viên phục vụ ngày cách dựa theo thơng tin dự báo thời tiết để đốn xem người ta đến chơi tennis Để thực điều đó, anh cần hiểu khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay khơng Vậy hai tuần, thu thập thông tin về: Outlook có ba giá trị (Overcast, Rain, Sunny), Temp có ba giá trị (Hot, Cold, Mild), Humidity có hai giá trị (High, Normal) Wind có hai giá trị (Strong, Weak) Và tất nhiên số người đến chơi tennis vào hơm David thu liệu gồm 14 dòng cột D c D O T H a u e u S H H u ot ig S H H u ot ig O H H v ot ig R MH il ig R C N o o R C N o o CB ếnế đ W Pl i a WN e o S N tr o WY e es WY e es WY e es S N tr o O v S u S u R S u O v O v R C o M il C ol M il M il M il H ot M il N o H ig N o N o N o H ig N o H ig W e W e W e S tr S tr S tr W e S tr Y es N o Y es Y es Y es Y es Y es N o Bảng Tập liệu chơi tennis Sau để giải toán Devid, người ta đưa mơ hình định kiểm tra chơi tennis, không chơi Outlook Sunny Overcast Rain Humidity High No wind yes Normal Strong yes No Hình Ví dụ định weak yes Cây định ví dụ giải thích sau: nút chứa giá trị thuộc tính phân lớp (thuộc tính “Play”) Các nút tương ứng với thuộc tính khác thuộc tính phân lớp; nút gốc xem nút đặc biệt, thuộc tính “Outlook” Các nhánh từ nút tương đương phép so sánh so sánh bằng, so sánh khác, lớn nhỏ … kết phép so sánh bắt buộc phải thể giá trị logic (Yes No) dựa giá trị thuộc tính nút Lưu ý định khơng có tham gia thuộc tính “thu nhập” thành phần cây, thuộc tính gọi chung thuộc tính dư thừa thuộc tính khơng ảnh hưởng đến q trình xây dựng mơ hình 3.2 Thu thập tiền xử lí liệu Với bảng liệu dụ báo thời tiết trên: - Lớp P = “Yes” Chơi_tennis - Lớp N = “No” Chơi_tennis - Thông tin cần thiết để phân lớp mẫu cho là: = 0.940 - Xét thuộ c t ính ‘Outlo ok ’ t a có : o ‘Outlook’ = ‘Sunny’: = 0.951 o ‘Outlook’ = ‘Overcast’: =0 o ‘Outlook’ = ‘Ra n’: o Entropy cho phép phân tách thu c tính >: Do ta có: Gain(Outlook) = Infomation(9, 5) – Entropy(Oulook) = 0.940 - 0694 = 0.246 o Xét thuộ c t ính ‘Hum i di ty’ tí nh tố n tương t ự trên: ‘Hum d ty’ = ‘H gh’: Infomation([3, 4]) = 0, 985 o ‘Hum d ty’ = ‘Normal’: Infomation([6, 1]) = 0.592 o Entropy (Humidity) = 7/14 Infomation(3, 4) + 7/14 Infomation(6, 1) = 0.789 o Gian(Humidity) = Infomation(9, 5) – Entropy(humidity) = 0.151 - Tương tự với thu c tính lại ta có: Gain(Outlook) = 0.246 Gian(Humidity) = 0.151 Gain(Wind) = 0.048 Gain(Temp) = 0.029 Rõ ràng ban đầu ta chọn thuộc tính ‘Outlook’ để phân tích Sau làm tương tự ta định cuối có dạng hình 3.1 3.3 Thiết kế chương trình Giao diện chương trình Demo gồm phần: o Phần 1: Bảng lưu liệu training (Data Training) o Phần 2: Ghi bước giải thuật toán (Solutions) o Phần 3: Vẽ minh họa cho thuật toán (Decision Tree) o Phần 4: Các chức chương trình (Control) Có button với chức sau:  Load Data: Đưa liệu training vào chương trình  ID3 - Alg: Chạy giải thuật ID3  Reset: Khởi động, chạy lại chương trình  About: Thơng tin chương trình Giao diện chương trình: Hình Form giao diện Các bước chạy chương trình: - Đầu tiên, nạp liệu vào chương trình button Load Data Dữ liệu đưa lên bảng Data Training (Phần 1) - Sau đó, nhấn button ID3 – Alg để chạy giải thuật Các bước giải phần (Solutions) Cây vẽ phần (Decision Tree) Sau nạp liệu bảng 3.1 thực bước chạy chương trình nêu ta có form giao diện tốn: Hình 3 Form giao diện tốn Tương tự ta có giao diện chương trình cho số tốn: Hình Form giao diện ví dụ Hình Form giao diện ví dụ KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luân Khai phá liệu lĩnh vực đã, ln thu hút nhà nghiên cứu lĩnh vực cho phép phát tri thức sở liệu khổng lồ phương thức thơng minh Nghiên cứu lĩnh vực đòi hỏi người nghiên cứu phải biết tổng hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc ứng dụng nhiệm vụ khai phá liệu Qua bốn năm học tập, tìm tòi, nghiên cứu, đặc biệt khoảng thời gian làm khóa luận, em hồn thiện khóa luận với mục tiêu đặt ban đầu Cụ thể khóa luận đạt kết sau: - Trình bày kiến thức khai phá liệu - Giới thiệu phương pháp tổng quát xây dựng định, trình bày ba thuật tốn xây dựng định CLS, ID3, C45, số ví dụ minh họa cho phương pháp xây dựng định trình bày - Cài đặt Visual Basic thuật toán xây dựng định ID3 Hướng phát triển Về lý thuyết: - Nghiên cứu thêm số thuật toán khai phá liệu sử dụng định, tìm hiểu kĩ thuật toán khai phá liệu khác - Nghiên cứu phương pháp xây dựng định hệ thống thông tin không đầy đủ, liệu liên tục khơng chắn Về chương trình demo: - Tìm hiểu nhu cầu thực tế để từ cải tiến chương trình, cài đặt lại tốn theo thuật toán nghiên cứu để làm việc tốt với sở liệu lớn có sản phẩm thị trường TÀI LIỆU THAM KHẢO Dương Thị Nhung (2010), Nghiên cứu phương pháp định cài đặt thuật toán ID3, Khóa luận Thạc sỹ Khoa học máy tính, Đại học Thái Nguyên Nguyễn Bá Nguyện (2013), Khai phá liệu định ứng dụng, Luận án tốt nghiệp Đại học, Khoa Công nghệ thông tin, trường Đại học Công nghiệp Hà Nội Nguyễn Thị Hạnh (2008), Khai phá liệu định, trường Đại học Sư phạm Hà Nội Phạm Duy An (2012), Phương pháp Khai phá liệu Khai phá liệu định, Khóa luận Thạc sĩ, Học viện Cơng nghệ bưu viễn thơng ThS Nguyễn Vương Thịnh (2011), Bài giảng môn học Khai phá liệu, Khoa Công nghệ thông tin trường Đại học Hàng hải Việt Nam http://luanvan.net.vn/luan-van/de-tai-nghien-cuu-cay-quyetdinh- trong-khai-pha-du-lieu-29673/ http://luanvan.co/luan-van/nghien-cuu-quy-trinh-kham-pha-trithuc- khai-pha-du-lieu-35154/ ... khai phá liệu sử dụng định, cài đặt đánh giá thuật toán khai phá liệu định Phạm vi nghiên cứu Các phương pháp khai phá liệu sử dụng định Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học: Các phương pháp. .. khai phá liệu trình phát tri thức, kĩ thuật ứng dụng khai phá liệu Chương 2: Các phương pháp khai phá liệu sử dụng định Trong chương giới thiệu tổng quan định, phương pháp tổng quát xây dựng định, ... truyền 18 1.5 Các lĩnh vực ứng dụng khai phá liệu 19 Chương 2: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 20 2.1 Cây định 20 2.1.1 Định nghĩa

Ngày đăng: 29/12/2019, 10:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan