Nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán ID3

27 251 0
Nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán ID3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ THÔNG TIN DƢƠNG THỊ NHUNG NGHIÊN DƢƠNG THỊCỨU NHUNG PHƢƠNG PHÁP CÂY QUYẾT ĐỊNH VÀ CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3 Chuyên ngành: Khoa học máy tính NGHIÊN CỨU PHƢƠNG PHÁP CÂY QUYẾT Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Thái Nguyên 2010 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự sƣu tầm, tra cứu thông tin mạng internet, số sách tham khảo để xếp, hoàn thiện cho phù hợp với nội dung yêu cầu đè tài Đến nay, nội dung luận văn chƣa đƣợc công bố hay xuất dƣới hình thức Nếu sai xin chịu hoàn toàn trách nhiệm Ngày 10 tháng 10 năm 2010 Tác giả Dƣơng Thị Nhung Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Để hoàn thành luận văn nhận đƣợc giúp đỡ tận tình thầy cô Khoa Công nghệ thông tin – Đại học Thái Nguyên, thầy cô viện công nghệ thông tin – viện Khoa học công nghệ Việt Nam, bạn bè đông nghiệp Đặc biệt PGS.TS Vũ Đức Thi, ngƣời thầy trực tiếp hƣớng dẫn trình nghiên cứu thực luận văn Nhân dịp xin đƣợc bày tỏ lời cảm ơn tới tất thầy cô giáo viện Công nghệ thông tin – Viện Khoa học công nghệ Việt Nam, thầy cô khoa Công nghệ thông tin – Đại học Thái nguyên giảng dạy tạo điều kienẹ thuận lợi giúp đỡ trình học tập, nghiên cứu Tôi xin trân trọng cảm ơn PGS.TS Vũ Đức Thi – Viện công nghệ thông tin, ngƣời thầy trực tiếp hƣớng dẫn, đƣa ý tƣởng, định hƣớng, đóng góp ý kiến chuyên môn tận tình giúp đỡ suốt trình nghiên cứu thực luận văn Tôi xin cảm ơn bạn bè đồng nghiệp gia đình giúp đỡ, đóng góp ý kiến động viên suốt qua trình học, trình nghiên cứu hoàn thành luận văn Tác giả Dƣơng Thị Nhung Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI MỞ ĐẦU Phần 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Khái quát chung phát tri thức khai phá liệu 1.2 Quá trình khám phá tri thức 1.2.1 Hình thành định nghĩa toán 1.2.2 Thu thập tiền xử lý liệu 1.2.3 KPDL rút tri thức .5 1.2.4 Phân tích kiểm định kết 1.2.5 Sử dụng tri thức phát đƣợc 1.3 Quá trình KPDL 1.3.1 Gom liệu ( gatherin ) 1.3.2 Trích lọc liệu ( selection ) 1.3.3 Làm tiền xử lý liệu ( cleansing preprocessing preparation ) 1.3.4 Chuyển đổi liệu ( transformation ) .7 1.3.5 Phát trích mẫu liệu ( pattern extraction and discovery) 1.3.6 Đánh giá kết ( evaluation of result ) 1.4 Chức KPDL 1.5 Các kỹ thuật KPDL 1.5.1 Phân lớp liệu: .8 1.5.2 Phân cụm liệu: 1.5.3 Khai phá luật kết hợp: .9 1.5.4 Hồi quy: 1.5.5 Giải thuật di truyền: 1.5.6 Mạng nơron: 1.5.7 Cây định 10 1.6 Các dạng liệu khai phá đƣợc 10 1.7 Các lĩnh vực liên quan ứng dụng KPDL 10 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.7.1 Các lĩnh vực liên quan đến khám phá tri thức KPDL .10 1.7.2 Ứng dụng KPDL .11 1.8 Các thách thức hƣớng phát triển KPDL 12 Phần 2: CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 13 2.1 Cây định 13 2.1.1 Mô tả 13 2.1.2 Định nghĩa định .13 2.1.3 Ƣu điểm định 15 2.1.4 Vấn đề xây dựng định 16 2.1.5 Rút luật từ định 17 2.2 Các thuật toán KPDL định 18 2.2.1 Thuật toán CLS 18 2.2.2 Thuật toán ID3 23 2.2.3 Thuật toán C4.5 .38 2.2.4 Thuật toán SLIQ .52 2.2.5 Cắt tỉa định 61 2.2.6 Đánh giá kết luận thuật toán xây dựng định 66 Phần 3: CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3 69 3.1 Mô tả toán 69 3.2 Màn hình nhập liệu chƣơng trình 69 3.3 Màn hình phân tích liệu đƣa kết chƣơng trình 70 Phần 4: KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 72 Tài Liệu Tiếng Việt 72 Tài Liệu Tiếng Anh 72 Danh Sách Website 72 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Trong nhiều năm qua, với phát triển công nghệ thông tin ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống xã hội, lƣợng liệu đƣợc quan thu thập lƣu trữ ngày nhiều lên Theo thống kê lƣợng liệu có khoảng từ 5% đến 10% liệu đƣợc phân tích, số lại ngƣời ta phải làm với chúng Tuy nhiên ngƣời tiếp tục thu thập lƣu trữ liệu cho chúng ẩn chứa giá trị định đó, chẳng hạn cung cấp cho họ thông tin đƣa định chiến lựoc cách nhanh chóng lúc Chính lƣợng liệu đƣợc lƣu trữ ngày nhiều lên đến mức khổng lồ phƣơng pháp quản trị khai thác liệu truyền thống ngày không đáp ứng đƣợc nhu cầu thực tế làm phát triển khuynh hƣớng kỹ thuật Kỹ thuật khám phá tri thức KPDL (Khai phá liệu) Kỹ thuật khám phá tri thức KPDL đƣợc nghiên cứu, ứng dụng nhiều lĩnh vực khác giới Tại Việt Nam, kỹ thuật tƣơng đối mẻ nhiên đƣợc nghiên cứu dần đƣa vào số ứng dụng thực tế; đặc biệt lĩnh vực giáo dục đào tạo chƣa có ứng dụng thiết thực Hiện vấn đề khám phá tri thức KPDL thu hút đƣợc quan tâm nhiều ngƣời nhiều công ty phát triển ứng dụng công nghệ thông tin nƣớc ta Luận văn bao gồm nội dung sau: Chƣơng 1: Tổng quan phát tri thức khai phá liệu Chƣơng 2: Cây định thuật toán khai phá liệu định Chƣơng 3: Cài đặt mô thuật tóan ID3 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Phần 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Khái quát chung phát tri thức khai phá liệu Trong vài thập kỷ gần đây, khả tạo sinh lƣu trữ liệu ngƣời tăng lên nhanh chóng Lƣợng liệu lớn đƣợc lƣu trữ dẫn đến đòi hỏi cấp bách phải có kỹ thuật mới, công cụ tự động trợ giúp ngƣời cách thông minh việc chuyển đổi lƣợng lớn liệu thành thông tin hữu ích tri thức Vì mà kỹ thuật khám phá tri thức (Knowledge Discovery) đời ngày phát triển để đáp ứng nhu cầu ngƣời việc xử lý kho liệu lớn Vậy tri thức gì? Thông thƣờng coi liệu nhƣ dãy bit, số ký hiệu, “đối tƣợng” đƣợc gửi cho chƣơng trình dƣới định dạng định Chúng ta sử dụng bit để đo lƣờng thông tin xem nhƣ liệu đƣợc lọc bỏ dƣ thừa, đƣợc rút gọn tới mức tối thiểu Bít đƣợc dùng làm đơn vị đặc trƣng cho liệu Chúng ta xem tri thức nhƣ thông tin tích hợp, bao gồm kiện mối quan hệ chúng Các mối quan hệ đƣợc hiểu, đƣợc phát ra, đƣợc học Nói cách khác, tri thức coi liệu có độ trừu tƣợng tổ chức cao Hiện khám phá tri thức phát triển mạnh mẽ nhiều ngành học thuật Nó đƣợc kết hợp với việc quản lý sở liệu, khoa học thống kê, học máy, nghiên cứu mối quan hệ lĩnh vực nhằm rút tri thức có ích từ tập hợp lớn liệu Khám phá tri thức trình nhận biết logic, lạ, tri thức tiềm tàng hữu ích từ sở liệu, cuối việc hiểu đƣợc mẫu mô hình liệu Còn thuật ngữ KPDL (Khai phá liệu) đời vào năm cuối thập kỷ 1980 Có nhiều định nghĩa khác "KPDL" đƣợc đƣa Giáo sƣ Tom Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Mitchell đƣa định nghĩa KPDL nhƣ sau: “KPDL việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tƣơng lai.” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu: ”KPDL thƣờng đƣợc xem việc khám phá tri thức sở liệu, trình trích xuất thông tin ẩn, trƣớc chƣa biết có khả hữu ích, dƣới dạng quy luật, ràng buộc, qui tắc sở liệu.” Còn nhà thống kê xem " KPDL nhƣ trình phân tích đƣợc thiết kế thăm dò lƣợng cực lớn liệu nhằm phát mẫu thích hợp và/ mối quan hệ mang tính hệ thống biến sau hợp thức hoá kết tìm đƣợc cách áp dụng mẫu phát đƣợc cho tập liệu" Nói chung, KPDL cốt lõi trình khám phá tri thức Nó gồm có giải thuật KPDL chuyên dùng, dƣới số quy định hiệu tính toán chấp nhận đƣợc KPDL nhằm tìm mẫu mới, mẫu có tính chất không tầm thƣờng, thông tin tiềm ẩn mang tính dự đoán chƣa đƣợc biết đến có khả mang lại ích lợi Nói tóm lại, mục đích chung việc khám phá tri thức KPDL tìm mẫu đƣợc quan tâm và/ mô hình tồn sở liệu, nhƣng chúng lại bị che dấu số lƣợng lớn liệu 1.2 Quá trình khám phá tri thức Quá trình khám phá tri thức đƣợc tiến hành qua bƣớc sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 1.1 Quá trình khám phá tri thức 1.2.1 Hình thành định nghĩa toán Đây bƣớc tìm hiểu lĩnh vực ứng dụng hình thành toán, bƣớc định cần rút tri thức dạng nhƣ nào, đồng thời lựa chọn phƣơng pháp KPDL thích hợp với mục đích ứng dụng chất liệu 1.2.2 Thu thập tiền xử lý liệu Trong bƣớc liệu đƣợc thu thập dạng thô (nguồn liệu thu thập từ kho liệu hay nguồn thông tin internet) Trong giai đoạn liệu đƣợc tiền xử lý để biến đổi cải thiện chất lƣợng cho phù hợp với phƣơng pháp KPDL đƣợc chọn lựa bƣớc Bƣớc thƣờng chiếm nhiều thời gian trình khám phá tri thức Các công việc tiền xử lý liệu bao gồm : Xử lý liệu bị mất/ thiếu: Các liệu bị thiếu đƣợc thay giá trị thích hợp Khử trùng lặp: đối tƣợng liệu trùng lặp bị loại bỏ Kỹ thuật không đƣợc sử dụng cho tác vụ có quan tâm đến phân bố liệu Giảm nhiễu: liệu nhiễu đối tƣợng tách rời khỏi phân bố chung bị loại bỏ khỏi tập liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chuẩn hoá: thông thƣờng chuẩn hoá miền giá trị liệu cho phù hợp Rời rạc hoá: việc biến đổi liệu dạng số liệu với giá trị rời rạc Rút trích xây dựng đặc trƣng từ thuộc tính có Giảm chiều: loại bỏ bớt thuộc tính chứa thông tin 1.2.3 KPDL rút tri thức Đây bƣớc quan trọng tiến trình khám phá tri thức Kết bƣớc trích đƣợc mẫu và/hoặc mô hình ẩn dƣới khối lƣợng lớn liệu Một mô hình biểu diễn cấu trúc tổng thể thành phần hệ thống hay hệ thống sở liệu, miêu tả cách liệu đƣợc nảy sinh Còn mẫu cấu trúc cục có liên quan đến vài biến vài trƣờng hợp sở liệu 1.2.4 Phân tích kiểm định kết Bƣớc thứ tƣ hiểu tri thức tìm đƣợc, đặc biệt làm sáng tỏ mô tả dự đoán Trong bƣớc này, kết tìm đƣợc đƣợc biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho ngƣời dùng 1.2.5 Sử dụng tri thức phát đƣợc Trong bƣớc này, tri thức khám phá đƣợc đƣợc củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mô hình rút đƣợc đƣa vào hệ thống thông tin thực tế dƣới dạng môdun hỗ trợ việc đƣa định Các giai đoạn trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật đƣợc sử dụng giai đoạn trƣớc ảnh hƣởng đến hiệu giải thuật đƣợc sử dụng giai đoạn Các bƣớc trình khám phá tri thức đƣợc lặp lặp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... 2: CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 13 2.1 Cây định 13 2.1.1 Mô tả 13 2.1.2 Định nghĩa định .13 2.1.3 Ƣu điểm định. .. .38 2.2.4 Thuật toán SLIQ .52 2.2.5 Cắt tỉa định 61 2.2.6 Đánh giá kết luận thuật toán xây dựng định 66 Phần 3: CÀI ĐẶT MÔ PHỎNG THUẬT TOÁN ID3 69 3.1 Mô tả toán ... xây dựng định 16 2.1.5 Rút luật từ định 17 2.2 Các thuật toán KPDL định 18 2.2.1 Thuật toán CLS 18 2.2.2 Thuật toán ID3 23 2.2.3 Thuật toán C4.5

Ngày đăng: 15/04/2017, 10:00

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan