Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

60 261 0
Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ VĂN TIỆP NGHIÊN CỨU MỘT SỐ THUẬT TOÁN GIA TĂNG CHO VIỆC RÚT GỌN CÁC THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ LUẬN VĂN THẠC SĨ KHOA HỌC KHOA HỌC MÁY TÍNH HƢỚNG DẪN: GS.TS VŨ ĐỨC THI THÁI NGUYÊN 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ ii LỜI CẢM ƠN Em xin chân thành cảm ơn biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội Người tận tình hướng dẫn giúp đỡ em hoàn thành luận văn Em xin chân thành cảm ơn Thầy Viện Công nghệ thông tin dạy bảo, giúp đỡ truyền đạt kiến thức cho em suốt khóa học trình em làm luận văn Em xin chân thành cảm ơn Thầy, Cô trường Đại học Công nghệ thông tin truyền thông Thái Nguyên tận tình dạy bảo, động viên, giúp đỡ tạo điều kiện cho em suốt thời gian học tập nghiên cứu Cuối xin chân thành cảm ơn bạn bè, người thân gia đình người đồng hành, động viên, chhia sẻ khó khăn suốt thời gian hoàn thành luận văn Học viên Vũ Văn Tiệp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ iii LỜI CAM ĐOAN Tôi xin cam đoan đề tài "Nghiên cứu số thuật toán gia tăng cho việc rút gọn thuộc tính bảng định không đầy đủ” công trình nghiên cứu thực hướng dẫn giáo viên hướng dẫn khoa học Một số Định nghĩa, Định lý, Tính chất, Mệnh đề Thuật toán lấy từ nguồn tài liệu xác có trích dẫn tên tài liệu tên tác giả rõ ràng Tôi xin chịu trách nhiệm luận văn Học viên Vũ Văn Tiệp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ iv MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii Danh mục thuật ngữ vi Danh sách bảng vii MỞ ĐẦU Chương TỔNG QUAN 1.1 Hệ thông tin đầy đủ mô hình tập thô truyền thống 1.1.1 Hệ thông tin đầy đủ 1.1.2 Bảng định đầy đủ .7 1.1.3 Tập rút gọn tập lõi 1.2 Hệ thông tin không đầy đủ mô hình tập thô dung sai 1.2.1 Hệ thông tin không đầy đủ 1.2.2 Bảng định không đầy đủ 10 1.3 Rút gọn thuộc tính bảng định không đầy đủ 11 1.3.1 Tổng quan phương pháp rút gọn thuộc tính 11 1.3.2 Phân nhóm phương pháp rút gọn thuộc tính .14 1.4 Kết luận chương 17 Chương CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 18 2.1 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 18 2.1.1 Ma trận phân biệt hàm phân biệt mở rộng 19 2.1.2 Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng 21 2.2 Các thuật toán tiếp cận gia tăng tìm tập rút gọn bổ sung, loại bỏ tập thuộc tính 25 2.2.1 Thuật toán tìm tập rút gọn bổ sung tập thuộc tính .25 2.2.2 Thuật toán tìm tập rút gọn loại bỏ tập thuộc tính 29 2.3 Kết luận chương Error! Bookmark not defined Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 34 3.1 Bài toán 34 3.2 Phân tích, lựa chọn công cụ 34 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ v 3.2.1 Thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 3.2.2 Các thuật toán tìm tập rút gọn bổ sung loại bỏ tập thuộc tính 37 3.3 Đánh giá kết thử nghiệm 39 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng 39 3.3.2 Kết thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính .41 3.3.3 Kết thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính .45 KẾT LUẬN .49 Tài liệu tham khảo 50 Phụ lục 52 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ vi Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ vii Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.2 Bảng định không đầ đủ xe 10 Bảng 1.3 Các phương pháp rút gọn thuộc tính công trình [3, 8] 13 Bảng 2.1 Bảng định không đầy đủ mô tả tivi 19 Bảng 2.1 Bảng định không đầy đủ mô tả tivi (tiếp theo) 24 Bảng 2.3 Bảng định không đầy đủ tivi bổ sung tập thuộc tính 26 Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR 39 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR 40 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu 42 Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện 42 Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào 43 Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu 45 Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện 46 Bảng 3.8 Kết thực Thuật toán 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện 47 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [10] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thô khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tím tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính, gọi bảng định không đầy đủ Trên bảng định không đầy đủ, Kryszkiewicz [5] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công bố liệt kê công trình [8] Luận văn đặt hai mục tiêu chính: 1) Tổng hợp công bố phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai, Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ sở nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính Bao gồm: - Nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng, gồm bước: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính 2) Cài đặt thuật toán rút gọn thuộc tính bảng định không đầy đủ sử dụng hàm phân biệt mở rộng thuật toán gia tăng trường hợp bổ sung, loại bỏ tập thuộc tính Thử nghiệm đánh giá kết số liệu từ kho liệu UCI Đối tượng nghiên cứu luận văn bảng định không đầy đủ bổ sung, loại bỏ tập thuộc tính Phạm vi nghiên cứu luận văn tập trung vào toán rút gọn thuộc tính bước tiền xử lý số liệu trình khai phá liệu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: tổng hợp nắm bắt kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [13], so sánh đánh giá nghiên cứu thực nghiệm với nghiên cứu lý thuyết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [10] mô hình tập thô mở rộng dựa quan hệ dung sai, gọi tắt mô hình tập thô dung sai [5] Trình bày tổng quan kết nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thô dung sai Chương trình bày hai nội dung chính: - Thứ phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng - Thứ hai xây dựng thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn bảng định không đầy đủ sử dụng hàm phân biệt mở rộng trường hợp bổ sung, loại bỏ tập thuộc tính [14] Chương trình bày kết thử nghiệm đánh giá thuật toán: bao gồm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng thuật toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trường hợp bổ sung loại bỏ tập thuộc tính Thử nghiệm thực số liệu mẫu từ kho liệu UCI [13] Cuối cùng, phần kết luận nêu đóng góp luận văn hướng phát triển Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 39 Đánh giá kết thử nghiệm 3.3 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng Sau cài đặt, tiến hành chạy thử nghiệm Thuật toán 2.1 Thuật toán MBAR số liệu vừa nhỏ lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C Bảng 3.1 Bảng 3.2 mô tả kết thực hai thuật toán Bảng 3.1 Kết thực Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu U Thuật toán Thuật toán MBAR 2.1 C R t R t Hepatitis.data 155 19 0.171 1.56 Lung-cancer.data 32 56 0.17 0.18 Automobile.data 205 25 1.72 1.81 Anneal.data 798 38 179 187 Congressional 435 16 15 16.5 13 18.73 Voting Records Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 40 STT Bộ số liệu Credit Approval U 690 Thuật toán Thuật toán MBAR 2.1 C 15 R t R t 16.2 17.68 Bảng 3.2 Tập rút gọn Thuật toán 2.1 Thuật toán MBAR STT Bộ số liệu Tập rút gọn Tập rút gọn Thuật toán MBAR Thuật toán 2.1 Hepatitis.data {1, 2, 4, 17} {1, 2, 4, 17} Lung- {3, 4, 9, 43} {3, 4, 9, 43} {1, 13, 14, 20, 21} {1, 13, 14, 20, 21} cancer.data Automobile.data Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, {1, 3, 4, 5, 8, 9, 34, 35} 35} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 8, 10, 11, Voting Records 10, 11, 12, 13, 14, 15, 12, 13, 14, 15, 16} 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} Số hóa Trung tâm Học liệu - ĐHTN {1, 2, 3, 4, 5, 6, 8} http://www.lrc.tnu.edu.vn/ 41 Kết thử nghiệm cho thấy: Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán 2.1 Thuật toán MBAR Tuy nhiên, với số liệu Anneal.data, Congressional Voting Records, tập rút gọn thu Thuật toán 2.1 tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết tập rút gọn Thuật toán 2.1 Nhóm 2, tối thiểu tập rút gọn thuật toán MBAR Nhóm Thời gian thực Thuật toán 2.1 nhiều Thuật toán MBAR thuật toán 2.1 thực ma trận nên độ phức tạp cao thuật toán sử dụng khoảng cách 3.3.2 Kết thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính Sau cài đặt Thuật toán 2.2 (tìm tập rút gọn bổ sung tập thuộc tính), luận văn tiến hành thử nghiệm Thuật toán 2.2 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mô tả Bảng 3.3 sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 42 Bảng 3.3 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U C 124 19 R Tập rút Thời gọn gian {1, 2, 4, 0.171 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 38 {1, 3, 4, 86.92 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định sau lấy ngẫu nhiên 60% số thuộc tính điều kiện mô tả Bảng 3.4 sau: Bảng 3.4 Kết thực Thuật toán 2.1 sau lấy ngẫu nhiên 60% số thuộc tính điều kiện Số thuộc tính STT Bộ số liệu U ban đầu C Số thuộc tính lại sau lấy ngẫu Tập rút Thời gọn gian {1, 2, 4} 0.34 nhiên 60% Hepatitis.data 124 Số hóa Trung tâm Học liệu - ĐHTN 19 11 http://www.lrc.tnu.edu.vn/ 43 Số thuộc Số tính thuộc lại sau tính STT U Bộ số liệu lấy ban Tập rút Thời gọn gian ngẫu đầu nhiên C 60% Automobile.data 164 25 15 {1, 13} 0.82 Anneal.data 638 38 23 {1, 3, 4, 60.92 5} Credit Approval 552 15 {1, 8} 9.68 3) Kết thực Thuật toán 2.2 tìm tập rút gọn bảng định sau bổ sung 40% số thuộc tính điều kiện mô tả Bảng 3.5 sau: Bảng 3.5 Kết thực Thuật toán 2.2 tìm tập rút gọn bổ sung 40% số thuộc tính vào STT Bộ số liệu Hepatitis.data U 124 Automobile.data 164 Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) 11 15 Số hóa Trung tâm Học liệu - ĐHTN 10 Tập rút gọn (của 60% số thuộc tính ban đầu) Tập rút gọn thu đƣợc Thuật toán Thời gian thực Thuật toán 2.2 2.2 {1, 2, {1, 2, 4} 4, 17} {1, 13} {1, 13, 0.35 0.62 http://www.lrc.tnu.edu.vn/ 44 STT Bộ số liệu Số Số thuộc thuộc tính tính bổ (60% sung số thêm thuộc (40% số tính thuộc ban tính loại đầu) ra) U Tập rút gọn (của 60% số thuộc tính ban đầu) Tập Thời rút gọn gian thu thực đƣợc Thuật toán Thuật toán 2.2 2.2 14, 21} Anneal.data 638 23 15 {1, 3, 4, {1, 3, 5} 11.24 4, 5, 8, 33, 34} Credit Approval 552 {1, 8} {1, 3, 3.78 4, 5, 8} Kết thử nghiệm cho thấy: 1) Từ Bảng 3.3 Bảng 3.5 ta có: tập rút gọn thu Thuật toán 2.1 bảng định ban đầu tập rút gọn thu Thuật toán 2.2 (khi bổ sung 40% tập thuộc tính bị loại vào) Từ khẳng định tính đắn kết nghiên cứu lý thuyết 2) Từ Bảng 3.4 Bảng 3.5 cho thấy, tổng thời gian thực Thuật toán 2.1 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện cộng với thời gian thực Thuật toán gia Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 45 tăng 2.2 bổ sung 40% thuộc tính bị loại nhỏ thời gian thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn 3.3.3 Kết thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính Sau cài đặt Thuật toán 2.3 (tìm tập rút gọn loại bỏ tập thuộc tính, luận văn tiến hành thử nghiệm Thuật toán 2.3 04 số liệu thử nghiệm lấy từ kho liệu UCI [13] Môi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đánh số thứ tự từ đến C 1) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định ban đầu mô tả Bảng 3.6 sau: Bảng 3.6 Kết thực Thuật toán 2.1 số liệu ban đầu STT Bộ số liệu Hepatitis.data U 124 C 19 R Tập rút Thời gọn gian {1, 2, 4, 0.89 17} Automobile.data 164 25 {1, 13, 1.68 14, 21} Anneal.data 638 Số hóa Trung tâm Học liệu - ĐHTN 38 {1, 3, 4, 86.92 http://www.lrc.tnu.edu.vn/ 46 STT Bộ số liệu U C R Tập rút Thời gọn gian 5, 8, 33, 34} Credit Approval 552 15 {1, 3, 4, 15.68 5, 8} 2) Kết thực Thuật toán 2.1 tìm tập rút gọn bảng định sau loại bỏ ngẫu nhiên 40% số thuộc tính điều kiện mô tả Bảng 3.7 sau: Bảng 3.7 Kết thực Thuật toán 2.1 sau loại ngẫu nhiên 40% số thuộc tính điều kiện Số Số thuộc thuộc tính STT Bộ số liệu tính lại sau Tập rút Thời ban loại gọn gian đầu ngẫu C nhiên U 40% Hepatitis.data 124 19 11 {1, 17} 0.42 Automobile.data 164 25 15 {13, 14} 0.72 Anneal.data 638 38 23 {4,8,34} 58.82 Credit Approval 552 15 {1, 3, 4} 10.28 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 47 3) Kết thực Thuật toán 2.3 tìm tập rút gọn bảng định sau loại bỏ 40% số thuộc tính điều kiện mô tả Bảng 3.8 sau: Bảng 3.8 Kết thực Thuật toán 2.3 tìm tập rút gọn loại bỏ 40% số thuộc tính điều kiện Số thuộc C (Số STT Bộ số liệu U Thời tính loại bỏ Tập rút thuộc (40% gọn tính số Thuật ban thuộc toán 2.3 đầu) tính gian thực Thuật toán 2.3 ban đầu) Hepatitis.data 124 19 {1, 17} 0.38 Automobile.data 164 25 10 {13, 14} 0.65 Anneal.data 638 38 15 {4,8,34} 49.52 Credit Approval 552 15 {1, 3, 4} 8.58 Kết thử nghiệm cho thấy: 1) Từ Bảng 3.7 Bảng 3.8 ta có: tập rút gọn thu Thuật toán 2.1 bảng định sau loại bỏ 40% số thuộc tính tập rút gọn thu Thuật toán 2.3 phương pháp gia tăng Từ khẳng định tính đắn kết nghiên cứu lý thuyết Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 48 2) Từ Bảng 3.7 Bảng 3.8 cho thấy, thời gian thực Thuật toán 2.3 tìm tập rút gọn bảng định sau loại 40% tập thuộc tính điều kiện phương pháp gia tăng nhỏ thời gian thực tập rút gọn sử dụng Thuật toán 2.1 tính trực tiếp tập rút gọn toàn bảng định sau loại đối tượng Điều khẳng định tính hiệu phương pháp gia tăng tìm tập rút gọn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 49 KẾT LUẬN 1) Những kết luận văn Kết đạt luận văn bao gồm hai phần: phần nghiên cứu tổng hợp kết công bố phần cài đặt, thử nghiệm đánh giá thuật toán Bao gồm: (1) Tổng kết kết công bố hướng nghiên cứu rút gọn thuộc tính hướng tiếp cận gia tăng rút gọn thuộc tính bảng định không đầy đủ, bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính dựa vào mối liên hệ tập rút gọn - Tìm hiểu phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở rộng - Tìm hiểu 02 thuật toán gia tăng tìm tập rút gọn bảng định không đầy đủ trường hợp bổ sung loại bỏ tập thuộc tính (2) Cài đặt thử nghiệm thuật toán số liệu UCI Trên sở đó, đanh giá tính hiệu phương pháp gia tăng, bao gồm: - Cài đặt thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) - Cài đặt thử nghiệm thuật toán tìm tập rút gọn bổ sung tập thuộc tính (Thuật toán 2.2) - Cài đặt thử nghiệm thuật toán tìm tập rút gọn loại bỏ tập thuộc tính (Thuật toán 2.3) 2) Hƣớng phát triển Tiếp tục nghiên cứu phương pháp gia tăng rút gọn thuộc tính bảng định không đầy đủ trường hợp bổ sung loại bỏ tập đối tượng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 50 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), “Nghiên cứu phương pháp khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 7385 [3] Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 2021/06/2013, Tr 394-402 Tài liệu tiếng Anh [4] Huang B., Li H X and Zhou X Z (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, pp 55-60 [5] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311-316 [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 51 Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp 417- 426 [9] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [10] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [11] Qian Y H , Dang C Y., Liang J Y., Zhang H Y., Ma J M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp 373–400 [12] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [13] The UCI machine learning repository, [14] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), No 4, pp 375-388 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 52 Phụ lục Một số giao diện chƣơng trình thử nghiệm 1) Giao diện chương trình - Nhấn “Chọn file” để chọn tệp liệu UCI Chọn file liệu UCI để nạp liệu - Nạp liệu để thực thuật toán từ liệu chuẩn UCI hình sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 53 - Sau nạp liệu từ UCI phần mềm hiển thị giao diện chương trình, bao gồm chức năng: 1) Loại bỏ tập thuộc tính, bổ sung tập thuộc tính để phục vụ Thuật toán 2.2 Thuật toán 2.3 2) Chạy thuật toán sử dụng metric (Thuật toán KBAR) 3) Chạy thuật toán sử dụng hàm phân biệt mở rộng (Thuật toán 2.1) 4) Chạy thuật toán gia tăng bổ sung tập thuộc tính (Thuật toán 2.2) 5) Chạy thuật toán gia tăng loại bỏ tập thuộc tính (Thuật toán 2.3) Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ [...]... tập rút gọn R Mối liên hệ giữa các tập rút gọn trong các nhóm như sau: Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R2 thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1 R2 R3 Nếu R4 là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn R2 thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1 R2 R4 Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc. .. tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [3, 8], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng Bảng 1.3 Các phương pháp rút gọn thuộc tính trong công trình [3, 8] STT Phƣơng pháp Tập rút gọn 1 Phương pháp... Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute) Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định Thuộc tính dư thừa là những thuộc tính mà việc loại... của Thuật toán 2.2 là O p 2n 2 Nếu tìm tập rút gọn của tập thuộc tính A P bằng Thuật toán 2.1 thì độ phức tạp sẽ là O k p n2 Do đó, Thuật toán 2.2 tìm tập rút gọn theo phương 3 pháp gia tăng giảm thiểu đáng kể thời gian thực hiện Ví dụ 2.6 Từ Ví dụ 2.4 ta có a3 , a4 là một rút gọn “tốt nhất” của bảng quyết định không đầy đủ (Bảng 2.1) cho ở Ví dụ 2.1 Xét bảng quyết định không đầy đủ IDS U, A d cho. .. trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong công trình [14] Sử dụng hàm phân biệt mở rộng, chương 2 cũng trình bày các thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập thuộc tính Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 18 Chƣơng 2 CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ... bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc.tnu.edu.vn/ 8 của bảng quyết định Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định Với bảng quyết định DS U,C D,V , f Thuộc tính c C được gọi là không cần thiết (dispensable) trong DS nếu... (theo kết quả phân nhóm các phương pháp rút gọn thuộc tính trình bày ở Chương 1) Định nghĩa 2.5 Cho bảng quyết định không đầy đủ IDS a U, A d , R A và A R Độ quan trọng của thuộc tính a đối với tập thuộc tính R được định nghĩa bởi SIG Rout a DIS R a DIS R Định nghĩa 2.6 Cho hệ quyết định không đầy đủ IDS a R U, A d , R A và Độ quan trọng của thuộc tính a trong tập thuộc tính R được định nghĩa bởi SIG Rin... A Các thuật toán tiếp cận gia tăng tìm tập rút gọn khi bổ sung, loại 2.2 bỏ tập thuộc tính Trong phần này, luận văn nghiên cứu sự thay đổi của ma trận phân biệt mở rộng và hàm phân biệt mở rộng trong bảng quyết định không đầy đủ với hai trường hợp: bổ sung tập thuộc tính và loại bỏ tập thuộc tính Trên cơ sở đó, luận văn trình bày thuật toán tìm tập rút gọn theo hướng tiếp cận gia tăng 2.2.1 Thuật toán. .. rút gọn dựa trên hàm phân bố ( R ), nghĩa là: nếu R là một tập rút gọn phân bố thì tồn tại R R với R là một tập rút gọn dựa trên hàm quyết định suy rộng Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không nhất quán được biểu diễn bằng sơ đồ sau: RI RP R R RTM RD RM R Hình 1.1 Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ Từ sơ đồ về mối liên hệ giữa các tập rút. .. X là B -không xác định hoàn toàn nếu BX và BX U 1.1.2 Bảng quyết định đầy đủ Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định đầy đủ, gọi tắt là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức ... 2.3 Thuật toán tìm tập rút gọn bảng định không đầy đủ loại bỏ tập thuộc tính Đầu vào: Bảng định không đầy đủ IDS U, A d , tập rút gọn tốt R A tập thuộc tính A tập thuộc tính P với P Đầu ra: Một. .. GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH Chương trình bày hai nội dung sau: 1) Phương pháp rút gọn thuộc tính bảng định không đầy đủ sử... pháp rút gọn thuộc tính công trình [3, 8] 13 Bảng 2.1 Bảng định không đầy đủ mô tả tivi 19 Bảng 2.1 Bảng định không đầy đủ mô tả tivi (tiếp theo) 24 Bảng 2.3 Bảng định không đầy đủ

Ngày đăng: 16/02/2016, 15:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan