Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai Trần Thị Loan Viện Công nghệ Thông tin Luận văn ThS Chuyên ngành: Quản lý hệ thống thông tin Mã số Chuyên ngành đào tạo thí điểm Người hướng dẫn: TS. Nguyễn Long Giang Năm bảo vệ: 2015 Keywords. Quản lý hệ thống thông tin; Hệ thông tin đầy đủ; Hệ thông tin không đầy đủ; Thuộc tính. Content MỞ ĐẦU Lý thuyết tập thô - do Zdzislaw Pawlak [10] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tìm tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất. Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ. Trên bảng quyết định không đầy đủ, Kryszkiewicz [5] đã mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Dựa trên mô hình tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đề xuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật, đáng chú ý là các công bố được liệt kê trong công trình [8]. Tuy nhiên, các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và trích lọc luật trên các bảng quyết định không đầy đủ còn nhiều hạn chế. Luận văn đặt ra hai mục tiêu chính: 1) Tổng hợp các công bố mới nhất về các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, bao gồm: phân nhóm các phương pháp và nghiên cứu mối liên hệ giữa các nhóm; luật quyết định trong bảng quyết định không đầy đủ và các độ đo đánh giá hiệu năng tập luật; sự thay đổi các độ đo đánh giá hiệu năng trên tập luật quyết định và so sánh, đánh giá các phương pháp rút gọn thuộc tính theo tiêu chuẩn chất lượng phân lớp của tập rút gọn. 2) Xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch, bao gồm: xây dựng độ đo khoảng cách phân hoạch; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách phân hoạch; xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách phân hoạch; phân nhóm và đánh giá phương pháp đề xuất với các phương pháp đã có và thử nghiệm phương pháp trên các bộ số liệu mẫu từ kho dữ liệu UCI [13]. Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ với kích thước trung bình và kích thước lớn. Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở bước tiền xử lý số liệu trong quá trình khai phá dữ liệu. Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu thực nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI [13], so sánh và đánh giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết, từ đó kết luận tính đúng đắn của kết quả nghiên cứu. Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần kết luận và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [10] và mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình tập thô dung sai [5] trong hệ thông tin không đầy đủ được sử dụng trong chương 2 và chương 3. Chương 2 trình bày hai nội dung chính, thứ nhất là tổng kết các công bố mới nhất về các phương pháp rút gọn thuộc tính, mối liên hệ, phân nhóm các phương pháp, các độ đo đánh giá hiệu năng tập luật quyết định và sự thay đổi các độ đo trên các tập rút gọn của các phương pháp. Thứ hai là đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch, bao gồm xây dựng phương pháp và cài đặt, thử nghiệm, đánh giá phương pháp trên các bộ số liệu mẫu từ kho dữ liệu UCI [13]. Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp đề xuất trên các bộ số liệu mẫu từ kho dữ liệu UCI [13] nhằm sáng tỏ các kết quả nghiên cứu về lý thuyết. Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát triển tiếp theo. Reference Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang (2012), Nghiên cứu các phương pháp khai phá dữ liệu theo tiếp cận lý thuyết tập thô, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. [2] Nguyễn Thanh Tùng (2010), “Về một metric trên họ các phân hoạch của một tập hợp hữu hạn”, Tạp chí Tin học và Điều khiển học, T.26, S.1, tr. 73-85. [3] Nguyễn Long Giang, Vũ Văn Định, “Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn của bảng quyết định không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu cơ bản và ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr. 394- 402. Tài liệu tiếng Anh [4] Huang B., Li H. X. and Zhou X. Z. (2005), “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol. 34, pp. 55-60. [5] Kryszkiewicz M. (1998), “Rough set approach to incomplete information systems”, Information Science, Vol. 112, pp. 39-49. [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp. 311-316. [7] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol. 8170, 2013, pp. 99-110. [8] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp. 417-426. [9] Pawlak Z. (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356. [10] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers. [11] Qian Y. H. , Dang C. Y., Liang J. Y., Zhang H. Y., Ma J. M., “On the evaluation of the decision performance of an incomplete decision table”, Data & Knowledge Engineering 65, 2008, pp. 373–400. [12] Yao Y.Y., Zhao Y. and Wang J. (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp. 297-304. [13] The UCI machine learning repository, <http://archive.ics.uci.edu/ml/datasets.html> [14] Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, “Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems”, Serdica Journal of Computing 7 (2013), No 4, pp. 375-388. . Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai Trần Thị Loan Viện Công nghệ Thông tin Luận văn ThS Chuyên ngành: Quản lý hệ thống thông. niệm cơ bản về lý thuyết tập thô của Pawlak [10] và mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình tập thô dung sai [5] trong hệ thông tin không đầy đủ được sử dụng trong. quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, bao gồm: phân nhóm các phương pháp và nghiên cứu mối liên hệ giữa các nhóm; luật quyết định trong bảng quyết định không đầy đủ và

Rút gọn thuộc tính trên hệ quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan