Nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập

123 797 3
Nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập

LỜI CAM ĐOAN Nghiên cứu sinh i Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả được trình bày trong luận án là mới, các số liệu là trung thực và chưa từng được ai công bố trong các công trình nào khác./. LỜI CẢM ƠN Luận án được hoàn thành dưới sự hướng dẫn, chỉ bảo tận tình của PGS.TS Nguyễn Bá Tường, người mà từ đó tác giả đã học được nhiều điều quí giá. Tác giả cũng đã nhận được sự hướng dẫn và sự quan tâm giúp đỡ về nhiều mặt, cùng với những đòi hỏi nghiêm khắc của PGS.TS Hà Quang Thụy. Tác giả xin bày tỏ lòng biết ơn sâu sắc và chân thành tới những người Thầy đã giúp tác giả hoàn thành những mục tiêu đặt ra của luận án. Tác giả xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học thuộc: Học viện Kỹ thuật Quân sự, Trường Đại học Công nghệ (đặc biệt là Phòng Thí nghiệm Công nghệ Tri thức - KTLab) - Đại học Quốc gia Hà Nội, Trường Đại học Kinh tế Kỹ thuật Công nghiệp đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tác giả trong suốt thời gian học tậpnghiên cứu. Tác giả cũng xin bày tỏ lòng biết ơn đến các bạn đồng nghiệp đã giúp đỡ và có những trao đổi, chia sẻ những kinh nghiệm về chuyên môn, có nhiều ý kiến đóng góp quý báu cho tác giả trong quá trình nghiên cứu. Tác giả mãi biết ơn những người thân, đặc biệt là chồng và các con, đã luôn chia sẻ mọi khó khăn và là chỗ dựa vững chắc về tinh thần và tạo mọi điều kiện cho tác giả trong suốt thời gian hoàn thành luận án. ii MỤC LỤC LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ vii BẢNG KÝ HIỆU, TỪ VIẾT TẮT viii DANH MỤC BẢNG x DANH MỤC HÌNH VẼ xi MỞ ĐẦU 1 Chương 1. LÝ THUYẾT TẬP THÔ VÀ CÁC MỞ RỘNG 9 1.1. Hệ thông tin và tập thô 9 1.1.1. Hệ thông tin 9 1.1.2. Quan hệ không phân biệt được 10 1.1.3.Các tập xấp xỉ 12 1.1.4.Các tính chất của xấp xỉ 15 1.1.5.Độ chính xác của xấp xỉ 16 1.1.6.Bảng quyết định 16 1.1.7.Quan hệ dung sai 17 1.2. Hệ thông tin giá trị tập 19 1.2.1. Khái niệm 19 1.2.2. Quan hệ dung sai trong hệ thông tin giá trị tập 20 1.2.3. Bảng quyết định giá trị tập 21 1.2.4. Tập thô theo quan hệ dung sai 21 1.3. Kết luận 23 Chương 2. RÚT GỌN THUỘC TÍNH THEO LÝ THUYẾT TẬP THÔ 24 2.1. Giới thiệu chung 24 2.2. Rút gọn thuộc tính trong hệ thông tin 25 2.2.1. Tập rút gọntập lõi 25 2.2.2.Ma trận phân biệt và hàm phân biệt 30 2.2.3.Phụ thuộc xấp xỉ 33 2.2.3.1. Hàm thành viên thô 34 iii 2.2.3.2. Độ phụ thuộc xấp xỉ 34 2.3. Rút gọn thuộc tính trong hệ thông tin giá trị tập 35 2.3.1. Tập rút gọn trong hệ thông tin (bảng quyết định) giá trị tập 36 2.3.2. Ma trận phân biệt 36 2.3.3. Rút gọn thuộc tính sử dụng đối tượng đại diện 38 2.4. Kết luận 40 Chương 3. RÚT GỌN THUỘC TÍNH TRONG HỆ QUYẾT ĐỊNH GIÁ TRỊ TẬP SỬ DỤNG HÀM PHÂN BIỆT THEO BẢNG PHÂN BIỆT NGẪU NHIÊN 42 3.1. Cơ sở lý thuyết 42 3.1.1. Hàm phân biệt mở rộng 42 3.1.2. Bảng phân biệt ngẫu nhiên 44 3.1.3. Bảng ngẫu nhiên dung sai 49 3.1.4. Dàn giá trị thuộc tính 54 3.2. Thuật toán tìm tập rút gọn thuộc tính trong bảng quyết định giá trị tập 57 3.2.1. Thuật toán 3.1. tìm tập rút gọn thuộc tính GMDSDT 57 3.2.2. Độ phức tạp thuật toán GMDSDT 58 Chứng minh tính đúng của thuật toán GMDSDT 58 3.2.3. Ví dụ minh họa 59 3.3. Thực nghiệm thuật toán GMDSDT 62 3.3.1. Cài đặt thuật toán 62 3.3.2. Chuẩn bị số liệu thực nghiệm 62 3.3.3. Thi hành thực nghiệm thuật toán 62 3.4. Thuật toán tìm tập xấp xỉ trong hệ thông tin giá trị tập 65 3.4.1. Đặt vấn đề 65 3.4.2. Thuật toán tìm tập xấp xỉ dưới và xấp xỉ trên VASDT 66 3.4.3. Độ phức tạp của thuật toán VASDT 67 3.4.4. Ví dụ minh họa thuật toán tìm tập xấp xỉ 67 3.5. Kết luận 69 iv Chương 4. RÚT GỌN THUỘC TÍNH TRONG HỆ QUYẾT ĐỊNH GIÁ TRỊ TẬP SỬ DỤNG HÀM PHÂN BIỆT THEO MA TRẬN PHÂN BIỆT MỞ RỘNG 70 4.1. Chọn mẫu đại diện cho bài toán tìm tập rút gọn 70 4.1.1. Đặt vấn đề 70 4.1.2. Chọn tập đối tượng đại diện trong hệ thông tin giá trị tập cho bài toán 71 tìm tập rút gọn 71 4.1.2.1. Cơ sở lý thuyết 71 4.1.2.2. Thuật toán chọn đối tượng đại diện trên hệ thông tin giá trị tập 73 4.1.2.3. Ví dụ minh họa 74 4.1.3. Chọn tập đối tượng đại diện trong bảng quyết định giá trị tập cho bài toán tìm tập rút gọn 75 4.1.3.1. Cơ sở lý thuyết 75 4.1.3.2. Thuật toán chọn đối tượng đại diện trên bảng quyết định giá trị tập 78 4.1.3.3. Ví dụ minh họa 79 4.2. Rút gọn thuộc tính trong bảng quyết định giá trị tập sử dụng hàm phân biệt mở rộng 80 4.2.1. Cơ sở lý thuyết 80 4.2.2. Thuật toán tìm tập rút gọn trong bảng quyết định giá trị tập sử dụng hàm phân biệt mở rộng 86 4.2.3. Đánh giá độ phức tạp của thuật toán RGDSDT 87 4.2.4. Ví dụ minh họa thuật toán RGDSDT 87 4.3. Rút gọn thuộc tính trong bảng quyết định giá trị tập khi bổ sung và loại bỏ thuộc tính 89 4.3.1. Cơ sở lý thuyết 89 4.3.2. Một số thuật toán gia tăng tìm tập rút gọn thuộc tính RSDTAAS và RSDTDAS 95 4.3.3. Đánh giá độ phức tạp của các thuật toán RSDTAAS và RSDTDAS 96 4.3.4. Ví dụ minh họa thuật toán RSDTAAS và RSDTDAS 97 4.4. Thực nghiệm thuật toán RGDSDT 100 4.4.1. Cài đặt thuật toán RGDSDT 100 4.4.2. Thi hành thực nghiệm thuật toán RGDSDT 100 v 4.5. Kết luận chương 4 102 KẾT LUẬN VÀ KIẾN NGHỊ 103 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 105 TÀI LIỆU THAM KHẢO 106 vi DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Bảng ngẫu nhiên dựa trên quan hệ dung sai Tolerance Based Contingency Table Bảng phân biệt Contingency Table Bảng quyết định Decision Table Bảng quyết định giá trị tập Set valued Decision Information System Hàm phân biệt Discernibility Function Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin giá trị tập Set valued Information System Hệ thông tin không nhất quán Inconsistent Information System Ma trận không phân biệt được Indiscernibility Matrix Quan hệ dung sai Tolerance Relation Quan hệ không phân biệt được Indiscernibility Relation Rút gọn thuộc tính Attribute Reduction Tập lõi Core Tập rút gọn Reduct Tập thô Rough Set Xấp xỉ dưới Lower Approximation Xấp xỉ trên Upper Approximation vii BẢNG KÝ HIỆU, TỪ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải ( ) , , ,S U A V f = Hệ thông tin ( ) , , ,T U C D V f = ∪ Bảng quyết định ( ) , , ,IS U A V f= Hệ thông tin giá trị tập { } ( , , , )DS U C d V f = ∪ Bảng quyết định giá trị tập |X| Số phần tử (lực lượng) của tập X ( ) u a Giá trị của đối tượng u tại thuộc tính a ( ) IND B Quan hệ B − không phân biệt [ ] B u Lớp tương đương chứa u của quan hệ ( ) IND B /U B Phân hoạch của U sinh bởi tập thuộc tính B ( ) COVER U Tập tất cả các phủ của U ( ) B u ∂ Hàm quyết định suy rộng của đối tượng u đối với B BX B − xấp xỉ dưới của X trong hệ thông tin BX B − xấp xỉ trên của X trong hệ thông tin ( ) B BN X B − miền biên của X trong hệ thông tin ( ) B POS D B − miền dương của D trong hệ thông tin B T Quan hệ dung sai của tập thuộc tính B ( ) B T X Xấp xỉ trên của X trong hệ thông tin giá trị tập ( ) B T X Xấp xỉ dưới của X trong hệ thông tin giá trị tập ( ) B T BND X Miền biên của X trong hệ thông tin giá trị tập ( ) B T NEG X Miền ngoài của X trong hệ thông tin giá trị tập ( ) B T POS X Miền dương của X trong hệ thông tin giá trị tập B CT Bảng ngẫu nhiên của tập thuộc tính B B TCT Bảng ngẫu nhiên dựa trên quan hệ dung sai của tập thuộc tính B DT M Ma trận phân biệt ( )discern A Hàm phân biệt viii P IS Hệ thông tin giá trị tập đại diện P DS Bảng quyết định giá trị tập đại diện P U Tập đối tượng đại diện của hệ thông tin giá trị tập P R Tập rút gọn dựa trên miền dương R ∂ Tập rút gọn dựa trên hàm quyết định suy rộng M R Tập rút gọn dựa trên ma trận phân biệt DF R Tập rút gọn dựa trên hàm phân biệt mở rộng CF R Tập rút gọn dựa trên hàm phân biệt ix DANH MỤC BẢNG Bảng 1.1. Một ví dụ về hệ thông tin 10 Bảng 1.2. Bảng quyết định về bệnh cúm 17 Bảng 1.3. Hệ thông tin giá trị tập 19 Bảng 2.1. Bảng rút gọn thứ nhất của hệ thống bệnh cúm 27 Bảng 2.2. Bảng rút gọn thứ hai của hệ thống bệnh cúm 28 Bảng 2.3. Ma trận phân biệt được xây dựng từ Bảng 1.2 31 Bảng 3.1. Bảng phân biệt ngẫu nhiên biểu diễn giá trị tập thuộc tính 48 Bảng 3.2. Minh họa giá trị của hàm phân biệt 54 Bảng 3.3. Bảng quyết định giá trị tập gồm 4 cột thuộc tính 59 Bảng 3.4. Kết quả thực hiện Thuật toán GMDSDT 64 Bảng 3.5. Tập rút gọn của Thuật toán GMDSDT 65 Bảng 3.6. Bảng quyết định giá trị tập gồm 4 cột thuộc tính điều kiện và cột 67 Bảng 4.1. Bảng quyết định giá trị tập 74 Bảng 4.2. Hệ thông tin giá trị tập đại diện từ Bảng 4.1 75 Bảng 4.3. Bảng quyết định giá trị tập đại diện từ Bảng 4.1 80 Bảng 4.4. Bảng quyết định giá trị tập khi bổ sung 90 x [...]... đây:  Một nghiên cứu khái quát về lý thuyết tập thô, tập trung vào lý thuyết hệ thông tin giá trị tập  Một nghiên cứu khái quát các tiếp cận điển hình rút gọn thuộc tính trong hệ thông tin và hệ thông tin giá trị tậpNghiên cứu một số mô hình, kỹ thuật rút gọn thuộc tính trong hệ thông tin giá trị tập, trên cơ sở đó đề xuất một số thuật toán rút gọn thuộc tính trong hệ thông tin giá trị tập 6 Đối... thuật toán tìm tập rút gọn thuộc tính dựa trên khái niệm bảng quyết định giá trị tập Đối tượng nghiên cứu của luận án là bài toán rút gọn thuộc tính trong bảng quyết định giá trị tập như đã trình bày theo các vấn đề nghiên cứu của luận án Phạm vi nghiên cứu của luận án được giới hạn ở bài toán rút gọn thuộc tính trong bước tiền xử lý số liệu Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết... bảng quyết định không đầy đủ sử dụng metric Luận án này tập trung nghiên cứu vấn đề rút gọn thuộc tính trong lý thuyết tập thô, tập trung vào bài toán rút gọn thuộc tính trong hệ thông tin giá trị tập Luận án giải đáp các câu hỏi nghiên cứu sau đây:  Những nội dung điển hình nào được quan tâm khi mở rộng lý thuyết tập thô theo hướng hệ thông tin giá trị tập; lý thuyết tập thô theo hướng hệ thông tin giá. .. thuật toán lựa chọn tập đối tượng đại diện từ tập đối tượng ban đầu cho bài toán tìm tập rút gọn của hệ thông tin giá trị tập và bảng quyết định giá trị tập Luận án chứng minh tập rút gọn trên tập đối tượng ban đầu và tập rút gọn trên tập đối tượng đại diện trong hệ thông tin và trong bảng quyết định giá trị là tương đương (nghĩa là như nhau qua một song ánh), từ đó khẳng định tính đúng đắn của phương... 2.3) 2.2 Rút gọn thuộc tính trong hệ thông tin 2.2.1 Tập rút gọntập lõi Trong các ứng dụng của bảng quyết định vào phân tích dữ liệu (bao gồm phân lớp dữ liệu), các thuộc tính điều kiện được phân thành ba nhóm: Thuộc tính lõi, thuộc tính rút gọnthuộc tính không cần thiết [36, 38, 39] Thuộc tính lõi là thuộc tính cốt yếu, không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính không... thuộc tính được hình thành dựa trên quan hệ dung sai [15, 51] Theo hướng tiếp cận mô hình 25 quan hệ dung sai, một số kết quả nghiên cứu đáng chú ý về rút gọn thuộc tính trên bảng quyết định giá trị tập được công bố trong [8, 27, 44, 45, 64, 65, 66] Chương này giới thiệu các nội dung cơ bản nhất về rút gọn thuộc tính trong hệ thông tin (Mục 2.2) và rút gọn thuộc tính trong hệ thông tin giá trị tập (Mục... ∪ D, V , f ) , trong đó tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D ( A = C ∪ D, C ∩ D = ∅) , tương ứng được gọi là tập thuộc tính điều kiện C và tập thuộc tính quyết định D Tập quyết định có ứng dụng rộng rãi, đặc biệt là các ứng dụng phát hiện luật quyết định tương ứng giá trị các thuộc tính điều kiện C tới giá trị các thuộc tính quyết định D 17 Bảng quyết định T được gọi... án mở rộng có tính điển hình Hệ thông tin giá trị tập là bộ bốn IS = (U, A, V, f), trong đó tập đối tượng U, tập thuộc tính A, tập giá trị V có ý nghĩa như trong định nghĩa của hệ thông tin, còn hàm thông tin f nhận giá trị là một tập giá trị trong V (f: U × A → 2V) Tương ứng với việc mở rộng khái niệm hệ thông tin thành khái niệm hệ thông tin giá trị tập, các khái niệm liên quan trong hệ thông tin... đo trong tính toán hạt (granular computing) [6, 14, 15, 28, 53, 75], các phương pháp tích hợp lý thuyết tập thô với lý thuyết tập mờ [22, 24] Trong hệ thông tin giá trị tập, các phương pháp tìm tập rút gọn thuộc tính được hình thành dựa trên quan hệ dung sai [15, 51] Theo hướng tiếp cận mô hình quan hệ dung sai, một số kết quả nghiên cứu đáng chú ý về rút gọn thuộc tính trên bảng quyết định giá trị tập. .. phương pháp nghiên cứu thực nghiệm Luận án có các đóng góp chính sau đây: 1 Cung cấp một kết quả nghiên cứu khái quát về lý thuyết tập thô, lý thuyết tập thô giá trị tập Kết quả nghiên cứu này được trình bày trong Chương 1 của luận án 2 Cung cấp một kết quả nghiên cứu khái quát về rút gọn thuộc tính trong lý thuyết tập thô, lý thuyết tập thô giá trị tập Kết quả nghiên cứu này được trình bày trong Chương . thuật toán tìm tập rút gọn thuộc tính dựa trên khái niệm bảng quyết định giá trị tập. Đối tượng nghiên cứu của luận án là bài toán rút gọn thuộc tính trong bảng quyết định giá trị tập như đã trình. biệt viii P IS Hệ thông tin giá trị tập đại diện P DS Bảng quyết định giá trị tập đại diện P U Tập đối tượng đại diện của hệ thông tin giá trị tập P R Tập rút gọn dựa trên miền dương R ∂ Tập rút gọn dựa. tính trong hệ thông tin và hệ thông tin giá trị tập.  Nghiên cứu một số mô hình, kỹ thuật rút gọn thuộc tính trong hệ thông tin giá trị tập, trên cơ sở đó đề xuất một số thuật toán rút gọn thuộc

Ngày đăng: 08/05/2014, 20:10

Từ khóa liên quan

Mục lục

  • 1.1.1. Hệ thông tin

  • 1.1.2. Quan hệ không phân biệt được

  • 1.1.3. Các tập xấp xỉ

  • 1.1.4. Các tính chất của xấp xỉ

  • 1.1.5. Độ chính xác của xấp xỉ

  • 1.1.6. Bảng quyết định

  • 1.1.7. Quan hệ dung sai

  • 1.2.1. Khái niệm

  • 1.2.2. Quan hệ dung sai trong hệ thông tin giá trị tập

  • 1.2.3. Bảng quyết định giá trị tập

  • 1.2.4. Tập thô theo quan hệ dung sai

  • 2.2.1. Tập rút gọn và tập lõi

  • 2.2.2. Ma trận phân biệt và hàm phân biệt

  • 2.2.3. Phụ thuộc xấp xỉ

  • 2.3.1. Tập rút gọn trong hệ thông tin (bảng quyết định) giá trị tập

  • 2.3.2. Ma trận phân biệt

  • 2.3.3. Rút gọn thuộc tính sử dụng đối tượng đại diện

  • 3.1.1. Hàm phân biệt mở rộng

  • 3.1.2. Bảng phân biệt ngẫu nhiên

  • 3.1.3. Bảng ngẫu nhiên dung sai

Tài liệu cùng người dùng

Tài liệu liên quan