Ứng dụng phương sai trong phân cụm dữ liệu mờ

70 438 0
Ứng dụng phương sai trong phân cụm dữ liệu mờ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỖ THỊ PHƢƠNG LAN ỨNG DỤNG PHƢƠNG SAI TRONG PHÂN CỤM DỮ LIỆU MỜ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: PGS.TS Nguyễn Tân Ân THÁI NGUYÊN Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ i LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm cá nhân, không sao chép lại của người khác. Trong toàn bộ nội dung luận văn, những điều được trình bày là của cá nhân hoặc là tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin chịu trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Thái Nguyên, tháng 10 năm 2013 Tác giả luận văn Đỗ Thị Phƣơng Lan Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ ii LỜI CẢM ƠN Em xin chân thành cảm ơn thầy PGS.TS Nguyễn Tân Ân đã tận tình hướng dẫn khoa học và chỉ bảo em hoàn thành tốt luận văn tốt nghiệp này. Em cũng xin bày gửi lời cảm ơn tới các thầy giáo, cô giáo đã chỉ bảo và truyền đạt kiến thức cho em trong suốt quá trình học tập và nghiên cứu. Thái Nguyên, tháng 10 năm 2013 Tác giả luận văn Đỗ Thị Phƣơng Lan Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC BẢNG vii CHƢƠNG 1: BÀI TOÁN PHÂN CỤM DỮ LIỆU 3 1.1. Khái quát chung 3 1.2. Các kiểu dữ liệu và độ đo khoảng cách 5 1.2.1. Các kiểu dữ liệu 5 1.2.2 . Độ đo tương tự và phi tương tự 7 1.2.3. Các biến tỷ lệ khoảng cách 9 1.2.4. Các biến nhị phân 11 1.2.5. Các biến tên, có thứ tự và dựa trên tỷ lệ 14 1.2.6 .Các biến có sự pha trộn của các kiểu 16 1.3. Các đặc trưng cơ bản để phân cụm dữ liệu 18 1.3.1. Các yêu cầu của phân cụm dữ liệu 18 1.3.2. Các đặc trưng cơ bản để phân cụm dữ liệu 20 1.4. Những phương pháp tiếp cận trong phân cụm dữ liệu 21 1.4.1. Phương pháp phân cụm phân hoạch 21 1.4.2. Phương pháp phân cụm phân cấp 22 1.4.3. Phương pháp phân cụm dựa trên mật độ 24 1.4.4. Phương pháp phân cụm dựa trên mô hình 25 1.4.5. Phương pháp phân cụm dựa trên lưới 25 1.4.6. Phương pháp phân cụm có dữ liệu ràng buộc 26 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ iv 1.5. Các ứng dụng của phân cụm dữ liệu 28 1.6. Kết luận 28 CHƢƠNG 2: ỨNG DỤNG PHƢƠNG SAI TRONG PHÂN CỤM DỮ LIỆU MỜ 30 2.1. Thuật toán Fuzzy C-Means chuẩn 30 2.2. Thuật toán Fuzzy C-Means cải tiến 34 2.2.1. Cấu trúc khoảng cách 34 2.2.2. Thuật toán Fuzzy C-Means cải tiến 37 2.3. Kết luận 51 CHƢƠNG 3: CHƢƠNG TRÌNH THỰC NGHIỆM 52 3.1. Giới thiệu bài toán 52 3.2. Thiết kế chương trình 55 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ v DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT FCM : Fuzzy C-Means CSDL : Cơ sở dữ liệu PCDL : Phân cụm dữ liệu KPDL : Khai phá dữ liệu Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ vi DANH MỤC CÁC HÌNH Hình 1.1: Ví dụ về phân cụm dữ liệu 3 Hình 1.2: So sánh giữa khoảng cách Euclid và khoảng cách Manhattan 11 Hình 1.3: Các bước trong quá trình phân cụm 21 Hình 1.4: các chiến lược phân cụm phân cấp 23 Hình 1.5: Các cụm dữ liệu được khám phá bởi Cure 24 Hình 1.6: Cấu trúc phân cụm dữ liệu dựa trên lưới 26 Hình 1.7: Các cách mà các cụm có thể đưa ra 27 Hình 2.1: Ví dụ thể hiện giới hạn của khoảng cách Euclid trong dựng hình theo hàm Gaussian 36 Hình 2.2: Phân cụm sử dụng thuật toán FCM chuẩn 48 Hình 2.3: Phân cụm sử dụng thuật toán FCM cải tiến 48 Hình 2.4: Khoảng cách từ mỗi cụm dữ liệu tới các trung tâm cụm sử dụng khoảng cách (2.7) trong trường hợp thuật toán FCM chuẩn với tập hợp ba cụm . 48 Hình 2.5: Khoảng cách từ mỗi cụm dữ liệu tới các trung tâm cụm sử dụng khoảng cách (2.7) trong trường hợp sử dụng thuật toán FCM cải tiến với tập hợp ba cụm 49 Hình 2.6: Khoảng cách từ mỗi cụm dữ liệu tới các trung tâm cụm sử dụng khoảng cách (2.7) trong trường hợp thuật toán FCM chuẩn với tập hợp hai cụm 49 Hình 2.7: Khoảng cách từ mỗi cụm dữ liệu tới các trung tâm cụm sử dụng khoảng cách (2.7) trong trường hợp thuật toán FCM cải tiến với tập hợp hai cụm 50 Hình 3.1. Gan trong cơ thể người 52 Hình 3.2: Giao diện khi thực hiện chương trình 57 Hình 3.3: Chức năng thoát khỏi chương trình 58 Hình 3.4: Cập nhật danh sách bệnh nhân 58 Hình 3.5: Thiết lập các thông số đầu vào để phân cụm 58 Hình 3.6: Quá trình phân cụm 59 Hình 3.7: Kết quả phân cụm 59 Hình 3.8: Đưa kết quả bài toán ra giấy 60 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ vii DANH MỤC CÁC BẢNG Bảng 1.1: Bảng ngẫu nhiên cho các biến nhị phân 12 Bảng 1.2: Bảng quan hệ chứa hầu hết các thuộc tính nhị phân 13 Bảng 2.1: Thuật toán FCM 34 Bảng 2.2: Bảng thuật toán FCM cải tiến 46 Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 1 MỞ ĐẦU Ngày nay, cùng với sự phát triển của công nghệ thông tin thì lượng thông tin mà con người có thể thu thập được ngày càng lớn. Trong những kho dữ liệu khổng lồ ấy đều chứa một kho tàng tri thức quý báu. Con người đã nhận ra điều đó và từ đó cũng là các phương pháp để khai thác dữ liệu đã ra đời. Trong khai phá dữ liệu (KPDL), phân cụm dữ liệu (PCDL) là một kỹ thuật được nghiên cứu mở rộng hiện nay với nhiều khả năng ứng dụng trong thực tế. Phân cụm các đối tượng để các đối tượng trong cùng một cụm sẽ nhận được được sự quan tâm giống nhau, chịu những phương pháp tác động giống nhau. Ví dụ phân cụm các học sinh để các học sinh trong cùng một cụm sẽ nhận được các phương pháp giáo dục như nhau. Phân cụm các ngân hàng để các ngân hàng trong cùng một cụm sẽ nhận được sự đầu tư giống nhau… Như vậy, phân cụm là một việc khó. Mỗi đối tượng tham gia vào quá trình phân cụm thường được đặc trưng bởi nhiều thuộc tính. Dựa vào giá trị của các thuộc tính đó, qua những phương pháp thích hợp, người ta chia các đối tượng này vào các cụm khác nhau sao cho hai đối tượng trong cùng một cụm phải giống nhau hơn một đối tượng ở cụm này so với một đối tượng ở cụm khác. Trong phân cụm việc xác định mức độ giống nhau giữa hai đối tượng có ảnh hưởng lớn tới chất lượng phân cụm. Trong trường hợp mỗi đối tượng được biểu diễn bởi nhiều thuộc tính, một số thuộc tính đó lại là thuộc tính mờ, việc biểu diễn các đối tượng, việc xác định độ giống nhau giữa các đối tượng rất phức tạp. Khi đó hệ thống phân cụm phải là hệ thống xử lý các tín hiệu mờ. Đã có nhiều phương pháp PCDL, tuy nhiên không có phương pháp nào đủ tổng quát để mang lại hiệu quả tốt nhất cho mọi trường hợp. Do tầm quan Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ 2 trọng của phân cụm, hiện nay người ta vẫn đang tìm kiếm các phương pháp phân cụm mới hoặc cải thiện những phương pháp phân cụm đã có nhằm nâng cao hiệu quả của phân cụm. Luận văn trình bày một số vấn đề về PCDL - đây là một trong những kỹ thuật cơ bản để KPDL. Đây là một hướng nghiên cứu có triển vọng và chỉ ra những sơ lược trong việc tìm hiểu và khai thác các thông tin hữu ích còn tiềm ẩn và hiểu được ý nghĩa thực tiễn của dữ liệu. Trong khuôn khổ của luận văn thạc sỹ, tôi chọn đề tài: “Ứng dụng phương sai trong phân cụm dữ liệu mờ” nhằm kết hợp giữa việc phân cụm với lý thuyết xác suất nhằm nâng cao hiệu quả của phân cụm. Luận văn được trình bày trong 3 chương: Chƣơng 1: Trình bày tổng quan về bài toán PCDL, các kiểu dữ liệu và một số kỹ thuật tiếp cận trong PCDL. Qua đó ta thấy đƣợc ứng dụng của PCDL trong hoạt động đời sống xã hội; Chƣơng 2: Giới thiệu, phân tích và đánh giá thuật toán Fuzzy C- Means (FCM) chuẩn và thuật toán FCM cải tiến; Chƣơng 3: Demo chƣơng trình thử nghiệm. Kết luận: Tóm lược các vấn đề tìm hiểu trong luận văn và các vấn đề liên quan trong luận văn, đưa ra phương hướng nghiên cứu tiếp theo. [...]... niệm bài toán phân cụm dữ liệu mờ Phân cụm được sử dụng rộng rãi trong nhiều lĩnh vực như nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường, Là một chức năng trong KPDL, phân tích phân cụm được sử dụng như một công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc phân tích đạt... pháp quan trọng trong quá trình khai thác dữ liệu[ 2] Chưa có một khái niệm cụ thể nào về phân cụm nhưng có thể hiểu rằng phân cụm dữ liệu hay phân cụm, cũng có thể được gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng tương tự nhau trong một tập dữ liệu vào với cụm sao cho hai đối tượng cùng một cụm là tương tự nhau hơn một đối tượng ở cụm này so với... CSDL thực đều chứa đựng những dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu sai hoặc có thể có những dữ liệu con người còn chưa biết Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp Thứ sáu là ít nhạy cảm với thứ tự của các dữ liệu vào: một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các... cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cấp dữ liệu cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong KPDL Trong khi hầu hết các thuật toán thực hiện phân cụm với các cụm hình cầu và kích thước tương tự, như vậy là không hiệu quả khi xuất hiện các phân tử ngoại lai Thuật... trung tâm học liệu http://www.lrc-tnu.edu.vn/ 21 Tập dữ liệu Lựa chọn thuật toán phân cụm Lựa chọn đặc trưng Giải thích kết quả Công nhận kết quả Hình 1.3: Các bước trong quá trình phân cụm 1.4 Những phƣơng pháp tiếp cận trong phân cụm dữ liệu Các phương pháp kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám... để phân cụm dữ liệu 1.3.1 Các yêu cầu của phân cụm dữ liệu Trong KPDL thì việc phân cụm là một thách thức ở chỗ những ứng dụng tiềm năng của chúng được đưa ngay chính trong những yêu cầu đặc biệt Sau đây là một số yêu cầu cơ bản trong quá trình PCDL trong KPDL: Thứ nhất là có khả năng mở rộng: đây là một trong những yêu cầu quan trọng nhất Vì rất nhiều thuật toán phân cụm làm việc tốt với những tập dữ. .. đối tượng dữ liệu khi phân cụm trong không gian với số chiều lớn Thứ tám là phân cụm ràng buộc: nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc được đưa ra Thứ chín là tính dễ hiểu và dễ sử dụng tức là người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu,... cho việc PCDL có kiểu khoảng (kiểu số) Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau như kiểu dữ liệu nhị phân, kiểu dữ liệu định danh không thứ tự và kiểu dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này Thứ ba là khám phá ra các cụm với hình dạng bất kỳ: nhiều thuật toán phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng... một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong CSDL, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn Nhưng để có thể quyết định được những dữ liệu nào tạo thành một cụm thì có thể chỉ ra rằng... thuộc tính số - Phân cụm khái niệm: kỹ thuật này được phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí - Phân cụm mờ: sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn - Phân cụm mạng kohonen: loại phân cụm này dựa . dữ liệu 18 1.3.2. Các đặc trưng cơ bản để phân cụm dữ liệu 20 1.4. Những phương pháp tiếp cận trong phân cụm dữ liệu 21 1.4.1. Phương pháp phân cụm phân hoạch 21 1.4.2. Phương pháp phân cụm. bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ iv 1.5. Các ứng dụng của phân cụm dữ liệu 28 1.6. Kết luận 28 CHƢƠNG 2: ỨNG DỤNG PHƢƠNG SAI TRONG PHÂN CỤM DỮ LIỆU MỜ 30 2.1. Thuật toán. phân cấp 22 1.4.3. Phương pháp phân cụm dựa trên mật độ 24 1.4.4. Phương pháp phân cụm dựa trên mô hình 25 1.4.5. Phương pháp phân cụm dựa trên lưới 25 1.4.6. Phương pháp phân cụm có dữ liệu

Ngày đăng: 18/11/2014, 22:31

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan