các giải pháp cải tiến của thuật toán FCM và CFCM nhằm tăng tốc độ tính toán

Mục Lục Mục Lục Lời cảm ơn Bảng ký hiệu, viết tắt Mở đầu Chương 1: Tổng quan Khai phá liệu 1.1Giới thiệu Khai phá liệu 1.2Quá trình KPTT .7 1.3Các hướng tiếp cận hướng áp dụng KPDL 1.4Các ứng dụng thực tiễn khai phá liệu 1.5Các thách thức khó khăn khai phá liệu 10 Chương 2: Bài toán Phân cụm 10 2.1Hình thành toán phân cụm .10 2.2Bài toán phân cụm rõ 11 2.3Những kỹ thuật tiếp cận phân cụm liệu 11 2.3.1Phương pháp phân cụm phân hoạch .12 2.3.2Phương pháp phân cụm phân cấp 12 2.3.3Phương pháp tiếp cận dựa mật độ 13 2.3.4Phương pháp phân cụm dựa lưới 13 2.3.5Phương pháp phân cụm dựa mô hình 14 2.3.6Phương pháp phân cụm liệu có liệu ràng buộc 15 2.3.7Phương pháp phân cụm mạng Kohonen 15 2.4Bài toán phân cụm mờ 16 2.4.1Giới thiệu phân cụm mờ .16 2.4.2Thuật toán Fuzzy C_Mean (FCM) .21 2.4.3Phân cụm mờ có ngữ cảnh 25 Chương 3: Phân cụm mờ ngữ cảnh ứng dụng 27 3.1Thuật toán phân cụm mờ ngữ cảnh 27 3.2Song song hoá thuật toán phân cụm mờ ngữ cảnh 30 3.3Kết thực nghiệm 32 3.4Ứng dụng thuật toán phân cụm mờ theo ngữ cảnh tạo luật mờ 36 3.4.1 Đặt vấn đề 36 3.4.3 Kết thực nghiệm 37 Kết luận 40 1.Các kết đạt .40 2.Hướng phát triển 41 Tài liệu tham khảo 41 Lời cảm ơn Tôi xin gửi lời cám ơn chân thành đến: -1- - PGS.TSKH Bùi Công Cường nhiệt tình hướng dẫn làm luận văn suốt năm qua Thầy đặt móng cho nghiên cứu lĩnh vực phân cụm mờ Thầy theo sát bước, cho chỗ chưa hướng dẫn cách thức thực đề tài Qua trình làm việc với Thầy, học kỹ nghiên cứu khoa học phản biện vấn đề Tôi xin chân thành cảm ơn thầy - Ban Giám đốc cán Trung tâm tính toán hiệu cao, trường Đại học Khoa học Tự nhiên - ĐHQGHN cho phép đến Trung tâm triển khai toán hệ thống song song Trung tâm Đặc biệt gửi lời cảm ơn đến Thạc sỹ Lê Hoàng Sơn, người tạo điều kiện thuận lợi tận tình bảo để hoàn thành tốt luận văn Tôi xin chân thành cảm ơn - Các thầy, cô môn Tin học khoa Toán - Cơ - Tin học cung cấp kiến thức tảng quý báu toán học tin học để thực luận văn - Ban lãnh đạo trường Đại học Kinh tế - Kỹ thuật - Công nghiệp, anh chị đồng nghiệp công tác Trung tâm Hợp tác Quốc tế Bồi duỡng cán trường động viên khích lệ tạo điều kiện thuận lợi để hoàn thành khoá học - Cuối cùng, xin dành tặng kết cho gia đình tôi, người mà yêu quý Hoàng Thị Minh Châu Bảng ký hiệu, viết tắt KPDL KPTT Khai phá liệu Khai phá tri thức -2- FCM CFCM 2C-FCM P2C-FCM UNO UNDP Fuzzy C-means Context Fuzzy C-means method 2-Context Fuzzy C-means method Parallel 2-Context Fuzzy C-means method United Nation Organization United Nations Development Programme Mở đầu Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Khai phá liệu ngày trở nên quan trọng lĩnh -3- vực nhận nhiều quan tâm Để tiến hành khai phá liệu có nhiều phương pháp khác nhau, phương pháp phân cụm liệu sử dụng nhiều Trong phân cụm ta có hai hướng phân cụm rõ phân cụm mờ Phân cụm rõ hiểu ta có tập liệu X, ta kiểm tra điểm liệu xem giống với đặc điểm nhóm ta gán điểm liệu vào nhóm Nhưng thực tế lúc toán phân cụm rõ áp dụng Ví dụ ta có phép phân loại sau: Những người xe máy xịn thuộc nhóm người giàu, người xe máy bình thường thuộc nhóm bình dân Vậy người nghèo xe máy xịn thuộc nhóm nào? Vì cần đưa vào khái niệm toán phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mà cho phép điểm liệu thuộc hai nhiều cụm thông qua bậc thành viên hay độ thuộc Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm tập liệu đề xuất thuật toán tối ưu phân hoạch mờ Dunn (1973) mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ Ý tưởng thuật toán xây dựng phương pháp phân cụm mờ dựa tối thiểu hoá hàm mục tiêu Bezdek (1981) cải tiến tổng quát hoá hàm mục tiêu mờ cách đưa trọng số mũ để xây dựng thuật toán phân cụm mờ chứng minh độ hội tụ thuật toán cực tiểu cục Và đến năm 1996, Witold Pedrycz đưa biến ngữ cảnh vào toán phân cụm mờ, kết thông tin nhận có ý nghĩa hẳn so với phương pháp cũ Đây hướng hay nên tác giả chọn hướng phát triển cho luận văn Các phần luận văn: Chương 1: Tổng quan khai phá liệu Trong chương đề cập đến lịch sử đời, tầm quan trọng, ứng dụng khó khăn thách thức khai phá liệu Quá trình khai phá liệu Chương 2: Bài toán phân cụm -4- Trong chương đề cập đến toán phân cụm rõ, phân cụm mờ, kỹ thuật toán phân cụm Giới thiệu thuật toán phân cụm mờ FCM, thuật toán phân cụm FCM ngữ cảnh Chương 3: Phân cụm mờ ngữ cảnh ứng dụng Trong chương đề cập đến kết mà tác giả phát triển từ thuật toán FCM thuật toán FCM ngữ cảnh Tác giả đưa thuật toán 2C-FCM P2C-FCM Ứng dụng phân cụm mờ có ngữ cảnh để tạo luật mờ Mặc dù tác giả cố gắng trình bày luận văn xác nội dung, mạch lạc hình thức, song luận văn tránh khỏi thiếu sót Tác giả mong nhận ý kiến đóng góp quý báu thầy cô anh chị đồng nghiệp để luận văn hoàn thiện Hà Nội, ngày 28 tháng năm 2010 Hoàng Thị Minh Châu Chương 1: Tổng quan Khai phá liệu 1.1 Giới thiệu Khai phá liệu Trong kỷ nguyên Công nghệ thông tin truyền thông phát triển, mở nhiều hội cho doanh nghiệp, tổ chức, cá nhân việc thu thập xử lý thông tin Hơn nữa, công nghệ lưu trữ phục hồi liệu phát triển nhanh chóng sở liệu quan, doanh nghiệp, tổ chức, cá nhân ngày phong phú đa dạng Chúng ta biết đơn vị liệu không Terabytes mà lên tới Petabytes, lớn nhiều lần Và liệu thể nhiều dạng : -5- - Dữ liệu số - Dữ liệu định tính - Dữ liệu văn - Dữ liệu chuỗi thời gian (y học, khoa học kinh tế….) - Dữ liệu ảnh (cố định video) - Dữ liệu hỗn hợp (Web, hồ sơ y tế….) Như người chìm ngập khối liệu lớn, lại thiếu tri thức Vì đến năm cuối thập kỷ 1980, khái niệm khai phá liệu (KPDL) khám phá tri thức (KPTT) đời để giải vấn đề Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mô hình liệu với tính năng: phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu trình tìm kiếm mẫu mới, thông tin tiềm ẩn mang tính dự đoán khối liệu lớn Những công cụ KPDL phát xu hướng tương lai, tri thức mà KPDL mang lại định kịp thời Với ưu điểm trên, KPDL chứng tỏ tính hữu dụng môi trường kinh doanh ứng dụng rộng rãi lĩnh vực thương mại, tài chính, y học, giáo dục… Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: khai phá liệu ví tìm kim đống cỏ khô Trong ví dụ này, kim mảnh nhỏ tri thức thông tin có giá trị đống cỏ khô kho sở liệu rộng lớn Như vậy, thông tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đoán phân tích liên kết Năm 1989 Fayyad, Smyth Piatestsky-Shapiro dùng khái niệm Phát tri thức từ sở liệu (Knowledge Discovery in Database-6- KDD) Trong đó, khai phá liệu giai đoạn đặc biệt toàn trình, sử dụng kỹ thuật để tìm mẫu từ liệu 1.2 Quá trình KPTT Trong trình KPTT KPDL bước quan trọng nhằm trích rút mẫu liệu hữu ích từ phát tri thức tiềm ẩn kho liệu khổng lồ Trước liệu đến với bước KPDL chúng phải trải qua bước tiền xử lý để liệu phù hợp với thuật toán sử dụng bước KPDL Quy trình cụ thể sau : Hình 1.1 Tổng quan KPTT Các bước trình : Làm liệu (Data cleaning): loại bỏ liệu nhiễu liệu không quán Tích hợp liệu (Data intergation): liệu nhiều nguồn tổ hợp lại Lựa chọn liệu (Data selection): lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu Chuyển đổi liệu (Data transformation): liệu chuyển đổi hay hợp dạng thích hợp cho việc khai phá -7- Khai phá liệu (Data Mining): tiến trình cốt yếu phương pháp thông minh áp dụng nhằm trích rút mẫu liệu Đánh giá mẫu (Pattern Evaluation): bước này, mẫu liệu chiết xuất phần mềm khai phá liệu Không phải mẫu liệu hữu ích, bị sai lệch Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức (Knowlege) hữu ích Biểu diễn tri thức (Knowledge Presentation): giai đoạn kỹ thuật biểu diễn hiển thị sử dụng để đưa tri thức lấy cho người dùng 1.3 Các hướng tiếp cận hướng áp dụng KPDL Vấn đề khai phá liệu phân chia theo lớp hướng tiếp cận sau: - Phân loại dự đoán (classification and prediction): trình xếp đối tượng vào lớp biết trước Ví dụ: phân loại bệnh nhân theo liệu hồ sơ bệnh án, phân loại vùng địa lý theo liệu thời tiết Đối với hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơron nhân tạo (neural network), Hay lớp toán gọi học có giám sát (supervised learning) - Phân cụm (clustering/ segmentation): xếp đối tượng theo cụm liệu tự nhiên, tức số lượng tên cụm chưa biết trước Các đối tượng gom cụm cho mức độ tương tự đối tượng cụm lớn mức độ tương tự đối tượng nằm cụm khác nhỏ Lớp toán gọi học không giám sát hay học không thầy (unsupervised learning) - Luật kết hợp (association rules): dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: 80% sinh viên đăng ký học CSDL có tới 60% số họ đăng ký học phân tích thiết kế hệ thống thông tin Hướng tiếp cận -8- ứng dụng nhiều lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, tài thị trường chứng khoán… - Phân tích chuỗi theo thời gian (sequential/temporal patterns): tương tự khai phá liệu luật kết hợp có thêm tính thứ tự tính thời gian Một luật mô tả mẫu có dạng tiêu biểu X→Y, phản ánh xuất biến cố X dẫn đến việc xuất biến cố Y Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khoán chúng có tính dự báo cao - Mô tả khái niệm (concept desccription and summarization): lớp toán thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn 1.4 Các ứng dụng thực tiễn khai phá liệu KPDL lĩnh vực phát triển thu hút nhiều nhà nghiên cứu nhờ vào ứng dụng thực tiễn Sau số lĩnh vực ứng dụng thực tế điển hình KPDL: - Phân tích liệu hỗ trợ định - Phân loại văn bản, tóm tắt văn bản, phân loại trang Web phân cụm ảnh màu - Chuẩn đoán triệu chứng, phương pháp điều trị y học - Tìm kiếm, đối sánh hệ Gene thông tin di truyền sinh học - Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu tài chính, thị trường chứng khoán - Phân tích liệu marketing, khách hàng - Điều khiển lập lịch trình - Bảo hiểm - Giáo dục… -9- 1.5 Các thách thức khó khăn khai phá liệu KPTT KPDL liên quan đến nhiều ngành, nhiều lĩnh vực thực tế, thách thức khó khăn ngày nhiều, lớn Sau số thách thức khó khăn cần quan tâm: + Các sở liệu lớn, tập liệu cần xử lý có kích thước cực lớn, thực tế kích thước tập liệu thường mức tera-byte (hàng ngàn giga-byte) + Mức độ nhiễu cao liệu bị thiếu + Số chiều lớn + Thay đổi liệu tri thức làm cho mẫu phát không phù hợp + Quan hệ trường phức tạp KPDL lĩnh vực trở thành hướng nghiên cứu thu hút quan tâm nhiều chuyên gia CNTT giới Trong năm gần đây, nhiều phương pháp thuật toán liên tục công bố Điều chứng tỏ ưu thế, lợi ích khả ứng dụng thực tế to lớn KPDL Chương 2: Bài toán Phân cụm 2.1 Hình thành toán phân cụm Mục đích toán phân cụm phân chia số liệu ban đầu thành cụm chứa số liệu có độ gần gũi Việc phân cụm giúp ta tìm giống khác đối tượng (số liệu) để rút thông tin có ích cần thiết Ý tưởng phân cụm xuất nhiều lĩnh vực như: • Sinh học: thực vật, động vật • Y học: bệnh học - 10 - { } n để phân loại tập liệu x k :x k ∈ R Chọn ngữ cảnh, theo hai ánh xạ A B định nghĩa không gian tương ứng Y Z sau: A: Y → [0,1] yk  B: Z f1k = A(yk) (3.1) → [0,1] zk  f2k = B(zk) (3.2) Hàm mục tiêu là: C N J = ∑∑ukjm xk −ν j j =1 k =1 Thuật toán phân cụm mờ ngữ cảnh (2C-FCM) Thuật toán gồm bước bản: Sử dụng thuật toán FCM với ngữ cảnh để phân loại thành C1 cụm Với hàm mục tiêu là: C1 N J = ∑∑ukjm xk −ν j j =1 k =1 Với x k ∈ R với k = 1,…, N giá trị liệu giá trị ngữ cảnh Ma trận phân hoạch là: C1 U = { ukj ∈ (0,1) : ∑ ukj = 1, for k = 1, , N } j= Kết bước ma trận phân hoạch U C1 cụm R Tính fk sau: f (1jk)= u kj , k=1, ,N j=1, C1 (3.3) Với giá trị f (1jk) với j=1, C1, sử dụng CFCM để phân loại với giá trị ngữ cảnh lần hai thành C2 cụm theo hàm mục tiêu là: - 28 - C2 N J = ∑ ∑ ukjm xk − ν j j =1 k =1 Với x k ∈ R mà k = 1,…,N giá trị biến ngữ cảnh thứ Kết ma trận thứ hai là: C2 U = {u kj ∈ (0,1) : ∑ u kj = f1k ,k = 1, , n; i = 1, , c1 }, (i ) j =1 Xác định giá trị ngữ cảnh cho thuộc tính thứ hai f 2(kj ) = ukj với k=1,…,N j=1,…,C2 (3.4) Chúng ta có C 1×C giá trị ngữ cảnh với l =1,…, C 1× C (l ) Với giá trị ngữ cảnh f k , sử dụng CFCM để phân loại lại tập liệu thành C nhóm với hàm mục tiêu là: C N J = ∑∑u kjm xk −ν j j =1 k =1 Với { x k ∈ R n −2 }, giá trị liệu n - thuộc tính lại Ma trận phân hoạch là: C U = { uks ∈ (0,1) : ∑uks = f 2(kl ) , ∀s = 1, , C } s =1 Ở bước cuối nhận thấy có C1*C2*C cụm theo C1*C2 ngữ cảnh từ ngữ cảnh chọn lựa Ma trận phân hoạch cuối là: U = { uks ∈ (0,1) : C1 × C2 × C ∑ j=1 ukj = 1, ∀ k = 1, , N } Như thấy, mức độ chi tiết tri thức phân cụm tăng lên cách sử dụng giá trị ngữ cảnh Ví dụ, số quốc gia có GDPPC “cao” EI “cao” liệt kê thuật toán phân cụm mờ ngữ cảnh thông - 29 - tin GDPPC “cao” EI “cao”được thuật toán CFCM Vì vậy, CFCM gọi FCM ngữ cảnh (1C-FCM) Mặc dù sau loại bỏ ngữ cảnh chọn, phần liệu lại đóng góp mức quan trọng hơn, nhiên, phân chia liệu thành cụm với ý nghĩa liệu có mối quan hệ với ngữ cảnh chọn 3.2 Song song hoá thuật toán phân cụm mờ ngữ cảnh Thuật toán phân cụm mờ ngữ cảnh (2CFCM) làm tăng mức độ chi tiết so với thuật toán CFCM truyền thống Tuy nhiên, thời gian thuật toán để kết gia tăng, phải xử lý nhiều biến ngữ cảnh Về bản, bước thuật toán 2C-FCM sử dụng CFCM FCM công cụ để phân cụm liệu Giả sử phức tạp CFCM FCM trường hợp Vì vậy, có đánh giá độ phức tạp thuật toán 2C-FCM sau: Bước 1: Một lần sử dụng FCM Bước 3: C1 lần sử dụng CFCM Bước 5: C 1× C lần sử dụng CFCM Độ phức tạp thuật toán FCM (CFCM) O(n4) Do đó, độ phức tạp thuật toán 2C-FCM tương đương O(n 6) Mặc dù tri thức tăng lên tốc độ tính toán vấn đề kích thước liệu tương đối lớn Ví dụ, thị trường chứng khoán, nơi có nhiều cổ đông giao dịch thời gian ngắn, việc phân loại thật khó khăn Cho đến nay, không tìm thấy giải pháp tối ưu hoá cho trường hợp Nhờ phát minh siêu máy tính đặc biệt tính toán song song, câu trả lời cho câu hỏi giải Chúng ta sử dụng giải thuật song song hoá cho thuật toán 2C-FCM để làm tăng tốc độ tính toán [3] Song song hoá thuật toán phân cụm mờ ngữ cảnh (P2C-FCM) - 30 - Thuật toán gồm bước: Sử dụng thuật toán FCM với giá trị ngữ cảnh lựa chọn, phân thành C1 cụm, với hàm mục tiêu là: C1 N J = ∑∑ukjm xk −ν j j =1 k =1 Với xk ∈ R với k=1,…,N giá trị liệu ngữ cảnh Kết bước ma trận U1 C1 tâm cụm R C1   U 1= u kj ∈ ( 0,1) : ∑ u kj = 1, k = 1, , N  j =1   { ( j) Với tâm cụm : V , j = 1, ,C } Giả sử số lượng xử lý h, phân chia ma trận U C1 cụm theo số Thật vậy, số lượng giá trị ngữ cảnh trung tâm cụm xử lý tương đương với thương C1 h Tuy nhiên, số xử lý phải thực thêm giá trị ngữ cảnh trung tâm cụm tuỳ thuộc vào thặng dư số Thủ tục minh chứng đoạn mã giả sau: int NumRows = C1 / h; int Surpluses = C1 % h; int pos = 1; Đối với ID xử lý: - Tính toán số lượng liệu gửi đến ID xử lý: int NumData = (ID [...]... hơn, thời gian xử lý tăng lên do tương tác và đồng bộ hoá giữa các bộ xử lý Kết quả là, thời gian chạy của P 2CFCM cũng tăng lên Cuối cùng, chúng ta so sánh tốc độ tính toán của các thuật toán CFCM, 2CFCM và P2C -FCM theo số lượng của các phần tử Chú ý rằng mặc dù số lượng các phần tử dường như là nhỏ nhưng các thông số khác như số lượng các nhóm (C1, C2, C), kích thước của dữ liệu X và tính chính xác hoặc... Song song hoá thuật toán phân cụm mờ 2 ngữ cảnh Thuật toán phân cụm mờ 2 ngữ cảnh ( 2CFCM) làm tăng mức độ chi tiết so với thuật toán CFCM truyền thống Tuy nhiên, thời gian của thuật toán để ra kết quả cũng gia tăng, do phải xử lý nhiều biến ngữ cảnh hơn Về cơ bản, từng bước trong thuật toán 2C -FCM sử dụng CFCM hoặc FCM như một công cụ để phân cụm dữ liệu Giả sử rằng sự phức tạp của CFCM và FCM trong trường... này là như nhau Vì vậy, chúng ta có đánh giá độ phức tạp của thuật toán 2C -FCM như sau: Bước 1: Một lần sử dụng FCM Bước 3: C1 lần sử dụng CFCM Bước 5: C 1× C 2 lần sử dụng CFCM Độ phức tạp thuật toán FCM (CFCM) là O(n4) Do đó, độ phức tạp thuật toán 2C -FCM tương đương là O(n 6) Mặc dù tri thức được tăng lên nhưng tốc độ tính toán là một vấn đề khi kích thước của dữ liệu tương đối lớn Ví dụ, trong thị... kích thước r=10 và δ = 10-6 Điều này làm cho dữ liệu của chúng ta đủ lớn để thử nghiệm Hình 3.5.So sánh tốc độ tính toán giữa CFCM, 2C -FCM, P2C -FCM Hình 3.5 cho thấy rằng nếu chúng ta muốn tăng thông tin thì thời gian chạy của 2C -FCM sẽ lâu hơn so với thuật toán CFCM Tuy nhiên, giải pháp song song của 2C -FCM (P2C -FCM) có thể giúp chúng ta khắc phục điểm này Nó có thể vừa tăng tri thức và giảm thời gian... hợp thuật toán - 35 - P2C -FCM còn nhanh hơn thuật toán CFCM Điều này cho thấy hiệu quả của 2CFCM và P2C -FCM so với CFCM truyền thống 3.4 Ứng dụng thuật toán phân cụm mờ theo ngữ cảnh tạo các luật mờ 3.4.1 Đặt vấn đề Có nhiều cách để tạo luật mờ từ cơ sở dữ liệu, tuỳ thuộc vào mục đích của các luật được xây dựng [4] [11] Trong phần này, chúng ta minh hoạ cho thủ tục này bằng cách sử dụng số liệu của. .. chủ xử lý dựa vào những con số trên để kết nối các cụm trên tất cả các bộ xử lý lại - Kết quả cuối cùng là một tập tin có chứa một số trung tâm cụm và ma trận phân hoạch Rõ ràng, tốc độ của thuật toán tăng do các hành động đồng thời từ các tiến trình khác nhau Độ chính xác của kết quả là tương tự như trong 2C -FCM bởi vì tất cả các tiến trình thực hiện công việc giống với thuật toán gốc 2C -FCM, nhưng cho... đông và các giao dịch trong một thời gian ngắn, việc phân loại thật sự là khó khăn Cho đến nay, chúng ta đã không tìm thấy một giải pháp nào tối ưu hoá cho trường hợp này Nhờ phát minh của siêu máy tính và đặc biệt là tính toán song song, câu trả lời cho câu hỏi này đã được giải quyết Chúng ta sẽ sử dụng giải thuật song song hoá cho thuật toán 2C -FCM để làm tăng tốc độ tính toán [3] Song song hoá thuật. .. thứ i 2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán [1] Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau: - 11 - 2.3.1 Phương pháp phân cụm phân hoạch Kỹ thuật này phân hoạch... lớn và ngược lại Do c là cố định nên nếu fk càng lớn thì độ thuộc của điểm dữ liệu vào các cụm với ngữ cảnh đang xét sẽ lớn hơn so với điểm dữ liệu có fk nhỏ Cải tiến FCM ở phần trên ta có thuật toán phân cụm mờ có ngữ cảnh Do chỉ thay điều kiện về tổng độ thuộc của điểm dữ liệu vào các cụm nên hàm mục tiêu của thuật toán phân cụm vẫn là: c n min J m = ∑∑ukjm || xk − v j ||2 U ,V (2.23) j =1 k =1 Các. .. có thể sử dụng thuật toán FCM để giải bài toán trên, thuật toán FCM được phát triển bởi Dunn vào năm 1973 [8] và được chứng minh bởi Bezdek vào năm 1981 [7] Đầu vào thuật toán là bộ số liệu X, cho trước số lượng cụm C Sử dụng quá trình lặp để xấp xỉ cực tiểu hàm mục tiêu, thuật toán được tiến hành theo 4 bước sau: 1 Khởi tạo ma trận phân hoạch U=[ukj], U(0) - 23 - 2 Tại bước thứ k: tính vector tâm

các giải pháp cải tiến của thuật toán FCM và CFCM nhằm tăng tốc độ tính toán

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Mục Lục

Lời cảm ơn

Bảng ký hiệu, viết tắt

Mở đầu

Chương 1: Tổng quan về Khai phá dữ liệu

1.1 Giới thiệu về Khai phá dữ liệu

1.2 Quá trình KPTT

1.3 Các hướng tiếp cận cơ bản và các hướng áp dụng trong KPDL.

1.4 Các ứng dụng thực tiễn của khai phá dữ liệu

1.5 Các thách thức và khó khăn trong khai phá dữ liệu

Chương 2: Bài toán Phân cụm

2.1 Hình thành bài toán phân cụm.

2.2 Bài toán phân cụm rõ.

2.3 Những kỹ thuật tiếp cận trong phân cụm dữ liệu.

2.3.1 Phương pháp phân cụm phân hoạch.

2.3.2 Phương pháp phân cụm phân cấp.

2.3.3 Phương pháp tiếp cận dựa trên mật độ.

2.3.4 Phương pháp phân cụm dựa trên lưới.

2.3.5 Phương pháp phân cụm dựa trên mô hình.

2.3.6 Phương pháp phân cụm dữ liệu có dữ liệu ràng buộc.

2.3.7 Phương pháp phân cụm mạng Kohonen.

2.4 Bài toán phân cụm mờ

2.4.1 Giới thiệu phân cụm mờ.

2.4.2 Thuật toán Fuzzy C_Mean (FCM)

Tài liệu cùng người dùng

Tài liệu liên quan