DSpace at VNU: Một số thuật toán phân cụm trong khai phá dữ liệu

12 162 0
DSpace at VNU: Một số thuật toán phân cụm trong khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

DSpace at VNU: Một số thuật toán phân cụm trong khai phá dữ liệu tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án...

-1- ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI TRẦN NGUYÊN HƢƠNG MỘT SỐ THUẬT TOÁN PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN: TS VŨ NHƢ LÂM NĂM 2007 -2- Mục lục Mục lục DANH SÁCH HÌNH VẼ BẢNG TỪ VIẾT TẮT TỪ KHOÁ LỜI CẢM ƠN MỞ ĐẦU Chƣơng TỔNG QUAN VỀ PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU VÀ CÁC KHÁI NIỆM CƠ BẢN Error! Bookmark not defined 1.1 Giới thiệu chung Error! Bookmark not defined 1.2 Khai phá liệu gì? Error! Bookmark not defined 1.3 Qúa trình khai phá tri thức sở liệu Error! Bookmark not defined 1.4 Các kỹ thuật áp dụng khai phá liệu Error! Bookmark not defined 1.4.1 Các kỹ thuật tiếp cận khai phá liệu Error! Bookmark not defined 1.4.2 Các dạng liệu khai phá Error! Bookmark not defined 1.5 Ứng dụng khai phá liệu Error! Bookmark not defined 1.6 Phân cụm liệu ứng dụng Error! Bookmark not defined 1.6.1 Mục đích phân cụm liệu Error! Bookmark not defined 1.6.2 Các bước để phân cụm Error! Bookmark not defined 1.6.3 Các loại đặc trưng Error! Bookmark not defined 1.6.4 Các ứng dụng phân cụm Error! Bookmark not defined 1.6.5 Phân loại thuật toán phân cụm Error! Bookmark not defined 1.7 Các khái niệm định nghĩa Error! Bookmark not defined 1.7.1 Các định nghĩa phân cụm Error! Bookmark not defined 1.7.2 Các độ đo gần gũi Error! Bookmark not defined -3- Chƣơng CÁC THUẬT TOÁN PHÂN CỤM TUẦN TỰ Error! Bookmark not defined 2.1 Số cách phân cụm Error! Bookmark not defined 2.2 Thuật toán phân cụm - BSAS Error! Bookmark not defined 2.3 Ƣớc lƣợng số cụm Error! Bookmark not defined 2.4 Sửa đổi thuật toán BSAS - Thuật toán MBSAS Error! Bookmark not defined 2.5 Thuật toán phân cụm hai ngƣỡng - TTSAS Error! Bookmark not defined 2.6 Giai đoạn tinh chế Error! Bookmark not defined Chƣơng CÁC THUẬT TOÁN PHÂN CỤM PHÂN CẤP Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Các thuật tốn tích tụ - GAS Error! Bookmark not defined 3.2.1 Một số định nghĩa Error! Bookmark not defined 3.2.2 Một số thuật tốn tích tụ dựa lý thuyết ma trận Error! Bookmark not defined 3.2.3 Monotonicity Crossover Error! Bookmark not defined 3.2.4 Một thuật tốn tích tụ dựa lý thuyết đồ thị Error! Bookmark not defined 3.2.5 Ảnh hưởng ma trận gần gũi tới đồ phân cụm Error! Bookmark not defined 3.3 Các thuật toán phân rã - GDS Error! Bookmark not defined 3.3.1 Cải tiến đồ GDS Error! Bookmark not defined 3.4 Lựa chọn phân cụm tốt Error! Bookmark not defined Chƣơng CÁC THUẬT TOÁN PHÂN CỤM QUA TỐI ƢU HOÁ Error! Bookmark not defined 4.1 Tổng quan tối ƣu hoá khái niệm Error! Bookmark not defined 4.1.1 Một số khái niệm giải tích lồi Error! Bookmark not defined 4.1.2 Các toán tối ưu Error! Bookmark not defined 4.1.3 Một số phương pháp giải toán tối ưu Error! Bookmark not defined 4.2 Bài toán phân cụm theo tâm Error! Bookmark not defined -44.2.1 Phân cụm qua quy hoạch toán học Error! Bookmark not defined 4.2.2 Phân cụm qua tối ưu hoá d.c Error! Bookmark not defined Chƣơng PHÂN TÍCH VÀ CÀI ĐẶT THỬ NGHIỆM Error! Bookmark not defined 5.1 Cài đặt Error! Bookmark not defined 5.1.1 MBSAS Error! Bookmark not defined 5.1.2 TTSAS Error! Bookmark not defined 5.1.3 GAS Error! Bookmark not defined 5.1.4 GDS Error! Bookmark not defined 5.2 Mô cụm Error! Bookmark not defined 5.2.1 Sinh liệu khởi tạo thuật toán Error! Bookmark not defined 5.3 Kết thử nghiệm Error! Bookmark not defined 5.3.1 Ảnh hưởng tham số Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined Hƣớng phát triển đề tài Error! Bookmark not defined TÀI LIỆU DẪN 11 PHỤ LỤC: MÃ NGUỒN CỦA MỘT SỐ THUẬT TỐN Error! Bookmark not defined -5- DANH SÁCH HÌNH VẼ Hình 1-1 Các bƣớc thực trình khai phá tri thức Error! Bookmark not defined Hình 1-2 Các bƣớc trình phân cụm Error! Bookmark not defined Hình 1-3 Hình dạng loại cụm Error! Bookmark not defined Hình 1-4 Phân bố vector rời rạc lƣới ℓ - chiều Error! Bookmark not defined Hình 1-5 Các loại cụm đại diện Error! Bookmark not defined Hình 2-1 Sự phụ thuộc số cụm đƣợc tạo số cụm lớn đƣợc phép q.Error! Bookmark not define Hình 2-2 Đồ thị ƣớc lƣợng số cụm Error! Bookmark not defined Hình 2-3 Minh hoạ phân cụm thuật toán MBSAS (a) thuật toán TTSAS (b)Error! Bookmark Hình 3-1 đồ phân cụm phân cấp với tập liệu X ví dụ 3.2Error! Bookmark not defined Hình 3-2 Minh hoạ đồ tƣơng tự không tƣơng tự Error! Bookmark not defined Hình 3-3 Tập liệu X (a) đồ khơng tƣơng tự sinh thuật tốn liên kết đơn (b), thuật toán liên kết đầy đủ (c) Error! Bookmark not defined Hình 3-4 đồ khơng tƣơng tự sinh thuật toán Liên kết đơn, Liên kết đầy đủ, UPGMC WPGMC với tƣợng crossover Error! Bookmark not defined Hình 3-5 Minh hoạ đƣờng loại đồ thị Error! Bookmark not defined Hình 3-6 Các đồ thị ngƣỡng đồ thị gần gũi xây dựng từ ma trận khơng tƣơng tự P(X) ví dụ 3.2 Error! Bookmark not defined Hình 3-7 Đồ thị với khả liên kết cạnh đỉnh bậc đỉnh 3Error! Bookmark not defined Hình 3-8 Các đồ thị ngƣỡng ma trận không tƣơng tự P ví dụ 3.5Error! Bookmark not defined Hình 3-9 Đồ thị gần gũi G(13) sinh từ ma trận khơng tƣơng tự P ví dụ 3.6Error! Bookmark not def Hình 3-10 Các đồ phân cụm dùng thuật tốn GTAS thoả thuộc tính h(k) ví dụ 3.6Error! Bookmark n Hình 3-11 đồ ngƣỡng ví dụ 3.6 với thuộc tính bậc đỉnh k =3Error! Bookmark not defined Hình 3-12 Cây khung nhỏ ma trận không tƣơng tự (a) đồ không tƣơng tự tƣơng ứng áp dụng thuật toán dựa MST (b) cho ví dụ 3.7.Error! Bookmark not defined Hình 3-13 Các đồ minh hoạ cho trƣờng hợp ma trận khơng tƣơng tự có hai phần tử ví dụ 3.8 Error! Bookmark not defined Hình 3-14 đồ không tƣơng tự đạt đƣợc thuật toán liên kết đơn (a) thuật toán liên kết đầy đủ (b) với ma trận P1 Error! Bookmark not defined Hình 3-15 Minh hoạ bƣớc phân cụm đồ GDS Error! Bookmark not defined Hình 3-16 đồ trƣờng hợp có hai cụm (a) có cụm (b) tập liệu Error! Bookmark not defined -6Hình 3-17 Ví dụ độ đo “Tự - tương tự” (a) mô điều kiện kết thúc phƣơng pháp II (b) Error! Bookmark not defined Hình 4-1 đồ nhánh cận Error! Bookmark not defined Hình 4-2 Các đƣờng cong sống sót đại diện cho cụm 194 bệnh nhân ung thƣ áp dụng thuật toán k-Median Error! Bookmark not defined Hình 4-3 Các đƣờng cong sống sót đại diện cho cụm 194 bệnh nhân ung thƣ áp dụng thuật toán k-Mean Error! Bookmark not defined Hình 5-1 Quan sát cụm đƣợc tạo Error! Bookmark not defined Hình 5-2: Màn hình sinh liệu Error! Bookmark not defined Hình 5-3 Màn hình thiết lập thơng số cho thuật tốn Error! Bookmark not defined Hình 5-4 Ý nghĩa việc chọn tham số đắn Error! Bookmark not defined Hình 5-5 Ý nghĩa đắn số cụm tạo Error! Bookmark not defined DANH SÁCH BẢNG BIỂU Bảng 3-1 Các kết thuật toán thảo luận áp dụng ma trận gần gũi ví dụ 3.4Error! Bookma Bảng 5-1: Thời gian thực thuật toán với liệu khác nhauError! Bookmark not defined -7- BẢNG TỪ VIẾT TẮT Từ tiếng Anh Từ cụm từ Từ tiếng Việt BLP BiLinear Programming Quy hoạch song tuyến tính BSAS Basic Sequential Algorithmic Scheme đồ thuật toán phân cụm sở CSDL D.C DM GAS Data Base Difference of two Convex functions Dissimilarity Measure Generalized Agglomerative Scheme Cơ sở liệu Hiệu hai hàm lồi Độ đo không tương tự đồ tích tụ tổng quát GDS Generalized Divisive Scheme đồ phân rã tổng quát GTAS Graph Theory – based Algorithmic Scheme KDD Knowledge Discovery in Databases LP Linear Programming đồ thuật toán dựa lý thuyết đồ thị Khai phá tri thức sở liệu Quy hoạch tuyến tính MBSAS Modified Basic Sequential Algorithmic Scheme đồ thuật toán phân cụm sở sửa đổi MST Minimum Spanning Tree Cây khung nhỏ MUAS Matrix Updating Algorithmic Scheme đồ thuật toán biến đổi ma trận SM Similarity Measure Độ đo tương tự TTSAS Two – Threshold Sequential Algorithmic Scheme đồ thuật toán ngưỡng UPGMA Unweighted Pair Group Method Average Phương pháp trung bình theo cặp khơng trọng số UPGMC Unweight Pair Group Method Centroid Phương pháp trọng tâm theo cặp không chọn số WPGMA Weighted Pair Group Method Average Phương pháp trung bình theo cặp trọng số WPGMC Weighted Pair Group Method Centroid Phương pháp trọng tâm theo cặp trọng số TỪ KHOÁ Clustering algorithms, Sequential Clustering algorithms, Hierarchical Clustering algorithms, Clustering Algorithms Based on Cost Function Optimization, Clustering via D.C Optimization, Clustering via Mathematical Programming, Mathematical Programming in data mining, Optimization Global, Clustering software… -8- LỜI CẢM ƠN Tơi xin tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Như Lân - người hướng dẫn khoa học - bảo tận tình động viên tơi q trình nghiên cứu Tơi xin chân thành biết ơn tới thầy giáo: PGS.TSKH Bùi Công Cường, GS TSKH Hoàng Tuỵ , TS Nguyễn Thị Hoài Phương … viện Toán học Việt Nam, định hướng nghiên cứu cho tơi, có góp ý sâu sắc chun mơn, cung cấp tài liệu q trình học tập nghiên cứu Tơi xin bày tỏ lòng biết ơn đến thầy giáo trường Đại học Công Nghệ Đại học Quốc Gia Hà Nội: PGS.TS Hà Quang Thuỵ, PGS.TS Trịnh Nhật Tiến, PGS.TS Nguyễn Văn Vỵ, PGS.TS Hồng Xn Huấn, TS Nguyễn Đại Thọ, PGS.TS Nguyễn Đình Việt, TS Bùi Thế Duy, TS Nguyễn Hải Châu… thầy cô giáo khác trực tiếp giảng dạy, góp ý chun mơn, động viên tơi suốt năm học qua Cuối tơi xin bày tỏ lòng biết ơn đến gia đình, bạn bè đồng nghiệp chia sẻ động viên tơi hồn thành luận văn Học viên Trần Nguyên Hƣơng -9- MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ công nghệ phần cứng truyền thông, hệ thống liệu phục vụ cho lĩnh vực kinh tế - xã hội không ngừng tăng lên, lượng liệu tạo ngày lớn Sự phong phú liệu, thông tin với khả kịp thời khai thác chúng mang đến suất chất lượng cho công tác quản lý, hoạt động kinh doanh,…Nhưng yêu cầu thông tin lĩnh vực hoạt động đó, đặc biệt lĩnh vực làm định, ngày đòi hỏi cao hơn, người định cần liệu mà cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định Cho đến năm 90 kỷ trước, nhu cầu khám phá tri thức thực bùng nổ, theo đó, hàng loạt lĩnh vực nghiên cứu tổ chức kho liệu kho thông tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, …và đặc biệt khai phá liệu (Data Mining) đời Từ đời, khai phá liệu trở thành hướng nghiên cứu phổ biến lĩnh vực khoa học máy tính cơng nghệ tri thức Nhiều kết nghiên cứu, ứng dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu tự nhiên sở liệu lớn Các kỹ thuật áp dụng phân cụm liệu phần lớn kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hố, Đến nay, có nhiều ứng dụng phân cụm liệu cho việc giải vấn đề lĩnh vực tài chính, thơng tin địa lý, sinh học, nhận dạng ảnh,… Trong thời gian gần đây, lĩnh vực phân cụm liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích mơ hình liệu phức tạp liệu văn bản, Web, hình ảnh,…và đặc biệt mơ hình liệu hỗn hợp để áp dụng chúng phân cụm liệu Ở Việt Nam, năm trở lại đây, nhu cầu tự động khám phá tri thức từ liệu sẵn có nhằm tăng lực cạnh tranh ngành kinh tế phát triển nhanh Vì vậy, tơi chọn hướng nghiên cứu "Một số thuật toán phân cụm liệu khai phá liệu" làm đề tài nghiên cứu cho luận văn Luận văn trình bày có hệ thống số họ thuật tốn phân cụm liệu điển hình, bao gồm cách tiếp cận đặc điểm ứng dụng - 10 Cấu trúc nội dung luận văn bao gồm phần nhƣ sau: Chương 1: Trình bày tổng quan khai phá liệu, phân cụm, thuật toán phân cụm phân loại khai phá liệu đồng thời trình bày khái niệm số độ đo tương tự, không tương tự… Chương chương 3: Trình bày thuật tốn phân cụm truyền thống gồm họ thuật toán phân cụm thuật toán phân cụm phân cấp điển hình ưu điểm, nhược điểm chúng Chương 4: Tập trung nghiên cứu giải toán cụm theo tâm dựa vào tối ưu hố Có hai cách tiếp cận đưa phân cụm qua quy hoạch toán học phân cụm qua tối ưu hố d.c Để khẳng định tính hiệu cách tiếp cận, luận văn trình bày lại kết thí nghiệm phân cụm bệnh nhân ung thư vú sở liệu đại học Wisconsin Đây cơng trình nghiên cứu GS TSKH Hồng Tuỵ (viện Tốn học Việt Nam), GS Mangasarian (đại học Wisconsin, Madison) cộng Chương 5: Phân tích cài đặt thử nghiệm phân cụm tập liệu vector không gian ba chiều sử dụng số thuật toán tiêu biểu MBSAS, TTSAS, GAS, GDS Chúng ta đưa cách cài đặt kết đạt Phần kết luận trình bày tóm tắt nội dung thực luận văn, đồng thời đưa vấn đề nghiên cứu tiếp cho tương lai Phần phụ lục trình bày số modul chương trình cài đặt cho thuật toán MBSAS, TTSAS, GAS, GDS Do thời gian nghiên cứu trình độ có hạn, luận văn khơng tránh khỏi có hạn chế thiếu sót Tơi xin tiếp thu ý kiến, đánh giá, bảo thầy giáo bạn bè đồng nghiệp Tôi xin chân thành cảm ơn Hà Nội, tháng 10 năm 2007 Học viên Trần Nguyên Hƣơng - 11 - TÀI LIỆU DẪN Tài liệu tiếng Việt [1] Hoàng Tuỵ (2006), "Lý thuyết tối ưu" (Bài giảng lớp cao học), Viện Tốn học Hà Nội, 2006 [2] Hồng Tuỵ (2005), Hàm thực giải tích hàm, Nhà xuất Đại học Quốc gia Hà Nội Tài liệu tiếng Anh [3] Alan Rea (1995), Data Mining – An Introduction The Parallel Computer Centre, Nor of The Queen’s University of Belfast http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html [4] A.M Gagirov, A.M Rubinov, A Stranieri and J Yearwood (1999) The global optimization approach to the clustering analysis Woking paper 45/99, University of Ballarat, Australia [5] Boberg J., Salakoski T “General formulation and evaluation of agglomerative clustering methods with metric and non-metric distances,” Pattern Recognition, Vol 26(9), pp 1395-1406, 1993 [6] H Tuy (1997), "A general d.c approach to location problems", in State of the Art in Global optimization: Computational Methods and Application, eds C Floudas and P.Pardalos, eds., Kluwer, 413-432 [7] H Tuy (1998), "Convex Analysis and Global Optimization", Kluwer [8] H Tuy (1999), Monotonic Optimization: Problems and Solution Approaches, Preprint, Institute of Mathematics, Hanoi [9] H.Tuy , A.M Gagirov, A.M Rubinov: Clustering via D.C Optimization Research Report 00/13 (2000), School of Information Technology and Mathematical Sciences, Univerity of Ballarat Submitted [10] Jiawei Han and Micheline Kamber (2001), Data Mining : Concepts and Techniques, Hacours Science and Technology Company, USA [11] Lance G.N., Williams W.T “A general theory of classificatory sorting strategies: II Clustering System.” Computer Journal, Vol 10, pp 271-277, 1967 [12] MacQuenn J.B “Some methods for classification and analysis of multivariate observations,” Proceedings of the Symposium on Mathematical Statistics and Probability, 5th Berkeley, Vol 1, pp 218-297, AD 669871, University of California Press, 1967 [13] Maria Halkidi (2001), On Clustering Validation Techniques, Kluwer Academic Publishers, Holland - 12 [14] O.L Mangasarian (1987) Mathematical Programming in Data Mining, in Data Mining and Knowledge Discovery 1, 183-201 [15] O.L Mangasarian, W.N Street and W.H Wolberg: Breast cancer diagnosis and prognosis via linear Programming Operations research 4(1995), 570-577 [16] P.S Bradley, O.L Magasarian and W.N Street (1997), Clustering via cancave Minimization, Techincal Report 96-03, Computer Sciences Department, University of Wisconsin, Madison, Wisconsin, May 1996 Advances In Neural Information processing Systems MIT Press, Cambridge, MA, 368-374, M.C Mozer, M.I.Jordan and T Petsche, editors Available by ftp://ftp.cs.winsc.edu/math-prog/tech-trports/96-03.ps.Z [17] R Horst and H Tuy (1996), "Global Optimization" (Deterministic Approaches), Springer, third edition [18] W.H Wolberg, W.N Street and O.L Magasarian (1994), Machine learning techniques to diagnose breast cancer from fine-needle aspirates Cancer Letters, 77, 163-171 [19] Yu G Evtushenko (1982), Solution Methods of Extremal Problems and Their Application to optimization System, Moscow, Nauka (In Russian) ... dụng khai phá liệu lĩnh vực khoa học, kinh tế, xã hội Khai phá liệu bao hàm nhiều hướng nghiên cứu quan trọng, số phân cụm liệu (Data Clustering) Phân cụm liệu trình tìm kiếm phát cụm mẫu liệu. .. tổng quan khai phá liệu, phân cụm, thuật toán phân cụm phân loại khai phá liệu đồng thời trình bày khái niệm số độ đo tương tự, không tương tự… Chương chương 3: Trình bày thuật tốn phân cụm truyền... chọn hướng nghiên cứu "Một số thuật toán phân cụm liệu khai phá liệu" làm đề tài nghiên cứu cho luận văn Luận văn trình bày có hệ thống số họ thuật tốn phân cụm liệu điển hình, bao gồm cách tiếp

Ngày đăng: 18/12/2017, 04:46

Tài liệu cùng người dùng

Tài liệu liên quan