CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN

Thông tin tài liệu

Các phương pháp KPDL truyền thống đặc biệt là các kỹ thuật phân cụm đã được áp dụng thành công và đem lại nhiều hiệu quả to lớn; tuy nhiên đối với các CSDL có kích thước rất lớn thì độ phức tạp tính toán về mặt thời gian lại tỏ ra là một trở ngại lớn, thậm chí là không khả thi. Để giải quyết khó khăn này, một hướng tiếp cận mới là thay vì tiến hành khai phá (phân cụm) dữ liệu trên các tập dữ liệu rất lớn, ta tìm cách chọn ra các mẫu đại diện và tiến hành khai phá trên tập các mẫu đại diện đó rồi mở rộng ra cho toàn bộ tập dữ liệu ban đầu. Vì là chỉ tiến hành trên tập mẫu đại diện nên việc phân cụm được tiến hành theo nghĩa xấp xỉ. Tất nhiên, mỗi khâu trong quá trình đó đều phải tuân theo những tiêu chí xác định và vẫn phải đảm bảm rằng chất lượng các cụm sau khi phân cụm và mở rộng cho toàn tập dữ liệu phải đảm bảo độ chính xác nhất định nào đó và chi phí về mặt thời gian phải là tốt hơn. Vì lý do trên đề tài: “Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn” là một giải pháp đặc biệt quan trọng.

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LẤY MẪU CHỌN LỌC CHO PHÂN CỤM XẤP XỈ CÁC TẬP DỮ LIỆU RẤT LỚN Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 HÀ NỘI, 2011 MỤC LỤC PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 1 1.1. Giới thiệu chung 1 1.1.1. Khái niệm KPDL 2 1.1.2. Các bước của quá trình phát hiện tri thức trong CSDL 3 1.2. Mục đích và các kỹ thuật KPDL 4 1.2.1. Khai phá dữ liệu dự báo 5 1.2.1.1. Phân lớp 5 1.2.1.2. Hồi quy 5 1.2.2. Khai phá dữ liệu mô tả 6 1.2.2.1. Phân cụm 6 1.2.2.2. Luật kết hợp 6 1.3. Các kiểu dữ liệu trong phân cụm 7 1.3.1. Ma trận dữ liệu (cấu trúc: đối tượng x biến) 7 1.3.2. Ma trận phi tương tự (cấu trúc: đối tượng x đối tượng) 7 1.4. Phân loại các phương pháp phân cụm 15 1.4.1. Các phương pháp phân hoạch 15 1.4.2. Các phương pháp phân cấp 17 1.4.3. Các phương pháp dựa trên mật độ 18 1.4.4. Các phương pháp dựa trên lưới 19 1.4.5. Các phương pháp dựa trên mô hình 20 1.5. Các yêu cầu của phân cụm 20 1.6. Tóm tắt chương 22 CHƯƠNG 2. PHÂN CỤM XẤP XỈ TRONG DỮ LIỆU QUAN HỆ RẤT LỚN 23 2.1. Mở đầu 23 2.2. Phân loại kích thước các tập dữ liệu 26 2.3. Các vectơ nhãn và các phân hoạch 29 2.3.1. Các ký hiệu 29 2.3.2. Các vectơ nhãn 30 2.3.3. Các phân hoạch 32 2.4. Các loại phân cụm và phân hoạch tương ứng [2] 33 2.4.1. Tập dữ liệu 33 2.4.2. Các cụm và các hình mẫu 34 2.4.3. Phân cụm rõ và phân cụm mờ 35 2.5. eNERF 41 2.5.1. Các đặc điểm nổi bật và thuật toán DF 43 2.5.2. Lấy mẫu tăng dần và thuật toán PS 49 2.5.3. Thuật toán LNERF (phân cụm mờ trên D n ) 53 2.5.4. Mở rộng 56 2.6. Các ví dụ 64 2.7. Tóm tắt chương 74 CHƯƠNG 3: LẤY MẪU CHỌN LỌC CHO PHÂN CỤM XẤP XỈ CÁC TẬP DỮ LIỆU RẤT LỚN 77 3.1. Mở đầu 77 3.2. Những thách thức trong lẫy mẫu dữ liệu bằng thuật toán DF + PS 79 3.3. Lấy mẫu chọn lọc bằng thuật toán SS 80 3.4. Các kết quả thử nghiệm 82 3.5. Tóm tắt chương 98 KẾT LUẬN TÀI LIỆU THAM KHẢO Phần mở đầu PHẦN MỞ ĐẦU Lý do chọn đề tài Như đã biết, trong những năm gần đây công nghệ thông tin phát triển vô cùng nhanh chóng và được ứng dụng rộng rãi trong mọi lĩnh vực đời sống xã hội đã dẫn đến sự bùng nổ thông tin, làm cho những nhà quản lý rơi vào tình trạng “ngập lụt thông tin". Chính vì vậy, các chuyên gia cho rằng, hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”. Tình hình đó đòi hỏi phải phát triển các phương pháp khai phá, phát hiện ra những thông tin, tri thức có ích bị che giấu trong các “núi” dữ liệu phục vụ cho công việc của các nhà quản lý, các chuyên gia, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp. Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong KPDL, khám phá tri thức cho thấy KPDL là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Các phương pháp KPDL truyền thống đặc biệt là các kỹ thuật phân cụm đã được áp dụng thành công và đem lại nhiều hiệu quả to lớn; tuy nhiên đối với các CSDL có kích thước rất lớn thì độ phức tạp tính toán về mặt thời gian lại tỏ ra là một trở ngại lớn, thậm chí là không khả thi. Để giải quyết khó khăn này, một hướng tiếp cận mới là thay vì tiến hành khai phá (phân cụm) dữ liệu trên các tập dữ liệu rất lớn, ta tìm cách chọn ra các mẫu đại diện và tiến hành khai phá trên tập các mẫu đại diện đó rồi mở rộng ra cho toàn bộ tập dữ liệu ban đầu. Vì là chỉ tiến hành trên tập mẫu đại diện nên việc phân cụm được tiến hành theo nghĩa xấp xỉ. Tất Phần mở đầu nhiên, mỗi khâu trong quá trình đó đều phải tuân theo những tiêu chí xác định và vẫn phải đảm bảm rằng chất lượng các cụm sau khi phân cụm và mở rộng cho toàn tập dữ liệu phải đảm bảo độ chính xác nhất định nào đó và chi phí về mặt thời gian phải là tốt hơn. Vì lý do trên tôi chọn đề tài: “Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn” làm đề tài nghiên cứu. Mục đích nghiên cứu - Nắm bắt lý thuyết về KPDL. - Nắm được các phương pháp phân cụm truyền thống trong KPDL. - Nắm được lý thuyết về phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn. - Nắm được các thuật toán: DF, PS, LNERF, xNERF, SS. Đối tượng và phạm vi nghiên cứu - Lý thuyết về KPDL. - Các kỹ thuật phân cụm truyền thống. - Phương pháp phân cụm xấp xỉ. - Nghiên cứu bài toán “Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn”. Các luận điểm cơ bản và đóng góp mới của tác giả Một thách thức lớn trong lấy mẫu là có được “vừa đủ” các mẫu đại diện cho toàn bộ tập dữ liệu nhưng vẫn đảm bảo độ chính xác. Do đó, việc khai phá (phân cụm) dữ liệu trên tập mẫu lấy được thường cung cấp đủ độ chính xác với ít chi phí tính toán hơn so với việc phân cụm trên toàn bộ tập dữ liệu một cách trực tiếp. Tuy nhiên, các lược đồ lấy mẫu trước đây mặc dù đã tìm ra được tập mẫu mang tính đại diện nhưng kích thước của tập mẫu này còn quá lớn, gần bằng 50% kích thước của tập dữ liệu ban đầu, thậm chí các lược đồ này còn tỏ ra nhạy cảm. Điều đó hoàn toàn không thực tế đối với tập dữ Phần mở đầu liệu rất lớn. Để khắc phục hạn chế này, đóng góp mới của luận văn là nghiên cứu tìm hiểu một lược đồ lấy mẫu mới (lấy mẫu chọn lọc) nhằm giảm thiểu lượng dữ liệu cần phải được lấy mẫu trong khi vẫn duy trì được tính chính xác so với lược đồ lấy mẫu trước đó. Phương pháp nghiên cứu - Thu thập tài liệu có liên quan đến đề tài. - Tìm hiểu các khái niệm mới cũng như các phương pháp giải quyết bài toán đã có. - Nghiên cứu các thuật toán và tiến hành so sánh việc lấy mẫu cho phân cụm xấp xỉ giữa thuật toán lấy mẫu tăng dần (DF + PS) với thuật toán lấy mẫu chọn lọc (SS) để rút ra các cải tiến dựa trên các kết quả thực nghiệm.  Bố cục luận văn Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Một số từ viết tắt và thuật ngữ, Kết luận, Tài liệu tham khảo, luận văn được chia làm 3 chương: Chương 1. Tổng quan về khai phá dữ liệu và các kỹ thuật phân cụm trong khai phá dữ liệu Chương này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói chung và KPDL nói riêng. Đặc biệt nhấn mạnh về kỹ thuật chính được nghiên cứu trong luận văn đó là Kỹ thuật phân cụm. Chương 2. Phân cụm xấp xỉ các tập dữ liệu rất lớn Trình bày các khái niệm mới về phân loại kích thước các tập dữ liệu, các vectơ nhãn và các phân hoạch, các loại phân cụm và các phân hoạch tương ứng cùng với 4 thuật toán trong eNERF bao gồm: DF, PS, LNERF, xNERF và một vài kết quả thực nghiệm. Phần mở đầu Chương 3. Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn Chương này chỉ ra một số hạn chế của lược đồ lấy mẫu ở chương 2 và trình bày lược đồ lấy mẫu sửa đổi là lược đồ lấy mẫu chọn lọc (thuật toán SS) cùng với các kết quả thực nghiệm để rút ra các ưu điểm của lược đồ lấy mẫu được xem xét. Cuối cùng là phần Kết luận của luận văn bao gồm: Những kết quả đạt được của luận văn, Hạn chế và Hướng phát triển của đề tài. Chương I. Tổng quan về KPDL và các kỹ thuật phân cụm trong KPDL 1 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU Nội dung của chương 1.1. Giới thiệu chung 1.2. Mục đích và các kỹ thuật KPDL 1.3. Các kiểu dữ liệu trong phân cụm 1.4. Phân loại các phương pháp phân cụm 1.5. Các yêu cầu của phân cụm 1.6. Tóm tắt chương 1.1. Giới thiệu chung Hiện nay, các thành tựu của tin học được áp dụng ở hầu hết các lĩnh vực hoạt động của xã hội và đem lại nhiều hiệu quả to lớn. Mục tiêu của tin học là khai thác thông tin có hiệu quả nhất phục vụ cho mọi mặt hoạt động của con người. Do đó ở bất kỳ lĩnh vực hoạt động nào cần xử lý thông tin thì ở đó tin học đều có thể phát huy tác dụng. Các nhu cầu của xã hội ngày càng đa dạng và những tiến bộ của khoa học kỹ thuật đã dẫn đến sự phát triển như vũ bão của tin học cùng với sự phát triển của ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin tăng lên một cách chóng mặt. Ngoài ra việc tin học hóa một cách ồ ạt vào các Chương I. Tổng quan về KPDL và các kỹ thuật phân cụm trong KPDL 2 hoạt động sản xuất kinh doanh và các lĩnh vực khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hiện nay, các CSDL cần khai phá thường có kích thước rất lớn, chẳng hạn các CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác,… Bên cạnh đó còn hàng triệu CSDL đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí , trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật KPDL đã trở thành một lĩnh vực thời sự của nền Công nghệ thông tin thế giới hiện nay. 1.1.1. Khái niệm KPDL Khai phá dữ liệu (data mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 1980. Các kỹ thuật chính được áp dụng trong lĩnh vực này được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năng cao. Do sự phát triển nhanh của KPDL về phạm vi áp dụng và các phương pháp tìm kiếm tri thức, nên đã có nhiều quan điểm khác nhau về KPDL. Tuy nhiên, ở một mức trừu tượng nhất định, KPDL là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn, trong kho dữ liệu…Hiện nay, ngoài thuật ngữ KPDL người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc dữ liệu, phân tích dữ liệu/mẫu. Nhiều người coi KPDL và một thuật ngữ thông dụng khác là phát hiện tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là như nhau. Tuy nhiên trên thực tế, KPDL chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong CSDL. Có thể nói KPDL là giai đoạn quan trọng nhất trong tiến trình Chương I. Tổng quan về KPDL và các kỹ thuật phân cụm trong KPDL 3 phát hiện tri thức trong CSDL, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh. 1.1.2. Các bước của quá trình phát hiện tri thức trong CSDL. Quá trình KDD có thể phân thành các giai đoạn như hình 1.1 Qúa trình trên gồm 6 bước và bắt đầu của quá trình là kho dữ liệu thô và kết thúc là tri thức được chiết xuất ra. (1). Gom (thu thập) dữ liệu: Thu thập dữ liệu là bước đầu tiên quan trọng trong quá trình KPDL. Đây là bước được khai thác trong một CSDL (databases), kho dữ liệu (data warehouses), dữ liệu từ các nguồn ứng dụng Web… (2). Trích lọc dữ liệu: Giai đoạn này dữ liệu được chọn lọc hoặc phân chia theo một số tiêu chí nào đó phục vụ cho mục đích khai thác, ví dụ chọn ra tất cả những người có giới tính là nam và có trình độ đại học. Hình 1.1. Qúa trình phát hiện tri thức trong CSDL [...]... các kỹ thuật KPDL, các kiểu dữ liệu trong phân cụm, phân loại các phương pháp phân cụm và các yêu cầu của phân cụm làm cơ sở cho việc nghiên cứu phân cụm xấp xỉ các tập dữ liệu rất lớn sẽ được đề cập đến trong chương 2 22 Chương 2 Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn CHƯƠNG 2 PHÂN CỤM XẤP XỈ TRONG DỮ LIỆU QUAN HỆ RẤT LỚN Nội dung của chương 2.1 Mở đầu 2.2 Phân loại kích thước các tập dữ liệu. .. (regression) 1.2.1.1 Phân lớp Mục tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Qúa trình phân lớp dữ liệu thường gồm 2 bước: Xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu Bước 1 Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện... các kỹ thuật phân cụm trong KPDL 1.3 Các kiểu dữ liệu trong phân cụm Trong phần này, chúng ta sẽ xem xét các kiểu dữ liệu thường xuất hiện trong phân cụm và cách xử lý chúng trong quá trình phân cụm Gỉa sử có tập dữ liệu chứa n đối tượng, các đối tượng này có thể là con người, văn bản, ngôi nhà, Các thuật toán phân cụm dựa trên bộ nhớ chính và thao tác trên hai cấu trúc dữ liệu sau: 1.3.1 Ma trận dữ. .. thiết kế để phân cụm dựa trên khoảng cách (dữ liệu kiểu số) Tuy nhiên, các ứng dụng đòi hỏi phải phân cụm với nhiều kiểu dữ liệu khác nhau như dữ liệu có thứ tự, định danh, nhị phân và hỗn hợp của các kiểu dữ liệu trên  Phát hiện các cụm có hình dạng bất kỳ: Nhiều thuật toán phân cụm xác định các cụm dựa trên độ đo khoảng cách Euclid, Minkowski hay Manhattan thì chỉ phát hiện được các cụm có dạng... đủ,…dẫn đến chất lượng phân cụm thấp 21 Chương I Tổng quan về KPDL và các kỹ thuật phân cụm trong KPDL  Ít nhạy cảm với thứ tự của dữ liệu vào: Yêu cầu đặt ra là với cùng một tập dữ liệu đã cho thì thứ tự vào của dữ liệu ở các lần thực hiện khác nhau cùng cho ra một kết quả phân cụm  Thích nghi với dữ liệu đa chiều: Nhiều thuật toán phân cụm chỉ làm việc tốt với các tập dữ liệu có số chiều thấp (từ... 1.2.2 Khai phá dữ liệu mô tả Kỹ thuật này có nhiệm vụ mô tả các tính chất hoặc các đặc trưng chung của dữ liệu trong CSDL hiện có, bao gồm các kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules)… 1.2.2.1 Phân cụm Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu thành các cụm sao cho các đối tượng trong cùng một cụm có độ tương... [34], ở đó các khái niệm về mở rộng được giới thiệu Nói chung, một lược đồ phân cụm được mở rộng áp dụng một thuật toán phân cụm cho một mẫu đại diện (và có kích thước kiểm soát được) cho toàn bộ tập dữ liệu, sau đó mở rộng không lặp lại kết quả mẫu để thu được các cụm (xấp xỉ) cho các dữ liệu còn lại trong toàn bộ mẫu Các thuật toán bao gồm các cơ chế riêng của chúng cho việc mở rộng được gọi là các thuật... tại và liệt kê một số vấn đề mở cho các nghiên cứu trong tương lai 2.2 Phân loại kích thước các tập dữ liệu [7] Mục tiêu của việc mở rộng phụ thuộc vào kích thước của dữ liệu Khi tập dữ liệu rất lớn, lấy mẫu và mở rộng cung cấp một giải pháp phân cụm (tức là làm cho phân cụm khả thi) cho các trường hợp mà nó không thể khả thi với cách tiếp cận nguyên gốc tương ứng Nếu dữ liệu chỉ là lớn, nhưng vẫn có... Smyth [18] xây dựng các cụm xác xuất từ một mẫu và sau đó xác nhận kết quả mẫu bằng cách sử dụng dữ liệu bổ sung Domingos và Hulten [14] rút ra một xấp xỉ cho các lỗi thống kê trong cụm rõ thu được bằng cách sử dụng mẫu hiện thời Xấp xỉ này sau đó được sử 28 Chương 2 Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn dụng để xác định một mẫu đủ tốt Các lược đồ dữ liệu đối tượng mờ khác phần nào liên quan... hầu hết các trạm máy tính Tập dữ liệu có kích thước lớn hơn 10 gigabytes (tức lớn hơn 1012 bytes) không phải là không phổ biến Các thuật toán 23 Chương 2 Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn phân cụm có thể theo kịp với kích thước của các tập dữ liệu hiện tại không? Theo Huber [27], người đã định nghĩa các tập dữ liệu lớn là có cấp độ lớn của 108 byte, “Một vài nhiệm vụ quản lý cơ sở dữ liệu . pháp phân cụm xấp xỉ. - Nghiên cứu bài toán Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu rất lớn . Các luận điểm cơ bản và đóng góp mới của tác giả Một thách thức lớn trong lấy mẫu. luận văn đó là Kỹ thuật phân cụm. Chương 2. Phân cụm xấp xỉ các tập dữ liệu rất lớn Trình bày các khái niệm mới về phân loại kích thước các tập dữ liệu, các vectơ nhãn và các phân hoạch, các. CHƯƠNG 3: LẤY MẪU CHỌN LỌC CHO PHÂN CỤM XẤP XỈ CÁC TẬP DỮ LIỆU RẤT LỚN 77 3.1. Mở đầu 77 3.2. Những thách thức trong lẫy mẫu dữ liệu bằng thuật toán DF + PS 79 3.3. Lấy mẫu chọn lọc bằng thuật

Ngày đăng: 11/05/2015, 15:47

Xem thêm: CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN