Nghiên cứu, tìm hiểu một số thuật toán cơ bản về phân nhóm dữ liệu trên cơ sở dữ liệu không gian

96 654 0
Nghiên cứu, tìm hiểu một số thuật toán cơ bản về phân nhóm dữ liệu trên cơ sở dữ liệu không gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP KHỔNG MINH TỰ NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TOÁN CƠ BẢN VỀ PHÂN NHÓM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN - 2014 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP  KHỔNG MINH TỰ NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TOÁN CƠ BẢN VỀ PHÂN NHÓM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN Chuyên ngành: KỸ THUẬT ĐIỆN TỬ Mã số: 60. 52. 02. 03 LUẬN VĂN THẠC SĨ KỸ THUẬT PHÕNG QUẢN LÝ ĐÀO TẠO SAU ĐẠI HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS. LƢƠNG CHI MAI KHOA ĐIỆN TỬ TRƢỞNG KHOA THÁI NGUYÊN - 2014 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các số liệu, kết quả nêu trong luận văn này là trung thực và là công trình nghiên cứu của riêng tôi, luận văn này không giống hoàn toàn bất cứ luận văn hoặc các công trình đã có trƣớc đó. Thái Nguyên, ngày 24 tháng 02 năm 2014 Tác giả luận văn Khổng Minh Tự Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ ii LỜI CẢM ƠN Trong suốt quá trình học tập và tốt nghiệp, tôi đã nhận đƣợc sự giúp đỡ tận tình của các thầy cô trong Khoa Điện tử - Trƣờng Đại học Kỹ thuật Công nghiệp - Đại học Thái Nguyên. Tôi xin bày tỏ lòng biết ơn đối với các thầy cô giáo và Phòng Đào tạo sau đại học vì sự giúp đỡ tận tình này. Tôi đặc biệt muốn cảm ơn PGS.TS. Lƣơng Chi Mai đã tận tình giúp đỡ, hƣớng dẫn tôi trong thời gian thực hiện đề tài, cảm ơn sự giúp đỡ của gia đình, bạn bè và các đồng nghiệp trong thời gian qua. Mặc dù đã cố gắng, song do điều kiện thời gian và kinh nghiệm thực tế còn nhiều hạn chế nên không thể tránh khỏi thiếu sót. Vì vậy, tôi rất mong nhận đƣợc sự đóng góp ý kiến của các thầy cô cũng nhƣ của các bạn bè, đồng nghiệp. Tôi xin chân thành cảm ơn! Tác giả luận văn Khổng Minh Tự Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iii LỜI NÓI ĐẦU Trong thời đại bùng nổ Công nghệ thông tin, các công nghệ lƣu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong lĩnh vực quản lý, kinh doanh, các doanh nghiệp đã nhận thức đƣợc tầm quan trọng của việc nắm bắt và xử lí thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lƣợng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin (tri thức) cô đọng và có ích. Tuy nhiên ngay cả khi đã có những công cụ phù hợp để lƣu trữ và quản lý các dạng thông tin nói trên, thì để nhận đƣợc những thông tin có ích đối với dạng CSDL loại này, các biện pháp phân tích dữ liệu thông thƣờng cũng gặp rất nhiều khó khăn, đôi khi là không thể giải quyết đƣợc. Đó chính là cơ sở cho sự xuất hiện của kỹ thuật khai phá dữ liệu. Tác giả xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo, đặc biệt là cô giáo hƣớng dẫn: PGS.TS. Lƣơng Chi Mai đã tận tình giúp đỡ để hoàn thành luận văn này. Trong khuôn khổ giới hạn của luận văn cùng khả năng kiến thức và thời gian nghiên cứu còn hạn chế, nên mặc dù đã có nhiều cố gắng song luận văn chắc chắn không tránh khỏi những thiếu sót. Tác giả mong nhận đƣợc sự đóng góp ý kiến của các thầy giáo, cô giáo để đề tài đƣợc hoàn thiện hơn. Xin trân trọng cảm ơn! HỌC VIÊN Khổng Minh Tự Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii LỜI NÓI ĐẦU iii MỤC LỤC iv BẢNG THUẬT NGỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU 1 Chƣơng 1. TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ CƠ SỞ DỮ LIỆU KHÔNG GIAN 6 1.1. Khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - DD) 6 1.1.1. Sự ra đời của khai phá tri thức trong cơ sở dữ liệu 6 1.1.2. Khái niệm khai phá dữ liệu 7 1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu 7 1.1.4. Các nhiệm vụ của khai phá dữ liệu 8 1.2. Phân nhóm (Clustering) và các cách tiếp cận chính 9 1.2.1. Phân nhóm và các ứng dụng 9 1.2.2. Các cách tiếp cận chính 11 1.3. Hệ quản trị cơ sở dữ liệu không gian 16 1.3.1. Cơ sở dữ liệu không gian 16 1.3.2. Hệ quản trị cơ sở dữ liệu không gian 17 1.3.3. Phƣơng pháp truy nhập không gian 18 1.4. Kết luận 20 Chƣơng 2. CÁC CÁCH TIẾP CẬN CỦA KỸ THUẬT PHÂN NHÓM 21 2.1. Thuật toán DBSCAN 21 2.1.1. Các định nghĩa và bổ đề đƣợc sử dụng trong thuật toán DBSCAN 22 2.1.2. Thuật toán DBSCAN 25 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ v 2.2. Thuật toán DBCLASD 27 2.2.1. Một số định nghĩa 27 2.2.2. Thuật toán DBCLASD 30 2.3. Thuật toán DENCLUE 34 2.3.1. Một số định nghĩa 35 2.3.2. Những tính chất của phƣơng pháp DENCLUE 37 2.3.3. Thuật toán DENCLUE 38 2.4. Kết luận 43 Chƣơng 3. CÁC GIẢI THUẬT PHÂN NHÓM TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN LỚN 44 3.1. Một số khái niệm cần thiết khi tiếp cận phân nhóm dữ liệu 44 3.1.1. Phân loại các kiểu dữ liệu 44 3.1.2. Độ đo tƣơng tự và phi tƣơng tự 45 3.2. Thuật toán K-MEANS 49 3.3. Giải thuật DBSCAN 53 3.4. Kết luận 55 Chƣơng 4. XÁC ĐỊNH THAM SỐ, CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 56 4.1. Môi trƣờng thử nghiệm 56 4.2. Công cụ thử nghiệm 56 4.3. Xác định tham số 56 4.3.1. Xác định tham số cho thuật toán DBSCAN 56 4.3.2. Tối ƣu hoá việc lựa chọn các tham số và cho thuật toán DENCLUE 62 4.4. Cài đặt thử nghiệm và đánh giá kết quả 63 4.4.1. Xây dựng chƣơng trình cài đặt thuật toán phân nhóm 63 4.4.2. Tạo lập dữ liệu 64 4.4.3. Cài đặt thuật toán phân nhóm 65 4.4.4. Lƣu trữ và hiển thị kết quả 73 4.5. Đánh giá kết quả trên một số tập dữ liệu 74 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ vi 4.5.1. Tập dữ liệu 74 4.5.2. Đánh giá kết quả 75 4.5.3. Nhận xét 79 4.6. Kết luận 81 KẾT LUẬN 82 TÀI LIỆU THAM KHẢO 84 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ vii BẢNG THUẬT NGỮ VIẾT TẮT Từ hoặc nhóm từ Từ viết tắt Từ tiếng anh Cơ sở dữ liệu CSDL DataBase Khai phá dữ liệu KPDL Data Mining Khai phá tri thức KPTT Knowledge Discovery Khai phá tri thức trong cơ sở dữ liệu KDD Knowledge Discovery in Databases Phân nhóm dữ liệu PNDL Data Clustering Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ viii DANH MỤC CÁC HÌNH Hình 1.1: Các bƣớc trong quá trình khám phá tri thức KDD 8 Hình 1.2: Biểu đồ Hertzsprung-Russell 10 Hình 1.3: Mô tả cách phân nhóm theo phƣơng pháp từ dƣới lên và từ trên xuống 14 Hình 1.4: Những điểm nằm trong miền tô sẫm mới đƣợc xét đến khi tìm điểm gần nhất cho điểm x. Những điểm ngoài miền không cần xét đến 17 Hình 1.5: Một cách chia lƣới. Những ô mầu sẫm là những ô chứa dữ liệu và đƣợc lƣu trữ. Những ô màu trắng là những ô không chứa dữ liệu 19 Hình 1.6: Mô phỏng một R*-tree gồm 3 mức 20 Hình 2.1: Lân cận của P với ngƣỡng Eps 22 Hình 2.2: Mật độ - đến đƣợc trực tiếp 23 Hình 2.3: Mật độ đến đƣợc 23 Hình 2.4: Mật độ liên thông 24 Hình 2.5: Nhóm và nhiễu 24 Hình 2.6: Mô phỏng thuật toán DBSCAN 25 Hình 2.7: Thủ tục ExpandCluster 26 Hình 2.8: Ví dụ dữ liệu tập các điểm đƣợc chia thành 2 lớp 27 Hình 2.9: Ảnh hƣởng của độ rộng ô lƣới đến việc xác định vùng xấp xỉ 29 Hình 2.11: Ví dụ một cách chia và đánh số trong không gian hai chiều 40 Hình 3.1: Minh họa số đo chiều rộng, chiều cao một đối tƣợng 46 Hình 3.2: Khoảng cách Euclidean 48 Hình 3.3: Các thiết lập để xác định ranh giới các nhóm ban đầu 49 Hình 3.4: Tính toán trọng tâm của các nhóm mới 50 Hình 3.5: Ví dụ các bƣớc của thuật toán K-means 52 Hình 3.6: Một số hình dạng khám phá bởi phân nhóm dƣa trên mật độ 54 Hình 3.7: Thuật toán DBSCAN 54 Hình 4.1: Môi trƣờng thử nghiệm 56 [...]... tài Nghiên cứu, tìm hiểu một số thuật toán cơ bản về phân nhóm dữ liệu trên Cơ sở dữ liệu không gian làm hƣớng nghiên cứu chính cho luận văn của mình 2 Mục tiêu đề tài Mục tiêu trọng tâm của đề tài là: - Nghiên cứu một số thuật toán phân nhóm dữ liệu trên cơ sở dữ liệu không gian - Cài đặt thử nghiệm trên một số mẫu dữ liệu không gian (dựa trên tập dữ liệu trong các tài liệu tham khảo) - Đƣa ra bảng... tới khi tìm ra đƣợc trang dữ liệu cần tìm 1.4 Kết luận Qua chƣơng này, chúng tôi đã trình bày tổng quan về khai phá tri thức trong cơ sở dữ liệu không gian Tìm hiểu một số khái niệm và các vấn đề liên quan đến khai phá tri thức trong cơ sở dữ liệu, các tính chất và đặc trƣng của cơ sở dữ liệu không gian Tập trung nghiên cứu một lĩnh vực của khai phá dữ liệu là kỹ thuật phân nhóm trong cơ sở dữ liệu bao... của các điểm dữ liệu Nhận xét Có rất nhiều các phƣơng pháp phân nhóm, mỗi một phƣơng pháp đều có rất nhiều các thuật toán tƣơng ứng Tuỳ thuộc vào từng bài toán cụ thể mà ta có thể áp dụng các thuật toán khác nhau Mỗi một thuật toán đó sẽ đáp ứng đƣợc một lớp các vấn đề về tìm kiếm tri thức 1.3 Hệ quản trị cơ sở dữ liệu không gian 1.3.1 Cơ sở dữ liệu không gian Dữ liệu không gian là dạng dữ liệu đặc biệt,... dữ liệu Đặc biệt khi việc phân nhóm tốt, thời gian xem xét cơ sở dữ liệu đƣợc giảm xuống bởi vì chúng ta không nhất thiết phải tìm kiếm trong toàn bộ cơ sở dữ liệu mà chỉ phải tìm kiếm ở một lớp (nhóm) các dữ liệu trong cơ sở dữ liệu lớn 1.2 Phân nhóm (Clustering) và các cách tiếp cận chính 1.2.1 Phân nhóm và các ứng dụng a Khái niệm Phân nhóm (clustering) là quá trình nhóm một tập các đối tƣợng vật... so sánh giữa các thuật toán - Tìm cách xây dựng các tham số cho các thuật toán 3 Đối tƣợng và phạm vi nghiên cứu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 4 - Các kỹ thuật thu thập và lƣu trữ dữ liệu; - Các phƣơng pháp phân nhóm dữ liệu; - Tập trung nghiên cứu một số thuật toán phân nhóm cơ bản dựa vào mật độ phân bố của các đối tƣợng dữ liệu không gian 4 Ý nghĩa... Tổng quan về khai phá tri thức trong cơ sở dữ liệu không gian Chƣơng 2: Các cách tiếp cận của kỹ thuật phân nhóm Chƣơng 3: Các giải thuật phân nhóm trên cơ sở dữ liệu không gian lớn Chƣơng 4: Xác định tham số, cài đặt thử nghiệm và đánh giá kết quả Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 6 Chƣơng 1 TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ CƠ SỞ DỮ LIỆU KHÔNG GIAN 1.1... Point, Line, Polugon, … Và từ đó, một mô hình cơ sở dữ liệu đƣợc quan tâm nhất hiện nay chính là mô hình cơ sở dữ liệu không gian (SDB – Spatial Database) đƣợc sử dụng cho xử lý và lƣu trữ dữ liệu không gian, chẳng hạn nhƣ dữ liệu bản đồ, dữ liệu, dữ liệu của lĩnh vực khí tƣợng thuỷ văn, quân sự, multimedia, … và đặc biệt là trong lĩnh vực viễn thông Thuật ngữ dữ liệu không gian (spatial data) đƣợc sử dụng... giải thuật phân nhóm, tuy nhiên không cho ra kết quả tốt trong trƣờng hợp kích thƣớc dữ liệu lớn, có hình dạng phức tạp và có cả nhiễu b Ý nghĩa thực tiễn Kết quả nghiên cứu là tìm hiểu và đƣa ra một số thuật toán phân nhóm có hiệu quả trên dữ liệu không gian, đặc biệt trong trƣờng hợp dữ liệu lớn, bị nhiễu, đa chiều Kết quả so sánh giữa các thuật toán cho thấy tính hiệu quả của mỗi thuật toán trên. .. khai phá dữ liệu nhƣ phân lớp, phân nhóm, phát hiện luật kết hợp, … Mỗi phƣơng pháp có những đặc điểm riêng phù hợp với một lớp các bài toán, các dạng dữ liệu và miền dữ liệu nhất định Đối với dữ liệu không gian, phƣơng pháp đang đƣợc quan tâm nghiên cứu là phƣơng pháp phân nhóm (clustering) Đây là một bài toán quan trọng của lĩnh vực tìm kiếm tri thức trong cơ sở dữ liệu không gian lớn và phải đƣợc... chúng ta có thể đƣa ra đƣợc tỷ lệ thất nghiệp với một mức độ chính xác nhất định Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn/ 17 1.3.2 Hệ quản trị cơ sở dữ liệu không gian Hệ quản lý cơ sở dữ liệu không gian là một bộ các công cụ cho phép thực hiện tổ chức, lƣu trữ, sắp xếp và tìm kiếm dữ liệu trong cơ sở dữ liệu không gian đƣợc nhanh chóng và hiệu quả Các bộ công cụ . tài là: - Nghiên cứu một số thuật toán phân nhóm dữ liệu trên cơ sở dữ liệu không gian. - Cài đặt thử nghiệm trên một số mẫu dữ liệu không gian (dựa trên tập dữ liệu trong các tài liệu tham. mạng viễn thông một cách hiệu quả. Chính vì lý do đó mà em chọn đề tài Nghiên cứu, tìm hiểu một số thuật toán cơ bản về phân nhóm dữ liệu trên Cơ sở dữ liệu không gian làm hƣớng nghiên cứu chính. NGHIÊN CỨU, TÌM HIỂU MỘT SỐ THUẬT TOÁN CƠ BẢN VỀ PHÂN NHÓM DỮ LIỆU TRÊN CƠ SỞ DỮ LIỆU KHÔNG GIAN LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN - 2014 Số hóa bởi Trung

Ngày đăng: 06/11/2014, 00:16

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan