Luận văn thạc sĩ ngành công nghệ thông tin xây dựng hệ thống tìm kiếm âm thanh theo nội dung dựa trên các đặc trưng miền tần số

93 26 0
Luận văn thạc sĩ ngành công nghệ thông tin  xây dựng hệ thống tìm kiếm âm thanh theo nội dung dựa trên các đặc trưng miền tần số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG - ISO 9001:2008 TRẦN THỊ HẰNG NGA LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN HẢI PHÒNG, 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG TRẦN THỊ HẰNG NGA XÂY DỰNG HỆ THỐNG HỖ TRỢ LỰA CHỌN ĐỊA ĐIỂM ĐẶT MÁY ATM TẠI THÀNH PHỐ HẢI PHÒNG BẰNG KỸ THUẬT PHÂN CỤM KHÔNG GIAN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 60 48 01 04 NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC MỤC LỤC MỤC LỤC MỘT SỐ THUẬT NGỮ VIẾT TẮT DANH MỤC HÌNH VẼ, BẢNG DỮ LIỆU LỜI CÁM ƠN LỜI CAM ĐOAN MỞ ĐẦU CHƢƠNG 1:TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) VÀ PHÂN CỤM DỮ LIỆU 11 1.1 Một số vấn đề Hệ thông tin địa lý (GIS) 11 1.1.1 Một số định nghĩa hệ thống thông tin địa lý 11 1.1.2 Các thành phần hệ thống thông tin địa lý 13 1.1.3 Biểu diễn liệu địa lý 15 1.1.4 Mơ hình biểu diễn liệu khơng gian 19 1.1.5 Tìm kiếm kỹ thuật phân tích liệu khơng gian GIS 24 1.1.5.1 Tìm kiếm theo vùng 24 1.1.5.2 Tìm kiếm lân 25 1.1.5.3 Phân tích đƣờng dẫn đƣờng 25 1.1.5.4 Tìm kiếm tƣợng toán chồng phủ 25 1.1.5.5 Nắn chỉnh liệu không gian 28 1.1.6 Ứng dụng hệ thông tin địa lý 29 1.1.6.1 Các lĩnh vực liên quan với hệ thống thông tin địa lý 29 1.1.6.2 Những toán GIS 30 1.2 Khái quát khai phá liệu phân cụm liệu 31 1.2.1 Khái quát khai phá liệu 31 1.2.1.1 Tiến trình khai phá liệu 32 1.2.1.2 Các mơ hình khai phá liệu 33 1.2.1.3 Các hƣớng tiếp cận kỹ thuật sử dụng khai phá liệu 34 1.2.1.4 Các dạng liệu khai phá 35 1.2.1.5 Các ứng dụng khai phá liệu 36 1.2.2 Phân cụm liệu 37 1.2.2.1 Phân cụm phân hoạch 37 1.2.2.2 Phân cụm phân cấp 38 1.2.2.3 Phân cụm dựa mật độ 39 1.2.2.4 Phân cụm dựa lƣới 40 1.3 Tổng kết chƣơng 41 CHƢƠNG 2: MỘT SỐ THUẬT TOÁN LIÊN QUAN 43 2.1 Thuật tốn phân cụm liệu khơng gian 43 2.1.1 Thuật toán K-means 43 2.1.2 Thuật toán toán phân cụm dựa mật độ 45 2.2 Thuật toán xếp chồng đồ 54 2.2.1 Khái quát xếp chồng đồ 54 2.2.2 Các phƣơng pháp xếp chồng đồ 56 2.2.2.1 Phƣơng pháp Raster Overlay 56 2.2.2.2 Phƣơng pháp Vector Overlay 57 2.2.3 Một số phép toán Overlay 58 2.2.3.1 Phép hợp (Union) 58 2.2.3.2 Phép giao (Intersect) 59 2.2.3.3 Phép đồng (Indentity) 59 2.2.4 Một số thuật toán xếp chồng đồ 60 2.2.4.1 Thuật toán giao hai đoạn thẳng (Bentley – Ottmann) 60 2.2.4.1.1 Ý tƣởng thuật toán 60 2.2.4.1.2 Cấu trúc liệu 61 2.2.4.1.3 Chi tiết thuật toán BO 62 2.2.4.1.4 Phân tích thuật tốn 63 2.2.4.1.5 Kết luận thuật toán 64 2.2.4.2 Thuật toán giao hai đa giác 64 2.2.4.2.1 Chi tiết thuật toán 64 2.2.4.2.2 Phân tích cài đặt thuật tốn 67 2.2.4.2.3 Kết luận thuật toán 69 2.3 Tổng kết chƣơng 70 CHƢƠNG XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 71 3.1 Giới thiệu toán xác định vị trí đặt máy ATM thành phố Hải Phòng 71 3.2 Nguồn liệu đầu vào phạm vi toán 73 3.3 Phƣơng pháp kỹ thuật giải toán 74 3.4 Công nghệ sử dụng 75 3.5 Phân tích thiết kế hệ thống 75 3.6 Đánh giá kết thu đƣợc 82 KẾT LUẬN 86 TÀI LIỆU THAM KHẢO 88 MỘT SỐ THUẬT NGỮ VIẾT TẮT CSDL Cơ sở liệu GIS Hệ thông tin địa lý KDD Khám phá tri thức từ sở liệu KPDL Khai phá liệu OLAP Xử lý phân tích liệu trực tuyến DANH MỤC HÌNH VẼ Hình 1.1: Thành tố GIS 13 Hình 1.2: Các thành phần thiết bị GIS 13 Hình 1.3: Mối quan hệ thành phần GIS 15 Hình 1.4: Ví dụ biểu diễn vị trí nƣớc bị nhiễm 17 Hình 1.5: Ví dụ biểu diễn đƣờng 17 Hình 1.6: Ví dụ biểu diễn khu vực hành 18 Hình 1.7: Biểu diễn vector đối tƣợng địa lý 22 Hình 1.8: Biểu diễn giới mơ hình raster 23 Hình 1.9: Chồng phủ đa giác 27 Hình 1.10: Tiến trình xếp chồng đa giác 28 Hình 1.11: Tiến trình khám phá tri thức từ sở liệu 32 Hình 1.12: Kiến trúc điển hình hệ khai phá liệu 33 Hình 1.13: Phân cụm phân cấp 39 Hình 1.14: Phân cụm dựa theo lƣới vùng 40 Hình 2.1: Minh họa thuật tốn k-means 44 Hình 2.2: Kề mật độ trực tiếp 46 Hình 2.3: Kề mật độ 46 Hình 2.4: Kết nối theo mật độ 46 Hình 2.5: Đồ thị xếp 4-dist CSDL mẫu 51 Hình 2.6: Đồ thị k-dist phƣơng pháp ƣớc lƣợng tham số Eps 52 Hình 2.7: Đồ thị K-dist lớp đồ “Hệ thống siêu thị” 52 Hình 2.8: Đồ thị K-dist lớp đồ “Ngân hàng” 53 Hình 2.9: Các cụm phát đƣợc CLARANS DBSCAN 53 Hình 2.10: Các cụm đƣợc phát DBSCAN, K-Means, CLARANS 54 Hình 2.11 Nguyên lý xếp chồng đồ 55 Hình 2.12: Việc xếp chồng đồ theo phƣơng pháp cộng 55 Hình 2.13: Một thí dụ việc xếp chồng đồ 56 Hình 2.14 Xếp chồng lớp đồ 56 Hình 2.15 Minh họa Raster Overlay 57 Hình 2.16 Xếp chồng điểm đa giác 58 Hình 2.17 Xếp chồng đoạn đa giác 58 Hình 2.18 Xếp chồng đa giác đa giác 58 Hình 2.19 Phép hợp Overlay 59 Hình 2.20 Phép giao Overlay 59 Hình 2.21 Phép đồng Overlay 59 Hình 2.22 Minh hoạ thuật tốn qt dịng 60 Hình 2.23 Cấu trúc nhị phân 62 Hình 3.1: Giao diện chƣơng trình 79 Hình 3.2: Phân cụm lớp liệu "Cơ quan" nội thành Hải Phòng 79 Hình 3.3: Phân cụm lớp liệu "Khách sạn" 80 Hình 3.4: Phân cụm lớp liệu "Nhà hàng" 80 Hình 3.5: Phân cụm lớp liệu "Trƣờng học" 81 Hình 3.6: Hình ảnh chồng phủ lớp liệu phân cụm khu vực tiềm đặt thêm máy ATM 81 Hình 3.7: Kết phân cụm K-means liệu tự tạo 82 Hình 3.8: Khả phát nhiễu cụm có hình dạng K-means DBSCAN 83 Hình 3.9: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN với tập liệu đầu vào 84 Hình 3.10: Đồ thị thời gian thực phân cụm thuật toán K-measn, DBSCAN tập liệu khác 85 DANH MỤC BẢNG Bảng 3.1: So sánh tổng quan thuật toán K-means, DBSCAN DBRS 82 Bảng 3.2: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN với tập liệu đầu vào 83 Bảng 3.3: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN tập liệu khác 84 LỜI CẢM ƠN Lời đầu tiên, em xin đƣợc gửi lời cảm ơn chân thành sâu sắc tới PGS.TS Đặng Văn Đức, ngƣời thầy cho em định hƣớng ý kiến q báu suốt q trình hồn thành luận văn Em xin chân thành cảm ơn thầy, trƣờng Đại học Dân lập Hải Phịng Viện Công nghệ Thông tin - Viện Hàn lâm Khoa học Việt Nam giảng dạy, truyền đạt cho em kiến thức quý báu thời gian qua Tôi xin đƣợc gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đồng nghiệp ngƣời ln kịp thời động viên, khích lệ giúp đỡ tơi vƣợt qua khó khăn để tơi hồn thành nhiệm vụ Do cịn hạn chế nhiều mặt nên luận văn tránh khỏi hạn chế, thiếu sót Rất mong nhận đƣợc dẫn, góp ý Thầy, bạn./ Xin trân trọng cảm ơn! Hải Phòng, tháng 11 năm 2016 Học viên Phú Thị Quyên ngoại trừ đối tƣợng mang thông tin mạng lƣới liên thông nhƣ: mạng lƣới cột điện, mạng lƣới cấp nƣớc…Do ta sử dụng độ đo khoảng cách toán phân cụm đề (các độ đo đƣợc đề cập mục 3.3 chƣơng 3) 3.4 Công nghệ sử dụng Chƣơng trình thử nghiệm đƣợc cài đặt ngơn ngữ C#, có sử dụng thƣ viện mã nguồn mở SharpMap tác giả Morten Nielsen (www.iter.dk) cộng đồng mã nguồn mở phát triển để hỗ trợ hiển thị đồ Một số chức đƣợc cài đặt chƣơng trình: - Duyệt đồ: hiển thị đồ, phóng to, thu nhỏ, trƣợt đồ - Phân cụm liệu đồ - Chồng phủ đồ - Lƣu đồ Học viên tiến hành cài đặt thử nghiệm thuật toán phân cụm dựa mật độ thuật tốn DBSCAN, ngồi cài đặt thêm thuật toán phân cụm dựa phân hoạch K-means để so sánh đánh giá 3.5 Phân tích thiết kế hệ thống Hệ thống phải đảm bảo cung cấp chức tối thiểu hệ thông tin địa lý nhƣ: - Duyệt đồ - Phóng to - Thu nhỏ - Trƣợt đồ - Xem thơng tin đồ Ngồi ra, phục vụ u cầu toán đề ra, hệ thống cần có thêm chức năng: - Phân cụm liệu - Chồng phủ đồ - Lƣu kết chồng phủ Trên sở phân tích chức hệ thống nhƣ trên, xây dựng đƣợc biểu đồ Use case thể chức hệ thống nhƣ sau: Biểu đồ ca sử dụng Dong lop ban Luu ban Phong to ban Them lop ban Thu nho ban Duyet ban Nguoi su dung Truot ban Phan cum Chong phu ban Biểu đồ hoạt động số thuật toán phân cụm cài đặt K-means Khoi tao ngau nhien K tam cum Gan nhan cum cho tung phan tu Tinh lai tam cum False True tam cum khong doi DBSCAN Nhan cum =0 Gan nhan cum cho P P = phan tu i Q= lan can i cua P False True False chua gan nhan True Nhan cum ++ chua gan nhan cho Q False False True Q la CORE True P la CORE Mo rong cum tu Q Gan nhan cum cho Q Mo rong cum tu P False True duyet het lan can False True duyet het cac phan tu Một số hình ảnh chƣơng trình Hình 3.1: Giao diện chƣơng trình Hình 3.2: Phân cụm lớp liệu "Cơ quan" nội thành Thành phố Hải Phịng Hình 3.3: Phân cụm lớp liệu "Khách sạn" Hình 3.4: Phân cụm lớp liệu "Nhà hàng" Hình 3.5: Phân cụm lớp liệu "Trƣờng học" Hình 3.6: Hình ảnh chồng phủ lớp liệu phân cụm nhƣ mô tả hình trƣớc, vùng màu vàng vùng giao, cho thấy khu vực tập trung nhiều điểm tiện ích, khu vực tiềm đặt thêm máy ATM Hình 3.7: Kết phân cụm K-means liệu tự tạo, kết cho thấy khả phát cụm lõm K-means xác 3.6 Đánh giá kết thu đƣợc Học viên tiến hành thử nghiệm, so sánh đánh giá thuật toán cài đặt hệ thống nhƣ sau: Đánh giá tổng quan thuật toán Bảng 3.1: So sánh tổng quan thuật toán K-means, DBSCAN K-means DBSCAN Độ phức tạp O(tKN) O(NlogN) Khả phát nhiễu Tốt Khả phát cụm có khơng có hình dạng Khả phân cụm theo khơng khơng thuộc tính phi không gian Kết phân cụm Khác Giống lần chạy Hình 3.8 : Khả phát nhiễu cụm có hình dạng K-means (trái) DBSCAN (phải), đƣờng bao màu xanh đƣờng biên cụm Đánh giá độ phức tạp thuật toán Thử nghiệm thứ nhất: Thực phân cụm với tập liệu đầu vào: tệp Cosohatang_KTXH bao gồm 4235 mẫu liệu, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, 2GB Ram Kết thu đƣợc nhƣ sau: Bảng 3.2: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN với tập liệu đầu vào Bảng so sánh thời gian thực phân cụm với tập liệu đầu vào (với tập liệu đầu vào: tệp Cosohatang_KTXH với 4235 mẫu liệu thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Thời gian (ms) Các tham Thuật lần lần lần lần lần lần lần lần lần số toán lần 10 cụm 382 412 356 449 611 266 577 192 311 621 phân Kmeans số cụm = epsilon 1301.1470 DBSCA N = 1340 1347 1389 1445 1347 1323 1382 1331 1340 1395 , MinPts=4 Kết thể dƣới dạng đồ thị nhƣ sau: Hình 3.9: Đồ thị so thời gian thực phân cụm thuật toán K-measn, DBSCAN với tập liệu đầu vào Kết cho thấy: với số lƣợng liệu đầu vào, thời gian thực trung bình thuật tốn K-means thấp nhất, DBSCAN thực lâu Đồ thị cho thấy biến thiên thời gian thực K-means với tâm cụm ngẫu nhiên lần chạy Thử nghiệm thứ 2: Sử dụng tập liệu đầu vào khác nhau, với số lƣợng liệu tăng dần, kết thu đƣợc nhƣ bảng sau: Bảng 3.3: Kết so sánh thời gian thực phân cụm thuật toán Kmeans, DBSCAN tập liệu khác Bảng so sánh thời gian thực phân cụm với số lƣợng mẫu liệu khác (với tập liệu đầu vào khác nhau, thực máy tính với CPU 1.6GHz Celeron Mobile đơn lõi, RAM 2GB) Số mẫu liệu K-means Thời gian (ms) Các tham số phân cụm 64 130 270 514 1153 2155 4235 mẫu mẫu mẫu mẫu mẫu mẫu mẫu 12 19 65 127 238 số cụm = 14 19 35 117 717 1298 MinPts=4 DBSCAN Kết thể đồ thị nhƣ sau: Hình 3.10: Đồ thị thời gian thực phân cụm thuật toán K-measn, DBSCAN tập liệu khác Kết cho thấy, thời gian thực thuật tốn K-means có dạng đƣờng thẳng, phù hợp với độ phức tạp thuật toán O(tKn); thời gian phân cụm DBSCAN DBRS có dạng đƣờng cong lên, phù hợp với độ phức tạp thuật toán O(NlogN) Đồ thị cho thấy thuật tốn DBRS có thời gian thực thấp DBSCAN duyệt số hữu hạn điểm ngẫu nhiên sở liệu KẾT LUẬN Luận văn thực đƣợc công việc sau: - Nghiên cứu tổng quan Hệ thông tin địa lý khai phá liệu không gian - Nghiên cứu tổng quan phân cụm liệu phân cụm liệu không gian - Nghiên cứu vài thuật toán sử dụng phân cụm liệu khơng gian - Xây dựng chƣơng trình thử nghiệm phân cụm lớp liệu điểm tiện ích, sử dụng tốn cụ thể tính tốn vị trí tối ƣu lắp đặt máy ATM nội thành Hải Phòng - Đánh giá thuật toán phân cụm cài đặt liệu đồ nội thành thành phố Hải Phòng Tuy nhiên, liệu sử dụng để đánh giá chƣa đủ lớn nên chƣa đánh giá hết đƣợc hiệu đặc trƣng thuật tốn, nhƣ tính ổn định hệ thống thử nghiệm Trong tƣơng lai, cần phải thử nghiệm đánh giá liệu lớn Những đóng góp luận văn bao gồm: - Đã thử nghiệm phƣơng pháp khai phá liệu khơng gian, kết hợp việc phân cụm lớp liệu khơng gian với phép phân tích xử lý liệu không gian, hỗ trợ giải lớp toán quản lý lập kế hoạch dựa hệ thông tin địa lý - Cài đặt, khảo sát, đánh giá thuật toán phân cụm K-means, DBSCAN liệu không gian Hƣớng phát triển luận văn: - Hƣớng nghiên cứu luận văn đƣợc mở rộng sang lớp liệu không gian dạng đƣờng dạng vùng, sử dụng khai phá liệu liên quan đến đối tƣợng địa lý dạng đƣờng dạng vùng - Một số ràng buộc trọng số đƣợc đƣa vào tốn để khai phá liệu cách mềm dẻo linh hoạt điều kiện cụ thể toán - Vấn đề phân cụm liệu đa chiều đƣợc thử nghiệm để so sánh với phƣơng pháp phân cụm đơn chiều kết hợp với phân tích đa chiều liệu không gian - Phƣơng pháp tiếp cận sử dụng phân cụm mờ đƣợc thử nghiệm tính tƣơng đối cố hữu tốn tối ƣu TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học kỹ thuật, Hà Nội, 2001 Tiếng Anh [2] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, The MIT Press, 2001 [3] Ester, M., Kriegel, H.-P., Sander, J., & Xu, X., A density-based algorithm for discovering clusters in large spatial databases with noise, Second Int Conf on Knowledge Discovery and Data Mining , (pp 226-231) Portland, Oregon, 1996 [4] Fayyad M Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining AAAI Press/ The MIT Press [5] Harvey J Miller (Editor), Jiawei Han (Editor), Geographic Data Mining and Knowledge Discovery, Second Edition, Taylor&Francis LLC, 2009 [6] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers, 2006 [7] Oracle,OracleDataMiningConcepts10gRelease1(10.1),OracleCorporation, 2003 [8] Raymond T Ng, Jiawei Han, CLARANS: A Method for Clustering Objects for Spatial Data Mining, IEEE, 9-10, 2002 [9] Smid, Michiel (2003), Computing intersections in a set of line segments: the Bentley–Ottmann algorithm [10] Satish Puri, Dinesh Agarwal, Map Reduce algorithms for GIS Polygonal Overlay Processing, Georgia State University, USA, 2012 [11] Tao Y., Papadias D (2004), “Performance Analysis of R*-trees with Arbitrary Node Extents”, IEEE [12] Wang, X., & Hamilton, H J., DBRS- A Density-Based Spatial Clustering Method with Random Sampling, 7th PAKDD, (pp 563-575) Seoul, Korea, 2003 Website [13] http://donga.ngan-hang.com/atm/hai-phong [14]http://haiphong.gov.vn/Portal/Detail.aspx?Organization=Citizen&MenuID=677 4&ContentID=18800 [15] http://www.lukhach24h.com/listing/atm-ngan-hang-techcombank-tai-thanhpho-hai-phong.html [16] http://military-bank.ngan-hang.com/atm/hai-phong [17]http://vayvontieudung.com.vn/index.php?branch_bank=11&branch_province=4 3&district=0&com=search&ctr=search&act=searchDiemGiaoDich [18] http://vietinbank.ngan-hang.com/atm/hai-phong ... nội dung luận văn “Xây dựng hệ thống tìm kiếm âm theo nội dung dựa đặc trưng miền tần số” tự sƣu tầm, tra cứu tìm hiểu theo tài liệu tham khảo làm theo hƣớng dẫn ngƣời hƣớng dẫn khoa học Nội dung. .. công nghệ thông tin đƣa tin học thâm nhập sâu vào nhiều lĩnh vực khoa học đời sống, mở giai đoạn trình phát triển khoa học Hệ thống thông tin địa lý ứng dụng có giá trị cơng nghệ tin học ngành... Thông tin địa lý bao gồm liệu bề mặt Trái đất diễn giải liệu để ngƣời dễ hiểu Thông tin địa lý gồm hai loại liệu: không gian (spatial data) phi không gian (non-spatial data) Hệ thống thông tin

Ngày đăng: 07/04/2020, 22:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan