Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam

14 248 0
Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Nội – 2014 NGUYỄN THỊ KHÁNH LINH PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA CÁC ĐỊA PHƯƠNG Ở VIỆT NAM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu không chép Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn, có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Khánh Linh LỜI CẢM ƠN Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Đình Hóa – Viện CNTT – Trƣờng Đại học Quốc gia Hà Nội thầy giáo TS Lê Hoàng Sơn – ĐH Khoa học Tự nhiên trực tiếp hƣớng dẫn tận tình giúp đỡ em suốt thời gian thực luận văn Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể thầy cô giáo khoa Công nghệ thông tin, trƣờng Đại học Công nghệ Hà Nội, Đại học Quốc gia Hà Nội dạy bảo tận tình em suốt trình em học tập khoa Trong trình thực luận văn, em nhận đƣợc giúp đỡ nhiều từ thầy cô, anh chị bạn Trung tâm Tính toán Hiệu cao, trƣờng Đại học Khoa học tự nhiên Luận văn đƣợc thực dƣới tài trợ đề tài cấp ĐHQG, mã số: QG.14.60 Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, ngƣời bên cạnh em để động viên, giúp đỡ tạo điều kiện tốt để em hoàn thành luận văn Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Khánh Linh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIẾU MỞ ĐẦU CHƢƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 10 1.1 GIS liệu địa lý 10 1.1.1 GIS 10 1.1.2 Dữ liệu địa lý Error! Bookmark not defined 1.1.2.1 Dữ liệu không gian Error! Bookmark not defined 1.1.2.2 Dữ liệu thuộc tính Error! Bookmark not defined 1.2 Tổng quan phân cụm liệu địa lý Error! Bookmark not defined 1.2.1 Khái niệm phân cụm liệu Error! Bookmark not defined 1.2.2 Ứng dụng phân cụm liệu địa lý Error! Bookmark not defined 1.2.3 Các thuật toán phân cụm liệu địa lý Error! Bookmark not defined 1.2.3.1 Thuật toán FCM Error! Bookmark not defined 1.2.3.2 Thuật toán NE Error! Bookmark not defined 1.2.3.3 Thuật toán FGWC Error! Bookmark not defined 1.2.3.4 Thuật toán CFGWC Error! Bookmark not defined 1.2.3.5 Thuật toán CFGWC Error! Bookmark not defined 1.2.3.6 Thuật toán IPFGWC Error! Bookmark not defined 1.2.3.7 Thuật toán MIPFGWC Error! Bookmark not defined 1.3 Kết luận Error! Bookmark not defined CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOWError! Bookmark not defined 4 2.1 MapWindow plug-in để mở rộng chức năngError! Bookmark not defined 2.1.1 Các phần mềm GIS Error! Bookmark not defined 2.1.2 Phần mềm GIS MapWindow Error! Bookmark not defined 2.1.3 Xây dựng sử dụng plug-in với MapWindowError! Bookmark not defined 2.1.3.1 Quy tắc chung Error! Bookmark not defined 2.1.3.2 Các bƣớc cụ thể Error! Bookmark not defined 2.2 Phân tích thiết kế plug-in để thực thuật toán phân cụm Error! Bookmark not defined 2.2.1 Mô hình ca sử dụng Error! Bookmark not defined 2.2.1.1 Mô hình ca sử dụng tổng thể plug-in Error! Bookmark not defined 2.2.1.2 Mô hình ca sử dụng chức phân cụm liệuError! Bookmark not defined 2.2.2 Mô tả ca sử dụng Error! Bookmark not defined 2.2.3 Biểu đồ lớp phân tích Error! Bookmark not defined 2.2.4 Thiết kế lớp Error! Bookmark not defined 2.2.4.1 Lớp giao diện Error! Bookmark not defined 2.2.4.2 Lớp điều khiển Error! Bookmark not defined 2.3 Kết luận Error! Bookmark not defined CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁError! Bookmark not defined 3.1 Dữ liệu thực nghiệm Error! Bookmark not defined 3.1.1 Chuẩn bị liệu không gian Error! Bookmark not defined 3.1.2 Chuẩn bị liệu phân cụm Error! Bookmark not defined 3.2 Các kịch chạy thử Error! Bookmark not defined 3.3 Một số kết chạy chƣơng trình Error! Bookmark not defined 3.3.1 Kết chạy thuật toán phân cụm khác cho tập liệu chuyên đề Error! Bookmark not defined 3.3.2 Kết chạy nhiều chuyên đề với thuật toánError! not defined Bookmark 3.3.3 Kết chạy phân cụm đồng thời nhiều thuộc tínhError! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT STT Từ viết tắt/thuật ngữ Từ tiếng Anh Ý nghĩa Trí tuệ nhân tạo AI Artifical Intelligence GIS Geographical NE Information Hệ thống thông tin địa System lý Neighbourhood Effects Thuật toán hiệu ứng vùng lân cận FCM Fuzzy C-means Thuật toán phân cụm mờ FGWC Fuzzy Geographically Thuật toán phân cụm Weight Clustering liệu theo trọng số địa lý CFGWC Context Geographically Clustering Fuzzy Thuật toán phân cụm Weight địa lý kết hợp ngữ cảnh IPFGWC Intuitionistic Possiblistic Thuật toán phân cụm Fuzzy Geographically địa lý tập mờ trực Weighted Clustering cảm MIPFGWC Modification Intuitionistic Thuật toán phân cụm Possiblistic Fuzzy địa lý hiệu chỉnh Geographically Weighted tập mờ trực cảm Clustering 10 KMIPFGWC 11 CSDL 12 UC Kernel-based Modification Thuật toán phân cụm Intuitionistic Possiblistic địa lý hiệu chỉnh Fuzzy Geographically tập mờ trực cảm sử dụng hàm nhân Weighted Clustering Cơ sở liệu Usecase Ca sử dụng 13 SIM Spatial Interaction Model Mô hình tƣơng tác không gian 14 SIM2 Spatial Interaction Modification Model - Mô hình tƣơng tác hiệu chỉnh không gian DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ liệu thuộc tính Error! Bookmark not defined Hình 1.2 Dữ liệu địa lý Error! Bookmark not defined Hình 2.1 Mô hình ca sử dụng tổng quan plug-inError! Bookmark not defined Hình 2.2 Mô hình usecase chức phân cụmError! Bookmark not defined Hình 2.3: Biểu đồ lớp plug-in Error! Bookmark not defined Hình 2.4 Lớp giao diện plug-in Error! Bookmark not defined Hình 2.5 Lớp giao diện chức phân cụmError! Bookmark not defined Hình 2.6 Lớp giao diện tải chuyên đề Error! Bookmark not defined Hình 2.7 Lớp giao diện nhập tham số thuật toánError! Bookmark not defined Hình 2.8 Lớp điều khiển tính toán phân cụm Error! Bookmark not defined Hình 2.9 Lớp điều khiển cập nhật liệu vào bảng thuộc tính Error! Bookmark not defined Hình 2.10 Lớp điều khiển Reset bảng thuộc tínhError! Bookmark not defined Hình 3.1 Dữ liệu chuyên đề dạng file csv Error! Bookmark not defined Hình 3.2 Dữ liệu chuyên đề dạng file txt Error! Bookmark not defined Hình 3.3 Giao diện chƣơng trình tải layer bật plug-inError! Bookmark not defined Hình 3.4 Giao diện in đồ Error! Bookmark not defined Hình 3.5 Kết chạy thuật toán MIPFGWC liệu “Tổng mức bán lẻ hàng hóa dịch vụ” với số cụm Error! Bookmark not defined 9 DANH MỤC CÁC BẢNG BIẾU Bảng 3.1: Kết chạy phân cụm với thuật toán liệu “Tổng mức bán lẻ hàng hóa dịch vụ” Error! Bookmark not defined Bảng 3.2: Thời gian chạy thuật toán liệu với tham số Error! Bookmark not defined Bảng 3.3:Thời gian chạy thuật toán liệu với tham số Error! Bookmark not defined Bảng 3.4:Thời gian chạy thuật toán liệu với tham số Error! Bookmark not defined Bảng 3.5: Kết phân cụm thuật toán MIPFGWC chạy chuyên đề: “Tổng mức bán lẻ hàng hóa dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” giai đoạn 2005-2013 Error! Bookmark not defined Bảng 3.6: Kết phân cụm đồng thời nhiều thuộc tính thay đổi tỉ lệ trọng số Error! Bookmark not defined 10 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) ứng dụng có giá trị công cụ trợ giúp định nhiều hoạt động kinh tế - xã hội, quốc phòng nhiều quốc gia giới Hiện nay, GIS đƣợc phát triển ứng dụng ngày nhiều Việt Nam Trong phát triển đất nƣớc ta nay, việc tổ chức quản lý thông tin địa lý cách tổng thể có có vai trò quan trọng việc sử dụng có hiệu nguồn tài nguyên đất nƣớc GIS giúp quan phủ có nhìn khách quan trạng thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý liệu không gian liệu thuộc tính Các liệu kinh tế, xã hội, môi trƣờng… gắn với địa phƣơng, tức liệu địa lý, nhiều toán thực tế đòi hỏi phải khai phá liệu Có nhiều phƣơng pháp khai phá liệu, phân cụm phƣơng pháp đƣợc sử dụng nhiều Hiện có nhiều cách tiếp cận thuật toán phân cụm khác nhƣ: dựa phân hoạch, phân cấp, dựa lƣới, dựa mật độ, dựa mô hình, dựa đồ thị… Phân cụm liệu địa lý hƣớng nghiên cứu nhiều triển vọng Đề tài nghiên cứu hƣớng tới thuật toán phân cụm liệu không gian Trên sở tìm hiểu nắm vững kỹ thuật xử lý liệu không gian vận dụng đƣợc vào chƣơng trình thực thuật toán phân cụm liệu không gian, thử áp dụng với liệu thực tế, phân tích diễn giải ý nghĩa kết phân cụm Bố cục luận văn gồm chƣơng: Chƣơng 1: Trình bày khái niệm chung GIS liệu địa lý, thuật toán sử dụng phân cụm liệu địa lý Chƣơng 2: Trình bày cách thức xây dựng ứng dụng phân cụm liệu thể số tiêu kinh tế xã hội địa phƣơng Việt Nam dựa phần mềm mã nguồn mở MapWindow Chƣơng 3: Chạy chƣơng trình số liệu thực tế thu thập đƣợc với thuật toán, so sánh kết thuật toán Đánh giá, phân tích số kết đầu thuật toán phân cụm 11 CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 GIS liệu địa lý 1.1.1 GIS Từ lâu đồ công cụ thông tin quen thuộc loài ngƣời Trong trình phát triển kinh tế kĩ thuật, đồ đƣợc cải tiến cho ngày đầy đủ thông tin xác Với đa dạng loại đồ việc thể đối tƣợng khác bề mặt trái đất, nhà quy hoạch nhận thức đƣợc cần thiết xử lý đồng thời nhiều đồ Các mô hình đồ họa cổ điển xử lý thông tin đồ gặp nhiều khó khăn xử lý đồng thời liệu không gian liệu thuộc tính Điều dẫn đến phát triển phƣơng pháp kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt cho công tác quy hoạch định [1] Trong năm đầu thập kỉ 60 (1963-1964) nhà khoa học Canada cho đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa thành tựu ngành đồ ý tƣởng lẫn thành tựu kỹ thuật đồ Hệ thông tin địa lý bắt đầu hoạt động việc thu thập liệu theo định hƣớng tuỳ thuộc vào mục tiêu đặt Cùng với Canada, trƣờng đại học Mỹ tiến hành nghiên cứu xây dựng hệ thống thông tin địa lý ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý đƣợc quan tâm nhiều Hệ thông tin địa lý (Geographical Information System – GIS) tập hợp công cụ để thu thập, lƣu trữ, chỉnh sửa, truy cập, phân tích cập nhật thông tin địa lý cho mục đích chuyên biệt Ngoài có nhiều định nghĩa khác GIS [1]: GIS công cụ sở máy tính để lập đồ phân tích tƣợng tồn kiện xảy trái đất (Environmental System Research Institute ESRI – Mỹ) GIS hệ thống phần cứng, phần mềm thủ tục đƣợc thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa hiển thị liệu quy chiếu không gian để giải vấn đề quản lý lập kế hoạch (National Center for Geography Information and Analysis NCGIA – Mỹ) 12 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Hồng Phƣơng, Đinh Văn Ƣu (2006), Hệ thống thông tin địa lý số ứng dụng hải dương học NXB Đại Học Quốc Gia Hà Nội Phạm Văn Cự, Lƣơng Anh Tuấn, Hoàng Kim Hƣơng (2005), Giáo trình hệ thống thông tin địa lý GIS đồ NXB Đại Học Quốc Gia Hà Nội Tiếng Anh Bezdek, J.C., R Ehrlich, et al (1984), FCM: the fuzzy c-means clustering algorithm, Computers and Geosciences, 10, pp.191-203 G A.Mason, R D Jacobson (2007), Fuzzy Geographically Weighted Clustering Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CDROM) Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization Applied Soft Computing Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial interaction – modification model and applications to geo-demographic analysis Knowledge-Based Systems Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011) Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm International Journal of Machine Learning and Computing Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), A Novel Intuitionistic Fuzzy Clustering Method for GeoDemographic Analysis Expert Systems with Applications R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in databases University of Alberta 10 Zadeh, L A (1965), Fuzzy sets Information and control, 13 Internet 11 Tài liệu Hƣớng dẫn sử dụng MapWindow 4.8.6, http://www.mapwindow.org/apps/wiki/lib/exe/fetch.php?media=quick_guid e_to_mapwindows_4.8.6.pdf 12 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html 13 http://gadm.org/download (download shapefile đồ VN) [...]... dụng phân cụm dữ liệu và thể hiện một số chỉ tiêu kinh tế xã hội của các địa phƣơng ở Việt Nam dựa trên phần mềm mã nguồn mở MapWindow Chƣơng 3: Chạy chƣơng trình trên số liệu thực tế thu thập đƣợc với từng thuật toán, so sánh kết quả từng thuật toán Đánh giá, phân tích một số kết quả đầu ra của các thuật toán phân cụm 11 CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 GIS và dữ liệu địa lý. .. xử lý dữ liệu không gian và vận dụng đƣợc vào chƣơng trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm Bố cục của luận văn gồm 3 chƣơng: Chƣơng 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật toán sử dụng trong phân cụm dữ liệu địa lý Chƣơng 2: Trình bày cách thức xây dựng ứng dụng. .. trong việc sử dụng có hiệu quả hơn nguồn tài nguyên của đất nƣớc GIS giúp các cơ quan chính phủ có cái nhìn khách quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các dữ liệu không gian và dữ liệu thuộc tính Các dữ liệu về kinh tế, xã hội, môi trƣờng… đều gắn với các địa phƣơng, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này... phƣơng pháp khai phá dữ liệu, trong đó phân cụm là một phƣơng pháp đƣợc sử dụng khá nhiều Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau nhƣ: dựa trên phân hoạch, phân cấp, dựa trên lƣới, dựa trên mật độ, dựa trên mô hình, dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hƣớng nghiên cứu nhiều triển vọng Đề tài nghiên cứu hƣớng tới các thuật toán phân cụm dữ liệu không gian Trên cơ sở tìm...10 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và là công cụ trợ giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc gia trên thế giới Hiện nay, GIS đƣợc phát triển và ứng dụng ngày càng nhiều tại Việt Nam Trong sự phát triển của đất nƣớc ta hiện nay, việc tổ chức quản lý thông tin địa lý một cách tổng thể có có vai trò rất quan trọng trong. .. khăn trong xử lý đồng thời dữ liệu không gian và dữ liệu thuộc tính Điều này đã dẫn đến sự phát triển các phƣơng pháp và kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra quyết định [1] Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã cho ra đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa mọi thành tựu trong ngành bản đồ cả về ý tƣởng... phần cứng, phần mềm và các thủ tục đƣợc thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography Information and Analysis NCGIA – Mỹ) 12 TÀI LIỆU THAM KHẢO Tiếng Việt 1 Nguyễn Hồng Phƣơng, Đinh Văn Ƣu (2006), Hệ thống thông tin địa lý và một số ứng dụng trong hải dương học... hợp các công cụ để thu thập, lƣu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin địa lý cho một mục đích chuyên biệt Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]: GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện tƣợng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research Institute ESRI – Mỹ) GIS là hệ thống phần cứng, phần mềm và. .. về ý tƣởng lẫn thành tựu của kỹ thuật bản đồ Hệ thông tin địa lý bắt đầu hoạt động bằng việc thu thập dữ liệu theo định hƣớng tuỳ thuộc vào mục tiêu đặt ra Cùng với Canada, các trƣờng đại học tại Mỹ cũng tiến hành nghiên cứu và xây dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý càng đƣợc quan tâm nhiều hơn Hệ thông tin địa lý (Geographical Information... là một công cụ thông tin quen thuộc đối với loài ngƣời Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn đƣợc cải tiến sao cho ngày càng đầy đủ thông tin và chính xác hơn Với sự đa dạng của các loại bản đồ trong việc thể hiện các đối tƣợng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức đƣợc sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ Các mô hình đồ họa cổ điển xử lý

Ngày đăng: 27/08/2016, 08:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan