Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn

64 446 0
Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Nội – 2014 NGUYỄN THỊ KHÁNH LINH PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA CÁC ĐỊA PHƯƠNG Ở VIỆT NAM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu không chép Những kiến thức trình bày luận văn tìm hiểu, nghiên cứu trình bày lại theo cách hiểu Trong trình làm luận văn, có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Khánh Linh LỜI CẢM ƠN Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Đình Hóa – Viện CNTT – Trường Đại học Quốc gia Hà Nội thầy giáo TS Lê Hoàng Sơn – ĐH Khoa học Tự nhiên trực tiếp hướng dẫn tận tình giúp đỡ em suốt thời gian thực luận văn Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia Hà Nội dạy bảo tận tình em suốt trình em học tập khoa Trong trình thực luận văn, em nhận giúp đỡ nhiều từ thầy cô, anh chị bạn Trung tâm Tính toán Hiệu cao, trường Đại học Khoa học tự nhiên Luận văn thực tài trợ đề tài cấp ĐHQG, mã số: QG.14.60 Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, người bên cạnh em để động viên, giúp đỡ tạo điều kiện tốt để em hoàn thành luận văn Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Khánh Linh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIẾU MỞ ĐẦU CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 10 1.1 GIS liệu địa lý 10 1.1.1 GIS 10 1.1.2 Dữ liệu địa lý 11 1.1.2.1 Dữ liệu không gian 11 1.1.2.2 Dữ liệu thuộc tính 12 1.2 Tổng quan phân cụm liệu địa lý 14 1.2.1 Khái niệm phân cụm liệu 14 1.2.2 Ứng dụng phân cụm liệu địa lý 15 1.2.3 Các thuật toán phân cụm liệu địa lý 15 1.2.3.1 Thuật toán FCM 16 1.2.3.2 Thuật toán NE 18 1.2.3.3 Thuật toán FGWC 19 1.2.3.4 Thuật toán CFGWC 21 1.2.3.5 Thuật toán CFGWC 22 1.2.3.6 Thuật toán IPFGWC 26 1.2.3.7 Thuật toán MIPFGWC 27 1.3 Kết luận 29 CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOW 30 2.1 MapWindow plug-in để mở rộng chức 30 2.1.1 Các phần mềm GIS 30 2.1.2 Phần mềm GIS MapWindow 31 2.1.3 Xây dựng sử dụng plug-in với MapWindow 32 2.1.3.1 Quy tắc chung 32 2.1.3.2 Các bước cụ thể 33 2.2 Phân tích thiết kế plug-in để thực thuật toán phân cụm 34 2.2.1 Mô hình ca sử dụng 35 2.2.1.1 Mô hình ca sử dụng tổng thể plug-in 35 2.2.1.2 Mô hình ca sử dụng chức phân cụm liệu 35 2.2.2 Mô tả ca sử dụng 36 2.2.3 Biểu đồ lớp phân tích 37 2.2.4 Thiết kế lớp 37 2.2.4.1 Lớp giao diện 37 2.2.4.2 Lớp điều khiển 39 2.3 Kết luận 40 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 3.1 Dữ liệu thực nghiệm 41 3.1.1 Chuẩn bị liệu không gian 41 3.1.2 Chuẩn bị liệu phân cụm 41 3.2 Các kịch chạy thử 44 3.3 Một số kết chạy chương trình 45 3.3.1 Kết chạy thuật toán phân cụm khác cho tập liệu chuyên đề 46 3.3.2 Kết chạy nhiều chuyên đề với thuật toán 52 3.3.3 Kết chạy phân cụm đồng thời nhiều thuộc tính 56 3.4 Kết luận 59 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT STT Từ viết tắt/thuật ngữ Từ tiếng Anh Ý nghĩa Trí tuệ nhân tạo AI Artifical Intelligence GIS Geographical Information Hệ thống thông tin địa System lý NE Neighbourhood Effects Thuật toán hiệu ứng vùng lân cận FCM Fuzzy C-means Thuật toán phân cụm mờ FGWC Fuzzy Geographically Thuật toán phân cụm Weight Clustering CFGWC Context Geographically Clustering IPFGWC Intuitionistic liệu theo trọng số địa lý Fuzzy Thuật toán phân cụm Weight địa lý kết hợp ngữ cảnh Possiblistic Thuật toán phân cụm Fuzzy Geographically địa lý tập mờ trực Weighted Clustering cảm MIPFGWC Modification Intuitionistic Thuật toán phân cụm Possiblistic Fuzzy địa lý hiệu chỉnh Geographically Clustering 10 KMIPFGWC Weighted tập mờ trực cảm Kernel-based Modification Thuật toán phân cụm Intuitionistic Possiblistic địa lý hiệu chỉnh Fuzzy Geographically tập mờ trực cảm sử dụng hàm nhân Weighted Clustering 11 CSDL 12 UC Cơ sở liệu Usecase Ca sử dụng 13 SIM Spatial Interaction Model Mô hình tương tác không gian 14 SIM2 Spatial Interaction Modification Model - Mô hình tương tác hiệu chỉnh không gian DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ liệu thuộc tính 13 Hình 1.2 Dữ liệu địa lý 14 Hình 2.1 Mô hình ca sử dụng tổng quan plug-in 35 Hình 2.2 Mô hình usecase chức phân cụm 35 Hình 2.3: Biểu đồ lớp plug-in 37 Hình 2.4 Lớp giao diện plug-in 38 Hình 2.5 Lớp giao diện chức phân cụm 38 Hình 2.6 Lớp giao diện tải chuyên đề 38 Hình 2.7 Lớp giao diện nhập tham số thuật toán 39 Hình 2.8 Lớp điều khiển tính toán phân cụm 39 Hình 2.9 Lớp điều khiển cập nhật liệu vào bảng thuộc tính 40 Hình 2.10 Lớp điều khiển Reset bảng thuộc tính 40 Hình 3.1 Dữ liệu chuyên đề dạng file csv 42 Hình 3.2 Dữ liệu chuyên đề dạng file txt 42 Hình 3.3 Giao diện chương trình tải layer bật plug-in 45 Hình 3.4 Giao diện in đồ 46 Hình 3.5 Kết chạy thuật toán MIPFGWC liệu “Tổng mức bán lẻ hàng hóa dịch vụ” với số cụm 52 DANH MỤC CÁC BẢNG BIẾU Bảng 3.1: Kết chạy phân cụm với thuật toán liệu “Tổng mức bán lẻ hàng hóa dịch vụ” 49 Bảng 3.2: Thời gian chạy thuật toán liệu với tham số 50 Bảng 3.3:Thời gian chạy thuật toán liệu với tham số 51 Bảng 3.4:Thời gian chạy thuật toán liệu với tham số 51 Bảng 3.5: Kết phân cụm thuật toán MIPFGWC chạy chuyên đề: “Tổng mức bán lẻ hàng hóa dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” giai đoạn 2005-2013 55 Bảng 3.6: Kết phân cụm đồng thời nhiều thuộc tính thay đổi tỉ lệ trọng số 59 MỞ ĐẦU Hệ thống thông tin địa lý (GIS) ứng dụng có giá trị công cụ trợ giúp định nhiều hoạt động kinh tế - xã hội, quốc phòng nhiều quốc gia giới Hiện nay, GIS phát triển ứng dụng ngày nhiều Việt Nam Trong phát triển đất nước ta nay, việc tổ chức quản lý thông tin địa lý cách tổng thể có có vai trò quan trọng việc sử dụng có hiệu nguồn tài nguyên đất nước GIS giúp quan phủ có nhìn khách quan trạng thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý liệu không gian liệu thuộc tính Các liệu kinh tế, xã hội, môi trường… gắn với địa phương, tức liệu địa lý, nhiều toán thực tế đòi hỏi phải khai phá liệu Có nhiều phương pháp khai phá liệu, phân cụm phương pháp sử dụng nhiều Hiện có nhiều cách tiếp cận thuật toán phân cụm khác như: dựa phân hoạch, phân cấp, dựa lưới, dựa mật độ, dựa mô hình, dựa đồ thị… Phân cụm liệu địa lý hướng nghiên cứu nhiều triển vọng Đề tài nghiên cứu hướng tới thuật toán phân cụm liệu không gian Trên sở tìm hiểu nắm vững kỹ thuật xử lý liệu không gian vận dụng vào chương trình thực thuật toán phân cụm liệu không gian, thử áp dụng với liệu thực tế, phân tích diễn giải ý nghĩa kết phân cụm Bố cục luận văn gồm chương: Chương 1: Trình bày khái niệm chung GIS liệu địa lý, thuật toán sử dụng phân cụm liệu địa lý Chương 2: Trình bày cách thức xây dựng ứng dụng phân cụm liệu thể số tiêu kinh tế xã hội địa phương Việt Nam dựa phần mềm mã nguồn mở MapWindow Chương 3: Chạy chương trình số liệu thực tế thu thập với thuật toán, so sánh kết thuật toán Đánh giá, phân tích số kết đầu thuật toán phân cụm 49 CaMau 3 BacNinh 3 3 HaNam 3 HungYen 3 3 VinhLong TraVinh 3 Bảng 3.1: Kết chạy phân cụm với thuật toán liệu “Tổng mức bán lẻ hàng hóa dịch vụ” Nhìn vào bảng 3.1 ta thấy chuyên đề phân thành cụm Theo bảng kết quả, số cụm có chứa điểm liệu, số cụm lại chứa hầu hết điểm liệu Kết phân cụm thuật toán không giống thuật toán có điều chỉnh tính toán khác Thuật toán MIPFGWC cho kết đồng Thuật toán NE FGWC có kết gần giống Thời gian chạy thuật toán với tham số khác nhau: Tham số Thời gian chạy thuật toán (mili giây) Chuyên đề FCM NE FGWC CFGWC IPFGWC MIPFGWC Chuyên đề 344.017 361.039 411.027 480.026 98.005 106.146 Chuyên đề 396.035 418.020 301.014 210.995 181.004 11.003 Chuyên đề 386.050 328.018 416.048 283.015 147.028 79.978 Chuyên đề 121.006 148.016 143.007 108.008 85.037 49.998 Chuyên đề 54.035 54.989 59.000 192.953 53.003 40.126 Chuyên đề 15.465 17.000 23.029 32.000 18.384 3.999 Chuyên đề 45.991 79.010 65.003 172.031 60.036 4.9997 Chuyên đề 244.225 238.042 197.004 260.692 76.029 12.037 Chuyên đề 99.036 105.039 100.038 66.001 108.019 4.9978 Chuyên đề 10 95.335 461.167 508.482 102.609 108.789 30.000 50 Chuyên đề 11 116.038 125.023 141.024 127.023 Thời gian chạy trung bình 178.116 211.536 210.953 183.835 119.000 17.000 99.529 35.011 Bảng 3.2: Thời gian chạy thuật toán liệu với tham số Nhìn vào bảng 3.2 ta thấy chạy với số liệu giống nhau, thuật toán MIPFGWC thuật toán có thời gian chạy ngắn ngắn hẳn so với thời gian chạy thuật toán khác, thuật toán FGWC có thời gian chạy lâu Cụ thể, thời gian chạy trung bình thuật toán MIPFGWC 35.011 mili giây, thuật toán NE có thời gian chạy trung bình 211.536 mili giây – nhiều gấp 6.04 lần so với thuật toán MIPFGWC Tuy nhiên, số liệu nhiều, thuật toán chưa đến giây để chạy xong Các thuật toán lại (FCM, FGWC, CFGWC) có thời gian chạy chênh không nhiều (178.116, 210.953, 183.835 tương ứng) Tiếp theo, thực điều chỉnh tham số hai trường hợp Tham số Thời gian chạy thuật toán (mili giây) Chuyên đề FCM NE FGWC CFGWC Chuyên đề 203.126 166.450 248.327 181.657 112.360 1062.832 Chuyên đề 396.035 161.691 184.006 203.046 234.320 20.997 Chuyên đề 263.564 178.209 319.9 311.850 11.256 Chuyên đề 78.078 93.742 122.907 203.116 1469.758 6.004 Chuyên đề 62.451 78.115 40.347 78.079 1610.369 6100.555 Chuyên đề 17.435 15.576 15.545 50.001 18.384 5.899 Chuyên đề 78.075 78.126 62.449 62.451 46.802 2.999 Chuyên đề 218.694 249.918 234.327 196.958 62.424 6.242 Chuyên đề 124.918 187.423 93.673 109.389 2.037 181.251 93.670 IPFGWC MIPFGWC 51 Chuyên đề 10 14.507 15.587 15.544 31.169 Chuyên đề 11 156.209 156.242 140.636 133.021 Thời gian chạy trung bình 145.425 119.759 136.554 125.621 25.581 5.587 68.002 5.986 350.104 602.949 Bảng 3.3:Thời gian chạy thuật toán liệu với tham số Tham số Thời gian chạy thuật toán (mili giây) Chuyên đề FCM NE FGWC CFGWC Chuyên đề 324.799 272.258 484.588 442.373 113.873 10862.0978 Chuyên đề 300.872 287.263 231.161 281.227 184.975 9418.192 Chuyên đề 360.335 69.000 371.147 337.817 218.739 10146.626 Chuyên đề 109.326 109.326 118.921 124.927 98.866 5664.616 Chuyên đề 46.807 46.843 76.344 63.534 61.651 5780.826 Chuyên đề 15.312 15.617 15.578 29.964 39.964 19.964 Chuyên đề 62.419 62.459 62.453 970.968 62.421 5213.034 Chuyên đề 140.569 206.193 237.849 255.671 62.421 1033.724 Chuyên đề 89.117 94.727 93.758 62.450 93.701 5581.689 Chuyên đề 10 15.124 15.546 15.582 15.614 15.714 15.815 Chuyên đề 11 140.543 109.300 171.869 140.545 124.921 8444.935 Thời gian chạy trung bình 145.929 117.139 170.841 247.735 IPFGWC MIPFGWC 97.931 5652.8653 Bảng 3.4:Thời gian chạy thuật toán liệu với tham số Bảng 3.3 3.4 thời gian chạy thuật toán liệu điều chỉnh tham số m = m = Với tham số này, thuật toán MIPFGWC có thời gian chạy lâu lâu nhiều so với thuật toán lại (thời gian trung bình 52 602.949 5652.8653 mili giây) Như vậy, với tham số m = thời gian chạy thuật toán chênh lệch Hình ảnh minh họa hiển thị trực quan kết phân cụm phần mềm Mapwindow GIS: Hình 3.5 Kết chạy thuật toán MIPFGWC liệu “Tổng mức bán lẻ hàng hóa dịch vụ” với số cụm 3.3.2 Kết chạy nhiều chuyên đề với thuật toán Như trình bày chương 1, thuật toán MIPFGWC thuật toán có chất lượng phân cụm tốt nhất, luận văn thử chạy thuật toán MIPFGWC liệu khác Luận văn thực phân cụm chuyên đề: “Tổng mức bán lẻ hàng hóa dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” với liệu thống kê khoảng thời gian từ năm 2005 đến 2013 đánh giá mối quan hệ ba chuyên đề Chuyên đề Tổngmức Giá trị sản Giá trị sản bán lẻ HH DV xuất xây dựng xuất công nghiệp HaNoi 3 HaTay 0 Địa phương 53 VinhPhuc BacNinh 0 QuangNinh 0 HaiDuong HaiPhong 3 HungYen 1 ThaiBinh 2 HaNam NamDinh 0 NinhBinh 0 HaGiang CaoBang BacKan TuyenQuang LaoCai YenBai ThaiNguyen LangSon BacGiang 0 PhuTho DienBien LaiChau SonLa HoaBinh ThanhHoa 3 54 NgheAn 3 HaTinh 3 QuangBinh QuangTri ThuaThienHue DaNang QuangNam QuangNgai BinhDinh PhuYen KhanhHoa NinhThuan BinhThuan 2 KonTum GiaLai DakNong LamDong BinhPhuoc TayNinh BinhDuong 3 DongNai 3 BaRiaVungTau HoChiMinh 3 LongAn TienGiang 55 BenTre 2 TraVinh VinhLong DongThap 1 AnGiang 1 KienGiang 2 CanTho 1 HauGiang SocTrang BacLieu CaMau DakLak Bảng 3.5: Kết phân cụm thuật toán MIPFGWC chạy chuyên đề: “Tổng mức bán lẻ hàng hóa dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” giai đoạn 2005-2013 Bảng 3.3 kết phân cụm chạy thuật toán MIPFGWC chuyên đề “Tổng mức bán lẻ hàng hóa dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” với số cụm Có thể nhìn thấy thực phân cụm liệu chuyên đề khác nhau, kết thấy điểm liệu (vùng tương ứng) phân bổ đồng cho cụm Các cụm chứa vùng (điểm liệu) Kết hợp với phân tích số liệu đầu vào có: Với chuyên đề: “Tổng mức bán lẻ hàng hóa dịch vụ” chuyên đề “Giá trị sản xuất xây dựng”, địa phương có giá trị thuộc nhóm cao có số hiệu cụm địa phương có giá trị thuộc nhóm thấp có số hiệu cụm Với chuyên đề “Giá trị sản xuất công nghiệp”, địa phương có giá trị thuộc nhóm cao có số hiệu cụm 3; địa phương có giá trị thuộc nhóm nhỏ có số cụm 56 Như vậy, vào bảng kết phân cụm phân tích thấy, chuyên đề gần có mối quan hệ tỉ thuận với Tức là: địa phương có giá trị sản xuất công nghiệp cao giá trị sản xuất xây dựng cao tổng mức bán lẻ hàng hóa dịch vụ cao Những địa phương có giá trị sản xuất công nghiệp cao (thuộc nhóm có giá trị lớn nhất), giá trị sản xuất xây dựng thấp (thuộc nhóm có giá trị thấp gần nhất) mức bán lẻ hàng hóa dịch vụ mức trung bình thấp Kết hoàn toàn phù hợp với thực tế theo quy luật cung – cầu Khi giá trị sản xuất kinh doanh, giá trị sản xuất xây dựng tăng cao chứng tỏ lượng hàng hóa sản xuất nhiều, dẫn đến giá thành sản phẩm giảm  kích cầu (kích thích tiêu dùng dân chúng)  lượng cầu tăng khiến doanh thu hay mức bán hàng hóa, dịch vụ tăng 3.3.3 Kết chạy phân cụm đồng thời nhiều thuộc tính Trong mục luận văn thực phân cụm đồng thời nhiều thuộc tính Luận văn kết hợp số liệu thuộc nhóm chuyên đề dân số, đầu tư xây dựng, thương mại giá cả, giá trị sản xuất công nghiệp để phân tích Các số liệu đưa vào tệp chung số liệu năm 2013 Thứ tự thuộc tính tệp là: Lực lượng lao động từ 15 tuổi trở, Tỉ lệ lao động từ 15 tuổi trở lên so với dân số, Giá trị sản xuất xây dựng, Tổng mức bán lẻ hàng hóa dịch vụ, Giá trị sản xuất công nghiệp Vì liệu tổng hợp, đơn vị tính số liệu không giống nên luận văn sử dụng thêm trọng số để chuyển số liệu thang độ, đồng thời để xác định mức độ ảnh hưởng thuộc tính đến kết phân cụm Luận văn tiếp tục sử dụng thuật toán MIPFGWC để thực phân cụm liệu, chạy trường hợp thay đổi trọng số Luận văn thay đổi trọng số thuộc tính có ảnh hưởng nhiều đến phát triển kinh tế phân loại mức độ giàu nghèo địa phương lực lượng lao động, tỉ lệ lao động giá trị sản xuất xây dựng Kết chạy thuật toán cho liệu tổng hợp với tỉ lệ trọng số cho thuộc tính tương ứng: Tỉ lệ Tỉnh/TP 1-1-1-1-1 1-1-3-1-1 1-3-1-1-1 3-1-1-1-1 HaNoi 2 HaTay 1 1 57 VinhPhuc 2 2 BacNinh 3 QuangNinh 2 2 HaiDuong 2 2 HaiPhong 2 2 HungYen 2 2 ThaiBinh 2 HaNam 2 NamDinh 2 NinhBinh 2 HaGiang 0 CaoBang 0 BacKan 1 1 TuyenQuang 0 0 LaoCai 2 YenBai 0 0 ThaiNguyen 2 LangSon 0 BacGiang 2 PhuTho 2 DienBien 0 LaiChau 1 1 SonLa HoaBinh 0 ThanhHoa 2 2 58 NgheAn 2 HaTinh QuangBinh QuangTri 0 0 ThuaThienHue 2 DaNang 2 QuangNam 2 QuangNgai 2 2 BinhDinh 2 PhuYen 2 KhanhHoa 2 NinhThuan 0 BinhThuan 2 KonTum 0 GiaLai 0 DakNong 0 LamDong BinhPhuoc 2 TayNinh 2 BinhDuong 3 DongNai 3 BaRiaVungTau 2 HoChiMinh 3 LongAn 2 2 TienGiang 2 59 BenTre 2 TraVinh 2 VinhLong 2 DongThap 2 AnGiang 2 KienGiang 2 CanTho 2 2 HauGiang 2 SocTrang 2 BacLieu 1 CaMau 2 DakLak 1 Bảng 3.6: Kết phân cụm đồng thời nhiều thuộc tính thay đổi tỉ lệ trọng số Bảng 3.6 cho thấy, điều chỉnh tỉ lệ trọng số kết phân cụm không thay đổi điều Các địa phương vùng đồng thuộc đô thị lớn nơi có số lượng người lao động từ 15 tuổi trở lên tỉ lệ lao động so với dân số cao thường nằm nhóm có giá trị sản xuất công nghiệp tổng mức bán lẻ hàng hóa dịch vụ cao 3.4 Kết luận Chương trình bày kết cài đặt đánh giá thử nghiệm với tập liệu cụ thể cho thuật toán: FCM, NE, FGWC, CFGWC, IPFGWC, MIPFGWC Kết phân cụm thể trực quan đồ Việt Nam thông qua phần mềm MapWindow GIS, màu đồ tương ứng với cụm liệu Kết thực nghiệm cho thấy, với tham số m = 3, tham số khác giống thuật toán MIPFGWC thuật toán có thời gian chạy tốt có kết phân cụm đồng số thuật toán trình bày Kết phù hợp với kết kiểm chứng thực nghiệm báo tương ứng liệu chuẩn đo chất lượng cụ thể Cụ thể, thuật toán CFGWC công bố [7] tạp chí “International Journal of Machine Learning and Computing”; thuật toán IPFGWC 60 công bố [8] tạp chí SCIE “Expert Systems with Applications”; thuật toán MIPFGWC công bố [6] tạp chí SCI “Knowledge-Based Systems”; thuật toán CFGWC2 công bố [5] tạp chí SCIE “Applied Soft Computing” Đây tạp chí chuyên ngành trí tuệ nhân tạo (Artifical Intelligence), nằm ISI có số Impact Factor cao chuyên ngành thuộc nhóm Q1 (First Quantile) theo bảng xếp hạng SCIMago (SCIMago Journal Ranking) Khi thay đổi tham số m, thời gian chạy phân cụm thuật toán có thay đổi, lúc thuật toán MIPFGWC lại thuật toán có thời gian chạy lâu 61 KẾT LUẬN Nội dung luận văn trình bày số kết nghiên cứu đạt sau  Các kiến thức GIS liệu địa lý, bao gồm định nghĩa GIS, trình bày toán phân cụm đưa số thuật toán sử dụng phân cụm liệu địa lý thuật toán phân cụm mờ Fuzzy C-Means (FCM), thuật toán hiệu ứng hàng xóm NE thuật toán FGWC, thuật toán cải tiến thuật toán FGWC CFGWC, CFGWC2, IPFGWC, MIPFGWC  Giới thiệu sơ lược phần mềm mã nguồn mở MapWindow GIS cách xây dựng plug-in phân cụm liệu địa lý chạy phần mềm MapWindow GIS  Cài đặt thử nghiệm thuật toán liệu thực tế số tiêu kinh tế - xã hội địa phương Việt Nam từ thống kê Tổng cục Thống kê Việt Nam, đánh giá thời gian chạy thuật toán mối liên hệ chuyên đề liệu với Ứng dụng luận văn hoàn toàn sử dụng với liệu khác liệu Việt Nam mà luận văn sử dụng phần thực nghiệm, sử dụng việc phân tích, đánh giá số liệu thống kê theo số chuyên ngành định 62 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Hồng Phương, Đinh Văn Ưu (2006), Hệ thống thông tin địa lý số ứng dụng hải dương học NXB Đại Học Quốc Gia Hà Nội Phạm Văn Cự, Lương Anh Tuấn, Hoàng Kim Hương (2005), Giáo trình hệ thống thông tin địa lý GIS đồ NXB Đại Học Quốc Gia Hà Nội Tiếng Anh Bezdek, J.C., R Ehrlich, et al (1984), FCM: the fuzzy c-means clustering algorithm, Computers and Geosciences, 10, pp.191-203 G A.Mason, R D Jacobson (2007), Fuzzy Geographically Weighted Clustering Proceedings of the 9th International Conference on GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CDROM) Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm Optimization Applied Soft Computing Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial interaction – modification model and applications to geo-demographic analysis Knowledge-Based Systems Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011) Data Mining in GIS: A Novel Context-Based Fuzzy Geographically Weighted Clustering Algorithm International Journal of Machine Learning and Computing Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong (2012), A Novel Intuitionistic Fuzzy Clustering Method for GeoDemographic Analysis Expert Systems with Applications R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in databases University of Alberta 10 Zadeh, L A (1965), Fuzzy sets Information and control, 63 Internet 11 Tài liệu Hướng dẫn sử dụng MapWindow 4.8.6, http://www.mapwindow.org/apps/wiki/lib/exe/fetch.php?media=quick_guid e_to_mapwindows_4.8.6.pdf 12 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html 13 http://gadm.org/download (download shapefile đồ VN) [...]... bày một cách khái quát các khái niệm về GIS và dữ liệu địa lý, đồng thời trình bày lý thuyết một số thuật toán phân cụm mờ dữ liệu địa lý sẽ cài đặt thực nghiệm 30 CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOW 2.1 MapWindow và các plug-in để mở rộng chức năng Mục tiêu của luận văn là ứng dụng phân cụm dữ liệu địa lý để nghiên cứu một số chỉ tiêu kinh tế - xã hội. .. liệu địa lý 1.2 Tổng quan về phân cụm dữ liệu địa lý 1.2.1 Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật khai phá dữ liệu (data mining) nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định Phân cụm dữ liệu là sự phân chia một tập dữ liệu lớn thành các nhóm dữ liệu mà các đối... thống thông tin đầu vào và hệ thống cập nhật thông tin 4 Hệ thống cơ sở dữ liệu bao gồm các dữ liệu địa lý và các dữ liệu thuộc tính (các dữ liệu chữ - số, dữ liệu multimedia, v.v.) và mối quan hệ giữa hai loại dữ liệu này 5 Hệ thống hiển thị thông tin và giao diện với người sử dụng đòi hỏi những đặc thù riêng về độ chính xác (hệ tọa độ, quy chiếu không gian) 1.1.2 Dữ liệu địa lý Dữ liệu địa lý là dữ liệu. ..10 CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 GIS và dữ liệu địa lý 1.1.1 GIS Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài người Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao cho ngày càng đầy đủ thông tin và chính xác hơn Với sự đa dạng của các loại bản đồ trong việc thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà quy hoạch... Hoàng Sơn và các cộng sự vào năm 2012 [8] dựa trên ý tưởng kết hợp lý thuyết tập mờ trực cảm, phân cụm mờ xác suất vào trong mô hình của bài toán nhằm cải thiện chất lượng phân cụm so với các thuật toán khác Đầu vào: - Tập dữ liệu đầu vào X - Số thuộc tính N , số cụm C , số chiều r - Các tham số địa lý a, b, c, d ,  ,  ,  - m, , , ai (i  1,3),  j , i  1, C Ngưỡng  , và các thông số Đầu ra:... chúng  Kinh tế: Phân cụm các nhóm khách hàng quan trọng theo từng vùng miềm  Xã hội – phòng chống tội phạm: Khoanh vùng các khu vực là điểm nóng về tội phạm 1.2.3 Các thuật toán phân cụm dữ liệu địa lý Bài toán phân cụm dữ liệu địa lý được định nghĩa như sau: Định nghĩa 1.Cho tập dữ liệu thuộc tính X gồm N điểm dữ liệu trong không gian r chiều Mỗi điểm dữ liệu tương ứng với một kiểu đối tượng điểm của. .. sử dụng phương pháp gán các giá trị thuộc tính cho các đối tượng thông qua các bảng số liệu Mỗi bản ghi (record) đặc trưng cho một đối tượng địa lý, mỗi cột của bảng tương ứng với một kiểu thuộc tính của đối tượng đó Thông thường hệ thống thông tin địa lý có 4 loại số liệu thuộc tính:  Đặc tính của đối tượng: liên kết chặt chẽ với các thông tin không gian có thể thực hiện câu lệnh truy vẫn và phân tích. .. cập nhật địa lý bằng mô hình SIM vào trong vòng lặp thuật toán Đầu vào: - Số cụm c và các tham số m,  cho hàm mục tiêu J ; - Tập dữ liệu đầu vào X , số mờ m - Số điểm dữ liệu N , số cụm C , số chiều r - Các tham số địa lý a,b, ,  - Ngưỡng  Đầu ra: - C cụm dữ liệu sao cho thỏa mãn hàm mục tiêu: 20 N C J   u kjm X k  V j 2  min (9) k 1 j 1 Các bước thực hiện thuật toán:  Bước 1: Khởi tạo ma... địa lý là dữ liệu bao gồm dữ liệu không gian và dữ liệu thuộc tính (còn gọi là dữ liệu phi không gian) được kết hợp với nhau một cách tương ứng Dữ liệu địa lý có thể là các bản đồ số trên máy vi tính, các mô hình mô phỏng hình dáng bề mặt trái đất, các cơ sở dữ liệu ảnh bề mặt trái đất 1.1.2.1 Dữ liệu không gian Dữ liệu không gian là những mô tả số của các đối tượng thực tế được thể hiện hình ảnh bản... 1.2.2 Ứng dụng của phân cụm dữ liệu địa lý Phân cụm dữ liệu địa lý được ứng dụng trong nhiều lĩnh vực khác nhau như:  Y tế: Xác định và khoanh vùng các ổ dịch giúp cho việc điều trị, quản lý, phòng chống lây lan sang các khu vực khác  Nông – lâm nghiệp: Nhận dạng các vùng đất, điều kiện địa lý phù hợp với loại cây trồng tương ứng  Sinh học: Phân loại động – thực vật thông qua các Gen tương đồng của chúng ... thuật toán phân cụm 10 CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 1.1 GIS liệu địa lý 1.1.1 GIS Từ lâu đồ công cụ thông tin quen thuộc loài người Trong trình phát triển kinh tế kĩ thuật,... sử dụng liệu số tiêu kinh tế - xã hội địa phương Việt Nam lấy từ nguồn website Tổng cục thống kê Việt Nam Các chuyên đề chia theo nhóm, phản ánh nội dung kinh tế - xã hội cụ thể Những địa phương. .. nhật địa lý mô hình SIM vào vòng lặp thuật toán Đầu vào: - Số cụm c tham số m,  cho hàm mục tiêu J ; - Tập liệu đầu vào X , số mờ m - Số điểm liệu N , số cụm C , số chiều r - Các tham số địa lý

Ngày đăng: 19/12/2015, 03:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan