Phân tích, phát hiện cấu trúc cộng đồng trên mạng xã hội

79 122 0
Phân tích, phát hiện cấu trúc cộng đồng trên mạng xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ PHÂN TÍCH, PHÁT HIỆN CẤU TRÚC CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI LÊ QUANG QUỲNH CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ SỐ: 8.48.02.018 HƯỚNG DẪN KHOA HỌC: PGS.TS ĐOÀN VĂN BAN HÀ NỘI – 2019 LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Hà Nội, ngày tháng năm 20 Tác giả luận văn Lê Quang Quỳnh LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Đồn Văn Ban người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em gửi lời cảm ơn đến thầy cô giảng dạy thầy cô Khoa Đào Tạo Sau Đại Học Trường Đại Học Mở Hà Nội truyền đạt giúp đỡ em suốt trình học tập Và cuối em gửi lời cảm ơn đến đồng nghiệp, bạn bè gia đình, người ủng hộ, động viên tạo điều kiện giúp đỡ để em có kết học tập ngày hơm Hà Nội, ngày tháng năm 20 Tác giả luận văn Lê Quang Quỳnh MỤC LỤC LỜI MỞ ĐẦU 1.1.Giới thiệu mạng xã hội 1.2.Các độ đo đồ thị mạng xã hội 1.2.1 Độ đo khoảng cách đồ thị mạng xã hội………………………………….8 1.2.2 Độ đo trung tâm đỉnh…………………………………………………….9 1.2.3 Độ đo trung tâm đồ thị……………………………………………………12 1.2.4 Độ đo trung gian cạnh………………………………………………… 13 1.3.Kết luận chương 19 C 20 2.1.Cấu trúc cộng đồng mạng xã hội 20 2.1.1 Một số kỹ thuật phát cộng đồng mạng xã hội………………………….24 2.1.2 Phát cộng đồng gối nhau………………………………………… 25 2.1.3 Phân chia đỉnh………………………………………………………………26 2.1.4 Thuật toán phát cộng đồng gối ………………………………….31 2.1.5 Thuật toán nhanh phát cộng đồng gối ………………………… 33 2.2.Sử dụng độ đo trung gian để phát cấu trúc cộng đồng 35 2.2.1 Phương pháp tính độ đo trung gian đồ thị mạng xã hội……………….36 2.3.Thuật toán Girvan-Newman (GN) 39 2.4.Phát K-clique mạng xã hội 43 2.4.1 K-clique, K-club K-clan……… 50 2.4.2 Thuật toán phát K-clique………………………………………………52 2.4.2.1 Thuật Toán GT biến đổi 53 2.4.2.2.Thuật tốn tìm Clique cực đại 54 2.4.2.3 Phát k-Clique cực tiểu 56 2.5 Kết luận chương 58 CHƯƠNG CHƯƠNG TRÌNH CÀI ĐẶT THUẬT TỐN PHÁT HIỆN CẤU TRÚC CỘNG ĐỒNG 59 3.1.Mơ tả tốn 59 3.2.Môi trường thực nghiệm 63 3.2.1.Môi trường phần cứng……………………………………………………….63 3.2.2.Các cơng cụ phần mềm sử dụng …………………………………………63 3.3.Chương trình thực nghiệm 64 3.3.1.Chương trình thực nghiệm với mạng xã hội WikipediaVote……………… 64 3.3.2.Chương trình thực nghiệm với mạng xã hội Karate Zachary…………………64 3.4.Kết luận chương 67 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 TÀI LIỆU THAM KHẢO 70 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt GN STT Tiếng anh Tiếng việt GIRVAN - NEWMAN Thuật toán Girvan-Newman MCP Maximum Clique Problem Bài toán tối ưu Clique cực đại BFS Bredth First Search FSI Santa Fe Viện Santa Fe CONGA Cluster-Overlap Newman Thuật toán phát cộng đồng Girvan Algorithm gối DAG Directed Acyclic Graph Đồ thị định hướng Phương pháp tìm kiếm duyệt theo chiều rộng DANH SÁCH BẢNG Trang Bảng 3.1 Môi trường thực nghiệm hệ điều hành 63 Bảng 3.2 Công cụ phần mềm sử dụng 63 DANH MỤC CÁC HÌNH VẼ Trang Hình 1.1 Mạng xã hội 03 Hình 1.2 Mạng xã hội Facebook 04 Hình 1.3 mạng xã hội Twitter 05 Hình 1.4 Mạng xã hội Zing me 06 Hình 1.5 Mạng xã hội Zalo Việt Nam 06 Hình 1.6 Đồ thị có đỉnh cạnh… 09 Hình 1.7 Những đồ thị hình sao, bánh xe có số đỉnh 3, 4, 5, 6, 7……… 11 Hình 1.8 Đồ thị mạng xã hội đơn giản gồm nút .14 Hình 2.1 Mơ hình mạng lưới cộng tác nhà khoa học làm việc SFI 20 Hình 2.2 Cây dendrogram biểu diễn trình thực phân cụm gộp 22 Hình 2.3 Phương pháp phân cụm gộp để phát cộng đồng dựa vào trung tâm… 22 Hình 2.4 (a) Mạng cho trước, (b) chia mạng theo đỉnh a thành hai phần có phần chung, (c) (d) hai cách chia khác… 28 Hình 2.5 Các trường hợp chia cụm theo đỉnh cạnh không tường minh 28 Hình 2.6 Khơng chia tách đỉnh thành thành phần có bậc 29 Hình 2.7 Tìm cách chia tốt 30 Hình 2.8 2-vùng cạnh đỉnh đồ thị… 34 Hình 2.9 Độ đo độ trung gian đồ thị Hình 1.8… 36 Hình 2.10 Tính độ trung gian cạnh 37 Hình 2.11 Bước & thuật tốn Girvan-Newman đồ thị 41 Hình 2.12 Bước cuối thuật toán GN, mức 42 Hình 2.13 Bước cuối thuật toán GN 43 Hình 2.14 Ví dụ 1-clique, 2-clique 3-clique 51 Hình 2.15 2-cliques, 2-clan 2-club 52 Hình 2.16 Ví dụ kết thực thuật toán GT .54 Hình 2.17 Kết thực thuật tốn CMP .56 Hình 2.18 Phát hai 2-clique theo thuật toán Hk-C 57 Hình 3.1 Cộng đồng mạng xã hội WikipediaVote 59 Hình 3.2 Thống kê liệu mạng ban đầu… 60 Hình 3.3 Cộng đồng mạng xã hội Karate 61 Hình 3.4 tập liệu mạng Karate 62 Hình 3.5 kết phân chia cộng đồng mạng xã hội WikipediaVote 66 Hình 3.6 Kết phân chia cộng đồng mạng xã hội Karate 67 LỜI MỞ ĐẦU Ngày nay, nguồn thơng tin từ tương tác xã hội đóng vai trò lớn việc phát hiện, theo dõi đánh giá kiện, tượng Nguồn tin đa dạng, tổng hợp với số lượng lớn, liên tục thay đổi phát triển theo thời gian khiến cho lượng liệu trở nên đáng tin cậy mang giá trị sử dụng lớn Việc đánh giá vật, tượng theo cộng đồng có ý nghĩa lớn việc xác định mối quan tâm nhóm đối tượng Bài tốn khai phá, tìm kiếm tập phổ biến sử dụng để giải nhiều vấn đề quan trọng khai phá liệu để tính chất ẩn, mối tương quan tiềm ẩn quan trọng tập liệu Gần đây, kỹ thuật khai phá liệu có cấu trúc phát triển nhằm nâng cao hiệu ứng dụng lĩnh vực truyền thống tin sinh, tin hóa, hệ thống mạng xã hội,… kỹ thuật khai phá liệu truyền thống (phân lớp/ phân cụm, duyệt theo chiều sâu, duyệt thao chiều rộng, …) khơng phù hợp hiệu khơng thể mơ hình u cầu lĩnh vực Phương pháp đồ thị sử dụng phổ biến hiệu để biểu diễn liệu thể tương tác thành phần liệu Dữ liệu đồ thị giúp ta trực quan hóa, mơ hình hóa liệu có cấu trúc quan hệ tương tác vơ phức tạp liệu lớn Khai phá liệu đồ thị việc trích, rút tri thức hữu ích mẻ từ liệu biểu diễn dạng đồ thị Một môi trường quan tâm nghiên cứu môi trường mạng xã hội Mạng xã hội tập hợp thực thể kết nối với tập hợp mối quan hệ liên kết ví dụ quan hệ bạn bè, gia đình, trao đổi thơng tin, … Khi đề cập đến mạng xã hội người ta thường nghĩ đến mạng Facebook, Twitter, Zingme hay Zalo, … Thực chất loại mạng đại diện cho lớp mạng rộng mạng gọi mạng xã hội Cấu trúc mạng cấu tạo nên từ nút mạng nút liên kết Nút mạng thực thể mối liên kết gọi mối quan hệ thực thể tham gia vào mạng Trong mạng có nhiều kiểu liên kết liên kết vô hướng, liên kết chiều, liên kết hai chiều, … Mạng xã hội biểu diễn chủ yếu hai dạng đồ thị ma trận Trong tốn phân tích mạng biểu diễn dạng đồ thị sử dụng nhiều Trong liệu biểu diễn đồ thị mạng xã hội đỉnh nút mạng, cạnh xây dựng dụa mối liên kết Hình 2.17 Kết thực thuật toán CMP 2.4.2.3 Phát k-Clique cực tiểu Đầu vào để phát k-clique cực tiểu ma trận, dòng ứng với đỉnh đồ thị dòng k-clique mà phủ số đỉnh Thuật tốn heuristic phát clique Kellerman [7] sau cải tiến Chvatal [2] giới thiệu pseudo-code sau Trước tiên ta sử dụng số ký hiệu sau: + M[line, column] M[vertex, k-clique] – ma trận đầu vào + C – vector phí tổn cột + V – tập đỉnh đồ thị G + S – Lời giải (clique) phát Thuật toán Hk-C: Heuristic k-clique covering Input: M [line, column], C, V Output: Lời giải S R=M, S=∅, While R ≠ ∅ 56 2.1 Choose dòng i*∈R tốt cho |M(i*,j)|=min |M(i,j)| ∀j ; 2.2 Choose cột j*∈ R tốt cho phủ dòng i*; 2.3 R=R\M(i,j*) ∀i; //Update R, 2.4 S = S ∪ {j*} ; //Update S, End while Sắp xếp S theo thứ tự giảm dần phí tổn ; For each Si if (S\Si lời giải) then S=S\Si Return S Ví dụ 2.15 Thuật toán Hk-C thực đồ thị G Hình 2.16 cho hai nhóm phủ tất đỉnh Chú ý rằng, đỉnh số xuất hai nhóm Trong phân tích mạng xã hội gọi “cầu nối” (bridge) Thực vậy, đỉnh số có khoảng cách 2, tới đỉnh khác Hình 2.18 Phát hai 2-clique theo thuật tốn Hk-C Hình 2.18 mơ tả hai lời giải thuật tốn Hk-C sử dụng ma trận M[row, column] Trong xây dựng heuristic, với vòng lặp chọn hàng phủ cột tốt ma trận mà phủ dòng cập nhật lời giải S Khi đạt đến tập phủ S, bước loại bỏ dư thừa để xác định tập clique cực tiểu 57 Ta sử dụng Tabu Search Heuristic để cải tiến, loại bớt cột có phí tổn nhiều đưa thuật toán [4] 2.5 Kết luận chương Ở chương học viên giới thiệu cấu trúc cộng đồng mạng xã hội, định nghĩa cộng đồng mạng xã hội kỹ thuật phát cộng đồng, cộng đồng gối nhau, giới thiệu phép phân chia đỉnh để phân cụm đồ thị Chương giới thiệu phương pháp tìm độ trung gian đỉnh, đồng thời giới thiệu thuật toán CONGA phát cộng đồng gối thuật tốn nhanh phát cơng đồng Ngồi sử dụng độ đo trung gian để phát cấu trúc cộng đồng đồ thị mạng xã hội, trình bày hướng tiếp cận tốn sâu chi tiết vào họ thuật tốn Girvan– Newman, phân tích phát cộng đồng mạng xã hội K-clique, K-club, K-clan thuật toán 58 CHƯƠNG CHƯƠNG TRÌNH CÀI ĐẶT THUẬT TỐN PHÁT HIỆN CẤU TRÚC CỘNG ĐỒNG 3.1 Mơ tả tốn Đề trực quan hóa phát cộng đồng mạng xã hội, phần tơi xin trình bầy ứng dụng với đồ thị mạng xã hội WikipediaVote mạng xã hội Karate Hình 3.1 Cộng đồng mạng xã hội WikipediaVote Dữ liệu công bố: Dữ liệu mạng WikipediaVote sử dụng cho Demo lấy từ danh sách kết nối WikipediaVote WikipediaVote trang Web mạng xã hội bầu chọn tập trung vào kết nối thành viên có khả kết nối mạng Tập liệu chứa tất liệu bỏ phiếu Wikipedia 59 từ thành lập Wikipedia tháng năm 2008 với 889 đỉnh, 2914 cạnh Các nút mạng đại diện cho người dùng wikipedia cạnh định hướng từ nút i đến nút j đại diện cho người dùng i bình chọn cho người dùng j Hình 3.2 Thống kê liệu mạng ban đầu 60 Mạng xã hội Karate Hình 3.3 Cộng đồng mạng xã hội Karate Dữ liệu mạng câu lạc Karate Zachary sử dụng cho Demo liệu chứa mối quan hệ xã hội thành viên câu lạc karate Zachary thu thập từ năm 1977 Mạng xã hội câu lạc karate Wayne W Zachary nghiên cứu khoảng thời gian ba năm Mạng bắt giữ 34 thành viên câu lạc karate, ghi lại liên kết cặp thành viên tương tác bên câu lạc Trong trình nghiên cứu, xung đột nảy sinh quản trị viên "John A" người hướng dẫn "Mr Hi" (bút danh), dẫn đến việc chia câu lạc thành hai Một 61 nửa số thành viên thành lập câu lạc xung quanh ông Hi; thành viên từ phần khác tìm thấy người hướng dẫn từ bỏ karate Dựa liệu thu thập được, Zachary định xác tất trừ thành viên câu lạc cho nhóm mà họ thực tham gia sau chia tách Bộ liệu mạng gồm 78 cạnh tiêu chuẩn cho câu lạc karate Zachary cơng khai internet Dữ liệu tóm tắt dạng danh sách cặp số nguyên Mỗi số nguyên đại diện cho thành viên câu lạc karate cặp hai thành viên tương tác Tập liệu tóm tắt hình ảnh liền kề Nút viết tắt người hướng dẫn, nút 34 cho quản trị viên / chủ tịch câu lạc Hình 3.4 tập liệu mạng Karate 62 Mơi trường thực nghiệm 3.2 Để thực đánh giá trình thực học viên sử dụng môi trường công cụ phần mềm gồm 3.2.1 Môi trường phần cứng Bảng 3.1: môi trường thực nghiệm phần cứng hệ điều hành Chi tết phần cứng Thông số kỹ thuật CPU Intel(R) Xeon(R) Silever 4110 2.10GHz (8CPUs) RAM 32 GB HDD 250 GB IOS Windows 10 Pro 64 bit 3.2.2 Các công cụ phần mềm sử dụng Bảng 3.2: Công cụ phần mềm sử dụng ST Tên phần T mềm Tác giả 1.8.0_16 2 CONG A Softwar e Nguồn liệu Công cụ lập trình Window , Unix Java SE Chức Steve Gregor y https://www.oracle.com/technetwork/ java/javase/overview/index.html Phần http://gregory.org/research/networks/softwa mềm mã re/ nguồn mở 63 Dữ liệu http://networkrepository.com/soc- nguồn wiki-Vote.php 3.3 Chương trình thực nghiệm 3.3.1 Chương trình thực nghiệm với mạng xã hội WikipediaVote Sau tiến hành thu thập liệu xử lý đỉnh không phù hợp số lượng đỉnh thỏa mãn để đưa vào mơ hình lại 889 đỉnh Sau tơi thực tìm kiếm mối liên kết đỉnh với Mạng xã hội xây dựng bao gồm 889 đỉnh 2914 cạnh Mạng biểu diễn dạng chuẩn đầu vào chương trình CONGA, sau cho qua CONGA chạy thử nghiệm để phát cộng đồng Sau nhận đầu vào thích hợp, chạy dòng lệnh CMD thuật tốn tự phân tích tìm kiếm cụm với ***.txt tên file text biểu diễn đồ thị: java –cp conga.jar CONGA ***.txt –e Sau cho đồ thị thành phần với 889 đỉnh 2914 cạnh qua phần mềm CONGA tự động phân chia cộng đồng ta thu kết với tổng số phép phân cộng đồng 1129 cộng đồng với tổng kích thước cộng đồng 2018 đỉnh Tổng số đỉnh bị phân chia 337 đỉnh đỉnh {470=1, 471=4, 350=1, 592=2, 230=9, 351=3, 593=2, 110=3, 231=1, 596=1, 233=4, 354=1, 113=4, 597=2, 477=1, 356=4, 114=1, 115=1, 237=6, 358=1, 118=3, 239=5, 13=4, 14=2, 16=1, 481=4, 482=10, 361=4, 240=1, 362=1, 120=1, 483=1, 484=2, 121=4, 364=4, 243=1, 485=2, 486=2, 123=5, 2=1, 487=2, 124=1, 3=1, 488=1, 125=1, 5=2, 368=2, 247=4, 369=1, 6=1, 128=3, 249=1, 8=6, 9=3, 801=1, 802=2, 803=4, 804=2, 20=3, 807=4, 22=6, 25=3, 26=1, 490=3, 370=5, 491=1, 492=2, 372=3, 130=2, 494=1, 132=6, 375=1, 133=1, 254=2, 496=2, 255=2, 256=1, 377=1, 257=3, 499=2, 258=3, 259=6, 139=3, 816=1, 818=1, 32=1, 819=2, 35=2, 380=9, 260=5, 381=2, 263=1, 385=3, 143=2, 386=7, 266=5, 267=1, 389=1, 148=2, 820=1, 822=2, 702=2, 823=1, 707=4, 829=2, 709=5, 45=1, 47=1, 49=1, 392=3, 271=2, 393=5, 273=30, 152=1, 396=2, 275=2, 64 155=1, 156=2, 398=2, 399=17, 278=1, 158=2, 710=3, 832=1, 715=1, 50=2, 51=4, 717=1, 839=4, 53=2, 55=2, 56=1, 57=6, 58=1, 59=4, 280=3, 281=2, 160=1, 161=1, 162=1, 163=3, 284=1, 285=5, 164=2, 166=3, 289=3, 840=1, 841=3, 843=1, 724=1, 845=2, 60=1, 725=1, 61=1, 606=5, 63=2, 609=2, 290=3, 170=21, 173=1, 298=1, 299=4, 179=1, 730=1, 852=1, 853=3, 611=1, 613=2, 856=7, 735=2, 614=1, 70=1, 736=10, 858=1, 617=10, 738=6, 859=1, 74=1, 619=3, 78=1, 189=2, 740=1, 500=1, 742=1, 864=2, 622=1, 743=1, 502=2, 745=1, 503=2, 504=8, 626=2, 627=1, 506=6, 508=3, 509=1, 88=4, 191=2, 193=3, 195=1, 196=1, 197=1, 199=9, 750=7, 751=2, 753=2, 511=2, 513=2, 90=1, 635=13, 515=1, 757=2, 636=1, 637=2, 758=1, 518=1, 639=2, 98=4, 762=13, 763=4, 523=2, 765=1, 645=2, 403=2, 646=4, 525=1, 404=5, 526=3, 405=1, 769=6, 406=2, 407=1, 528=1, 408=5, 529=2, 770=1, 771=2, 772=1, 410=4, 652=2, 531=2, 773=2, 532=1, 654=1, 655=2, 413=1, 776=1, 777=3, 415=5, 536=15, 416=14, 537=1, 538=6, 659=3, 417=3, 418=2, 539=1, 419=1, 780=1, 660=4, 781=4, 540=2, 784=2, 421=3, 543=4, 785=2, 301=1, 665=2, 544=1, 423=1, 786=2, 666=5, 545=7, 425=3, 546=4, 668=4, 547=6, 426=3, 548=5, 306=1, 549=1, 428=2, 308=1, 791=1, 670=1, 550=14, 551=2, 430=3, 431=31, 552=4, 673=1, 311=2, 433=8, 555=1, 434=4, 314=2, 557=4, 678=2, 679=1, 437=3, 316=2, 438=1, 317=5, 439=1, 319=2, 681=2, 560=4, 562=8, 441=1, 442=1, 321=1, 322=5, 564=3, 202=1, 687=4, 324=2, 445=1, 204=19, 567=1, 326=1, 568=7, 205=6, 447=10, 327=1, 448=9, 328=2, 207=2, 449=5, 690=6, 691=3, 570=2, 571=1, 692=3, 693=1, 451=1, 452=6, 573=2, 210=1, 453=8, 574=1, 212=5, 575=1, 697=10, 455=5, 214=2, 456=2, 215=1, 216=4, 337=4, 579=1, 458=5, 459=1, 218=1, 460=1, 461=2, 582=1, 462=2, 341=1, 463=3, 584=2, 464=2, 343=1, 223=4, 586=1, 344=2, 465=2, 224=5, 466=3, 588=5, 104=2, 225=1, 105=2, 347=1, 469=2, 228=3, 108=2, 109=2} Nhìn vào kết ta nhận thấy vài đỉnh coi đỉnh giao thoa lớn cụm, ví dụ đỉnh 282, 671 (10 lần phân chia), đỉnh 635 (13 lần phân chia), đỉnh 563 (15 lần phân chia), đỉnh 204 (19 lần phân chia) đỉnh 273 (30 lần phân chia) Tổng số pha tính độ trung gian 4043 pha, tổng thời gian phân chia cộng đồng 245272ms 65 Hình 3.5 kết phân chia cộng đồng mạng xã hội WikipediaVote 3.3.2 Chương trình thực nghiệm với mạng xã hội Karate Zachary Với liệu đầu vào 34 đỉnh đại diện cho 34 thành viên 78 cạnh đại diên cho mối quan hệ thành viên tiến hành xử lý liệu theo theo chuẩn đầu vào CONGA sau cho qua CONGA chạy để tìm kiếm cộng đồng Tương tự với cấu hình máy chủ phần mềm hỗ trợ phương pháp tìm kiếm cộng đồng mạng xã hội Wikipediavote tơi chạy dòng lệnh CMD thuật tốn tự động phân tích với file liệu **.txt file liệu đầu vào Karate java –cp conga.jar CONGA **.txt –e Sau cho chay qua CONGA ta thu kết với tổng số phép phân chia cộng đồng 21 cộng đồng với tổng kích thước cộng đồng 55 đỉnh Tổng số đỉnh bị phân chia 13 đỉnh đỉnh (33, 34, 14, 28, 1, 2, 3, 4, 7, 8, 9, 30, 32) đỉnh số 33 bị phân chia thành 2, đỉnh số 34 thành đỉnh, đỉnh 66 số 14 1…{33=2, 34=4, 14=1, 28=1, 1=4, 2=1, 3=2, 4=1, 7=1, 8=1, 9=1, 30=1, 32=1} Tổng số pha tính độ trung gian 99, tổng thời gian phân chia cộng đồng 343ms Hình 3.6 Kết phân chia cộng đồng mạng xã hội Karate 3.4 Kết luận chương Trong chương trình bày kết thực nghiệm, xem xét đánh giá kết trình thực nghiệm mơ hình phát cấu trúc cộng đồng mạng xã hội WikipediaVote mạng xã hội Karate, sử dụng phương pháp phát cộng đồng CONGA Phương pháp có ưu điểm phát cộng đồng chồng chéo mạng xã hội, đồng thời đánh giá quan điểm cộng đồng với độ đo tốt Ở chương học viên có mơ tả thuật tốn phát cộng đồng K-Clique phương pháp phương pháp ngược lại với phương pháp CONGA (Phương pháp tìm kiếm CONGA tìm từ xuống theo duyệt theo chiều rộng BFS Clique sử dụng thuật tốn Mach (Maximum Clique Heuristic) tìm kiếm cộng đồng rời rạc, clique coi cộng đồng bắt đầu để sáp nhập thành cộng đồng dựa mô đun độ đo khác (metric)) Do việc phân tích mạng xã hội vấn đế tính tốn phức tạp đỏi hỏi hệ thống máy chủ có cấu hình nhớ phải lớn phần học viên Demo với mạng xã hội có kích thước nhỏ để mơ cho việc tìm kiếm cộng đồng thuật toán CONGA 67 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài tốn khai phá, tìm kiếm tập phổ biến sử dụng để giải nhiều vấn đề quan trọng khai phá liệu nhằm tính chất ẩn, mối tương quan tiềm ẩn quan trọng tập liệu Luận văn giới thiệu trình bầy vấn đề kỹ thuật khai phá liệu môi trường mạng xã hội: - Trình bày mạng xã hội các độ đo đồ thị mạng xã hội - Giới thiệu thuật toán phát cấu trúc cộng đồng mạng xã hội: thuật toán CONGA, thuật toán Girvan–Newman, thuật toán phát cộng đồng mạng xã hội K-clique, K-club, K-clan - Xây dựng ứng dụng phát cộng đồng mạng xã hội tập liệu công bố mạng mạng xã hội Karate WikipediaVote Hướng phát triển  Cải tiến mơ hình thuật toán CONGA nhằm đạt mức độ phân chia cộng đồng tốt dựa mối liên kết N-N  Áp dụng cho vùng liệu lớn tổng quan mạng xã hội Facebook, Twitter, Google… Nhưng đòi hỏi cấu hình máy chủ phải lớn 68 TÀI LIỆU THAM KHẢO [1] Chuan Shi, Yanan Cai, Di Fu, Yuxiao Dong, Bin Wu, A link clustering based overlapping community detection algorithm, Data & Knowledge Engineering 87 (2013) 394–404 [2] Chvatal V.: A greedy heuristic for the set-covering problem, Math Oper Res 4, 233–235 (1979) [3] Freeman, L.C A set of measures of centrality based on betweenness Sociometry 40, 35-41, 1977 [4] Gomes M., L Cavique, I Themido: The Crew Time Tabling Problem: an extension of the Crew Scheduling Problem, Annals of Operations Research, volume Optimization in transportation 144(1), 111-132 (2006) [5] Gregory, S.: An Algorithm to Find Overlapping Community Structure in Networks In: Kok, J.N., Koronacki, J., López de Mántaras, R., Matwin, S., Mladeni$, D., Skowron, A (eds.) PKDD 2007 LNCS (LNAI), vol 4702, pp 91– 102 Springer, Heidelberg (2007) [6] Johnson D.S.: Approximation algorithms for combinatorial problems, Journal of Computer and System Science, 9, 256-278 (1974) [7] Kellerman E.: Determination of keyword conflict, IBM Technical Disclosure Bulletin, 16(2), 544–546 (1973) [8] Luís Cavique, Armando B Mendes, Jorge M.A Santos, An Algorithm to Discover the k-Clique Cover in Networks, Proceeding EPIA '09 Proceedings of the 14th Portuguese Conference on Artificial Intelligence:Progress in Artificial IntelligencePages 363 – 373 (2009) [9] M.E.J Newman and M Girvan (2003), Finding and evaluating community structure in networks Preprint cond-mat/0308217 [10] M E J Newman, Scientific collaboration networks: II.Shortest paths, weighted networks, and centrality Phys.Rev E 64, 016132 (2001) 69 [11] R K Ahuja, T L Magnanti, and J B Orlin, NetworkFlows: Theory, Algorithms, and Applications PrenticeHall, Upper Saddle River, New Jersey (1993) [12] Santo Fortunato (2010), Community detection in graphs, Technical Report, Complex Networks and Systems Lagrange Laboratory, ISI Foundation, Torino, ITALY, arXiv:0906.0612v2 (2010) [13] Ulrik Brandes, A Faster Algorithm for Betweenness Centrality, Journal of Mathematical Sociology 25(2):163-177, (2001) 70 ... thức mạng xã hội, cấu trúc cộng đồng đồ thị mạng xã hội, phương pháp tìm kiếm cấu trúc cộng đồng mạng xã hội - Nghiên cứu độ đo đồ thị mạng xã hội tìm hiểu thuật toán phát cấu trúc cộng đồng mạng. .. thiệu mạng xã hội đặc tính mạng xã hội, cộng đồng mạng xã hội phát cộng đồng mạng xã hội, độ đo mạng xã hội, thuật toán xác định độ đo trung gian mạng xã hội Ở chương luận văn học viên trình bày cấu. .. định cấu trúc cộng đồng mạng Chương 3: Chương trình cài đặt thuật toán phát cấu trúc cộng đồng CHƯƠNG MẠNG XÃ HỘI VÀ CÁC ĐỘ ĐO TRÊN ĐỒ THỊ MẠNG XÃ HỘI 1.1 Giới thiệu mạng xã hội Mạng xã hội tập

Ngày đăng: 05/04/2020, 11:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan