TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG KEY PLAYER TRONG MẠNG XÃ HỘI

17 655 0
TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG KEY PLAYER TRONG MẠNG XÃ HỘI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG KEY PLAYER TRONG MẠNG XÃ HỘI Giảng viên hướng dẫn : PGS.TS Đỗ Phúc Học viên thực hiện : Nguyễn Thị Ngọc Diễm MSHV : CH1101075 Lớp : Cao học khóa 6 TP Hồ Chí Minh, tháng 08 năm 2012 MỤC LỤC I. Giới thiệu chung Nghiên cứu mạng là một chủ đề nghiên cứu chủ động vì khả năng của việc mô hình hóa nhiều hệ thống phức tạp trên thế giới thực. Mạng xã hội là đồ thị của tương tác giữa các cá nhân, nhóm người. Một mạng lưới xã hội bao gồm một tập hợp của các nút như người, tổ chức, hoặc các nhóm cùng với một tập của liên kết tập hợp khái quát ý tưởng của một liên kết từ A đến B. Phân tích mạng lưới xã hội cung cấp công cụ và phương pháp tiếp cận lý thuyết thăm dò toàn diện của các mô hình tương tác giữa các cá nhân, nhóm và thậm chí tổ chức. Các mạng xã hội đã trở nên phổ biến gần đây với sự ra đời của các trang web như MySpace, Friendster, Orkut, Twitter, Facebook. Số lượng người dùng tham gia các mạng này là rất lớn và vẫn đang phát triển. 133 triệu blog được lập chỉ mục bởi Technorati (là một trên web công cấp search engine trên blog đầu tiên và là nơi cho blogger có thể sưu tập, đánh dấu và phân phối các bài viết trực tuyến) kể từ khi năm 2002 và 900 ngàn bài viết được đăng trên blog trong 24 giờ. Tháng 6 năm 2008, Technorati đã theo dõi các blog qua 81 ngôn ngữ và có 77.7 triệu người truy cập tại Mỹ tháng 8 năm 2008. Xu hướng này đang phát triển sẽ giúp các nhà nghiên cứu để biến sự quan tâm cho việc phân tích các bài viết blog trong một số kích thước. Một vấn đề cơ bản liên quan đến các mạng là phát hiện của các cụm hoặc cộng đồng. Một Blog, cũng được gọi là weblog, là một cách phổ biến của việc đưa thông tin lên web. Nó bao gồm bài đăng trên blog, hoặc nội dung được viết bởi các blogger, thường tổ chức thành các loại. Blogs tạo ra một bối cảnh đối thoại giữa các blogger và người đọc. Thế giới có gần 700 triệu người dùng Facebook, tiêu tốn 700 tỉ phút/ tháng để cập nhật thông tin về gia đình, bạn bè, tải hình ảnh, video hay đơn giản chia sẻ những suy nghĩ của mình. Hầu hết các blog của nền tảng cung cấp một không gian viết cá nhân cái dễ dàng để thể hiện, và chia sẻ. Mạng xã hội trực tuyến đã trở thành một ứng dụng rất phổ biến trong thời đại Web 2.0 ứng dụng, tạo điều kiện cho người sử dụng để giao tiếp, tương tác và chia sẻ trên 3 World Wide Web (WWW). Các hệ thống mạng đã đưa ra hàng triệu trang web cá nhân được cập nhật liên tục bởi người dùng và ý kiến của khách truy cập. Người dùng vào đây không chỉ để cập nhật thông tin về cá nhân mà còn chia sẻ suy nghĩ, nhận xét, sự trải nghiệm về một sản phẩm hay dịch vụ nào đó. Đây chính là mỏ vàng đối với nhiều công ty. Các chuyên gia marketing qua đó có cơ hội tiếp cận người tiêu dùng tiềm năng và biết thêm trải nghiệm của khách hàng. Từ đó, họ phân tích thêm cho việc kinh doanh. Sự tương tác này được gọi là phân tích dữ liệu xã hội trực tuyến. Dữ liệu trên mạng xã hội trực tuyến khi được phân tích có ý nghĩa với các công ty cung cấp dịch vụ cho người tiêu dùng ở quy mô lớn. Thông qua các trao đổi trên mạng xã hội, đội ngũ bán hàng và marketing có thể có được thông tin về sản phẩm và dịch vụ hiện tại hay ý tưởng cho sản phẩm, chiến dịch marketing sắp tới. Càng nhiều người nói về sản phẩm và dịch vụ thì các phân tích sẽ càng có giá trị với doanh nghiệp. Tuy nhiên, phần lớn thông tin trên mạng xã hội là những dữ liệu phi cấu trúc. Để dễ sàng lọc, phân tích, xử lý dữ liệu sẵn có thành những thông tin hữu ích, doanh nghiệp có thể cần đến công cụ phần mềm được thiết lập để theo dõi và quản lý các cập nhật trên mạng xã hội. Doanh nghiệp khi đó chỉ tập trung phân tích những thông tin hữu ích cho họ. Key player là yếu tố quan trọng trong hệ thống mạng và bao gồm một số tiêu chí. Xác định các key player là một trong số những mục tiêu trong các phương tiện truyền thông tương tác trực tuyến cũng như các bài đăng trên blog. Có bài đăng trên blog nhiều hơn một khoảng thời gian. Có thể là một hoặc nhiều hơn những lời hồi đáp cho bài viết trên blog. Các hiện tượng của việc đăng các bài viết ngày càng tăng và cần phải được phân tích. Điều này dẫn đến vấn đề xác định key player, những người có có nhiều phản hồi cho các bài đăng trên blog của họ. II. 4 III. Bài toán key player Một mạng lưới xã hội thường được xem như là một đồ thị bởi vì cấu trúc của nó rất phức tạp. Đo lường vị trí mạng là tìm kiếm các trung tâm của một nút. Các biện pháp cung cấp cho chúng ta cái nhìn sâu sắc vào các vai trò khác nhau và gom nhóm trong một mạng, như người liên kết, nhà lãnh đạo, cầu nối, và các key player. Bài toán key player (KPP- Key Player Problem) có thể được phân ra làm hai dạng dưới đây: - KPP - 1: Với một mạng xã hội, tìm thấy một tập nút k (có thể được gọi là tập kp thứ tự k), nếu loại bỏ, sẽ làm gián đoạn tối đa liên lạc giữa các các nút còn lại. KPP - 1 là xác định các key player với mục đích của một cái gì đó khuếch tán tối ưu thông qua mạng lưới bằng cách sử dụng các key player như hạt giống. - KPP - 2: Với một mạng xã hội, tìm thấy một kp -k để được tối đa kết nối với tất cả các các nút. KPP - 2 là việc xác định các key player cho mục đích của việc phá vỡ hoặc phân mảnh mạng bởi việc loại bỏ các nút quan trọng. Một phần của quá trình giải quyết những bài toán này là cung cấp những định nghĩa của các khái niệm này dẫn đến các giải pháp khả thi và kết quả hữu ích. Ta thấy rằng KPP-1 liên quan đến việc phân mảnh một mạng lưới thành các thành phần, hoặc nếu không, làm cho khoảng cách giữa các nút lớn đến nổi như là bị ngắt kết nối. Ngược lại, KPP-2 liên quan đến việc tìm kiếm các nút có thể đi đến các nút còn lại sao cho càng nhiều càng tốt thông qua các liên kết trực tiếp hoặc đường dẫn ngắn. Bài toán đầu tiên, KPP-1, phát sinh trong một số ngữ cảnh. Một ví dụ điển hình trong bối cảnh y tế cộng đồng là bài toán tiêm chủng/kiểm dịch. Với một bệnh truyền nhiễm lây truyền từ người sang người, và cho rằng nó là không khả thi để chủng ngừa và / hoặc kiểm dịch toàn bộ dân số, thay vào đó ta thực hiện tiêm chủng phòng ngừa trên tập hợp con nào đó để ngăn cản tối đa sự lây lan của nhiễm trùng. Một ví dụ trong bối cảnh quân sự là lựa chọn mục tiêu. Với một mạng lưới của những kẻ khủng bố phải phối hợp với nhau để thực hiện một cuộc tấn công 5 hiệu quả, nhưng ta chỉ có thể can thiệp vào bằng cách bắt giữ hoặc làm mất uy tín một số phần tử, vậy câu hỏi đưa ra là những đối tượng nào nên được lựa chọn để làm gián đoạn sự kết nối của mạng lưới khủng bố? Bài toán thứ hai, KPP-2, phát sinh trong bối cảnh y tế cộng đồng khi một cơ quan y tế cần phải chọn một tập hợp nhỏ của các thành viên dân số để sử dụng như là hạt giống cho sự khuếch tán của các hoạt động hoặc nhằm thúc đẩy sức khỏe, chẳng hạn như sử dụng thuốc tẩy để làm sạch kim tiêm. Trong bối cảnh quản lý tổ chức, bài toán xảy ra khi quản lý muốn thực hiện một sáng kiến thay đổi và khi đó họ cần phải đưa thông tin đến các nhà lãnh đạo thay vì thông báo cho toàn thể nhân viên. Ở cái nhìn đầu tiên, cả hai KPP-1 và KPP-2 sẽ xuất hiện để được giải quyết dễ dàng bằng cách sử dụng một số khái niệm lý thuyết đồ thị, chẳng hạn như cutpoints và cutsets, hoặc thông qua các phương pháp phân tích mạng xã hội, chẳng hạn như đo độ trung tâm của một nút. Tuy nhiên, không tồn tại một phương pháp nào trong số các phương pháp hiện có là đầy đủ. IV. Các độ đo trung tâm Trong lý thuyết đồ thị và phân tích mạng, có các biện pháp khác nhau của việc đo độ trung tâm của một đỉnh trong vòng một đồ thị để xác định tầm quan trọng tương đối của một đỉnh trong đồ thị. Đo lường vị trí mạng là việc tìm kiếm vai trò trung tâm của một nút. Các cách tiếp cận trung tâm bao gồm đo lường trung tâm của mỗi nút trong mạng, sau đó chọn k nút trung tâm nhất bao gồm các kp - set. Độ trung tâm đo độ trung tâm khi một cá nhân được đặt trong một mạng xã hội. Degree centrarity, Betweenness centrality, Closeness centrality và Eigenvector centrality là bốn độ đo lường trung tâm được sử dụng rộng rãi trong phân tích mạng. 1. Betweenness centrality Đối với một đồ thị G = (V, E) với n đỉnh, Betweenness centrality cho đỉnh v được xác định bởi: 6 Trong đó: tổng shortest path từ đỉnh đến đỉnh của toàn network tổng shortest path từ đỉnh đến đỉnh đi qua đỉnh Betweenness centrality được định nghĩa như tổng tỷ số của các đường đi ngắn nhất từ một nút tới một nút khác đi qua một nút cho trước. Như xem xét KPP - 1, một nút với Betweenness centrality cao chịu trách nhiệm cho kết nối cặp nhiều các nút thông qua con đường tốt nhất, và việc xóa nút đó sẽ gây ra việc nhiều cặp nút trở nên tách biệt hơn. Xóa mà nút nên gây ra nhiều cặp nút để trở thành hoàn toàn bị ngắt kết nối hoặc ít nhất kết nối sẽ xa hơn. 2. Degree centrality Degree centrality của một nút là số các kết nối trực tiếp của nút đó. Theo một định nghĩa khác Degree centrality được xem là số lượng mối quan hệ mà một nút có, tức là số lượng các liên kết sự cố khi một nút. Đối với một đồ thị G = (V, E) với n đỉnh, mức độ trung tâm của đĩa cho đỉnh v là: Trong đó: số đỉnh của đồ thị các link trực tiếp của đỉnh v 3. Closeness centrality Closeness centrality là một trong những khái niệm cơ bản trong một topo không gian. Chúng tôi có thể nói rằng hai tập hợp chặt chẽ nếu họ tự ý gần nhau. Trong một mạng xã hội, các Closeness centrality đo độ gẫn gũi giữa một đỉnh với tất cả các đỉnh khác trong đồ thị. Đỉnh mà có xu hướng có khoảng cách ngắn đo đạc đỉnh khác trong đồ thị có sự gần gũi cao hơn. Điều này có thể được đo như 7 Trong đó: n ≥ 2 là kích thước của kết nối của mạng lưới V thành phần có thể truy cập từ v. Sự gần gũi có thể là được coi như một biện pháp của nó sẽ mất bao lâu thông tin để lan truyền từ một đỉnh cho khác có thể truy cập trong mạng. Closeness Centrality của một đỉnh càng lớn thì càng rút ngắn khoảng cách hình thành đỉnh bất kỳ đỉnh khác, và do đó vị trí tốt hơn đỉnh trong việc truyền bá thông tin khác đỉnh. Closeness centrality của tất cả các đỉnh có thể được tính bằng cách giải quyết tất cả các cặp đường đi ngắn nhất. 4. Eigenvector centrality Trung tâm eigenvector của nút là tỷ lệ thuận với tổng centralities eigenvector của tất cả các nút trực tiếp kết nối với nó. Nói cách khác, một nút với một eigenvector centrality cao được kết nối đến các nút khác với eigenvector cao vai trò trung tâm. Điều này là tương tự như cách Google xếp hạng trang web: những liên kết từ một trang được tham chiếu nhiều sẽ được sắp hạng cao. V. Các công trình liên quan Một mạng lưới xã hội có thể được mô hình hóa như một đồ thị G = (V, E), V là một tập hợp các đối tượng, gọi là các nút đỉnh, và E là một tập hợp các liên kết, được gọi là các cạnh, kết nối hai yếu tố của V. Cutpoints và key player là các nút mà việc xóa nó đi sẽ phân đoạn mạng thành những nhóm bị ngắt kết nối. Một số bài báo cung cấp một số công trình quan trọng đã được thực hiện trong lĩnh vực này. Ref. [2] mô tả công việc đáng chú ý cung cấp giới thiệu một số phần của bài toán cùng với phân loại của nó. Trong bài báo này, tác giả giải thích các biện pháp như thế nào độ đo trung tâm có thể được áp dụng trên các mạng xã hội. Ref. [5] của cùng tác giả đã giải thích làm thế nào các độ đo trung tâm có thể được áp dụng cho xác định lưu lượng giao thông trên một cấu trúc mạng. Ref. [4] cung cấp một đặc tính hình học của các key player được xác định với một độ đo intercentrality, trong đó có vào tài khoản của cả hai của một cầu thủ trung tâm và đóng góp cho trung tâm của những người khác. Các tác giả đã chơi game là lĩnh vực của họ cho nghiên cứu của họ. Các kết quả được thể hiện như là một kết quả nghiên cứu của 8 họ. Ref. [6] cung cấp một cái nhìn sâu sắc vào vấn đề. Bài viết này có thể được sử dụng như một vật liệu giới thiệu để biết chi tiết liên quan đến khu vực của các key player như ý nghĩa của vấn đề chủ chốt, phân loại và khác nhau lĩnh vực ứng dụng của khu vực. Bài báo này cũng thảo luận về về làm thế nào các biện pháp trung tâm là hữu ích trong việc tìm kiếm chủ chốt. Phương pháp tiếp cận khác nhau được áp dụng cho tìm thấy các key player cũng được giải thích trong bài báo này. Ref. [1] được áp dụng cách tiếp cận lý thuyết thông tin để xác định bộ key player. Các tác giả đề xuất một phương pháp mới nhằm tìm kiếm một tập hợp các key player bằng cách sử dụng dữ liệu ngẫu nhiên các biện pháp. Ref. [3] kết hợp các phương pháp hiện có trên tính toán giá trị chính xác và giá trị gần đúng của sự gần gũi trung tâm và trình bày các thuật toán mới để xếp hạng các đỉnh đầu-k với trung tâm của sự gần gũi cao nhất. VI. Kết luận Một key player là những người luôn luôn tỏa sáng và tham gia vào các hoạt động cộng đồng. Trong vấn đề này, cách tiếp cận trung tâm được sử dụng xác định các bộ của các key player trong weblog. Các mối quan hệ cũng như cách tương tác trong một mạng xã hội sẽ luôn thay đổi. Như vậy, các công cụ mới cũng sẽ phát triển để thích ứng tốt hơn với cộng đồng những người sử dụng mạng xã hội. VII.Ứng dụng Chương trình cho phép nhập vào đồ thị người dùng trên mạng xã hội và xuất ra các độ đo trung tâm để tìm kiếm key player. Chương trình được viết bằng ngôn ngữ đặc tả HTML và ngôn ngữ lập trình Javascript và có thể chạy trên các trình duyệt Web như Google Chrome, Firefox, Opera và Safari. 9 Chương trình gồm hai phần: - P h ần bên trái dùng để nhập bài toán bao gồm nhập số đỉnh và ma trận kề hay danh sách liên kết các đỉnh trong đồ thị (Trong đó sự thay đổi của ma trận kề tương ứng với tập các cạnh của đồ thị). - Phần bên phải dùng để hiển thị lời giải như sau 10 [...]...11 12 13 14 15 VIII 16 IX Tham khảo [1] Daniel Ortiz - Arroyo, D M Akbar Hussain, "An information Theory approach to identify sets of key players", LNCSA 5376, pp [2] 15-26, 2008 Stephen P Borgatti, "Identifying sets of key players in a social network", Computational and mathematical organization theory, [3] springer US, vol 12, no 1, pp 21-34, 2006 Kazuya Okamoto, Wei Chen, Xiang... Science, pp 186-195, 2008 Coralio Ballester, Antoni Calvo - Armengol, Yves Zenou, "Who's who in networks wanted: the key player" , Econometrica, vol 74, [5] No 5, pp 1403-1417, 2006 Stephen P Borgatti, "Centrality and network flow", [6] Networks, Vol 27, pp 55–71, 2005 Stephen P Borgatti, "The Key Player Problem" available at: Social www.steveborgatti.com/ /borgatti%20-%20NAS%20- 17 . PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN CƠ SỞ DỮ LIỆU NÂNG CAO DÙNG ĐỘ ĐO TRUNG TÂM ĐỂ NHẬN DẠNG KEY PLAYER TRONG MẠNG XÃ HỘI Giảng viên hướng dẫn : PGS.TS Đỗ Phúc Học viên. cận trung tâm bao gồm đo lường trung tâm của mỗi nút trong mạng, sau đó chọn k nút trung tâm nhất bao gồm các kp - set. Độ trung tâm đo độ trung tâm khi một cá nhân được đặt trong một mạng xã hội. Degree. để thích ứng tốt hơn với cộng đồng những người sử dụng mạng xã hội. VII.Ứng dụng Chương trình cho phép nhập vào đồ thị người dùng trên mạng xã hội và xuất ra các độ đo trung tâm để tìm kiếm key

Ngày đăng: 10/04/2015, 13:21

Từ khóa liên quan

Mục lục

  • I. Giới thiệu chung

  • IV. Các độ đo trung tâm

    • 1. Betweenness centrality

    • 2. Degree centrality

    • 3. Closeness centrality

    • 4. Eigenvector centrality

    • V. Các công trình liên quan

    • VI. Kết luận

    • VII. Ứng dụng

    • IX. Tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan