Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

64 19 0
Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER HÀ NỘI - 2018 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THƠNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TỪ MINH PHƯƠNG MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH VẼ MỞ ĐẦU CHƯƠNG MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG 1.1 Giới thiệu m 1.2 Các đặc trưn 1.3 Mối quan hệ 1.4 Tại lại s hội khác 1.5 Các ứng dụn 1.6 Kết luận chư CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER 2.1 Tiền xử lý d 2.1.3 Chất lượng liệu (data quality): 2.1.4 Chất lượng liệu (data quality): 2.1.5 Các kỹ thuật tiền xử lý liệu: 2.2 Biểu diễn v 2.3 Giới thiệu v văn 2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) 2.3.2.4 Phương pháp SVM (Support Vector Machine) 2.6Kết luận chương CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1Thu thập liệu t 3.2Đánh giá phư 3.3Ứng dụng mô phỏ 3.4Kết luận chương DANH MỤC TÀI LIỆU THAM KHẢO DANH MỤC BẢNG Số hiệu bảng 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các cụm từ, ký hiệu NB NBL CDC K-NN SVM IDF TF DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2.1 1.2.2 1.2.3 1.2.4 1.3 1.5.1 1.5.2 2.1.1 2.2.1 2.2.2 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 3.1 3.2 3.3 3.4 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu tìm hiểu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác HỌC VIÊN Tạ Quang Long MỞ ĐẦU Ngày nay, mạng xã hội ngày phát triển để kết nối thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian Có thể nói, mơ hình trình phát triển giao tiếp mạng, đơn giản hoá phương thức tương tác kết nối người với Mạng xã hội xuất lần năm 1995 với đời trang Classmate với mục đích kết nối bạn học, xuất SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích Hiện giới có hàng trăm mạng xã hội khác nhau, trong mạng xã hội phát triển nhanh thành công có mặt muộn, Twitter Hai mạng xã hội phát triển nhanh có mặt muộn Năm 2004, Facebook mắt Ban đầu địa dành cho sinh viên đại học kết nối chia sẻ Ngay sau đời trụ sở trường đại học danh tiếng Harvard, Facebook có tới 19.500 sinh viên đăng kí tháng Tuy mạng xã hội tiếng thời điểm Facebook, MySpace, năm sau Twitter kịp thời đời, ghi dấu mốc quan trọng trình phát triển mạng xã hội Tại thời điểm năm 2008, giây người dùng Twitter đăng lên 3.283 thông điệp Thông qua mạng xã hội mà tin nhắn nhắn mẩu tin chia sẻ số lượng lớn người dùng chế tin nhắn đơn giản Với số lượng người sử dụng lên đến 500 triệu người, cho phép người dùng chia sẻ thơng tin thông qua việc đăng tin nhắn phạm vi giới hạn 140 ký tự, gọi tweet status Lượng tweet người dùng đăng lên hàng ngày lớn, lên đến 340 triệu tweets ngày, kèm với lượng thơng tin khổng lồ chia sẻ cập nhật Mỗi người dùng lựa chọn theo dõi cá nhân tổ chức đó, mà người quan tâm, ngược lại theo dõi người dùng khác, Twitter hiển thị tweet đăng tải cá nhân tổ chức mà người dùng theo dõi, theo thứ tự thời gian đăng tweet Nghiên cứu cho thấy tweet đăng Twitter có chứa nhiều loại thơng tin, có thơng tin tình hình sức khỏe người đăng tải Ví dụ như: Tơi bị đau đầu, ho sốt tuần Các thơng tin có dạng trực tiếp, chẳng hạn báo rõ số lượng bệnh tăng, gián tiếp, chẳng hạn người dùng than phiền tình trạng sức khoẻ Bài tốn đặt phải lọc tweet có nội dung liên quan đến dịch bệnh cụ thể bệnh cúm đưa vào phân tích luận văn em dựa vào kỹ thuật phân lớp văn Việc phát phân tích tweet cho phép phát sớm tình trạng bùng phát dịch bệnh cộng đồng dân cư đóng vai trị kênh thông tin quan trọng hỗ trợ y tế cộng đồng Một vấn đề đặt số lượng tweet tăng lên cách chóng mặt, người dùng theo dõi nhiều cá nhân tổ chức khác vấn đề lớn mà họ gặp phải tải thông tin Rất nhiều thông tin hữu ích bị tweet khác cập nhật làm đẩy lùi tweet trước đó, tweet thông tin thực cần thiết mà người dùng quan tâm Đồng thời, toán khác quan tâm nhiều người dùng muốn biết có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…) vùng gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến có biện pháp phịng tránh kịp thời cho họ người xung quanh họ Có thể lấy ví dụ sau: Tweet#1: Today I not go to work, because I feel headache, cough and runny or stuffy nose I think I have the flu Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu Như nhìn thấy trên, Tweet có nội dung nói đến cúm(flu), triệu chứng Dựa vào kỹ thuật phân lớp văn xác định Tweet#1 Tweet có nội dung nói đến người bị bệnh cúm Tweet#1 Tweet thực bị cúm Do vậy, Twitter có nhiều thơng tin bệnh cúm khó phân biệt đâu trường hợp mắc bệnh cúm thực Từ việc thu thập Tweet mà người đề cập đến từ liên quan đến cúm mẩu tin họ, hệ thống xử lý thông tin giúp sàng lọc thông tin bệnh cúm thực loại bỏ thông tin khác để tìm có nhiều người thực bị cúm, dựa vào số lượng người bị vị trí địa lý lấy từ đưa cảnh báo có dịch bệnh vùng Chính vậy, việc giám sát dịch bệnh, cụ thể dịch cúm nhằm cung cấp cho người dùng tweet hữu dụng vấn đề vô quan trọng Một kỹ thuật sử dụng phổ biến mang lại hiệu cao kỹ thuật phân lớp văn bản, đề tài luận văn em tập trung vào tìm hiểu kỹ thuật phân lớp văn này, dựa tính cá nhân hóa người dùng Twitter nhằm đưa kết phân tích tốt dịch cúm Giải pháp thử nghiệm liệu thực thu thập từ Twitter Nội dung luận văn bố cục thành chương sau:  Chương – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Giới thiệu chương: Giới thiệu mạng xã hội Twitter, khái niệm đặc trưng mạng xã hội này, bao gồm mối quan hệ mạng, tác nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua Twitter Giới thiệu cách thức tư vấn áp dụng cho Twitter hạn chế phương pháp  Chương – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan kỹ thuật phân lớp văn áp 46 CHƯƠNG - THỬ NGHIỆM VÀ ĐÁNH GIÁ Sử dụng thư viện có sẵn Twitter cung cấp, thực xây dựng liệu từ liệu thực tế có Twitter cho số lượng người dùng, sử dụng kỹ thuật phân loại liệu naive bayes đề xuất chương để xác định dịch bệnh cách xác Đánh giá kết so với phương pháp khác, so với cách làm việc Twitter để cung cấp tweet cho người dùng 3.1 Thu thập liệu thử nghiệm Để xây dựng ứng dụng xác định dịch bệnh Twitter, bước cần thu thập liệu, sau chia thành hai tập: tập huấn luyện tập kiểm thử Do có nhiều người sử dụng twitter nên lượng thông tin vô lớn, hỗn độn phức tạp Vì khó để có tập liệu có sẵn đáp ứng yêu cầu cho ứng dụng Twitter cung cấp loạt giao diện lập trình ứng dụng cho phép truy vấn thông tin người dùng sau cấp quyền, truy vấn có liệu trả dạng JSON[4] Ví dụ với truy vấn lấy tất tweet người dùng, kết trả dạng JSON sau: 47 _[created_at] => Tue Nov 06 09:16:16 +0000 2018 [id] => 1059736211898728449 [id_str] => 1059736211898728449 [full_text] => Had crazy baby fever this weekend Someone have my baby and never talk to me again [source] => Twitter for iPhone [in_reply_to_status_id] => [in_reply_to_status_id_str] => [in_reply_to_user_id] => [in_reply_to_user_id_str] => 10 [in_reply_to_screen_name] => 11 [user] => stdClass Object 12 ( 13 [id] => 3357265553 14 [id_str] => 3357265553 15 [name] => reactionary girl utena 16 [screen_name] => femme_fatigue 17 [location] => Paris, France 18 [description] => i would like to be excluded from this narrative 19 [profile_background_image_url] => http://abs.twimg.com/images/themes/theme1/bg.png 20 [profile_background_image_url_https] => https://abs.twimg.com/images/themes/theme1/bg.png 21 ) 22 [coordinates] => 23 [place] => 24 [lang] => en Bảng 3.1 Dữ liệu người dùng sở liệu Để thuận tiện trình thu thập liệu, lưu trữ tiền xử lý liệu, ứng dụng viết ngôn ngữ PHP[19], sử dụng thư viện từ developer twitter[17] để thực truy vấn liệu Twitter Thông qua status cung cấp Twitter, tiến hành thu thập liệu đủ lớn để xây dựng tập huấn luyện, với mục đích thử nghiệm thuật tốn, lấy thông tin 1000 status trực tiếp từ Twitter Để có thơng tin 1000 status này, ban đầu lưu trữ dạng cron job ngày, ngày khoảng 50-70 tweet tất người dùng khác Dev Twitter hầu hết trả location(địa chỉ)của người đăng tweet, em phải làm thêm bước chuyển đổi từ location sang tọa độ dựa vào thư viện developers.google.com, để phục vụ cho việc hiển thị google map sau 48 Chúng ta có tập liệu tweet sau: Bảng 3.2 Các tweet thu thập sở liệu Toàn liệu chia thành tập tập huấn luyện tập kiểm thử, tập lớn tập huấn luyện, bao gồm 5000 tweet, tập nhỏ tập kiểm thử bao gồm 1000 tweet Bảng thông tin số lượng tweet bị cúm không bị cúm trung bình tập huấn luyện kiểm thử Bảng 3.3 Phân chia tập huấn luyện tâp kiểm thử Huấn luyện Kiểm thử Để thu thập tweet người dùng, ứng dụng cần cấp quyền truy cập yêu cầu người dùng đăng nhập để sử dụng hệ thống Việc xác thực thực qua Twitter trả kết xác thực quyền truy cập thông qua 49 chế OAuth, có người dùng đăng status với nội dung có liên quan đến triệu chứng cúm như: flu, cough, fever, headaches, fatigue… thông tin người dùng tweet người dùng bổ sung vào tập kiểm thử để phân tích xác định dịch bệnh sau 3.1 Biểu diễn liệu Một nhiệm vụ việc xử lý tốn phân lớp chọn mơ hình biểu diễn liệu văn thích hợp Văn dạng text cần phải chuyển sang mơ hình liệu khác phù hợp cho việc biểu diễn tính tốn Tùy thuộc vào thuật tốn phân loại có mơ hình biểu diễn riêng Một mơ hình đơn giản sử dụng nhiều mơ hình khơng gian vector Dữ liệu hệ thống biểu diễn dựa mơ hình Sau lựa chọn đặc trưng cho liệu xong, hệ thống tiến hành đưa liệu dạng vector Mỗi tweet biểu diễn thành vector trọng số đặc trưng câu Việc xác định trọng số đặc trưng có nhiều khác Như mơ hình Boolean, cách đơn giản nhất, gán trọng số cho đặc trưng giá trị nhị phân đặc trưng có xuất câu hay không, tức giá trị trọng số wij đặc trưng ti xuất lần liệu Dj ngược lại không xuất Để đơn giản hệ thống sử dụng cách Word frequency, tức đếm số lần xuất từ Ở ta xét đến đại lượng : - Tf- term frequency : dùng để ước lượng tần xuất xuất từ văn Tuy nhiên với văn có độ dài khác nhau, số lần xuất từ nhiều Vì số lần xuất từ chia độ dài văn (tổng số từ văn đó) TF(t, d) = ( số lần từ t xuất văn d) / (tổng số từ văn d) - IDF- Inverse Document Frequency: dùng để ước lượng mức độ quan trọng từ Khi tính tần số xuất tf từ coi quan trọng Tuy nhiên có số từ thường được sử dụng nhiều 50 không quan trọng để thể ý nghĩa đoạn văn , ví dụ : Từ nối: and, but, also, because, so, … Giới từ: on, in, at … Từ định: The, This, That, … Vì ta cần giảm mức độ quan trọng từ cách sử dụng IDF: IDF(t, D) = log( Tổng số văn tập mẫu D/ Số văn có chứa từ t ) Hiện hệ thống sử dụng đại lượng df để biểu diễn liệu.Tức là xác định số lần xuất đặc trưng toàn tập liệu Như vậy, tập liệu sau gán nhãn đưa vào để vector hóa dạng sau: :< >… < > Trong đó: lable nhãn câu, đặc trưng thứ i câu, số lần xuất đặc trưng tập liệu Bộ liệu huấn luyện theo hướng số triệu chứng cúm biểu diễn sau: Bảng 3.4 Thống kê tập liệu huấn luyện Từ Headaches Fever Cough Runny Muscle Fatigue 3.2 Đánh giá phương pháp phân loại văn bản: Đánh giá phương pháp Naive Bayes: Dữ liệu chuẩn bị cho thực nghiệm gán nhãn: 51 Từ 1000 tweet, thực cross-validation với fold = Tức chia tập liệu thành thực nghiệm(k=1,2,3,4,5), tiến hành thực nghiệm tập, kết thực nghiệm lấy giá trị trung bình tập thực nghiệm Số lượng tweet bị cúm lớn so với tweet không bị cúm, hầu hết dựa vào triệu chứng bệnh:        Fever Cough Sore throat Runny Muscle Headaches Fatigue… Để phân loại tweet bị cúm hay không bị cúm Nên lượng tweet không bị cúm thường nhiều so với bị cúm - file lưu liệu huấn luyện: 52 -2 file lưu liệu kiểm thử: Với lần kiểm thử số lượng tweet file kiểm thử thay đổi Lần lượt lần kiểm thử, ứng với k =1,2,3,4,5: K=1 K=2 K=3 K=4 K=5 Sau lần thực nghiệm với tập đặc trưng, ta thấy thực nghiệm cho kết tốt với tập đặc trưng k = với 600 Tweet nhãn Positive 400 Tweet nhãn Negative 53 70 62.57 60 50 40 30 20 10 k=1 Hình 3.9 Biểu đồ so sánh kết sau lần thử nghiệm 3.3 Ứng dụng mơ thuật tốn Dựa vào liệu thu thập thông qua API Twitter cung cấp, chia liệu thành hai tập huấn luyện kiểm thử với lượng liệu tương ứng 5000 tweet 1000 tweet Sử dụng liệu ngẫu nhiên tập kiểm thử để tiến hành phân tích xác định dịch bệnh 54 Hình 3.2 Ứng dụng phân tích xác định dịch bệnh Twitter Sau phân tích liệu từ twitter, hiển thị Heatmap[20] hay gọi đồ nhiệt nơi bị bệnh cúm Google Map Ở nơi có nhiều người bị cúm màu nhiệt đậm Hình 3.3 Phân tích liệu hiển thị heatmap 55 Hình 3.4 Kết phân tích liệu Twitter Trên hình 3.3 hiển thị tweet bị cúm nhóm theo location(vị trí) bao gồm: hình ảnh, tên nội dung Ở tweet click vào tên người đăng tweet hiển thị tọa độ người Google Map[21] Ngồi ra, ứng dụng cho phép người dùng tư vấn trực tuyến cách đăng nhập vào tài khoản Twitter cấp quyền truy cập thông tin người dùng thông qua OAuth API, ứng dụng triển khai có khả truy cập địa http://codextension.com/twitter_project/ Với người dùng đăng nhập hệ thống, tồn thơng tin người dùng sử dụng phần liệu huấn luyện, người dùng sau tư vấn đưa đánh giá tweet danh sách bị cúm 3.4 Kết luận chương Mặc dù tập liệu thu thập chưa đủ lớn, dựa 5000 tweet huấn luyện 1000 tweet kiểm thử, khác biệt kết đánh giá cho thấy số lượng tweet kiểm thử nhiều tính xác cao Với tweet đăng tải 56 có nội dung khác nhau, việc tách từ phân lớp văn dựa vào đặc trưng tweet có ý nghĩa quan trọng việc phân tích xác định dịch bệnh Trong khóa luận này, đánh giá thuật tốn việc phân tích xác định dịch bệnh Twitter dựa tập liệu huấn luyện kiểm thử thu thập được, điều chưa hồn tồn thể tính xác q trình phân tích, thơng tin tweet hỗn đỗn, dựa vào triệu chứng khơng đủ, triệu chứng với ngữ cảnh khác khơng phản ánh người đăng tweet bị cúm Vì thế, việc đánh giá trực tuyến hồn tồn cần thiết để đưa độ xác cao hơn, người dùng trực tiếp xem tweet đăng lên có nội dung liên quan đến cúm dựa vào triệu chứng, xem có tweet có bị cúm thực khơng Sau kết thúc khóa luận, em cố gắng tiếp tục nghiên cứu đề tài phương pháp phân loại văn để có số thuyết phục cho phương pháp 57 KẾT LUẬN VÀ KIẾN NGHỊ Trong sống hàng ngày, người dùng thường vào trang mạng xã hội đọc đăng tải lên thông tin xung quanh họ bao gồm thông tin sức khỏe người dùng, người thân Ứng dụng phân tích xác định thơng tin dịch bệnh giúp phân loại tweet đăng tải lên có thông tin liên quan đến sức khỏe cụ thể cúm, với vị trí địa lý số lượng người bị để thông báo thành dịch Ứng dụng nhằm hỗ trợ cho người dùng biết khu vực có dịch cúm để phịng tránh, giảm thiểu rủi ro Nghiên cứu phân tích xác định thơng tin dịch bệnh nói chung bệnh cúm nói riêng việc có ý nghĩa lớn sống hàng ngày người Sau thời gian làm việc, luận văn tốt nghiệp “ Phân tích xác định thông tin dịch bệnh Twitter” đạt kết sau: - Tìm hiểu thu thập liệu text đăng tải người dùng thông tin cúm Twitter - Tìm hiểu đặc điểm tiếng Việt từ đưa biện pháp xử lý để có liệu chuẩn - Nghiên cứu tổng hợp phương pháp phân lớp văn dựa đặc trưng liệu - Thực nghiệm so sánh độ xác phân lớp dựa đặc trưng liệu phương pháp học máy - Xây dựng chương trình: Phân tích xác định dịch bệnh Twitter Mặc dù, kỹ thuật phân lớp văn Naive Bayes đạt số kết quả, mạng xã hội Twitter, sử dụng phân lớp phương pháp Naive Bayes cịn nhiều thách thức Thách thức lớn là, việc xây dự tập liệu huấn luyện cho thuật toán từ nguồn liệu: tweet đăng tải lên Twitter 58 DANH MỤC TÀI LIỆU THAM KHẢO [1] Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng Why we twitter: understanding microblogging usage and communities In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web-mining and social network analysis - WebKDD/SNA-KDD '07, pages 56-65,New York, New York, USA, August 2007 ACM Press [2] Arman Suleimenov Twitter news: Harnessing Twitter to build an article recommendation system [3] Dena Asta and Cosma Shalizi 2012 Identifying in- fluenza trends via Twitter In NIPS Workshop on So- cial Network and Social Media Analysis: Methods, Models and Applications [4] Denis Parra, Alexandros Karatzoglou, Idil Yavuz and Xavier Amatriain(2011) Implicit Feedback Recommendation via Implicit-to-Explicit Ordinal Logistic Regression Mapping Chicago, Illinois, USA 2011 [5] Shane Bergsma, Matt Post, and David Yarowsky 2012 Stylometric analysis of scientific articles In Proc NAACL-HLT, pages 327–337 [6] O Biran and O Rambow 2011 Identifying justifi- cations in written dialogs In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on, pages 162–168 IEEE [7] J Bollen, A Pepe, and H Mao 2011 Modeling pub- lic mood and emotion: Twitter sentiment and socio- economic phenomena In Proceedings of the Fifth In- ternational AAAI Conference on Weblogs and Social Media, pages 450–453 [8] John S Brownstein, Clark C Freifeld, Emily H Chan, Mikaela Keller, Amy L Sonricker, Sumiko R Mekaru, and David L Buckeridge 2010 Information tech- nology and global surveillance of cases of 2009 h1n1 influenza New England Journal of Medicine, 362(18):1731–1735 59 [9] Naive-Bayes Classification Algorithm http://software.ucv.ro/~cmihaescu/ro/teaching/AIR/docs/Lab4-NaiveBayes.pdf [10] N Collier 2012 Uncovering text mining: A survey of current work on web-based epidemic intelligence Global Public Health, 7(7):731–749 [11] Samantha Cook, Corrie Conrad, Ashley L Fowlkes, and Matthew H Mohebbi 2011 Assessing google flu trends performance in the united states during the 2009 influenza virus a (h1n1) pandemic PLOS ONE, 6(8):e23610 [12] A Culotta 2010a Towards detecting influenza epi- demics by analyzing Twitter messages In ACM Work- shop on Soc.Med Analytics [13] Aron Culotta 2010b Detecting influenza epidemics by analyzing Twitter messages arXiv:1007.4748v1 [cs.IR], July [14] S Doan, L Ohno-Machado, and N Collier 2012 Enhancing Twitter data analysis with simple semantic filtering: Example in tracking influenzalike illnesses arXiv preprint arXiv:1210.0848 [15] Mark Dredze, Michael J Paul, Shane Bergsma, and Hieu Tran 2013 A Twitter geolocation system with applications to public health Working paper [16] Twitter Counter http://twittercounter.com/pages/100 [17] Twitter Developers https://dev.twitter.com [18] Twitter4J API http://twitter4j.org/en/ [19] PHP:Hypertext Preprocessor http://php.net/manual/en/introwhatis.php [20] Heatmap library javascript https://www.patrick-wied.at/static/heatmapjs [21] Geocoding is the process of converting addresses https://developers.google.com/maps/documentation/geocoding/intro [22] W Hsu, A King, M Paradesi, T Pydimarri, and T Weninger Collaborative and structural recommendation of friends using weblog-based social network analysis In AAAI Spring Symposium Series, 2006 [23] Y Hu, Y Koren, and C Volinsky(2008) Collaborative filtering for implicit feedback datasets ... NGHỆ BƯU CHÍNH VIỄN THƠNG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TỪ MINH... việc phân tích liệu cụ thể nội dung đăng tải Twitter nhằm mục đích lấy tất thơng tin hữu ích, để cải thiện hiệu việc xác định thông tin dịch bệnh 24 CHƯƠNG – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ XÁC ĐỊNH... chia thông tin Với lượng liệu khổng lồ khơng khác twitter, việc phân tích liệu big data từ mạng xã hôi để xác định dịch bệnh khả quan Một số ứng dụng nghiên cứu trước giám sát cúm dựa web, dựa

Ngày đăng: 28/10/2020, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan