Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ NGÂN VANG ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN TIN GIẢ ĐỀ ÁN THẠC SĨ KHOA HỌC MÁY TÍNH Bình Định - Năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ NGÂN VANG ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN TIN GIẢ Ngành: KHOA HỌC MÁY TÍNH Mã số: 8480101 Người hướng dẫn: TS LÊ QUANG HÙNG Lời cam đoan Tôi xin cam đoan đề án thạc sĩ “Ứng dụng học biểu diễn đồ thị trong phát hiện tin giả” là kết quả tìm hiểu, nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của TS Lê Quang Hùng Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong đề án này đã được ghi rõ nguồn trong phần tài liệu tham khảo Lời cảm ơn Tôi xin gửi lời cảm ơn chân thành đến TS Lê Quang Hùng đã định hướng đề tài, hướng dẫn, giúp đỡ tận tình, chi tiết trong quá trình học tập cũng như trong việc hoàn thành đề án Bên cạnh đó, tôi cũng xin cảm ơn thầy cô Khoa Công nghệ thông tin - Trường Đại học Quy Nhơn đã tạo điều kiện giúp tôi hoàn thành đề án này Xin cảm ơn các anh chị và các bạn học viên ngành Khoa học máy tính đã động viên, chia sẻ kinh nghiệm quý báu giúp tôi giải quyết các vướng mắc, vượt qua giai đoạn khó khăn để có thể hoàn thành đề án của mình Mặc dù bản thân có nhiểu cố gắng nhưng đề án khó tránh sai sót và có thể hoàn thiện tốt hơn Kính mong sự chỉ dẫn và đóng góp của các Thầy/Cô để đề án của tôi được hoàn thiện hơn Xin chân thành cảm ơn! Tóm tắt Trong xã hội hiện nay, lượng tin tức giả mạo lan truyền trên mạng xã hội ngày càng gia tăng gây ảnh hưởng rất lớn đến đời sống xã hôi, kinh tế, chính trị Phát hiện tin giả thủ công không còn phù hợp với lượng thông tin khổng lồ phát tán trên không gian mạng Các nền tảng truyền thông xã hội tuân theo cấu trúc đồ thị trong biểu diễn của chúng Hiện nay tuy cũng đã có một số phương pháp phát hiện tin giả bằng học máy truyền thống truyền thống (SVM, k-NN, ) nhưng các phương pháp này chưa khai thác được cấu trúc (dữ liệu) đồ thị của chúng, làm giảm hiệu quả trong phát hiện tin giả Do đó cần thiết có phương pháp thực hiện tự động trên cấu trúc đồ thị của tin tức truyền thông xã hội nhằm đem lại hiệu quả việc phát hiện tin giả Theo các nghiên cứu hiện tại thường có các nhóm chính đề phát hiện tin giả: theo nội dung tin, theo nguồn phát tán tin, theo sự lan truyền tin, Trong đề án này, chúng tôi đã nêu tổng quan về tin giả và phát hiện tin giả; giới thiệu tổng quan về học biểu diễn đồ thị và nghiên cứu phương pháp phát hiện tin giả bằng mạng tích hợp đồ thị (Graph Convolution Network - GCN, mạng chú ý đồ thị (Graph Attention Network – GAT), đồ thị mẫu và tổng hợp (Graph Sample and Aggregated - GRAPHSAGE) Sau đó, tiến hành cài đặt thực nghiệm trên bộ dữ liệu FakenewsNet (Politifact, Gossipcop) để so sánh với phương pháp học máy truyền thống và so sánh giữa các kỹ thuật học biểu diễn đồ thị với nhau Từ khóa: tin giả, phát hiện tin giả, mạng tích hợp đồ thị, sự lan truyền tin giả, mạng nơ ron đồ thị, Graph Neural Network, GNN, Graph Convolution Network, GCN, mạng chú ý đồ thị, Graph Attention Network, GAT, đồ thị mẫu và tổng hợp, Graph Sample and Aggregated, GRAPHSAGE, Mục lục Lời cam đoan Lời cảm ơn Tóm tắt DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU 1 1 TỔNG QUAN 5 1.1 Tổng quan về tin giả 5 1.1.1 Giới thiệu 5 1.1.2 Định nghĩa tin giả 9 1.2 Các phương pháp phát hiện tin giả 12 1.2.1 Dựa trên tri thức 12 1.2.2 Dựa trên văn phong 14 1.2.3 Dựa trên sự lan truyền 16 1.2.4 Dựa trên độ tin cậy 18 1.3 Các nghiên cứu liên quan 20 1.4 Tổng kết chương 1 22 2 ỨNG DỤNG HỌC BIỂU DIỄN ĐỒ THỊ TRONG PHÁT HIỆN TIN GIẢ 23 2.1 Phát biểu bài toán 23 2.2 Giới thiệu chung về phương pháp học biểu diễn đồ thị 24 2.3 Phát hiện tin giả sử dụng mô hình GCN 27 2.3.1 Giới thiệu chung về GCN 27 2.3.2 Ứng dụng GCN để phát hiện tin giả 29 2.4 Phát hiện tin giả sử dụng mô hình GAT 38 2.4.1 Giới thiệu chung về GAT 38 2.4.2 Ứng dụng GAT để phát hiện tin giả 43 2.5 Phát hiện tin giả sử dụng mô hình GRAPHSAGE 47 2.5.1 Giới thiệu chung về GRAPHSAGE 47 2.5.2 Ứng dụng GRAPHSAGE để phát hiện tin giả 49 2.6 Tổng kết chương 2 52 3 THỰC NGHIỆM 53 3.1 Dữ liệu 53 3.2 Cài đặt thực nghiệm 54 3.3 Kết quả 56 Kết luận 59 Tài liệu tham khảo 60 DANH MỤC CÁC TỪ VIẾT TẮT CHỮ VIẾT TẮT Ý NGHĨA GNN Graph Neural Network GCN Graph Convolutional Network GAT Graph Attention Network GRAPHSAGE Graph Sample and Aggregated CNN Convolutional Neural Network SVM Support Vector Machine RNN Recursive Neural Networks LSTM Long Short-Term Memory DANH MỤC CÁC HÌNH VẼ HÌNH NỘI DUNG Hình 1.1 Tổng quan về các công cụ khác nhau chống lại tin tức giả Hình 1.2 Đám mây từ thể hiện ý nghĩa khác nhau của tin giả Hình 1.3 Sơ dồ tổng quan vòng đời của tin giả và phương pháp phát hiện tin giả Hình 1.4 Ví dụ xác minh thông tin dựa trên tri thức Hình 1.5 Minh họa sự lan truyền tin tức Hình 2.1 Hình minh họa đồ thị cho từng mục tin tức Hình 2.2 Sơ đồ tổng quan về GNN để phát hiện tin giả Hình 2.3 Đồ thị gồm các nốt (A,B,C,D,E,F) và các trọng số tương ứng Hình 2.4 Sơ đồ kiến trúc mô hình GCN Hình 2.5 Ma trận kề (adjacency matrix A) và ma trận bậc (degree matrix D), Ma trận đặc trưng (Feature matrix X) của đồ thị G Hình 2.6 Phép tính nhân ma trận cho hàng đầu tiên cho ma trận vectơ AX Hình 2.7 Bằng cách thêm một đoạn nối cho mỗi đỉnh, chúng ta thu được ma trận kề mới Hình 2.8 Ví dụ về ma trận kề (A ) và ma trận nghịch đảo D Hình 2.9 Sơ đồ tổng quan của mô hình GCN Hình 2.10 Minh họa một cơ chế chú ý Hình 2.11 Khung phân loại yêu cầu của mô hình GAT Hình 2.12 Minh họa trực quan về phương pháp tổng hợp và mẫu Graph- SAGE Hình 3.1 Trực quan hóa đồ thị mẫu có hướng Hình 3.2 Sơ đồ trực quan hóa t-SNE của dữ liệu trước và sau khi thực thi