Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giảCải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC BÁCH KHOA HÀ NỘI

VÕ ĐỨC QUANG

CẢI TIẾN THUẬT TOÁN PHÂN LỚPCHO DỮ LIỆU KHÔNG CÂN BẰNG

VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

HÀ NỘI−2024

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS TRẦN ĐÌNH KHANG

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên

cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu

tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của PGS.TS Trần Đình

Khang Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực.

Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng

quy định.

Hà Nội, ngày tháng 5 năm 2024

Trang 4

LỜI CẢM ƠN

Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn vàthử thách Trên hành trình đó, bên cạnh sự nỗ lực của bản thân, không thểthiếu sự đồng hành dẫn dắt của những Thầy Cô kính mến, sự hỗ trợ giúpđỡ của những người đồng nghiệp, người bạn, người thân trong gia đình Tôithực sự rất biết ơn và xin trân trọng gửi lời cảm ơn sâu sắc tới mọi người vìđã dành cho tôi sự giúp đỡ, chia sẻ quý giá trong suốt khoảng thời gian qua.Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Khang,người Thầy đã hướng dẫn, đồng hành, chỉ dạy, nhắc nhở và động viên tôi rấtnhiều trong suốt quá trình nghiên cứu.

Tôi cũng xin gửi lời cảm ơn tới các Thầy giáo, Cô giáo giảng dạy tại TrườngCông nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội đã truyềnđạt cho tôi những kiến thức mới quý giá, giúp tôi mở rộng kiến thức, gợi mởnhững ý tưởng nghiên cứu để hoàn thành luận án.

Tôi xin gửi lời cảm ơn đến các đồng nghiệp tại Trường Đại học Vinh, cácem sinh viên vì sự hỗ trợ, chia sẻ, giúp đỡ nhiệt tình của mọi người.

Cuối cùng, tôi muốn nói lời biết ơn chân thành đến gia đình thân yêu,những người thân và bạn bè đã luôn động viên, ủng hộ tôi trong suốt quátrình nghiên cứu và giúp tôi vượt qua các giai đoạn khó khăn để đạt đượcmột số kết quả bước đầu hôm nay.

Trang 5

CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 11

1.1 Bài toán phân lớp với dữ liệu không cân bằng 11

1.2 Một số thuật toán liên quan 14

1.2.6 Phương pháp Cây quyết định 20

1.2.7 K-nearest neighbors và Tomek link 21

1.3 Bài toán dự đoán đồng tác giả 23

1.3.1 Giới thiệu 23

1.3.2 Mô hình hóa bài toán 26

1.4 Phương pháp phân lớp cho bài toán dự đoán đồng tác giả 29

1.5 Phương pháp thực nghiệm và đánh giá 32

1.5.1 Tập dữ liệu thử nghiệm 32

1.5.2 Độ đo đánh giá 36

1.5.3 Môi trường và kịch bản thử nghiệm 38

1.6 Kết luận Chương 1 39

Trang 6

CHƯƠNG 2 CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ

LIỆU KHÔNG CÂN BẰNG 40

2.1 Đặt vấn đề 40

2.2 Đề xuất thuật toán Im.AdaBoost 42

2.2.1 Phân tích thuật toán AdaBoost 42

2.2.2 Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độkhông cân bằng 44

2.2.3 Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạycảm với nhãn dương 46

2.2.4 Mô tả thuật toán Im.AdaBoost kết hợp với WSVM 48

2.3 Thử nghiệm 50

2.3.1 Thử nghiệm trên các bộ dữ liệu UCI 52

2.3.2 Thử nghiệm cho bài toán dự đoán đồng tác giả 54

CHƯƠNG 3 ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCHNGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL 69

3.1 Đặt vấn đề 69

3.2 Đề xuất thuật toán trọng số mờ thích nghi 71

3.2.1 Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM 71

3.2.2 Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm 73

3.2.3 Thuật toán phân lớp với trọng số mờ thích nghi 75

3.3 Thử nghiệm 77

3.3.1 Thử nghiệm trên các bộ dữ liệu UCI 79

3.3.2 Thử nghiệm cho bài toán dự đoán đồng tác giả 85

3.3.3 Thử nghiệm so sánh các thuật toán đã đề xuất 95

KẾT LUẬN 98

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 100

TÀI LIỆU THAM KHẢO 101

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮTVÀ THUẬT NGỮ

AdaBoost kết hợp với DecisionTree

Độ đo CAR

Class Imbalance Learning

Máy véc-tơ hỗ trợ mờ cho học trên dữ liệukhông cân bằng

Cơ sở dữ liệu khoa học SPRD

Trang 8

SVMSupport Vector MachineMáy véc-tơ hỗ trợ

Kỹ thuật tạo mẫu tổng hợp cho lớp thiểusố

Trang 9

DANH MỤC HÌNH VẼ

1.1 Các trường hợp của ξ trong Soft-SVM 15

1.2 Minh họa kiến trúc CNN-1D 20

1.3 Minh họa các cặp TLPs 22

1.4 Tổng quan quy trình giải quyết các bài toán trong mạng ASN 23

1.5 Mô hình gợi ý cộng tác đồng tác giả theo phương pháp phân lớp 32

2.1 Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM 49

2.2 Các giá trị của Gmean trên θ thu được bởi Im.AdaBoost.WSVM 57

2.3 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm I 60

2.4 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm II 63

2.5 Các giá trị Gmean, SE, và SP được xác định cho dữ liệu Nhóm III 66

3.1 Vị trí tương đối của các mẫu giữa hai lớp 72

3.2 Minh họa cho bốn trường hợp "mẫu nhạy cảm" được chỉ ra bởi TLPs74

Trang 10

DANH MỤC BẢNG

1.1 Bảng ứng viên đồng tác giả 31

1.2 Thống kê dữ liệu bài báo thu thập từ năm 2000 đến năm 2017 34

1.3 Bảng dữ liệu ứng viên đồng tác giả 35

1.4 Mô tả bộ dữ liệu UCI 36

2.1 Các giá trị tốt nhất của tham số θ cho thuậttoán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM vàIm.AdaBoost.WSVM 53

2.2 Kết quả phân lớp các tập dữ liệu UCI 55

2.3 Mô tả các bộ dữ liệu đồng tác giả 56

2.4 Các giá trị tốt nhất của tham số θ cho thuậttoán Im.AdaBoost.DecisionTree, Im.AdaBoost.SVM vàIm.AdaBoost.WSVM 57

2.5 Kết quả phân lớp các tập dữ liệu trong Nhóm I 59

2.6 Kết quả phân lớp các tập dữ liệu trong Nhóm II 62

2.7 Kết quả phân lớp các tập dữ liệu trong Nhóm III 64

3.1 Cài đặt FSVM-CIL với các hàm tính trọng số mờ 78

3.2 So sánh kết quả phân lớp của FSVM-CILcen_2clin và FSVM-CILtrên các bộ dữ liệu UCI 80

3.3 So sánh kết quả phân lớp của phương pháp F-AWA khi áp dụngvào FSVM-CIL trên các bộ dữ liệu UCI 82

3.4 So sánh kết quả phân lớp của AFW-CIL và FSVM-CIL cho cácbộ dữ liệu chuẩn UCI 84

3.5 Mô tả các bộ dữ liệu đồng tác giả 86

3.6 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen_2clin cho các bộdữ liệu đồng tác giả Nhóm I 87

3.7 Kết quả phân lớp của FSVM-CIL và FSVM-CILcen_2clin cho các bộdữ liệu đồng tác giả Nhóm II 88

3.8 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho cácbộ dữ liệu đồng tác giả Nhóm I 90

Trang 11

3.9 Kết quả phân lớp của FSVM-CIL và điều chỉnh F-AWA cho các

3.12 Kết quả so sánh trên các tập dữ liệu UCI 95

3.13 Kết quả so sánh trên các tập dữ liệu Nhóm I 95

Trang 12

DANH MỤC THUẬT TOÁN

1.1 Thuật toán SVM 14

1.2 Thuật toán AdaBoost 18

1.3 Thuật toán huấn luyện Cây quyết định 20

1.4 Thuật toán KNN 22

2.1 Thuật toán Im.AdaBoost.WSVM 48

3.1 CalFW: Tính toán trọng số mờ cho tập dữ liệu 73

3.2 AdjFW: Điều chỉnh trọng số mờ dựa trên TLPs 76

3.3 Thuật toán F-AWA 76

3.4 Thuật toán AFW-CIL 77

Trang 13

MỞ ĐẦU

1 Lý do chọn đề tài

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN-AcademicSocial Networks) là khái niệm đề cập đến mối quan hệ tương tác về thông tintrong cộng đồng các nhà nghiên cứu khoa học [1][2] Trong đó, khái niệm mạngđồng tác giả (co-authorship network) dùng để miêu tả mối quan hệ hợp tác cùngnghiên cứu giữa các nhà khoa học Mối quan hệ này được thể hiện trong việccác nhà nghiên cứu là đồng tác giả trong một hoặc nhiều bài báo khoa học Cácbài báo khoa học là sự trình bày nội dung các kết quả nghiên cứu và được côngbố trên các tạp chí khoa học Có nhiều tạp chí khoa học thuộc các chủ đề lĩnhvực nghiên cứu khác nhau Một bài báo khoa học có thể là kết quả hợp tác củanhiều tác giả đến từ nhiều đơn vị/trường học/viện nghiên cứu Mặt khác, tùytheo năng lực và môi trường nghiên cứu, mỗi tác giả cũng có thể tham gia nhiềunhóm nghiên cứu khác nhau, nghiên cứu nhiều vấn đề khác nhau để công bốcác bài báo khoa học Không gian quan hệ cộng tác nghiên cứu khoa học có thểxem như một mạng xã hội cộng đồng đặc biệt với các nút là các tác giả, cáccạnh thể hiện mối liên kết giữa hai tác giả Với những tính chất đó, mạng đồngtác giả không chỉ kế thừa nhiều đặc trưng của mạng xã hội nói chung như quanhệ lân cận chung và đường dẫn liên kết, mà còn chứa đựng các đặc trưng riêngvề chuyên môn học thuật, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v.

Việc nghiên cứu các bài toán trong mạng đồng tác giả có nhiều ý nghĩa vàđóng góp quan trọng cho lĩnh vực khoa học thông tin, khoa học dữ liệu và ứngdụng trong phát triển cộng đồng nghiên cứu khoa học Liên quan đến mạngđồng tác giả, các chủ đề được quan tâm nghiên cứu phổ biến gồm: (i ) các bàitoán truy vấn tổng hợp thông tin như: tìm kiếm, tra cứu thông tin học thuật(tạp chí, bài báo, tác giả, tổ chức, chủ đề nghiên cứu, trích dẫn, ) (ii ) các bàitoán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xuhướng nghiên cứu, đo lường tầm ảnh hưởng học thuật của cá nhân, tổ chức,đánh giá hiệu quả nghiên cứu, xác định các mối quan hệ cộng tác tiềm năng vàphát triển các hệ thống khuyến nghị, gợi ý (bài báo, tạp chí, đồng tác giả, ) [2].Trong thực tế, khả năng mở rộng và phát triển của không gian mạng đồngtác giả phụ thuộc hoàn toàn vào việc số lượng các bài báo được xuất bản trên

Trang 14

các tạp chí Muốn có được các kết quả nghiên cứu tốt, đòi hỏi các nhà nghiêncứu phải tìm kiếm được các cộng sự có khả năng hợp tác phù hợp Việc nàysẽ giúp cho các nhà khoa học thực hiện tốt các dự án nghiên cứu, kích thíchcác ý tưởng sáng tạo hoặc cùng thực hiện các công việc chung khác Khi phântích về mối quan hệ hợp tác khoa học và tác động khoa học dựa trên việc khảosát dữ liệu các bài báo xuất bản từ 1900 đến 2011, Larivière và các cộng sự đãchỉ ra rằng các nhóm tác giả có số lượng đông đảo và đa dạng sẽ giúp các côngtrình khoa học có tác động ảnh hưởng cao hơn [3] Do vậy, việc nghiên cứu cácphương pháp để xây dựng một hệ thống có thể dự đoán sự cộng tác đồng tácgiả trong mạng đồng tác giả là cần thiết và có nhiều ý nghĩa trong việc hợp tácthúc đẩy các hoạt động nghiên cứu khoa học [1][4].

Bài toán dự đoán cộng tác đồng tác giả, gọi tắt là dự đoán đồng tác giả, đượcphát biểu như sau:

Dựa trên dữ liệu lưu trữ về thông tin kết nối của mạng đồng tác giả đến thờiđiểm hiện tại t, khi đưa thông tin đầu vào là một tác giả vi nào đó, hệ thống sẽphân tích xử lý và đưa ra một danh sách gợi ý các tác giả vj, vk, vh, có tiềmnăng cộng tác hiệu quả với tác giả vi trong tương lai (tức là sẽ có cộng tác ở mộtthời điểm t’ nào đó sau t).

Bài toán dự đoán đồng tác giả có thể xem như là một bài toán dẫn xuất củabài toán dự đoán liên kết (Link Prediction) trong mạng xã hội và được áp dụngvào mạng đồng tác giả Mục tiêu của bài toán này là dự đoán các mối quan hệ(liên kết) tiềm năng giữa các tác giả trong tương lai dựa trên những thông tinvề quan hệ tương tác của các tác giả trong mạng đồng tác giả hiện tại Trongmạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễnthông qua các cạnh và định lượng thông qua các độ đo liên kết Các độ đo nàythường được hình thành và xác định dựa trên các thông tin liên kết như dựavào số lượng đỉnh/nút hàng xóm chung, dựa vào chiều dài đường dẫn liên kết.Ngoài ra, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng chỉcó trong không gian cộng đồng nghiên cứu khoa học như vị trí thứ tự tên tácgiả trong bài báo, hay thông tin chủ đề lĩnh vực nghiên cứu, v.v.

Để giải quyết bài toán dự đoán đồng tác giả, theo khảo sát của chúng tôi, cácphương pháp và kỹ thuật chính đã được nghiên cứu đề xuất bao gồm:

• Sử dụng độ đo tương đồng (Similarity-based methods): mỗi cặp ứng viênđồng tác giả sẽ được đo lường mức độ tương đồng bằng một giá trị điểmsố, giá trị này thể hiện mối quan hệ liên kết trong mạng và được tính toándựa trên: (i) sự tương đồng về nội dung: sử dụng các độ đo khoảng cách, sửdụng độ đo cosin, dựa trên mối tương quan, dựa trên hệ số Jaccard ; và (ii)

Trang 15

sự tương đồng về cấu trúc và liên kết mạng Một số nghiên cứu nổi bật theohướng sử dụng độ đo tương đồng là đề xuất các độ đo CN (Common Neigh-bor) [5], PA (Preferential Attachment) [6], AA (Adamic/Adar) [7], RA (Re-source allocation) [8], JC (Jaccard Coefficient), Cosine similarity, SorensenIndex, CAR (CAR-based Common Neighbor Index), Katz Index [9], RWR(Random Walk with Restart), Shortest Path [10], ACT (Average CommuteTime), MF (Matrix Forest Index), SimRank, local random walk index, LDP(local directed path),

• Xây dựng các mô hình dựa trên xác suất và khả năng tối đa (Probabilisticand maximum likelihood models): sử dụng một lượng dữ liệu lớn để nghiêncứu sâu hành vi kết nối giữa các nút và cách cấu trúc thay đổi theo sựphát triển của mạng Các kỹ thuật này thường áp dụng các ước lượngxác suất có điều kiện kết hợp với tối ưu hóa hàm mục tiêu để đánh giákhả năng xảy ra của một mối liên kết chưa tồn tại trong mạng Mô hìnhdạng này thường yêu cầu nhiều dữ liệu, khó khăn trong việc điều chỉnh cáctham số phức tạp và cần nhiều thời gian Các nghiên cứu điển hình baogồm: Hierarchical structure model (HSM), Stochastic block model (SBM),Parametric model, Non-parametric model, Local probabilistic model, Factorgraph model, Affiliation model.

• Khai phá đồ thị (graph mining): sử dụng các mô hình đồ thị để khám phácác tri thức và thông tin hữu ích từ lượng dữ liệu lớn Các phương phápchính bao gồm sử dụng các thuật toán dựa trên Apriori như AGM, ACGM,path-join; dựa trên FP-growth như gSpan, CloseGraph, FFSM.

• Học máy (machine learning): hướng tiếp cận này bao gồm các phương pháphọc có giám sát (phân lớp), học không giám sát (phân cụm), học sâu vàgiảm chiều dữ liệu Phương pháp học có giám sát xây dựng mô hình phânlớp dựa trên các bộ dữ liệu huấn luyện Các bộ dữ liệu này có thuộc tínhdựa trên thông tin các độ đo liên kết giữa cặp tác giả và nhãn lớp dựa trênviệc khảo sát sự mở rộng kết nối mạng theo chiều thời gian Theo đó, bàitoán dự đoán liên kết được xem như là bài toán phân lớp nhị phân với nhãnlớp +1 biểu thị việc có liên kết, nhãn lớp −1 biểu thị không có liên kết Cácthuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks,Support Vector Machines, K-Nearest Neighbors, XGboost hay các mô hìnhdạng hồi quy Trong khi phương pháp học không giám sát (phân cụm) tậptrung vào việc dự đoán nhãn lớp cho các mẫu không được gán nhãn dựatrên tính chất quan hệ giữa các mẫu.

Trang 16

• Phương pháp học sâu và giảm chiều dữ liệu: sử dụng các kỹ thuật cáckiến trúc mạng nơ-ron và nhúng mạng (network embedding) cũng đượcquan tâm nghiên cứu trong thời gian gần đây Các kỹ thuật đặc trưng sửdụng trong phương pháp này là DeepWalk [11], Node2vec [12], HARP [13],Walklets [14], subgraph embedding, deep dynamic network embedding [15].

Trong các hướng tiếp cận này, hướng tiếp cận giải quyết bài toán theo hướngphân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiềuưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạttrong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnhvà cải thiện mô hình thông qua quá trình huấn luyện,

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết theo phươngpháp học máy, nội dung của luận án tiếp tục mở rộng nghiên cứu, đề xuất cảitiến các thuật toán phân lớp để đem lại các mô hình phân lớp có chất lượng tốthơn, áp dụng hiệu quả cho bài toán dự đoán đồng tác giả và là cơ sở cho việcxây dựng ứng dụng khuyến nghị cộng tác đồng tác giả trong mạng xã hội họcthuật.

2 Vấn đề nghiên cứu

Như trong phần bối cảnh nghiên cứu đề cập, phương pháp tiếp cận học máyphân lớp cho bài toán dự đoán cộng tác đồng tác giả có những ưu điểm nổi bậtvà được quan tâm nghiên cứu Tuy nhiên, để huấn luyện được một mô hình dựđoán tốt chúng ta cần quan tâm tới các yếu tố ảnh hưởng như: phương phápxây dựng bộ dữ liệu, xây dựng các đặc trưng của dữ liệu và lựa chọn thuật toánhuấn luyện.

Trong ba yếu tố này, vấn đề xây dựng đặc trưng của tập dữ liệu huấn luyệnđược nghiên cứu chủ yếu xung quanh khía cạnh mở rộng các độ đo liên kết vàđánh giá mức độ quan trọng của các độ đo liên kết ảnh hưởng đến chất lượngmô hình phân lớp Các nghiên cứu mở rộng độ đo liên kết hầu hết thường dựatrên thông tin về cấu trúc mạng (dựa trên hàng xóm, dựa trên đường dẫn liênkết), thông tin nghiên cứu và kết nối cộng đồng (thứ tự tên tác giả, chủ đềnghiên cứu, đơn vị nghiên cứu, quốc gia, ) Trong nghiên cứu [16] các tác giảđã tổng hợp có hơn 20 phương pháp tính toán các độ đo liên kết Nhìn chungcác độ đo càng đa dạng, nghĩa là các đặc trưng của dữ liệu ứng viên đồng tácgiả càng được mô tả đầy đủ, thì tạo ra bộ dữ liệu huấn luyện càng chất lượngđưa đến thuận lợi cho việc huấn luyện các mô hình Tuy nhiên, một số nghiêncứu thử nghiệm cho thấy rằng, một số độ đo liên kết có mức độ ảnh hưởng cao

Trang 17

hơn trong việc tạo ra mô hình dự đoán chất lượng, các độ đo còn lại có mức độảnh hưởng ít hơn, đóng vai trò là thuộc tính mang ý nghĩa bổ sung Do vậy khảnăng nghiên cứu mở rộng tìm kiếm thêm các độ đo mới để đóng góp hiệu quảcho việc nâng cao chất lượng mô hình phân lớp là khá hạn chế.

Chúng ta biết rằng không có mô hình học máy nào tốt cho tất cả các bộ dữliệu trong các bài toán khác nhau Do vậy đối với từng bài toán cụ thể, cầnnghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu để xây dựngđược các mô hình phân lớp/dự đoán có chất lượng tốt.

Đối với bài toán dự đoán đồng tác giả tiếp cận theo phương pháp phân lớp,sau khi thu thập thông tin và xây dựng dữ liệu mạng đồng tác giả, bộ dữ liệuhuấn luyện được tạo ra từ mạng đồng tác giả gọi là dữ liệu bảng ứng viên đồngtác giả, gọi tắt là bảng ứng viên Mô tả sơ lược về dữ liệu bảng ứng viên nhưsau Khi đưa thông tin đầu vào là một tác giảvi nào đó, chúng ta xây dựng mộtdanh sách các tác giả vj, vk, vh, có tiềm năng cộng tác hiệu quả với tác giả vitrong tương lai Các tác giả vj, vk, vh, gọi là ứng viên đồng tác giả Theo đó,mỗi cặp(vi, vj) là một cặp ứng viên cộng tác tiềm năng và được xem như là mộtmẫu dữ liệu Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi mộtvéc-tơ thuộc tính, được tính bằng các độ đo liên kết Nhãn lớp (khả năng xảy raliên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trongmạng đồng tác giả theo chiều thời gian Cụ thể hơn, giả sử rằng T2 là khoảngthời gian sauT1 thì các độ đo liên kết được tính từ mạng đồng tác giả trong T1và nhãn lớp +1/ − 1 được xác định bằng cách kiểm tra sự cộng tác thực tế củacác tác giả trong T2 Gán nhãn lớp +1 thể hiện rằng trong thực tế cặp tác giảcó viết chung bài báo, nhãn lớp −1thể hiện cặp tác giả không có viết chung bàibáo nào Trong thực tế, mạng đồng tác giả được biểu diễn bằng một đồ thị thưakết nối, do đó, trong khoảng thời gian T2 số lượng cặp tác giả có kết nối (tức làcùng đứng tên chung trong một bài báo) là rất ít, trong khi số lượng cặp ứngviên đồng tác giả chưa cộng tác (cặp ứng viên tiềm năng) là rất nhiều Điều nàydẫn đến bộ dữ liệu bảng ứng viên được tạo ra là bộ dữ liệu hai nhãn lớp, trongđó có rất nhiều mẫu (đại diện cho mỗi cặp ứng viên đồng tác giả) có nhãn lớp−1và rất ít mẫu dữ liệu cặp ứng viên có nhãn lớp+1, gây ra sự không cân bằngvề số lượng mẫu giữa các lớp Do vậy bộ dữ liệu bảng ứng viên là bộ dữ liệu họcmáy không cân bằng hai nhãn lớp và bài toán dự đoán đồng tác giả là bài toánphân lớp nhị phân.

Hơn nữa, các nghiên cứu tiếp cận giải quyết bài toán dự đoán đồng tácgiả [1][17][18] đều đề cập đến vấn đề không cân bằng về nhãn lớp trong bộ dữliệu huấn luyện ở mức rất cao Điều này gây thách thức cho các thuật toán học

Trang 18

máy truyền thống vì các thuật toán này thường xem xét các mẫu bình đẳngnhau, dẫn đến các mô hình phân lớp thiên về dự đoán sai các mẫu lớp thiểu số.Gần đây, trong luận án Tiến sĩ của Phạm Minh Chuẩn (2018) trình bày cáchtiếp cận giải quyết bài toán dự đoán đồng tác giả theo phuong pháp phân lớp,trong đó đã đề xuất mở rộng các độ đo liên kết mới để bổ sung thêm các đặctrưng của dữ liệu nhằm nâng cao chất lượng của mô hình phân lớp Bên cạnhđó luận án cũng đã nêu ra vấn đề dữ liệu rất không cân bằng về nhãn lớp trongbảng ứng viên Tiếp nối nghiên cứu này, kết hợp với khảo sát các nghiên cứugần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữliệu không cân bằng để áp dụng cho bộ dữ liệu đồng tác giả hầu như rất hạnchế Điều này mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiếnthuật toán, điều chỉnh các tham số mô hình để cải thiện chất lượng các mô hìnhdự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tác giả có sự không cânbằng mức cao về số lượng mẫu giữa các lớp.

Đối với bài toán học máy trên dữ liệu hai nhãn lớp nói chung thường khôngcó sự phân bố đồng đều số lượng mẫu giữa các lớp Tùy thuộc vào từng trườnghợp bài toán cụ thể mức độ chênh lệch số lượng mẫu giữa các lớp là khác nhau,cũng có trường hợp tỷ lệ không cân bằng là rất lớn Trong một số trường hợp,tỷ lệ giữa các phần tử thuộc lớp thiểu số (nhãn lớp có số mẫu ít), gọi tắt lànhãn dương, ký hiệu+1, so với các phần tử thuộc lớp đa số (nhãn lớp có só mẫunhiều), gọi tắt là nhãn âm, ký hiệu −1, có thể lên đến 1:100 thậm chí 1:100,000.Khi áp dụng các thuật toán học máy truyền thống cho các tập dữ liệu khôngcân bằng, đa số các phần tử thuộc lớp đa số sẽ được phân loại đúng trong khicác phần tử thuộc lớp thiểu số dễ bị phân lớp sai thành lớp đa số Việc này dẫnđến kết quả là mô hình huấn luyện có thể có độ chính xác (accuracy) rất caotrong khi giá trị độ nhạy (sensitivity) lại rất thấp Nhìn chung các phương phápphân lớp học máy truyền thống đều khó cho kết quả độ nhạy tốt với các tập dữliệu có tỷ lệ chênh lệch số lượng mẫu giữa các lớp ở mức cao Điều này tạo nênsự thú vị và đem đến động lực nghiên cứu trong việc tìm ra các phương pháp cảitiến nhằm huấn luyện mô hình phân lớp chất lượng khi áp dụng cho bài toándữ liệu không cân bằng Theo [19] nhiều phương pháp đã được đề xuất để giảiquyết vấn đề này, trong đó chủ yếu được phân thành hai nhóm cơ bản: tiếp cậnở mức dữ liệu và tiếp cận ở mức thuật toán.

• Các phương pháp tiếp cận ở mức dữ liệu nhằm mục đích thay đổi sự phânbố số lượng mẫu trong bộ dữ liệu (resampling) bằng cách sinh thêm cácphần tử cho lớp thiểu số (over sampling), giảm bớt các phần tử thuộc lớpđa số (under sampling) hoặc kết hợp cả hai phương pháp để bộ dữ liệu

Trang 19

trở nên cân bằng hơn, sau đó sử dụng các thuật toán học máy mạnh đểtiến hành huấn luyện mô hình phân lớp Một số kỹ thuật làm sạch dữ liệu(data cleaning techniques) như Tomek links cũng được sử dụng để loại bỏsự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thựchiện các thuật toán sinh thêm các mẫu tổng hợp.

• Các phương pháp tiếp cận ở mức thuật toán hướng tới việc cải tiến cácthuật toán phân lớp mạnh truyền thống để có được hiệu quả cao trên cáctập dữ liệu không cân bằng Các phương pháp phổ biến gồm: học mô hìnhdựa trên nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các thamsố thưởng phạt khác nhau gắn với các mẫu nhãn lớp khác nhau Các giảithuật học máy nổi bật được quan tâm nghiên cứu là: sử dụng Boosting, sửdụng Cây quyết định nhạy cảm chi phí (Cost-Sensitive Decision Trees), sửdụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật học sâu, • Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật cân bằng hóa phân

bố số lượng mẫu trong bộ dữ liệu và các phương pháp điều chỉnh trọng sốchi phí để nâng cao chất lượng mô hình huấn luyện, ví dụ: SMOTE kết hợpDifferent Costs (SDCs), SVMs với Under/Over Sampling,

Trong các phương pháp tiếp cận mức thuật toán, các nghiên cứu cải tiếnAdaBoost nhận được nhiều sự quan tâm chú ý AdaBoost là thuật toán học kếthợp tuần tự và thích nghi sửa lỗi qua mỗi lần lặp do Freund [20] đề xuất Thuậttoán kết hợp sử dụng nhiều bộ phân lớp thành viên để tạo thành một bộ phânlớp tổng hợp giúp xem xét kỹ hơn các đặc tính của bộ dữ liệu Do đó thuật toánAdaBoost được chúng tôi lựa chọn để thực hiện nghiên cứu cải tiến.

Cũng cần lưu ý rằng, vấn đề dữ liệu không cân bằng là bài toán xảy ra rấtnhiều trong thực tế như là chẩn đoán bệnh trong y tế, dự báo những sự kiệnthiên tai hiếm gặp, phát hiện xâm nhập mạng, nên các phương pháp thuậttoán hiệu quả trong bài toán dự đoán liên kết trong mạng đồng tác giả cũng cónhiều tiềm năng mở rộng cho các bài toán có dữ liệu không cân bằng trong cáclĩnh vực khác.

Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việcphân loại chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân loại của hailớp Với những dữ liệu không đầy đủ, không chắc chắn, phương pháp xử lý mờdựa trên lý thuyết mờ của Zadeh đưa ra vào năm 1965 tỏ ra hiệu quả Nhiềunghiên cứu đã đề xuất các phương pháp xử lý mờ để giải quyết vấn đề này.

Trang 20

3 Đối tượng và phạm vi nghiên cứu

Trên cơ sở phân tích bối cảnh nghiên cứu và những ưu điểm hạn chế của cácnghiên cứu đã khảo sát, nội dung luận án này tập trung nghiên cứu tiếp cận giảiquyết bài toán dự đoán đồng tác giả theo phương pháp phân lớp Trong đó trọngtâm nghiên cứu là cải tiến các thuật toán học máy trên dữ liệu không cân bằnghai nhãn lớp và áp dụng cho bài toán dự đoán đồng tác giả Cụ thể hơn, luận ánnghiên cứu cải tiến các thuật toán mạnh mẽ và mềm dẻo như là AdaBoost [20],SVM [21], Weighted SVM [22], các thuật toán xử lý mờ như Fuzzy SVM [23],Fuzzy SVM-CIL [24] Luận án tập trung nghiên cứu đề xuất cải tiến các phươngpháp phân lớp nhị phân để ứng dụng hiệu quả cho bài toán dự đoán đồng tácgiả Trong đó trọng tâm là giải quyết vấn đề dữ liệu không cân bằng giữa cáclớp.

Về phạm vi nghiên cứu, luận án tập trung nghiên cứu bài toán dự đoán đồngtác giả, đề xuất thử nghiệm các phương pháp cải tiến thuật toán nhằm nângcao chất lượng phân lớp trên các bộ dữ liệu có sự không cân bằng về số lượngmẫu giữa các lớp nói chung và áp dụng cho dữ liệu bảng ứng viên được tạo ratừ mạng đồng tác giả Dữ liệu bảng ứng viên đồng tác giả sử dụng trong cácthử nghiệm kế thừa từ nguồn thông tin tác giả bài báo tự thu thập trước đây.Các thuộc tính của mẫu dữ liệu ứng viên đồng tác giả được xây dựng đặc trưngtừ một số độ đo liên kết cơ bản Các nội dung liên quan đến vấn đề về mở rộngđộ đo liên kết, phương pháp tiếp cận dự đoán đồng tác giả khác cũng được đềcập nhưng không phải là phạm vi nghiên cứu chính của luận án.

4 Mục tiêu nghiên cứu

Luận án này hướng tới cải tiến các phương pháp học máy để giải quyết tốthơn vấn đề học trên dữ liệu không cân bằng trong bài toán dự đoán đồng tácgiả Luận án tập trung vào hai vấn đề nghiên cứu chính sau:

• Thứ nhất, nghiên cứu cải tiến phương pháp học kết hợp AdaBoost cho dữliệu không cân bằng ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đềnghiên cứu này hướng đến việc cải tiến phương pháp học kết hợp mạnh mẽnhư AdaBoost [20] để phù hợp cho dữ liệu không cân bằng thông qua việcthiết kế các tham số điều chỉnh thích nghi với mức độ không cân bằng củadữ liệu.

• Thứ hai, nghiên cứu cải tiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệukhông cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả? Vấn đề

Trang 21

nghiên cứu này hướng tới việc áp dụng điều chỉnh thích nghi các đại lượngtrọng số mờ kết hợp với thuật toán học dựa trên chi phí, giúp huấn luyệncác mô hình phân lớp hiệu quả hơn khi dữ liệu có sự không cân bằng caovề nhãn lớp Ngoài ra, luận án cũng nghiên cứu xử lý các trường hợp dữliệu trong vùng nhạy cảm ảnh hưởng tới chất lượng mô hình phân lớp nhưmẫu dữ liệu gần đường biên phân lớp hoặc là mẫu dữ liệu là nhiễu.

• Luận án đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bàitoán dự đoán cộng tác đồng tác giả theo dạng học trên dữ liệu không cânbằng hai lớp Thuật toán đề xuất có hai cải tiến chính: (1) xây dựng mộthàm tính trọng số mờ cho các mẫu dữ liệu giàu ngữ nghĩa hơn dựa trênFuzzy SVM-CIL khi xem xét khoảng cách từ mỗi mẫu đến tâm của cả hailớp; (2) phương pháp điều chỉnh thích nghi các giá trị trọng số mờ của mẫunằm trong không gian phân lớp nhạy cảm như trên đường biên hoặc mẫulà nhiễu dựa trên KNN, Tomek link và SVM Các kết quả nghiên cứu nàyđã được công bố các bài báo số [CT.2][CT.4][CT.5].

Các đóng góp của luận án trọng tâm hướng đến áp dụng cho bài toán dự đoánđồng tác giả trong mạng xã hội học thuật Tuy nhiên các thuật toán cải tiếnnày cũng có thể mở rộng áp dụng cho các bài toán học máy với dữ liệu khôngcân bằng mức cao trong các lĩnh vực khác.

6 Bố cục của luận án

Với các đóng góp nêu trên, luận án được trình bày trong 3 chương chính:

Trang 22

• Chương 1: Nội dung Chương 1 trình bày tổng quan về vấn đề nghiên cứu,bao gồm: bài toán dự đoán đồng tác giả và các phương pháp tiếp cận; cáckiến thức nền tảng liên quan như vấn đề học trên dữ liệu không cân bằng;các thuật toán nghiên cứu cải tiến; các bộ dữ liệu thử nghiệm; môi trườngthử nghiệm và phương pháp đánh giá hiệu quả thuật toán.

• Chương 2: Nội dung Chương 2 trả lời cho câu hỏi nghiên cứu: Nghiên cứucải tiến phương pháp học kết hợp AdaBoost cho dữ liệu không cân bằng vàứng dụng trong dự đoán đồng tác giả? Chương này đề xuất một số phươngpháp cải tiến thuật toán AdaBoost cho bài toán dữ liệu không cân bằng,ứng dụng cho dự đoán cộng tác đồng tác giả.

• Chương 3: Nội dung Chương 3 trả lời câu hỏi nghiên cứu: Nghiên cứu cảitiến thuật toán phân lớp mờ Fuzzy SVM cho dữ liệu không cân bằng và ứngdụng trong bài toán dự đoán đồng tác giả? Chương này đề xuất một thuậttoán điều chỉnh trọng số mờ thích nghi nhằm giải quyết vấn đề dữ liệukhông cân bằng và xử lý vấn đề phân lớp cho các mẫu ở vùng nhạy cảm đểáp dụng cho bài toán dự đoán cộng tác đồng tác giả.

Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng vàchi tiết nội dung giải pháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quảcác thách thức nêu ra.

Trang 23

Chương 1

TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

Chương này của luận án giới thiệu các kiến thức cơ bản về bài toán phân lớpnhị phân có tính chất dữ liệu không cân bằng và các vấn đề liên quan khi ứngdụng vào bài toán dự đoán đồng tác giả được mô hình hóa theo dạng phân lớp.Một số phương pháp tiếp cận giải quyết bài toán và thuật toán phân lớp nhịphân nổi bật cũng được phân tích để đưa ra các định hướng nghiên cứu cải tiếncác thuật toán.

1.1 Bài toán phân lớp với dữ liệu không cân bằng

Dữ liệu không cân bằng là khái niệm đề cập đến các bộ dữ liệu có đặc điểmphân bố số lượng mẫu trong mỗi lớp có sự chênh lệch cao Bài toán phân lớptrên dữ liệu không cân bằng là một vấn đề thách thức trong học máy Để giảiquyết bài toán phân lớp trên dữ liệu không cân bằng nói chung, các nghiên cứutập trung vào hai hướng giải quyết chính đó là: sửa đổi tập dữ liệu để giảm mứcđộ không cân bằng mẫu giữa các lớp và cải tiến thuật toán thông qua việc điềuchỉnh các tham số.

Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào bộdữ liệu gốc để tạo ra bộ dữ liệu huấn luyện có tỷ lệ phân bố mẫu cân bằng hơn,từ đó làm cơ sở cho các thuật toán phân lớp truyền thống hoạt động hiệu quảhơn Có thể thay đổi sự phân bố số lượng mẫu trong bộ dữ liệu (ReSampling)bằng cách sinh thêm các phần tử cho lớp thiểu số (Over Sampling) như Ran-dom Oversampling, Synthetic Minority Oversampling Technique (SMOTE) [25],Border-line-SMOTE [26], Adaptive Synthetic Sampling (ADA-SYN)[27] over-sampling dựa trên cụm (Cluster Based Sampling-CBO) [28], SMOTEBoost [29],OSD [30] hay giảm bớt các phần tử thuộc lớp đa số (Under Sampling) nhưEasyEnsemble [31], BalanceCascade [32], KNN-NearMiss [33], để bộ dữ liệutrở nên cân bằng hơn, từ đó sử dụng các thuật toán học máy mạnh để phân lớp.Một số kỹ thuật làm sạch dữ liệu (data cleaning techniques) như Tomek linksđược dùng để loại bỏ sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệusau khi thực hiện các thuật toán tạo các mẫu tổng hợp (Over Sampling) [34][35].

Trang 24

Các phương pháp tiếp cận ở mức thuật toán hướng tới việc điều chỉnh cácthuật toán phân lớp truyền thống để vẫn đạt được hiệu quả cao trên các tậpdữ liệu không cân bằng Các phương pháp phổ biến như học dựa trên nhạycảm chi phí [36][37][38], điều chỉnh xác suất ước lượng [30][39], sử dụng cáchằng số phạt khác nhau cho các nhãn lớp khác nhau [40][41] Một số thuậttoán được nghiên cứu cải tiến điển hình như: Boosting [20], AdaC1, AdaC2,AdaC3 [42][43][44][45][46], sử dụng Cây quyết định (Cost-Sensitive DecisionTrees) [38][47], sử dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹthuật học sâu, Một số nghiên cứu khác sử dụng kết hợp cải tiến thuật toán vàsửa đổi mẫu như [19][48][49][50][51].

Việc sử dụng các phương pháp tiếp cận ở mức dữ liệu trong một số trườnghợp nào đó có thể dẫn đến mất đi những thông tin quan trọng của bộ dữ liệuhoặc đưa nhiễu vào tập dữ liệu Do đó, luận án tiếp cận giải quyết bài toán códữ liệu không cân bằng ở mức thuật toán, tức là nghiên cứu cải tiến các thuậttoán truyền thống để nó đạt được hiệu quả phân lớp tốt trên dữ liệu không cânbằng Trong đó, luận án lựa chọn các giải thuật mạnh như học kết hợp boostinghay SVM có trọng số để nghiên cứu cải tiến, giải quyết vấn đề phân lớp trên dữliệu không cân bằng.

Phân tích một số phương pháp tiếp cận ở mức thuật toán để giải quyết khôngcân bằng dữ liệu, các phương pháp dựa trên cải tiến dựa trên AdaBoost [42],cải tiến dựa trên SVMs [21][52] và các phương pháp học sâu dựa trên CNN [53]thu hút rất nhiều sự quan tâm bởi tính tùy biến mở rộng của các thuật toáncho các bài toán có dữ liệu có tính chất khác nhau là rất hiệu quả.

Thuật toán học kết hợp AdaBoost do Freund [20] đề xuất dựa trên quan điểmlà: khi sử dụng một bộ phân lớp đơn lẻ có thể sẽ không xem xét một cách đầyđủ các đặc điểm của tập dữ liệu, do đó việc kết hợp sử dụng nhiều bộ phân lớpthành viên khác nhau để tạo thành một bộ phân lớp tổng hợp có thể sẽ xemxét kỹ hơn các đặc tính của dữ liệu và đem lại hiệu quả phân lớp tốt hơn Đểsử dụng kết hợp các bộ phân lớp con, thường có hai cách kết hợp là tuần tự(boosting) hoặc song song (bagging) AdaBoost là kiểu kết hợp tuần tự và sửalỗi phân lớp thích nghi qua mỗi lần lặp Về phương pháp học kết hợp dạng songsong, nổi bật nhất là thuật toán rừng ngẫu nhiên (Random forest) Thuật toánnày chia nhỏ bộ dữ liệu gốc thành các tập dữ liệu con bằng kỹ thuật bootstrapvà sử dụng các bộ phân lớp thành viên cho các tập dữ liệu con, sau đó kết quảphân lớp chung cuối cùng sẽ được tổng hợp từ các bộ phân lớp thành viên Tuy

Trang 25

nhiên trong trường hợp dữ liệu không cân bằng, đặc biệt là dữ liệu không cânbằng mức cao, số lượng mẫu nhãn dương+1 là rất ít Vì vậy việc lấy mẫu ngẫunhiên để tạo ra các bộ dữ liệu con khó đảm bảo đầy đủ tính chất của dữ liệu.Do đó, thuật toán học kết hợp AdaBoost được luận án lựa chọn để thực hiệnnghiên cứu cải tiến.

SVM [21] là một thuật toán phân lớp mạnh trong học máy SVM đã đượcnghiên cứu rộng rãi và được chứng minh là một phương pháp phân lớp mạnhtrong các kết quả thực nghiệm Giải thuật này đặc biệt hiệu quả đối với các dữliệu phân biệt tuyến tính Ngoài ra, thuật toán cũng khá mềm dẻo và có khảnăng cải tiến mở rộng để đạt hiệu quả cao trên những bộ dữ liệu có đặc tínhkhác nhau Đối với bài toán phân lớp dữ liệu không cân bằng, đã có rất nhiềucác nghiên cứu cải tiến SVM như là Weighted-SVM [22], Kernel-SVM, đặc biệtlà Fuzzy SVM [23], Fuzzy SVM-CIL [24].

Một điều cần lưu ý nữa là hai thuật toán AdaBoost và SVM đều sử dụnghàm xét dấu (−/+) để đưa ra kết quả phân lớp nên nó trở thành lựa chọn hợplý và phù hợp để cải tiến cho bài toán phân lớp nhị phân có dữ liệu không cânbằng mà luận án hướng tới.

Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trong các lớp, mộtvấn đề chung để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việcphân lớp chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu lànhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân lớp của hailớp Để xác định các vùng không gian chứa các mẫu nhạy cảm này, chúng ta cầncác phương pháp đo lường khoảng cách hoặc xem xét phân bố các mẫu Do vậychúng ta cần lưu ý đến việc sử dụng các thuật toán như K-nearest neighbors(KNN) và Tomek link để định vị các mẫu trong không gian phân bố Mặt khácSVM là thuật toán phân lớp dạng tuyến tính dựa trên lề và có các tham số điềuchỉnh để mở rộng hoặc co hẹp không gian biên lề phân lớp Khi sử dụng SVMlàm bộ phân lớp cơ sở, chúng ta hoàn toàn có thể xác định được vùng khônggian nhạy cảm là biên lề phân lớp Ngoài ra, với dữ liệu không đầy đủ, khôngchắc chắn, phương pháp xử lý mờ dựa trên lý thuyết tập mờ của Zadeh [54] đưara vào năm 1965 tỏ ra hiệu quả Nhiều nghiên cứu đã đề xuất các phương phápxử lý mờ để giải quyết vấn đề này Vì vậy việc nghiên cứu vận dụng và cải tiếncác thuật toán như AdaBoost, SVM có trọng số, KNN, Tomek link [55] và cácgải thuật phân lớp mờ Fuzzy SVM, Fuzzy SVM-CIL cho dữ liệu không cân bằngmang đến nhiều triển vọng.

Trang 26

Dựa vào việc phân tích trên, trong phần tiếp theo, luận án sẽ trình bày tómlược các thuật toán liên quan làm cơ sở cho các nghiên cứu cải tiến nhằm hướngđến giải quyết bài toán phân lớp nhị phân trên dữ liệu không cân bằng nói chungvà ứng dụng trong bài toán dự đoán cộng tác đồng tác giả nói riêng.

1.2 Một số thuật toán liên quan1.2.1 Thuật toán SVM

Thuật toán 1.1: Thuật toán SVM

Input: Tập dữ liệu X = {(x1, y1), , (xN, yN)}với yi= {−1, +1}; C: thamsố điều chỉnh kiểm soát sự đồng nhất của siêu phẳng phân lớp.Output: Hệ số w: véc-tơ trọng số của các thuộc tính, b: thuộc tính độ

lệch để xác định siêu phẳng phân lớp.

1 Khởi tạo w và b

2 for Lặp đến khi hội tụ do

3 for Duyệt từng mẫu huấn luyện xi do

trong đóω là ma trận tham số, b là hệ số Các bước huấn luyện của SVM đượctrình bày cụ thể ở Thuật toán 1.1.

Trang 27

1.2.2 Thuật toán Weighted-SVM

Đối với vấn đề học máy trên dữ liệu không cân bằng hai nhãn lớp, đã có nhiềucải tiến của thuật toán SVM được đề xuất như [24][56][57][58][59] Một cải tiếnnổi bật, điển hình trong số đó là thuật toán Weighted-SVM (WSVM) [22].

Weighted-SVM gán các trọng số cho các mẫu huấn luyện để biểu diễn mức độảnh hưởng của các mẫu trong việc huấn luyện mô hình phân lớp Trong WSVM,hàm mục tiêu được biểu diễn như sau:

Hàm mục tiêu mới ở Công thức (1.2) có hai mục đích, thứ nhất là tối đa hóabiên lề phân lớp, thứ hai là giảm thiểu số lượng mẫu bị phân lớp sai.

Hình 1.1: Các trường hợp của ξ trong Soft-SVM

Trang 28

1.2.3 Fuzzy SVM-CIL

Batuwita và các cộng sự đã đề xuất một thuật toán Fuzzy SVM-CIL trongnghiên cứu [24] dựa trên thuật toán Fuzzy SVM được công bố trong nghiêncứu [23] để cải thiện hiệu quả phân lớp cho các tập dữ liệu không cân bằng.Fuzzy SVM-CIL gán trọng số cho các mẫu dựa trên các hàm thuộc mờ theocách ưu tiên các giá trị trọng số cao hơn cho các mẫu thiểu số và các giá trịtrọng số thấp hơn cho các mẫu đa số Sử dụng một bộ phân lớp cơ sở ban đầu,các trọng số của mẫu được tính toán bằng các hàm thuộc mờ f (xi).

Hàm thuộc mờ f (xi) được xác định dựa trên vị trí của mẫu xi trong khônggian đặc trưng Rn Theo đó, các mẫu có khoảng cách gần hơn: tới "trung tâmlớp" thuộc về, tới siêu phẳng thực, tới siêu phẳng ước lượng thì được xem làcó ảnh hưởng cao hơn tới việc huấn luyện mô hình khi so với các mẫu còn lại.Nghĩa là chúng có giá trị trọng số mờ cao hơn các mẫu còn lại Một mẫu ở xa"trung tâm lớp" hoặc các siêu phẳng của nó được coi là ít quan trọng hơn và dođó nó được gán bởi một giá trị trọng số mờ nhỏ hơn Khái niệm "trung tâm lớp"ở đây là một mẫu đại diện cho các mẫu được phân loại về cùng một lớp bởi mộtbộ phân lớp cơ sở SVM Giá trị véc-tơ đặc trưng của mẫu "trung tâm lớp" đượctính bằng trung bình cộng các giá trị thuộc tính của các mẫu được phân loại vềlớp đó Trong FSVM-CIL, các hàm thuộc mờ được thiết kế để xác định các giátrị trọng số mờ nhằm đáp ứng các mục tiêu chính: giảm ảnh hưởng của sự khôngcân bằng giữa các lớp dữ liệu; phản ánh tầm quan trọng của các mẫu trong mộtmô hình đào tạo; và giảm ảnh hưởng của các ngoại lệ và mẫu gây nhiễu FSVM-CIL gán các giá trị trọng số mờ cao hơn, được biểu thị bằngm+i (i = 1, 2, · · · , N ),cho các mẫu thiểu sốx+i (được gắn nhãn +1, được gọi là mẫu dương) và các giátrị trọng số mờ thấp hơn, được biểu thị bằng m−i (i = 1, 2, · · · , N ), cho các mẫuđa số x−i (được gắn nhãn -1, còn gọi là mẫu âm) Các giá trị trọng số mờ đượctính bằng:

m+i = f x+i × r+,m−i = f x−i × r−,

trong đó f (xi) ∈ (0, 1) là một hàm thuộc mờ phản ánh tầm quan trọng của xi

trong lớp của chính nó, trong khi r+ và r− biểu thị mức độ ảnh hưởng của tỷ lệkhông cân bằng trong tập dữ liệu FSVM-CIL chỉ định r+ = 1 và r− = r, trongđó r là tỷ lệ không cân bằng giữa tầng lớp thiểu số và tầng lớp đa số và do đó

Trang 29

(0, 1), trong khi các mẫu âm tính có giá trị trong khoảng (0, r).

Trong FSVM-CIL, f (xi) sử dụng ba thước đo khoảng cách từ mẫu xi: đếntrung tâm lớp của nó (dceni ); đến siêu phẳng ước tính (dshpi ) được xác định làtrung tâm của toàn bộ tập dữ liệu; đến siêu phẳng thực tế (dhypi ) được hìnhthành bởi mô hình SVM cơ bản Đối với mỗi phương pháp dựa trên khoảngcách, FSVM-CIL xây dựng 2 hàm thuộc mờ, một là hàm tuyến tính mờ (lin)vàhàm kia là hàm mũ mờ(exp) Kết quả là 6 hàm thuộc mờ của mẫuxi được hìnhthành như sau:

+) Dựa trên khoảng cách đến trung tâm lớp riêng:flincen(xi) = 1 − d

+ ∆

fexpshp(xi) = 21 + exp

+) Dựa trên khoảng cách đến siêu phẳng thực tế:

flinhyp(xi) = 1 − d

+ ∆

fexphyp(xi) = 21 + exp

trong đó∆là một giá trị dương nhỏ để tránh trường hợp các đại lượngflincen(xi) =0, flinshp(xi) = 0, flinhyp(xi) = 0 và β ∈ [0, 1] để kiểm soát độ dốc của các hàm số mũfexpcen(xi), fexpshp(xi) và fexphyp(xi).

1.2.4 Thuật toán AdaBoost

Trong vấn đề phân lớp cho tập dữ liệu không cân bằng hai lớp, sử dụng mộtthuật toán đơn lẻ có thể không xem xét đầy đủ các đặc điểm của tập dữ liệu.Do đó, nhiều nghiên cứu kết hợp các thuật toán phân lớp, được gọi là bộ phânlớp thành viên, để tạo thành một bộ phân lớp mạnh hơn [40][42] Thuật toán

Trang 30

AdaBoost do Freund [20] đề xuất là một bộ phân lớp mạnh như vậy Với một bộdữ liệu học máy cụ thể, ý tưởng chính của AdaBoost là gán các trọng số lỗi chomỗi mẫu và sử dụng các vòng lặp để thích nghi huấn luyện Trong mỗi lần lặp,thực hiện điều chỉnh trọng số lỗi trên mỗi mẫu dữ liệu và đánh giá lại kết quảphân lớp của các bộ phân lớp thành viên Quá trình này cho phép giải thuậtsửa lỗi phân loại sai trên các mẫu ở vòng lặp trước đó Kết quả của quá trìnhhuấn luyện là bộ phân lớp được tổng hợp từ các bộ phân lớp thành viên Chitiết các bước của thuật toán AdaBoost được trình bày trong Thuật toán 1.2.

Thuật toán 1.2: Thuật toán AdaBoost

Input: Tập dữ liệu X = {(x1, y1), , (xN, yN)} với yi= {−1, +1}; M: sốbộ phân lớp thành viên; h1: bộ phân lớp thành viên.

Output: H(x): bộ phân lớp tập hợp.

1 Khởi tạo tập trọng số lỗi D1= {ω1i = N1} trên mỗi mẫu dữ liệu(xi, yi) ∈ X (i = 1, · · · , N);

2 for t = 1 to M do

3 Đặt ht← Training(X) với tập trọng số lỗi Dt;

4 Tính tổng lỗi của ht: εt =PNi=1ωti, yi̸= ht(xi);

5 Tính trọng số độ tin cậy của ht: αt = 12ln1−εt

Nhãn phân lớp của một mẫu xi được xác định dựa vào của hàm xét dấuH(xi) = sign(PM

t=1αtht(xi)) Cụ thể: gán nhãn +1 khi H(xi) > 0 và nhãn −1khi H(xi) < 0 Nếu tổng lỗi εt trên tập dữ liệu bằng 0.5, thì αt = 0, nghĩa là bộphân lớp ht(x) không đóng góp vào quyết định phân lớp của bộ phân lớp tổng

Trang 31

hợp H(x).

1.2.5 Thuật toán CNN

Mạng nơ-ron nhân chập (Convolutional Neural Networks – CNN) là một mạngđiển hình cho mô hình học sâu lấy cảm hứng từ cấu trúc và chức năng của thịgiác con người CNN là một mạng nơ-ron truyền thẳng có nhiều tầng, trong đótầng nhân chập (Convolutional Layer) và tầng gộp (Pooling Layer) được sắp xếphoán đổi lẫn nhau, tầng cuối cùng là một tầng kết nối đầy đủ (Dense Layer).Đặc trưng nổi bật của CNN là trong quá trình tích chập nó sử dụng nhiều bộlọc đặc trưng trượt trên các ma trận điểm dữ liệu để trích xuất các đặc trưngtương ứng của dữ liệu Do đó, sau quá trình tích chập sẽ thu được ma trận cácgiá trị đặc trưng và cần tới tầng gộp để giảm kích thước của đầu ra từ tầng tíchchập, giữ lại các đặc trưng quan trọng và giảm độ phức tạp của mô hình Saucác tầng tích chập và gộp, thông tin được chuyển đến các tầng kết nối đầy đủđể thực hiện phân loại hoặc dự báo Các nơ-ron trong lớp này kết nối với tấtcả các nơ-ron trong lớp trước đó Tầng tích chập có khả năng học các mẫu cụcbộ (local patterns) trong khi tầng kết nối đầy đủ có thể học các mẫu tổng thể(global patterns) Mô hình phân lớp sử dụng kiến trúc CNN có thể được coi làsự kết hợp của hai giai đoạn: trích xuất đặc trưng và phân loại Các tầng tíchchập và tầng gộp thực hiện chức năng trích xuất các đặc trưng của dữ liệu Sauđó, các tầng được kết nối đầy đủ hoạt động như một bộ phân loại trên các đặctrưng này và chỉ định xác suất cho hình ảnh đầu vào thuộc nhãn nào Trongkhi 2D-CNN thường được sử dụng đặc hiệu cho các ứng dụng trong lĩnh vựcthị giác máy tính thì 1D-CNN được thiết kế đặc biệt để hoạt động với dữ liệumột chiều Có thể kể đến một số lợi ích khi sử dụng 1D-CNN so với 2D-CNNnhư độ phức tạp tính toán được giảm xuống đáng kể, kiến trúc mạng nông dễhiểu và dễ triển khai hơn và việc huấn luyện 1D-CNN sử dụng ít tài nguyêntính toán hơn so với 2D-CNN [60] Đã có nhiều nghiên cứu chỉ ra việc áp dụng1D-CNN trong việc giải quyết các bài toán thực tế có dữ liêu một chiều, điểnhình như bài toán phát hiện tấn công mạng [60], phát hiện lỗi trong các thiếtbị công nghiệp [61], dự báo mức nicotin trong việc xây dựng các ứng dụng caithuốc lá [62], phân loại hỗn hợp cá hồi và cá tuyết [63] Kiến trúc của một mạngCNN-1D điển hình được minh họa ở Hình 1.2.

Trang 32

Hình 1.2: Minh họa kiến trúc CNN-1D

1.2.6 Phương pháp Cây quyết định

Cũng giống như SVM, mô hình Cây quyết định (Decision Trees) là các thuậttoán học máy có thể thực hiện công việc phân loại và hồi quy, có tiềm năngnghiên cứu mở rộng, hiệu suất ổn định khi thực hiện học trên các tập dữ liệuphức tạp Trong học máy, mô hình Cây quyết định nhận đầu ra là các giá trị rờirạc trong tập hữu hạn được gọi là cây phân loại (classification trees) Với mụcđích phân loại, các nút lá sẽ biểu diễn các kết quả phân loại của thuật toán, vàcác nhánh thể hiện phép giao giữa các đặc trưng dẫn tới các kết quả đoán nhận.

Mô hình huấn luyện Cây quyết định được tóm tắt qua các bước như sau:Thuật toán 1.3: Thuật toán huấn luyện Cây quyết định

Input: Tập dữ liệu X = {(x1, y1), , (xN, yN)} với y = {−1, +1}.Output: Cây quyết định đã huấn luyện.

1 if nếu tất cả các mẫu thuộc về cùng một lớp then

2 trả về một nút lá với nhãn của lớp đó.

3 if nếu không còn đặc trưng nào để phân loại then

4 trả về một nút lá với nhãn là lớp có số lượng mẫu nhiều nhất.

5 Đo lường độ tinh khiết của tập dữ liệu hiện tại (gini, entropy, hay error).

6 Chọn đặc trưng tốt nhất để phân loại mẫu

7 Chia dữ liệu thành các tập con dựa trên giá trị của đặc trưng được chọn.

8 for đối với mỗi tập con do

9 Gọi đệ quy thuật toán trên tập con đó.

10 Gắn nhãn cho nút hiện tại bằng nhãn của nút lá trả về từ đệ quy.

11 return DT (x).

Trang 33

Ở dòng 8 của Thuật toán 1.3, để chọn lựa đặc trưng phân loại tốt nhất, cầnphải tính toán đo lường độ tinh khiết của tập dữ liệu hiện tại Việc đo lường độtinh khiết (impurity) của tập dữ liệuD thường sử dụng công thức gini, entropyhoặc error cụ thể như sau:

Tomek Links

Thuật toán Tomek link [55] dùng để xác định các cặp Tomek Links, cụ thể làTLPs (Tomek Links pairs), được định nghĩa là các cặp gồm hai mẫu thuộc hailớp khác nhau với khoảng cách ngắn nhất Giả định rằng Smin và Smaj lần lượtlà tập hợp các mẫu đa số và thiểu số, vàd(xi, xj) là khoảng cách giữa xi ∈ Sminvà xj ∈ Smaj Cặp (xi, xj) được gọi là TLP nếu không tồn tại xk bất kỳ sao cho

Trang 34

Thuật toán 1.4: Thuật toán KNN

Input: Tập dữ liệu X; K: số láng giềng gần nhất sẽ xem xét; d(x1, x2):độ đo khoảng cách.

Output: H(x): Kết quả phân lớp.

1 Bước 1: Tìm K hàng xóm gần nhất: đối với mỗi điểm dữ liệu trong tậpkiểm tra, tính khoảng cách đến tất cả các điểm trong tập huấn luyện vàchọn ra K điểm gần nhất.

2 Bước 2: Xác định nhãn lớp: dựa trên K điểm gần nhất, xác định lớpcủa điểm dữ liệu kiểm tra bằng cách bầu chọn (voting).

3 Bước 3: Lặp lại các bước cho các mẫu tiếp theo.

4 return Kết quả dự đoán cho tất cả các điểm dữ liệu.

Tomek Links Pairs

Hình 1.3: Minh họa các cặp TLPs

d(xi, xk) < d(xi, xj) hoặc d(xj, xk) < d(xi, xj) Hình 1.3 minh họa vị trí của cácTLP trong tập dữ liệu Khi xác định được vị trí TLP, hai mẫu trong TLP sẽtạo ranh giới lớp hoặc một trong hai mẫu trong TLP bị nhiễu.

Trong vấn đề học máy cho bài toán có dữ liệu không cân bằng về nhãn lớp,TLP thường được sử dụng để làm sạch bộ dữ liệu sau khi thuật toán SMOTEvà các biến thể của nó [25][26][29][34][35] tạo ra nhiều mẫu tổng hợp hơn cholớp thiểu số Do đó, các bộ dữ liệu được tạo sẽ có sự cân bằng hơn và do đó, cácthuật toán phân lớp cải thiện hiệu suất chính xác hơn trên các mẫu thiểu số.Cho đến nay, các phương pháp sử dụng và cải tiến thuật toán Tomek Links rấtđa dạng như OOS [64], CNN+Tomek links [49], NCL [65], SMOTE+ENN [66],v.v Tuy nhiên, trong các phương pháp trên, việc xóa các TLP đó sẽ làm thayđổi bộ dữ liệu gốc Cụ thể, một số mẫu thiểu số (nhãn dương, +1 sẽ bị loại bỏ,trong khi chúng là nhãn quan trọng cần được giữ lại và ưu tiên phân lớp đúngtrong bộ dữ liệu không cân bằng.

Trang 35

1.3 Bài toán dự đoán đồng tác giả1.3.1 Giới thiệu

Mạng đồng tác giả được tạo ra từ dữ liệu công bố học thuật trong lĩnh vựcnghiên cứu khoa học Mạng thường được biểu diễn dưới dạng cấu trúc đồ thị.Từ thông tin trong mạng, các nhà nghiên cứu sẽ sử dụng các công cụ, cácphương pháp phân tích để hiểu về cấu trúc, mô hình tương tác, và xu hướngnghiên cứu trong cộng đồng học thuật Việc xây dựng mạng đồng tác giả vàgiải quyết các bài toán đặt ra trong mạng đồng tác giả đang thu hút sự quantâm của nhiều nhóm nghiên cứu và công bố nhiều công trình trên các tạp chínhư: [1][4][17][18][67][68][69] Các bài toán trong mạng đồng tác giả rất đa dạng.Bên cạnh các các bài toán biểu diễn, phân tích, truy vấn và tìm kiếm thông tinnhư: phân tích mối quan hệ học thuật, tìm kiếm thông tin học thuật, quản lýdanh tiếng học thuật, hỗ trợ trong tìm kiếm cơ hội nghiên cứu và công việc, hỗtrợ quản lý dự án nghiên cứu thì các bài toán dẫn xuất thông tin cũng thuhút nhiều quan tâm nghiên cứu như: phát triển hệ thống khuyến nghị, tìm kiếmcộng tác nghiên cứu, xác định các mối quan hệ học thuật tiềm năng, phân tíchxu hướng nghiên cứu, đo lường tầm ảnh hưởng và uy tín học thuật, đánh giá sựảnh hưởng của một nghiên cứu, phát hiện cộng đồng nghiên cứu,

Hình 1.4: Tổng quan quy trình giải quyết các bài toán trong mạng ASN

Tổng quan lược đồ quy trình giải quyết các bài toán trong mạng đồng tácgiả được mô tả trong Hình 1.4 Với các bài toán đặt ra đa dạng như vậy, mạng

Trang 36

đồng tác giả đóng vai trò là một công cụ quan trọng trong cộng đồng nghiêncứu và học thuật, giúp tạo ra sự kết nối và hiểu biết sâu hơn giữa các tác giảvà những người tham gia trong lĩnh vực nghiên cứu cụ thể Nó cung cấp thôngtin giá trị và cơ hội hợp tác để phát triển kiến thức và công trình nghiên cứu.Bằng cách xem xét mạng đồng tác giả, người nghiên cứu có thể khám phá cáclĩnh vực nghiên cứu mới hoặc nguồn tài liệu tham khảo mà họ có thể chưa biếtđến Nó cũng giúp cải thiện hiệu suất nghiên cứu, xác định xu hướng và tạo racơ hội hợp tác trong cộng đồng học thuật.

Trong thực tế, việc mở rộng không gian mạng đồng tác giả phụ thuộc hoàntoàn vào việc số lượng các bài báo được xuất bản trên các tạp chí Muốn có đượccác kết quả nghiên cứu tốt, đòi hỏi các nhà nghiên cứu phải tìm kiếm được cáccộng sự có khả năng hợp tác phù hợp Điều này giúp cho các nhà khoa học thựchiện tốt các dự án nghiên cứu, kích thích sự sáng tạo trong nghiên cứu hoặccùng thực hiện các công việc chung khác Do đó, việc nghiên cứu các phươngpháp để xây dựng một ứng dụng có thể khuyến nghị gợi ý cộng tác cùng nghiêncứu trong mạng đồng tác giả trở nên cần thiết và có nhiều ý nghĩa trong việcthúc đẩy các hoạt động nghiên cứu khoa học.

Bài toán gợi ý đồng tác giả [4] có thể xem như là một bài toán dẫn xuất mởrộng theo hướng ứng dụng trong một cộng đồng cụ thể của bài toán dự đoánliên kết trong mạng xã hội nói chung Bài toán dự đoán liên kết trong mạngđồng tác giả được gọi là bài toán dự đoán đồng tác giả Bài toán này liên quanđến việc dự đoán các mối quan hệ (liên kết) tiềm năng giữa các tác giả trongmạng đồng tác giả dựa trên thông tin về quan hệ và sự tương tác giữa họ trongquá khứ Trong mạng đồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút)được biểu diễn thông qua các cạnh và định lượng thông qua các độ đo liên kết.Các độ đo này thường được hình thành dựa trên các thông tin liên kết như dựatrên số lượng hàng xóm chung, dựa trên chiều dài đường dẫn liên kết [2] Ngoàira, một số độ đo liên kết khác xem xét đến những thông tin đặc trưng của khônggian cộng đồng nghiên cứu học thuật như vị trí thứ tự tên tác giả trong bài báo,hay trích xuất thông tin chủ đề lĩnh vực nghiên cứu [70], v.v.

Có nhiều phương pháp tiếp cận đã được các nhà nghiên cứu đề xuất cho bàitoán dự báo liên kết trong mạng đồng tác giả [1] Cách tiếp cận truyền thống vàđơn giản nhất thường gặp là xây dựng các độ đo tương đồng (similarity measure)giữa hai nút của mạng, theo đó hai nút có độ tương đồng càng lớn thì càng có khảnăng xuất hiện liên kết trong tương lai Các độ đo tương đồng thường được xác

Trang 37

định dựa trên hai thông tin chính là tương đồng về nội dung và tương đồng vềcấu trúc của mạng, phổ biến như: độ đo hàng xóm chung (Common Neighbor),hệ số Jaccard, Adamic Adar, Các độ đo sau khi tính có thể được sử dụngtrực tiếp để dự đoán liên kết bằng cách sắp thứ tự độ tương đồng giảm dần rồichọn top-N các liên kết có khả năng lớn nhất.

Một số phương pháp khác áp dụng các ước lượng xác suất có điều kiện kết hợpvới tối ưu hóa hàm mục tiêu để đánh giá khả năng xảy ra của một mối liên kếtchưa tồn tại trong mạng Mô hình dạng này thường yêu cầu nhiều thông tin dữliệu, khó khăn trong việc điều chỉnh các tham số phức tạp và cần nhiều thời gian.Theo [16] các nghiên cứu điển hình bao gồm: Hierarchical structure model(HSM),Stochastic block model (SBM), Parametric model, Non-parametric model, Localprobabilistic model, Factor graph model, Affiliation model.

Đặc biệt, các nghiên cứu tiếp cận giải quyết bài toán theo hướng học máytrong đó sử dụng các độ đo liên kết như là véc-tơ đặc trưng (feature vectors),xem xét bài toán dự báo liên kết như là bài toán phân lớp Nghiên cứu [71] củaHasan và cộng sự đã đưa ra phương pháp học máy có giám sát để dự đoán cácliên kết trong mạng Trong đó, các tác giả đã tạo ra một số mô hình học máyđể nắm bắt thông tin cấu trúc liên kết với các nút và liên kết mạng Với việctrích xuất các thông tin xem như là thuộc tính phân lớp, các thử nghiệm đã chỉra rằng phương pháp có thể cải thiện đáng kể kết quả dự đoán Ở cách tiếp cậnnày, việc dự báo liên kết thực chất là việc gán nhãn có/không có liên kết chotừng cặp tác giả trong tương lai, với các véc-tơ đặc trưng lấy từ thông tin hiệntại của mạng Phương pháp này có ưu điểm là có thể kết hợp nhiều độ đo liênkết khác nhau để tăng cường độ chính xác của quá trình dự báo Các nghiên cứukhác áp dụng các thuật toán mạng nơ-ron học sâu [2]; sử dụng graph embeddingnhúng đồ thị [72] tạo các biểu diễn đồ thị có giá trị bằng cách gán các nút chomột vectơ có chiều thấp hơn; Các tác giả trong [72][73] đã đề xuất một phươngpháp sử dụng kỹ thuật nhúng mạng node2vec và một nhóm các toán tử nhúngcạnh mới để đánh giá chất lượng của hệ thống đề xuất đồng tác giả trong các tácvụ hồi quy và phân lớp để dự đoán liên kết mạng có trọng số Nghiên cứu [74]đề xuất một mô hình toán học cho hệ thống đề xuất đồng tác giả trong tin sinhhọc bằng cách sử dụng các kỹ thuật dữ liệu lớn và khai thác đồ thị Mô hình chothấy tiêu đề tạp chí và trích dẫn có trọng số cao nhất, trong khi phần tóm tắtcó trọng số thấp nhất Nghiên cứu [4] giải quyết vấn đề dự đoán cộng tác trongmạng đồng tác giả bằng cách xây dựng nhiệm vụ dưới dạng vấn đề dự đoán liên

Trang 38

kết trên mạng đồng tác giả có trọng số Trong đó các tác giả đã sử dụng môhình học máy hồi quy dựa trên các tính năng mạng được xây dựng bằng cách sửdụng nhúng mạng và đánh giá các nhúng cạnh của chúng trên các mạng đồngtác giả AMiner và HSE lớn Nghiên cứu [75] đã đề xuất Trans4E dựa trên nhúngbiểu đồ tri thức để cung cấp dự đoán liên kết cho các biểu đồ tri thức trong đósố lượng nút lớn hơn đáng kể so với số lượng cạnh Phương pháp được đề xuấtthực hiện hiệu quả trên các sơ đồ phân lớp nông và kích thước nhúng thấp.

Gần đây, đã có thêm các phương pháp học sâu xử lý rất hiệu quả cho dữ liệudạng đồ thị như: mạng nơ-ron đồ thị (Graph Neural Network - GNN) [76], GraphConvoluational Networks (GCN) [77], Graph Attention Networks (GAT) [78], Trong đó, GCN là phương pháp nổi bật, đưa phép tích chập vào cấu trúc đồ thị,được công bố lần đầu tiên trong công trình nghiên cứu của N Kipf và Wellingvào năm 2016 Nó sử dụng cơ chế tích chập đồ thị (Graph Convolution) trênkhông gian phổ của đồ thị để truyền thông tin qua các đỉnh và cạnh Tích chậpđồ thị là một cách hiệu quả để trích xuất/tóm tắt thông tin nút dựa trên cấutrúc biểu đồ.Nhiều kết quả thử nghiệm cho thấy hiệu quả vượt trội của GCN sovới các phương pháp khác, đồng thời chứng tỏ rằng GCN có khả năng mã hóacả cấu trúc đồ thị và đặc trưng của nút một cách hữu ích cho tác vụ phân loạibán giám sát, đánh dấu một hướng đi mới trong việc giải quyết các bài toán códữ liệu dạng đồ thị GCN cũng đã được nghiên cứu ứng dụng trong rất nhiềulĩnh vực khác như thị giác máy tính, xử lý ngôn ngữ tự nhiên, hệ thống giaothông, tin sinh học, và đã đạt được nhiều kết quả ấn tượng Tuy nhiên, việcứng dụng GCN để xây dựng các mô hình giải quyết bài toán khuyến nghị cộngtác đồng tác giả vẫn là một bài toán khá mới mẻ, hứa hẹn mang lại những kếtquả đáng mong đợi trong tương lai.

Kế thừa các nghiên cứu giải quyết bài toán dự đoán liên kết trong mạng đồngtác giả theo phương pháp học máy, nội dung của luận án hướng dến việc nghiêncứu đề xuất các phương pháp thuật toán phân lớp hiệu quả hơn cho bài toán dựđoán cộng tác đồng tác giả trong nghiên cứu trong mạng đồng tác giả Phươngpháp mô hình hóa của bài toán dự đoán gợi ý đồng tác giả theo dạng bài toánphân lớp nhị phân được trình bày dưới đây.

1.3.2 Mô hình hóa bài toán

Bài toán dự đoán cộng tác đồng tác giả trong mạng đồng tác giả có thể xemlà sự cụ thể hóa theo hướng ứng dụng của bài toán dự báo liên kết trong mạng

Trang 39

xã hội Mục đích của bài toán dự đoán đồng tác giả là xây dựng một ứng dụngcho phép đưa ra một danh sách gợi ý những ứng viên (nhà nghiên cứu/tác giả)có khả năng hợp tác hiệu quả trong tương lai cho một nhà nghiên cứu nào đó.Danh sách ứng viên được gợi ý này được sắp thứ tự mức độ khả năng cộng tác.Bài toán dự đoán cộng tác nghiên cứu (dự báo liên kết) trong mạng đồng tácgiả được mô hình hóa về mặt biểu diễn như sau.

Cho mạng đồng tác giả được mô hình hóa như một đồ thị GT với bốn yếutố đặc trưng GT = (VT, ET, PT, T ), trong đó (i ) T = {t1, t2, , tk} là một tậphợp các nhãn thời gian; (ii ) VT = {v1, v2 , vN} là tập hợp các đỉnh đại diệncho các tác giả xuất hiện trong bài báo tại một thời điểm nào đó trong T; (iii )PT = {p1, p2, , pM} là tập hợp các bài báo tại một thời điểm nào đó trong T;và (iv ) ET = {vi, vj, pk, th} là tập hợp các liên kết giữa các tác giả tại một thờiđiểm nào đó trong T, trong đó hai tác giả (vi, vj) ∈ VT × VT có viết chung mộtbài báo pk ∈ PT tại thời điểm th ∈ T Ngoài ra, đỉnh VT có thể chứa các thuộctính thông tin bổ sung cụ thể của từng tác giả như thông tin về quốc tịch, mốiquan hệ cộng đồng, chủ đề nghiên cứu Tập hợp các thuộc tính được ký hiệulà AT = {a1, a2, , aN}, trong đó ai là một vectơ đặc trưng chứa thông tin vềcặp tác giả/đỉnh (vi, vj) ∈ VT × VT Các độ đo sự tương đồng giữa hai tác giả sẽđược xây dựng dựa trên thông tin của các tậpET và AT.

Bài toán dự đoán đồng tác giả (dự đoán liên kết cộng tác đồng tác giả) đượcdiễn giải như sau: cho hai khoảng thời gian [t0, t′0], và [t1, t′1] thỏa mãn t′0 < t1.Dựa trên cấu trúc mạng quan sát được tại thời điểm [t0, t′0], ta sẽ dự đoán cácliên kết mới sẽ xuất hiện trong thời gian [t1, t′1]mà chưa xuất hiện trong khoảngthời gian được quan sát Các liên kết mới được dự đoán tương ứng với việc cặptác giả của liên kết đó có khả năng hợp tác mới trong tương lai Trong mạngđồng tác giả, mức độ liên kết giữa hai tác giả (đỉnh/nút) được biểu diễn thôngqua các cạnh và định lượng thông qua các độ đo liên kết Các độ đo này thườngđược hình thành dựa trên các thông tin liên kết như dựa trên số lượng hàng xómchung, dựa trên chiều dài đường dẫn liên kết Ngoài ra, một số độ đo liên kếtkhác xem xét đến những thông tin đặc trưng của không gian cộng đồng nghiêncứu học thuật như vị trí thứ tự tên tác giả trong bài báo, hay trích xuất thôngtin chủ đề lĩnh vực nghiên cứu [70], v.v.

Theo khảo sát trong nghiên cứu [16] có hơn hai mươi độ đo liên kết được xâydựng dựa vào sự xem xét các đặc tính tương đồng cục bộ và tương đồng toàncục Do luận án chỉ tập trung vào vấn đề nghiên cứu đề xuất các phương pháp

Trang 40

cải tiến thuật toán nên luận án chỉ trình bày một số độ đo phổ biến thuộc banhóm chính như sau:

a) Độ đo liên kết dựa trên hàng xóm: Giả sửvi∈ VT là một đỉnh/nút/tácgiả, giả sử rằng Γ(vi) là tập các đỉnh/nút hàng xóm lân cận của vi Các độ đoliên kết phổ biến là Common Neighbor (CN) [5], Adamic Adar (AA) [7], Jac-card Coefficient (J C), Preferential Attachment (P A) [6] và Resource Allocation(RA) [8]:

1 CN được tính bằng số hàng xóm chung của vi và vj:

trong đó vk là hàng xóm chung của cả vi và vj.

3 J C được tính bằng tỷ lệ số lượng hàng xóm chung trên tổng số hàng xómcủa vi và vj: