Luận án tiến sĩ phát triển một số phương pháp lọc thông tin cho hệ tư vấn (TT)

PHẦN MỞ ĐẦU Tính cấp thiết luận án Lọc thông tin lĩnh vực nghiên cứu trình phân bổ thông tin thích hợp gỡ bỏ thông tin không thích hợp đến với người dùng Lọc thông tin cho hệ tư vấn tiếp cận theo hai xu hướng chính, lọc dựa vào nội dung sản phẩm lọc dựa vào thói quen sử dụng sản phẩm người hay gọi lọc cộng tác So với lọc theo nội dung, lọc cộng tác cho lại kết tốt lọc dạng thông tin Tuy nhiên, lọc cộng tác gặp phải vấn đề liệu thưa, người dùng sản phẩm cần tiếp tục nghiên cứu giải Kết hợp lọc cộng tác lọc nội dung để nâng cao chất lượng dự đoán tránh trạng liệu thưa lọc cộng tác tập trung nghiên cứu nhiều thời gian gần Các phương pháp lọc kết hợp hạn chế biểu diễn ước lượng mức độ ảnh hưởng đặc trưng nội dung đến thói quen sử dụng sản phẩm người dùng Đề tài “Phát triển số phương pháp lọc thông tin cho hệ tư vấn” thực khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính nhằm góp phần giải số vấn đề tồn lọc cộng tác lọc kết hợp Mục tiêu luận án Mục tiêu luận án nghiên cứu áp dụng, cải tiến kỹ thuật học máy nhằm nâng cao độ xác lọc thông tin hệ tư vấn Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết dự đoán nhu cầu người dùng trường hợp liệu thưa, trường hợp có liệu sở thích thông tin nội dung Các đóng góp luận án Luận án nghiên cứu đề xuất hai kết chính, hạn chế ảnh hưởng vấn đề liệu thưa lọc cộng tác phương pháp học đa nhiệm phương pháp kết hợp lọc cộng tác lọc nội dung dựa vào mô hình đồ thị Bố cục luận án Bố cục luận án xây dựng thành ba chương phụ lục, đó: Chương giới thiệu tổng quan lọc thông tin Chương trình bày phương pháp hạn chế ảnh hưởng tình trạng liệu thưa phương pháp học đa nhiệm Chương trình bày phương pháp kết hợp lọc cộng tác lọc nội dung dựa mô hình đồ thị Phần phụ lục trình bày thiết kế xây dựng ứng dụng cho phương pháp lọc kết hợp đề xuất Chương Cuối số kết luận đề xuất nghiên cứu CHƯƠNG TỔNG QUAN VỀ LỌC THÔNG TIN 1.1 GIỚI THIỆU CHUNG Lọc thông tin lĩnh vực nghiên cứu trình phân bổ thông tin thích hợp, ngăn ngừa gỡ bỏ thông tin không thích hợp cho người dùng Thông tin phân bổ (còn gọi sản phẩm) văn bản, trang web, phim ảnh, dịch vụ, phim dạng thông tin sản sinh từ phương tiện truyền thông 1.1.1 Kiến trúc tổng quát hệ thống lọc thông tin Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần bản: thành phần phân tích liệu, thành phần lọc, thành phần mô tả người dùng thành phần học Thành phần mô hình người dùng Hồ sơ người dùng Thành phần học Thông tin đặc tả người dùng Người dùng Phản hồi người dùng Sản phẩm phù hợp với người dùng Cập nhật thông tin huấn luyện Thành phần lọc Biểu diễn Thông tin sản phẩm Nhà cung cấp thông tin Thông tin sản phẩm Biểu diễn Thông tin sản phẩm Thành phần phân tích liệu Hình 1.1 Kiến trúc tổng quát hệ thống lọc thông tin 1.1.2 Lọc thông tin truy vấn thông tin Một số thành phần hệ thống lọc tìm thấy hệ thống truy vấn thông tin Tuy nhiên, ta phân biệt khác biệt hệ thống lọc thông tin với hệ thống khác thông qua đặc trưng liên quan đến người dùng, sản phẩm phương pháp thực 1.1.3 Học máy lọc thông tin Thành phần lọc thông tin xây dựng theo hai cách tiếp cận chính: lọc dựa tri thức lọc dựa liệu Đối với lọc dựa tri thức, thông tin lọc cách sử dụng luật Mỗi luật biểu diễn nhu cầu thông tin người dùng mẫu thông tin cần lọc Mỗi định lọc thực điều kiện luật đưa thỏa mãn Khác với lọc dựa tri thức, cách tiếp cận dựa liệu, quy tắc cho thành phần lọc xây dựng từ liệu mà hệ thống thu thập cách sử dụng kỹ thuật thống kê thuật toán học máy Cách tiếp cận cho phép tạo cập nhật quy tắc lọc thông tin mà không cần tới tri thức chuyên gia, đồng thời chất lượng lọc tốt so với cách tiếp cận dựa tri thức, đặc biệt có lượng liệu lớn chất lượng So với lọc dựa vào tri thức, lọc dựa vào liệu quan tâm nghiên cứu nhiều 1.1.4 Lọc thông tin hệ tư vấn Hệ tư vấn (RS) phát triển sử dụng rộng rãi nhiều ứng dụng khác khoa học máy tính nhằm gợi ý, giới thiệu hàng hóa, dịch vụ, thông tin tiềm đến với người dùng Các hệ tư vấn phân loại dựa vào phương pháp lọc áp dụng, bao gồm: tư vấn dựa vào phương pháp lọc nội dung, tư vấn dựa vào phương pháp lọc cộng tác tư vấn dựa vào phương pháp lọc kết hợp 1.2 PHƯƠNG PHÁP LỌC THEO NỘI DUNG Lọc theo nội dung phương pháp thực dựa việc so sánh nội dung thông tin hay mô tả hàng hóa, để tìm sản phẩm tương tự với mà người dùng quan tâm để giới thiệu cho họ sản phẩm Các phương pháp tiếp cận cho lọc theo nội dung chia thành hai phương pháp chính: lọc nội dung dựa vào nhớ lọc nội dung dựa vào mô hình Những vấn đề cần tiếp tục nghiên cứu lọc nội dung vấn đề trích chọn đặc trưng người dùng 1.3 PHƯƠNG PHÁP LỌC CỘNG TÁC Lọc cộng tác khai thác khía cạnh liên quan đến thói quen sở thích người sử dụng sản phẩm để đưa dự đoán phân bổ sản phẩm cho người dùng Các phương pháp tiếp cận cho lọc cộng tác chia thành hai phương pháp chính: lọc cộng tác dựa vào nhớ lọc cộng tác dựa vào mô hình Những vấn đề cần tiếp tục nghiên cứu lọc cộng tác vấn đề liệu thưa, vấn đề người dùng sản phẩm 1.4 PHƯƠNG PHÁP LỌC KẾT HỢP Lọc kết hợp phương pháp kết hợp lọc cộng tác lọc nội dung, nhằm tận dụng lợi tránh hạn chế phương pháp Lọc kết hợp tiếp cận theo bốn xu hướng chính: Kết hợp tuyến tính, kết hợp đặc tính lọc nội dung vào lọc cộng tác, kết hợp đặc tính lọc cộng tác vào lọc nội dung xây dựng mô hình hợp cho lọc cộng tác lọc nội dung Vấn đề cần tiếp tục nghiên cứu lọc kết hợp nâng cao hiệu phương pháp biểu diễn dự đoán cho mô hình kết hợp 1.6 KẾT LUẬN Lọc theo nội dung thực hiệu với dạng thông tin biểu diễn dạng đặc trưng nội dung lại khó lọc dạng thông tin đa phương tiện Lọc cộng tác cho lại kết tốt so với lọc nội dung lọc dạng thông tin gặp phải khó khăn trường hợp liệu thưa, người dùng sản phẩm Lọc kết hợp phát huy hiệu phương pháp kết hợp giải mâu thuẫn dự đoán theo lọc nội dung lọc cộng tác Chính vậy, trọng tậm nghiên cứu luận án vấn liệu thưa lọc cộng tác vấn đề kết hợp hiệu lọc cộng tác lọc nội dung CHƯƠNG LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC ĐA NHIỆM 2.1 ĐẶT VẤN ĐỀ Giả sử hệ gồm N người dùng U = {u1, …, uN}, M sản phẩm P = {p1, p2,…, pM} với ma trận đánh giá R =(rij) Nhiệm vụ lọc cộng tác xây dựng phương pháp dự đoán phân bổ cho người dùng thời ua sản phẩm phù hợp với ua chưa đánh giá dựa ma trận đánh giá R = (rij) Đối với hệ thống lọc cộng tác, số lượng người dùng |U| số lượng sản phẩm |P| lớn Tuy vậy, người dùng đưa số đánh giá tập sản phẩm Điều làm cho ma trận đầu vào rij có số đánh giá rij≠ ∅ nhỏ nhiều lần số đánh giá rij=∅ Lọc cộng tác gọi vấn đề vấn đề liệu thưa Vấn đề liệu thưa làm cho nhiều cặp người dùng không xác định mức độ tương tự việc xác định tập hàng xóm cho người dùng trở nên tin cậy Đặc biệt, vấn đề người dùng cần có đánh giá ban đầu 2.2 LỌC CỘNG TÁC BẰNG PHÂN LOẠI Bài toán lọc cộng tác phát biểu toán phân loại tự động học máy Dựa đánh giá người dùng sản phẩm khác nhau, với người dùng, mô hình phân loại xây dựng huấn luyện Mô hình sau sử dụng để phân chia sản phẩm thành loại khác nhau, ví dụ loại “phù hợp” “không phù hợp” Tương tự vậy, thay đổi vai trò người dùng sản phẩm xây dựng phân loại cho phép dự đoán sản phẩm cụ thể có “phù hợp” hay “không phù hợp” người dùng 2.2.1 Phát biểu toán lọc cộng tác phân loại Cho ma trận đánh giá người dùng R = (rij) trình bày mục 2.1 Các hàng ma trận tương ứng với tập người dùng; cột ma trận tương ứng với tập sản phẩm; phần tử rij ma trận tương ứng với đánh giá người dùng sản phẩm Thông thường, người dùng đánh giá tập nhỏ mặt hàng đa số giá trị rij để trống Nhiệm vụ phương pháp phân loại điền vào hay dự đoán giá trị thích hợp vào ô trống cho hàng ma trận đánh giá Để thực dự đoán, phân loại xây dựng riêng cho người dùng Mỗi phân loại dự đoán giá trị rỗng cho hàng ma trận đánh giá Mỗi phân loại thực huấn luyện tập ví dụ huấn luyện; ví dụ huấn luyện biểu diễn dạng véc tơ đặc trưng; đặc trưng tương ứng với người dùng khác người dùng cần dự đoán Giá trị đặc trưng giá trị ô ma trận đánh giá Nhãn phân loại cho ví dụ huấn luyện đánh giá khác ∅ người dùng thời 2.2.2 Phân loại phương pháp Boosting Boosting phương pháp học máy cho phép tạo phân loại có độ xác cao cách kết hợp nhiều phân loại có độ xác hay gọi phân loại yếu Dựa nguyên tắc chung này, nhiều phiên khác kỹ thuật Boosting đề xuất sử dụng Luận án sử dụng phiên Gentle AdaBoost (viết tắt GentleBoost) Friedman đề xuất ưu điểm phương pháp đơn giản, ổn định, cho kết phân loại tốt nhiều ứng dụng Phương pháp GentleBoost cho trường hợp phân loại hai lớp mô tả tóm tắt sau Cho tập liệu huấn luyện bao gồm M ví dụ (x1, y1), …, (xM, yM) với xi vectơ đặc trưng yi nhãn phân loại nhận giá trị yi = +1 yi = −1 (tương ứng với “thích hợp” “không thích K hợp”) Bộ phân loại mạnh F(x) tạo thành cách tổ hợp tuyến tính F ( x ) = ∑k =1 f k ( x) , fk (x) phân loại yếu có khả dự đoán nhãn phân loại cho vec tơ đầu vào x Kết phân loại cuối tạo cách tính sign(F (x)) Thuật toán bao gồm K vòng lặp thể hình 2.1 Đầu vào: • Tập liệu huấn luyện gồm M ví dụ (x1, y1), , (xM, yM) với xi vectơ đặc trưng yi nhãn phân loại nhận giá trị yi = +1 yi = −1 Đầu ra: K • Trả lại sign [ F ( x)] = sign [∑k =1 f k ( x)] Các bước thực hiện: Khởi tạo trọng số wi = 1/M, i = M, wi trọng số ví dụ huấn luyện thứ i Khởi tạo F (x) = Lặp với k = 1, 2, …, K a Huấn luyện fk (x) sử dụng liệu huấn luyện có trọng số b Cập nhật F (x) ← F (x) + fk (x) c Cập nhật trọng số wi ← wi e − y f ( x ) chuẩn tắc hoá trọng số i k i Trả phân loại sign [ F ( x )] = sign [∑k =1 f k ( x )] K Hình 2.1 Thuật toán GentleBoost Tại bước (a) vòng lặp, thuật toán lựa chọn fk(x) cho sai số phân loại nhỏ nhất: J = ∑i =1 wi ( yi − f k ( xi )) M (2.1) Để tìm phân loại cho phép cực tiểu hoá (2.1), cần xác định phân loại yếu fk(x) cho phép cực tiểu hoá bình phương lỗi phân loại có tính tới trọng số Ở đây, phân loại yếu sử dụng gốc định Gốc định phiên đơn giản định với nút Gốc định lựa chọn đặc trưng ví dụ huấn luyện, sau tuỳ thuộc vào giá trị đặc trưng để gán cho nhãn giá trị hay −1 Quá trình xác định nhãn phân loại biểu diễn công thức 2.2 f k ( x ) = aδ x f > t + bδ x f ≤ t (2.2) ( ) ( ) Trong δ (e) = e δ (e) = ngược lại, t giá trị ngưỡng, a b tham số, xf giá trị đặc trưng thứ f vectơ x Trong trường hợp liệu đánh giá bao gồm giá trị và −1, chọn ngưỡng t = Như vậy, việc phân loại, gốc định thực trích chọn đặc trưng gốc chọn đặc trưng Quá trình huấn luyện để chọn gốc tốt thực cách thử tất đặc trưng f để phép cực tiểu hoá (2.1) Với giá trị f, giá trị tối ưu a b tính theo kỹ thuật bình phương tối thiểu mà chất tính giá trị tham số điểm có đạo hàm ∑ w y δ ( x > 0) a= ∑ w δ ( x > 0) (2.3) ∑ w y δ ( x ≤ 0) b= ∑ w δ ( x ≤ 0) (2.4) f i i i f i i f i i i f i i Giá trị f , a b tính cho sai số dự đoán (2.1) nhỏ chọn để tạo phân loại fk (x) cho vòng lặp thứ k Bộ phân loại yếu fk (x) sau thêm vào phân loại F (x) (bước b) Tại bước (c), ví dụ phân loại sai có yi fk (xi) < GentleBoost tăng trọng số, ví dụ phân loại có yi fk (xi) >0 bị giảm trọng số Với cách làm này, thuật toán khiến phân loại vòng sau ý tới ví dụ bị phân loại sai Mệnh đề 2.1 Thuật toán GentleBoost cực tiểu hóa hàm lỗi phân loại thông qua bước phép khai triển Niutơn 2.3 PHÂN LOẠI VỚI CÁC ĐẶC TRƯNG CHUNG 2.3.1 Phương pháp học đa nhiệm Phương pháp học máy thực đồng thời cho nhiều nhiệm vụ liên quan để nâng cao kết dự đoán gọi phương pháp học đa nhiệm Bằng việc suy diễn đồng thời nhiệm vụ, học đa nhiệm phát tri thức từ nhiều nhiệm vụ để tăng cường vào kết dự đoán cho nhiệm vụ đơn lẻ Với toán có số lượng nhiệm vụ lớn có số ví dụ huấn luyện ít, học đa nhiệm nâng cao kết dự đoán cho nhiệm vụ cách chia sẻ thông tin chung nhiệm vụ Lọc cộng tác thực theo phương pháp học đa nhiệm kỹ thuật Boosting trình bày mục 2.2.2 Để thực điều này, thuật toán GentleBoost cải tiến cách vòng lặp, thay giảm sai số cho toán phân loại, thuật toán giảm sai số đồng thời cho tập toán phân loại Với cách làm này, vòng lặp thuật toán tìm đặc trưng chung cho tất toán phân loại tập toán phân loại chọn Đặc trưng chung tìm đóng vai trò chia sẻ, chuyển giao thông tin toán phân loại tăng cường thêm vào kết dự đoán 2.3.2 Boosting đồng thời cho nhiều toán phân loại Với tập N người dùng U; M sản phẩm U, giá trị đánh giá rij cho trên, ta có tất N toán phân loại, toán thứ n, n = 1,…,N cho M ví dụ huấn luyện (xn1, yn1),…, (xnM, ynM), ynj = rnj đánh giá người dùng n cho sản phẩm j, xnj = (r1j, …, r(n-1)j, r(n+1)j, …, rNj) đánh giá tất người dùng cho sản phẩm j trừ người dùng n Cần lưu ý rằng, cột có rnj ≠ ∅ sử dụng làm ví dụ huấn luyện toán thứ k Tuy nhiên, ta liệt kê ví dụ có rnj = ∅ Những ví dụ sau gán trọng số không ảnh hưởng tới kết huấn luyện Mỗi ví dụ huấn luyện thứ j làm tương ứng với n trọng số wnj, n = 1,…,N Mỗi trọng số sử dụng ví dụ dùng với phân loại thứ n; wnj = rnj = tức ví dụ j không tham gia vào huấn luyện phân loại n Sai số phân loại tính tổng sai số cho tất N phân loại: J = ∑n =1 N ∑ M i =1 win ( yin − f kn ( xi )) (2.13) Tại vòng lặp n, gọi S(t) tập toán Thay xác định đặc trưng f tốt cho toán riêng lẻ phần trước, thuật toán cần xác định đặc trưng chung cho tất toán thuộc S(t) chọn gốc định tương ứng cho sai số (2.13) nhỏ Gốc định có dạng sau: a δ ( x f > 0) + bS δ ( x f ≤ 0) f kn ( x, t ) =  nS c n ∈ S (t ) n ∉ S (t ) (2.14) Ở đây, giá trị gốc định phụ thuộc vào việc tập S(t) chọn tập ta ký hiệu hàm fk hàm t Ký hiệu f kn ( x, t ) hiểu hàm phân loại yếu bước thứ n cho toán thứ k hàm chung cho tập S(t) toán phân loại Do giá trị hàm lỗi (2.13) phụ thuộc vào tập S(t) nên hàm lỗi (2.13) cần viết lại thành hàm tham số t sau: J (t ) = ∑n=1 N ∑ M i =1 win ( y in − f kn ( xi , t )) (2.15) Điểm khác so với gốc định phần trước gốc định (2.15) phân biệt trường hợp toán n thuộc tập S(t) trường hợp không thuộc Trong trường hợp n không thuộc S(t), hàm fk(x) đặt số cn để tránh trường hợp lựa chọn phân loại cách tình cờ chênh lệch số lượng ví dụ huấn luyện −1 (chẳng hạn trường hợp nhiều ví dụ dự đoán nhãn không cần quan tâm tới đặc trưng) Với tập S(t), giải toán cực tiểu hoá sai số (2.15) ta nhận được: M ∑ ∑w aS ( f ) = n i y in δ ( x i f > ) n ∈ S ( t ) i =1 M ∑ ∑w , n i f δ ( xi > 0) n∈ S ( t ) i =1 (2.16) M ∑ ∑w n i bS ( f ) = yinδ ( xif ≤ 0) n∈S ( t ) i =1 M ∑ w δ ( xi ≤ 0) ∑ n i , f (2.17) n∈S ( t ) i =1 M ∑w n i cn = yin i =1 M ∑w n i nk ∉ S(t) , (2.18) i =1 Tại bước lặp, thuật toán lựa chọn tập S(t) tốt nhất, tức tập cho giá trị hàm lỗi (2.15) nhỏ gốc định tốt cho tập Ký hiệu Fn(x) phân loại xác cho toán phân loại thứ n, ta có thuật toán Boosting thể hình 2.4 Đầu vào: • Tập ví dụ huấn luyện N toán phân loại, toán thứ n, n = 1,…, M cho M ví dụ huấn luyện (xn1, yn1), , (xnM, ynM) Đầu ra: • Trả phân loại sign [ Fn (x)] Các bước thực hiện: Khởi tạo wnj = rnj ≠ ∅ wnj = rnj = ∅, i = 1, , M; n = 1, , N Khởi tạo Fn (x) = Lặp với k = 1, …, K a Lặp với tập toán S(t) i Tính tham số aS, bS, cn theo (2.16), (2.17), (2.18) N M ii Tính sai số J (t ) = ∑n=1 ∑i =1 win ( y in − f kn ( xi , t )) b Chọn tập S(t) tốt t * = arg J (t ) t c Cập nhật F n ( x ) ← F n ( x) + f kn ( xi , t * ) d Cập nhật trọng số win ← win e − y n i fk ( xi ,t * ) Trả phân loại sign [ Fn (x)] Hình 2.4 Thuật toán MC-Boosting cải tiến sử dụng đặc trưng chung cho nhiều toán Mệnh đề 2.2 Thuật toán MC-Boost cực tiểu hóa hàm lỗi phân loại thông qua bước phép khai triển Niutơn Mệnh đề 2.3 Số lượng tập S(t) cần duyệt MC-Boost O(KN2) Trong đó, K số vòng lặp, N số lượng người dùng 2.4 THỬ NGHIỆM VÀ KẾT QUẢ 2.4.1 Phương pháp thử nghiệm Trước tiên, toàn khách hàng chia thành hai phần, phần Utr sử dụng làm liệu huấn luyện, phần lại Ute sử dụng để kiểm tra Dữ liệu huấn luyện sử dụng để xây dựng mô hình theo thuật toán mô tả Với khách hàng thuộc tập liệu kiểm tra u, đánh giá (đã có) khách hàng chia làm hai phần Ou Pu Ou coi biết, Pu đánh giá cần dự đoán từ liệu huấn luyện Ou Sai số dự đoán MAEu với khách hàng u thuộc tập liệu kiểm tra tính trung bình sai số tuyệt đối giá trị dự đoán giá trị thực tất sản phẩm thuộc tập Pu 2.4.2 Dữ liệu thử nghiệm Thuật toán lọc cộng tác thử nghiệm hai liệu EachMovie MovieLens Đây hai liệu thường sử dụng để đánh giá phương pháp lọc cộng tác 2.4.3 Kết thử nghiệm Phương pháp Boosting với đặc trưng chung (ký hiệu MC Boost) trình bày phần 4.2 so sánh với phương pháp sau: Phương pháp K hàng xóm gần sử dụng độ tương quan Pearson (KPC) Phương pháp Boosting không sử dụng đặc trưng chung trình bày Mục 2.2.2 Trong trường hợp đủ liệu, cụ thể biết trước nhiều đánh giá người dùng tập kiểm tra (N=20), phương pháp GentleBoost cho kết tốt so với MC Boost Có thể giải thích kết GentBoost chọn đặc trưng tối ưu toán phân loại, MC Boost chọn đặc trưng tối ưu cho nhóm toán phân loại Tuy nhiên, liệu đi, cụ thể biết trước 10 đánh giá người dùng kiểm tra MC Boost cho sai số MAE nhỏ so với GentleBoost đa số trường hợp Lý chủ yếu MC Boost cho phép kết hợp thông tin từ người dùng tương tự với người dùng kiểm tra thông qua đặc trưng chung giảm ảnh hưởng việc thiếu nhãn phân loại Bảng 2.1 Kết thử nghiệm với MovieLens Số đánh giá cho trước tập kiểm tra Kích thước tập Phương pháp huấn luyện 10 20 KPC 0.378 0.337 0.328 100 người dùng GentleBoost 0.350 0.322 0.291 MC Boost 0.329 0.305 0.292 KPC 0.361 0.330 0.318 200 người dùng GentleBoost 0.333 0.314 0.284 MC Boost 0.314 0.299 0.289 KPC 0.348 0.336 0.317 300 người dùng GentleBoost 0.325 0.304 0.279 MC Boost 0.308 0.298 0.283 Bảng 2.5 Kết thử nghiệm với EachMovie Số đánh giá cho trước tập kiểm tra Kích thước tập Phương huấn luyện pháp 10 20 1000 người dùng KPC 0.559 0.474 0.449 GentleBoost 0.515 0.455 0.421 MC Boost 0.460 0.429 0.492 2000 người dùng KPC 0.528 0.450 0.422 GentleBoost 0.495 0.424 0.393 MC Boost 0.484 0.419 0.393 6000 người dùng KPC 0.521 0.437 0.378 GentleBoost 0.477 0.408 0.362 MC Boost 0.365 0.452 0.397 2.4.4 Phân tích kết Để thấy rõ trội mô hình, lấy giá trị trung bình MAE 10 lần kiể m nghiệm ngẫu nhiên tập liệu kiểm tra để tiến hành paired t-test Giá trị trội thống kê p (Statistical Significance) tất liệu huấn luyện nhỏ 0.05 Điều chứng tỏ, 5% giá trị MAE phương pháp KPC lớn GentleBoost MC-Boost Nói cách khác, GentleBoost MC-Boost cho lại kết phân loại tốt KPC 2.5 KẾT LUẬN Chương trình bày phương pháp học đa nhiệm cho lọc cộng tác Phương pháp phát triển dựa tảng kỹ thuật phân loại Boosting kết hợp với trích chọn đặc trưng dựa vào gốc định Đây cải tiến thuật toán Boosting, việc lựa chọn đặc trưng cho phân loại yếu thực đồng thời nhóm người dùng tương tự Ưu điểm chủ yếu phương pháp việc phân loại đồng thời nhóm người dùng sử dụng thông tin từ người dùng tương tự nhau, nhờ cải thiện độ xác phân loại liệu đánh giá thưa thớt(ví dụ người dùng cần dự đoán đánh giá sản phẩm trước đó) Kết thử nghiệm hai liệu MovieLens EachMovie cho thấy phương pháp đề xuất cho kết tốt phương pháp khác trường hợp liệu thưa 10 CHƯƠNG LỌC KẾT HỢP DỰA TRÊN MÔ HÌNH ĐỒ THỊ 3.1 VẤN ĐỀ LỌC KẾT HỢP 3.1.1 Bài toán lọc kết hợp Giả sử hệ có N người dùng U = {u1, u2,…, uN} M sản phẩm P = {p1, p2, , pM} Mỗi người dùng ui∈U đưa đánh giá sản phẩm pj∈P số rij Mỗi đánh giá rij nhận giá trị tập giá trị rời rạc xác định Để đơn giản, ta coi rij nhận giá trị +1, -1, +  rij = − φ  Nếu người dùng ui thích hợp phân bổ sản phẩm pj Nếu người dùng ui không thích hợp phân bổ sản phẩm pj Nếu người dùng ui chưa đánh giá sản phẩm pj (3.1) Gọi C = { c1, c2, ,cK} K đặc trưng thể nội dung sản phẩm P Ký hiệu ma trận Y = (yij) biểu thị mối quan hệ sản phẩm đặc trưng nội dung sản phẩm xác định theo công thức (3.2) 1 yij =  0 sản phẩm pi có đặc trưng nội dung cj sản phẩm pi đặc trưng nội dung cj (3.2) c Nhiệm vụ lọc kết hợp dự đoán cho người dùng thời ua sản phẩm pk∈P chưa ua đánh giá dựa ma trận đánh giá rij đặc trưng nội dung C = { c1,c2, ,cK} 3.2 LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ 3.2.1 Phương pháp biểu diễn đồ thị Mô hình đồ thị cho lọc cộng tác mô tả sau Cho ma trận đánh giá đầu vào lọc cộng tác R = (rij) xác định theo công thức (3.1) Gọi X=(xij) ma trận cấp N×M có phần tử xác định theo công thức (3.3) Trong đó, xij = tương ứng với trạng thái người dùng ui đánh giá sản phẩm pj, xij = tương ứng với trạng thái người dùng chưa đánh giá sản phẩm pj 1 if rij ≠ φ xij =  0 otherwise (3.3) Đồ thị biểu diễn đánh giá người dùng sản phẩm (Gọi tắt Người dùng Sản phẩm) G =(V, E) biểu diễn theo ma trận X, tập đỉnh V = U∪P (U tập người dùng, P tập sản phẩm); tập cạnh E bao gồm tập cạnh biểu diễn đánh giá người dùng sản phẩm Cạnh nối đỉnh ui∈U đỉnh pj∈P thiết lập người dùng ui đánh giá sản phẩm pj ( xij = ) Trọng số cạnh lấy tương ứng rij Như vậy, biểu diễn này, đồ thị Người dùng- Sản phẩm có hai loại cạnh: Cạnh có trọng số dương rij=+1 biểu diễn 11 người dùng ui “thích” sản phẩm pj, cạnh có trọng số âm rij=-1 biểu diễn người dùng ui “không thích” sản phẩm pj 3.2.2 dự đoán đồ thị Người dùng- Sản phẩm Phương pháp dự đoán đồ thị Người dùng- Sản phẩm thực thông qua bước sau: Tách đồ thị Người dùng- Sản phẩm thành đồ thị trình bày Mục 3.2.2.1, dự đoán đồ thị bao gồm cạnh có trọng số dương trình bày Mục 3.2.2.2, dự đoán đồ thị bao gồm cạnh có trọng số âm trình bày Mục 3.2.2.3, dự đoán tất đánh giá trình bày Mục 3.2.2.4 3.2.2.1 Tách đồ thị Người dùng- Sản phẩm thành đồ thị Cho đồ thị Người dùng - Sản phẩm G =(V, E) biểu diễn theo ma trận X = (xij) cấp N×M trình bày Mục 3.2.1 Ký hiệu X + = (xij+ ) ma trận cấp N×M xác định theo công thức (3.4) Ký hiệu X − = (xij− ) ma trận cấp N×M xác định theo công thức (3.5) 1 xij+ =  0 1 xij− =  0 rij > if (3.4) otherwise if rij < (3.5) otherwise Đồ thị G+ =(V, E+) biểu diễn theo ma trận X+ có tập đỉnh tập đỉnh G, có tập cạnh E+ bao gồm cạnh có trọng số dương G E + = {e = (ui , p j ) ∈ E | rij = 1} (3.6) Đồ thị G =(V, E ) biểu diễn theo ma trận X có tập đỉnh tập đỉnh G, có tập cạnh E- bao gồm cạnh có trọng số âm G E − = e = (ui , p j ) ∈ E | rij = −1 (3.7) - - - { } 3.2.2.2 Phương pháp dự đoán đồ thị G+ Phương pháp dự đoán đồ thị G+ Huang đề xuất dựa việc tính toán trọng số đường từ đỉnh người dùng đến đỉnh sản phẩm [113] Những sản phẩm có trọng số cao dùng để tư vấn cho người dùng thời Để ý rằng, đồ thị G, G+, G- đồ thị hai phía, phía đỉnh người dùng, phía lại đỉnh sản phẩm Do vậy, đường từ đỉnh người dùng đến đỉnh sản phẩm có độ dài lẻ Đối với đồ thị hai phía, số đường độ dài L xuất phát từ đỉnh thuộc phía người dùng đến đỉnh thuộc phía sản phẩm xác định theo công thức (3.8), X ma trận biểu diễn đồ thị hai phía, XT ma trận chuyển vị X, L độ dài đường X X = T L −2  X X X α if if L =1 L = 3,5,7, (3.8) Để ghi nhận trọng số đường từ đỉnh sản phẩm đến đỉnh người dùng đồ thị G+ cho đường dài có trọng số thấp, đường ngắn có trọng số cao, ta sử dụng khử nhiễu α (0T  γ s ik sik vik =  (3.11) 0 otherwise  min( sik , γ ) Trong công thức (3.11), sik>γ = , vik xác định theo công γ thức (3.12) Nếu sik≤γ min( sik , γ ) γ =  wik  vik =  sik 0  s ik γ if , vik xác định theo công thức (3.13) wik >T sik otherwise 17 (3.12)  wik  vik =  γ 0  if wik >T sik (3.13) otherwise Trong thử nghiệm, dùng ngưỡng γ = 20, nghĩa người dùng ui đánh giá sản phẩm pj có nội dung ck lớn 20 vik xác định theo 3.10, trường hợp lại vij tính theo 3.11 Giá trị ngưỡng T chọn 0.3, nghĩa số cạnh có trọng số dương gấp đôi số cạnh có trọng số âm đặc trưng xem quan trọng Với cặp đỉnh (ui, ck) có vik >0, thiết lập liên kết trực tiếp người dùng ui đặc trưng ck với trọng số vik Ví dụ với ma trận R, Y, X cho Bảng 3.1, 3.2, 3.3 đồ thị biểu diễn Hình 3.4 đồ thị kết hợp xác định theo Hình 3.5, cạnh thiết lập thêm nối nét đứt c1 p1 +1 u1 v11 -1 +1 p2 v21 -1 +1 -1 p3 +1 -1 u2 c2 p4 +1 -1 +1 v31 v42 p5 +1 +1 u3 -1 u4 -1 +1 p6 v52 +1 -1 p7 +1 +1 u5 Hình 3.5 Đồ thị thiết lập liên kết người dùng nội dung sản phẩm 3.3.3 Phương pháp dự đoán Các phương pháp lọc cộng tác túy, lọc nội dung túy, lọc kết hợp đơn giản, lọc kết hợp dựa vào ước lượng mức độ quan trọng đặc trưng nội dung (Combinate-Graph) xem toán tìm kiếm đồ thị kết hợp 3.3.3.1 Lọc cộng tác dựa mô hình đồ thị kết hợp Phương pháp lọc cộng tác dễ dàng cài đặt mô hình đồ thị thông qua việc tính toán đuờng độ dài từ đỉnh người dùng đến đỉnh sản phẩm thông qua cạnh đánh giá Những sản phẩm có số đường độ dài nhiều đến phân bổ cho người dùng thời 3.3.3.2 Lọc nội dung dựa mô hình đồ thị kết hợp Phương pháp dự đoán theo nội dung nguyên thủy dễ dàng cài đặt dựa mô hình đồ thị cách xem xét tất đường thông qua đỉnh đặc trưng nội dung Những sản phẩm có nhiều đường thông qua đỉnh đặc trưng nội dung phân bổ cho người dùng thời 18 3.3.3.3 Phương pháp lọc kết hợp đơn giản Phương pháp lọc kết hợp đơn giản (Ký hiệu SimpleHybrid) thực cách kết hợp phương pháp lọc cộng tác trình bày Mục 3.3.3.1 lọc nội dung Mục 3.3.3.2 Những sản phẩm có số đường nhiều đến dùng để phân bổ cho người dùng thời 3.3.3.4 Phương pháp kết hợp đề xuất Như trình bày trên, phương pháp dự đoán đề xuất dựa việc ước lượng mức độ quan trọng đặc trưng nội dung cho người dùng Để thực điều đồ thị kết hợp, ta xem xét thực tính toán mức độ đóng góp vào kết dự đoán cho hai loại đường đi: đường thông qua đỉnh nội dung(đường loại 1) đường thông qua đỉnh sản phẩm (đường loại 2) Đường loại có độ dài từ đỉnh người dùng ui∈U thông qua cạnh nối đỉnh nội dung ck∈ C đến đỉnh sản phẩm pj∈P Những đường phản ánh tương tự người dùng sản phẩm đặc trưng nội dung Những đường loại tính toán dựa đồ thị kết hợp sau loại bỏ cạnh đánh giá Đường loại bao gồm đường từ đỉnh người dùng đến đỉnh sản phẩm chưa người dùng đánh giá thông qua đỉnh sản phẩm đỉnh người dùng trung gian Độ dài đường lẻ không vượt L Những đường độ dài lẻ thông qua cạnh có trọng số âm cạnh có trọng số dương xem xét đến trình dự đoán Các đường loại bao gồm: • Tất đường từ đỉnh người dùng đến đỉnh sản phẩm thông qua cạnh trung gian có trọng số dương Trọng số đường tính toán đồ thị có biểu diễn dương trình bày Mục 3.3.1 • Tất đường từ đỉnh người dùng đến đỉnh sản phẩm thông qua cạnh trung gian có trọng số âm Trọng số đường tính toán đồ thị có biểu diễn âm trình bày Mục 3.3.2 • Những đường qua hai đỉnh trung gian kết thúc đỉnh trái dấu, điều có nghĩa hai người dùng có đánh khác sản phẩm Đối với đường này, không cần xem xét đến hai người dùng không tuơng đồng với sở thích • Những đường thông qua hai đỉnh liên tục có trọng số âm Điều có nghĩa hai người dùng tương tự với p6 (đều không thích hợp) Tuy nhiên, thử nghiệm đường loại cho lại kết dự đoán không cao Do vậy, ta không cần xem xét đến đường Để xác định mức độ đóng góp loại đường vào kết dự đoán, ta sử dụng tham số λ (0 ≤ λ ≤1) điều chỉnh mức độ ưu tiên cho loại Gọi Yri số đường loại có độ dài từ đỉnh đầu ui đến đỉnh cuối pr thông đỉnh nội dung có dạng ui-cj-pr, X ri trọng số đường độ dài lẻ không nhỏ L từ đỉnh đầu ui đến đỉnh cuối pr thông qua đỉnh sản phẩm có dạng ui-pjuk-pr Khi đó, khả tư vấn pr cho người dùng ui Wri xác định theo công thức (3.14) Wri = λ X ri + (1 − λ )Yri 19 (3.14) Trong công thức 3.12, ta ưu tiên cho lọc cộng tác λ lấy gần với 0; Nếu ưu tiên cho lọc nội dung thì λ lấy gần với 1; Nếu λ =0 phương pháp dự đoán trở lại mô hình lọc cộng tác dựa tất đánh giá; Nếu λ =1 phương pháp dự đoán hoàn toàn dựa nội dung Nếu lấy λ = 0.5 mức độ ưu tiên cho lọc cộng tác lọc nội dung Thuật toán dự đoán đồ thị kết hợp thể Hình 3.6 Đầu vào: • Ma trận biểu diễn cạnh Người dùng - Nội dung • Ma trận X+, X- biểu diễn đồ thị G+, G- Đầu ra: • K sản phẩm có trọng số cao chưa người dùng đánh giá Các bước thực hiện: Bước 1: Xác định trọng số đường loại Y12 Bước 2: Xác định trọng số đường loại X αL : a Tìm ( X + ) αL trọng số đường đồ thị G+ theo thuật toán trình bày Mục 3.2.2.2 b Tìm ( X − )αL trọng số đường đồ thị G- theo thuật toán trình bày Mục 3.2.2.3 c Kết hợp trọng số ( X + ) αL ( X − )αL : X αL = ( X + )αL + ( X − )αL Bước 3: Hợp trọng số hai loại đường theo công thức (3.14) ta nhận được: T = λ X αL + (1 − λ )Y12 Bước 4: Sắp xếp sản phẩm theo thứ tự giảm dần trọng số Bước Chọn K sản phẩm có trọng số cao tư vấn cho người dùng thời Hình 3.6 Thuật toán dự đoán Combined-Graph đồ thị kết hợp Mệnh đề 3.4 Độ phức tạp thuật toán đồ thị kết hợp O(L.|U|2.376 + (|U|+|P|+|C|)2.376) Trong đó, |U| số lượng người dùng, |P| số lượng sản phẩm, |C| số lượng đặc trưng nội dung 3.4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.4.1 Dữ liệu thử nghiệm Mô hình đề xuất tiến hành thử nghiệm hai tập liệu liệu MovieLens Tập liệu MovieLens thứ (MovieLens1) gồm 1682 người dùng, 942 phim với 100000 đánh giá Tập liệu MovieLens thứ hai (MovieLens2) gồm 6040 người dùng, 3900 phim với 1000000 đánh mô tả Chương (www.grouplens.org/node/12) Chọn ngầu nhiên tập MovieLan1 500 người dùng làm liệu huấn luyện, chọn ngẫu nhiên số lại 150 người dùng làm liệu kiểm tra Chọn ngẫu nhiên tập MovieLan2 1000 người dùng làm liệu huấn luyện, chọn ngẫu nhiên số lại 320 người dùng làm liệu kiểm tra Hai mức đánh giá cao (4, 5) biến đổi thành “thích” (+1), mức lại biến đổi thành “không thích” (-1) Các đặc trưng nội dung phim chọn thể loại đạo diễn Các tập liệu Grouplens cung cấp kèm theo tập liệu tương ứng 20 3.4.2 Phương pháp thử nghiệm Phương pháp đánh giá sai số phân loại dựa độ xác P (Precision) độ nhạy R (Recall) Trước tiên toàn sản phẩm tập liệu kiểm tra chia thành hai lớp: Lớp sản phẩm phân bổ thích hợp lớp sản phẩm phân bổ không thích hợp Gọi N tổng số đánh giá người dùng tập liệu kiểm tra, Nr số sản phẩm người dùng đánh giá thích hợp, Nrs số sản phẩm phương pháp lọc dự đoán xác, độ xác P tính theo công thức (3.15), độ nhạy R tính toán theo công thức (3.16), độ đo F (FMeasure) tính theo công thức (3.17) Giá trị P, R, F_Measure lớn độ, xác phương pháp cao N rs Nr N R = rs N 2× P× R F _ Measure = (P + R ) P= (3.15) (3.16) (3.17) 3.4.3 So sánh đánh giá dựa vào Precision, Recall F-measure Mô hình lọc cộng tác kết hợp với lọc nội dung dựa đồ thị (ký hiệu CombinedGraph) Độ xác, độ nhạy F-Measure tính toán dựa danh sách 10, 20 50 sản phẩm dùng để tư vấn Các giá trị ngưỡng chọn là: γ = 20 α = 0.5, λ =0.8 Bảng 3.4 Giá trị Precision, Recall, F-Measure kiểm nghiệm tập MovieLens1 Số sản phẩm dùng để tư vấn Phương pháp Độ đo 10 20 50 Độ nhạy 0.001 0.031 0.078 UserBased Độ xác 0.003 0.041 0.054 F-Measure 0.123 0.028 0.054 Độ nhạy 0.018 0.026 0.046 ContentBased Độ xác 0.038 0.032 0.026 F-Measure 0.020 0.024 0.028 Độ nhạy 0.138 0.207 0.361 3Hop Độ xác 0.331 0.286 0.214 F-Measure 0.152 0.190 0.222 Độ nhạy 0.098 0.144 0.259 SimpleHybrid Độ xác 0.211 0.174 0.144 F-Measure 0.105 0.123 0.152 Độ nhạy 0.142 0.215 0.366 CombinedGraph Độ xác 0.339 0.291 0.215 F-Measure 0.157 0.195 0.224 21 Bảng 3.5 Giá trị Precision, Recall, F-Measure kiểm nghiệm tập MovieLens2 Số sản phẩm dùng để tư vấn Phương pháp Độ đo 10 20 50 Độ nhạy 0.007 0.021 0.069 UserBased Độ xác 0.015 0.025 0.034 F-Measure 0.009 0.023 0.045 Độ nhạy 0.009 0.017 0.037 ContentBased Độ xác 0.022 0.020 0.018 F-Measure 0.013 0.018 0.024 Độ nhạy 0.155 0.222 0.377 3Hop Độ xác 0.284 0.225 0.164 F-Measure 0.200 0.223 0.228 Độ nhạy 0.117 0.162 0.279 SimpleHybrid Độ xác 0.186 0.148 0.118 F-Measure 0.144 0.155 0.166 Độ nhạy 0.165 0.234 0.381 CombinedGraph Độ xác 0.292 0.240 0.175 F-Measure 0.211 0.237 0.240 Kết kiểm nghiệm mô hình đề xuất lấy trung bình từ 10 lần kiểm nghiệm ngẫu nhiên với kết của phương pháp: Phương pháp lọc cộng tác dựa người dùng sử dụng thuật toán KNN độ tương quan Pearson (ký hiệu UserBased) [47], phương pháp lọc cộng tác đồ thị G+ (Ký hiệu 3Hop), phương pháp lọc theo nội dung (ký hiệu ContentBased) dựa mô hình đồ thị, phương pháp lọc kết hợp đơn giản (Ký hiệu SimpleHybrid) Kết kiểm nghiệm cho thấy mô hình đề xuất cho lại kết độ xác, độ nhạy FMeasure lớn so với phương pháp lại Điều chứng tỏ việc xác định mức độ ưa thích người dùng đặc trưng nội dung sản phẩm có ý nghĩa đặc biệt quan trọng để nâng cao chất lượng dự đoán cho hệ thống tư vấn 3.4.4 Phân tích kết Để thấy rõ trội mô hình, lấy giá trị trung bình F-Measure sau 10 lần kiểm nghiệm ngẫu nhiên 150 người dùng tập liệu kiểm tra MovieLens1 320 người dùng tập liệu kiểm tra MovieLens2 để tiến hành paired t-test Tham số so sánh mức độ trội thống kê CombinedGraph phương pháp lại cho giá trị p[...]... dạng thông tin đa phương tiện Lọc cộng tác có thể lọc được mọi loại thông tin nhưng gặp phải vấn đề dữ liệu thưa, một người dùng mới chưa có đánh giá nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá Kết hợp cả hai phương pháp lọc cơ bản trên sẽ góp phần nâng cao chất lượng dự đoán cho các hệ thống tư vấn Luận án đã giải quyết được hai vấn đề còn tồn tại trong lọc thông tin, đó là vấn. .. thực về phim cho thấy, cách tiếp cận này cho lại kết quả tốt ngay cả trong trường hợp dữ liệu đánh giá thưa thớt Phương pháp lọc kết hợp đề xuất được sử dụng để xây dựng hệ tư vấn lựa chọn phim Hệ thống phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc thông tin, bao gồm thành phần phân tích thông tin, thành phần người dùng, thành phần học và thành phần lọc Hệ thống cho lại kết quả tư vấn tốt trên... MovieLens2 để tiến hành một paired t-test Tham số so sánh mức độ nổi trội thống kê giữa CombinedGraph và các phương pháp còn lại đều cho giá trị p

Luận án tiến sĩ phát triển một số phương pháp lọc thông tin cho hệ tư vấn (TT)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan