Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)

Thông tin tài liệu

Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Trần Ngọc Hưng NGHIÊN CỨU PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO HỆ TƯ VẤN LAI LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2017 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Trần Ngọc Hưng NGHIÊN CỨU PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO HỆ TƯ VẤN LAI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi xin cam đoan, luận văn công trình nghiên cứu khoa học thực thụ cá nhân, thực hướng dẫn khoa học TS Nguyễn Duy Phương Các số liệu, kết nghiên cứu kết luận trình bày luận văn trung thực chưa công bố hình thức Tôi xin chịu trách nhiệm công trình nghiên cứu Học viên Trần Ngọc Hưng LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn TS Nguyễn Duy Phương - Học viện Công nghệ Bưu Viễn Thông, người trực tiếp hướng dẫn thực luận văn Với hướng dẫn, cung cấp tài liệu, động viên Thầy giúp vượt qua nhiều khó khăn chuyên môn suốt trình thực luận văn Tôi xin chân thành cảm ơn, Ban Giám đốc, Ban chủ nhiệm Khoa Sau Đại học Khoa Công nghệ Thông tin, thầy, cô giảng dạy quản lý đào tạo suốt hai năm theo học Học viện Công nghệ Bưu Viễn thông Tôi xin chân thành cảm ơn Hội đồng chấm đề cương góp ý cho đề cương luận văn Cuối cùng, xin cảm ơn gia đình, bạn bè đồng nghiệp nơi công tác động viên, tạo điều kiện cho suốt thời gian học tập nghiên cứu Hà Nội, ngày tháng Học viên Trần Ngọc Hưng năm 2017 i MỤC LỤC MỤC LỤC i DANH MỤC CÁC BẢNG ii DANH MỤC CÁC HÌNH iiii MỞ ĐẦU CHƯƠNG 1:LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 1.1 PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC 1.2 LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT 1.2.1 Lọc cộng tác phương pháp học không giám sát 1.2.2 Hạn chế phương pháp học không giám sát 1.2.3 Phương pháp cải tiến 1.3 PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC CỘNG TÁC 1.3.1 Học bán giám sát dựa vào người dùng 1.3.2 Học bán giám sát dựa vào sản phẩm 11 1.3.3 Kết hợp hai kiểu giám sát 13 1.3.3.1 Phương pháp Cotraining-UserBased 13 1.3.3.2 Phương pháp Cotraining-ItemBased 17 1.4 KẾT LUẬN 20 CHƯƠNG 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP 21 2.1 PHÁT BIỂU BÀI TOÁN LỌC KẾT HỢP 21 2.2 HỢP NHẤT BIỂU DIỄN GIÁ TRỊ CÁC ĐẶC TRƯNG NỘI DUNG 23 2.2.1 Hợp hồ sơ người dùng lọc nội dung vào ma trận đánh giá 24 2.2.2 Hợp hồ sơ sản phẩm lọc nội dung vào ma trận đánh giá…………….……… 27 2.3.MÔ HÌNH HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP 29 2.3.1 Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm 30 2.3.2 Bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng 32 2.3.3.Thuật toán học bán giám sát cho lọc kết hợp 34 2.4.KẾT LUẬN 39 CHƯƠNG 3: THỬ NGHIỆM VÀĐÁNH GIÁ 41 3.1 DỮ LIỆU THỬ NGHIỆM 41 3.2 PHƯƠNG PHÁP THỬ NGHIỆM…….………………………………….……………… 42 ii 3.3 SO SÁNH VÀ KẾT QUẢ ……………………………………………….……………… 42 3.4 KẾT LUẬN ……………………………………………………………………………… 59 KẾT LUẬN … ……………………………………………………………………………… 50 TÀI LIỆU THAM KHẢO …………………………………………………………………… 51 iii DANH SÁCH BẢNG Bảng 1.1 Ma trận đánh giá lọc cộng tác Bảng 1.2 Ma trận đánh ước lượng theo người dùng 11 Bảng 1.3 Ma trận đánh ước lượng theo sản phẩm 13 Bảng 2.1 Ma trận đánh giá R 24 Bảng 2.2 Ma trận đặc trưng sản phẩmC 24 Bảng 2.3 Ma trận đặc trưng người dùngT 25 Bảng 2.4 Ma trận hồ sơ người dùngwis 27 Bảng 2.5 Ma trận đánh giá mở rộng rix theo hồ sơ người dùng 27 Bảng 2.6 Ma trận hồ sơ sản phẩm Vqx 29 Bảng 2.7 Ma trận đánh giá mở rộng rixtheo hồ sơ sản phẩm 29 Bảng 3.1 Giá trị MAE tập ml-100k 45 Bảng 3.2 Giá trị MAE tập ml-1M 46 Bảng 3.3 Giá trị MAE tập ml-10M…………………………………………………46 Bảng 3.4 Giá trị MAE phương pháp 49 iv DANH SÁCH HÌNH VẼ Hình 1.1 Thuật toán Cotraining-UserBased 15 Hình 1.2 Thuật toán Cotraining-ItemBased 17 Hình 2.1 Thuật toán Semi-Learing 40 MỞ ĐẦU Hiện nay, hệ thống tư vấn (recomender system) trở thành công cụ hữu dụng phổ biến hệ thống thương mại điện tử, tiêu biểu hệ tư vấn hãng Amazon, Yahoo, Google hay FaceBook Hệ tư vấn xây dựng dựa hai kỹ thuật lọc thông tin chính: Hệ tư vấn dựa vào phương pháp lọc theo nội dung (ContentBased Filtering Recommendation) hệ tư vấn dựa vào phương pháp lọc cộng tác (Collaborative Filtering Recommendation) Lọc theo nội dung khai thác khía cạnh liên quan đến đặc trưng nội dung thông tin sản phẩm người dùng sử dụng hay truy nhập khứ để tạo nên tư vấn Lọc theo nội dung cho lại kết tốt dạng thông tin biểu diễn đặc trưng nội dung, gặp phải khó khăn dạng thông tin đa phương tiện (hình ảnh, âm thanh, dịch vụ) Trái lại, lọc cộng tác sử dụng liệu đánh giá người dùng - sản phẩm để đưa dự đoán nên thực tốt tất dạng thông tin gặp phải vấn đề người dùng mới, sản phẩm liệu thưa thớt Chính vậy, vấn đề kết hợp phương pháp tư vấn theo nội dung tư vấn cộng tác nhằm tận dụng lợi phương pháp cộng đồng quan tâm nghiên cứu thời gian gần Trong luận văn em trình bày mô hình kết hợp (tư vấn lai) lọc cộng tác lọc nội dung Mục đích phương pháp lọc kết hợp nhằm xác định giá trị dự đoán chắn để chuyển giao cho trình huấn luyện Điều góp phần cải thiện chất lựợng tư vấn khắc phục vấn đề thưa thớt liệu lọc cộng tác Nội dung luận văn bao gồm 03 chương: Chương 1: Lọc cộng tác phương pháp học bán giám sát Nội dung chương này, em giới thiệu kỹ thuật tư vấn cộng tác dựa nhớ phương pháp đồng huấn luyện cho lọc cộng tác Đây mô hình sở để phát triển mô hình đồng huấn luyện trình bày chương luận văn Chương 2: Phương pháp đồng huấn luyện cho lọc kết hợp Chương em tập trung trình bày phương pháp kết hợp lọc cộng tác lọc nội dung Phương pháp thực cách tích hợp đặc trưng nội dung sản phẩm đặc trưng người dùng vào lọc cộng tác Trên sở giá trị đặc trưng nội dung tích hợp, luận văn mở rộng phương pháp ước lượng mức độ tương tự cặp người dùng không thực đánh giá người dùng mà hồ sơ người dùng; mức độ tương tự cặp sản phẩm không thực đánh giá sản phẩm mà hồ sơ sản phẩm Bằng cách này, ta cải thiện đáng kể kết dự đoán cho phương pháp tư vấn dựa vào người dùng tư vấn dựa vào sản phẩm Dựa việc mở rộng độ đo tương tự cặp người dùng cặp sản phẩm, luận văn thực hai mô hình đồng huấn luyện cho lọc kết hợp: đồng huấn luyện dựa vào người dùng đồng huấn luyện dựa vào sản phẩm [4] Chương 3: Thử nghiệm đánh giá Chương cài đặt thử nghiệm thuật toán với tập liệu MovieLen Từ kết thử nghiệm thu em tiến hành đánh giá, so sánh thuật toán khác Cuối kết luận hướng phát triển đề tài 39 |𝑈𝑠𝑒𝑟(𝑥, 𝑞)|(𝑡) (𝑡) 𝑣𝑞𝑥 = 𝜃 { (𝑡) 𝑟𝑖𝑥 𝑛ế𝑢 |𝑈𝑠𝑒𝑟 (𝑥, 𝑞)|(𝑡) ≥ 𝜃 ∑ 𝑖∈𝑈𝑠𝑒𝑟(𝑥,𝑞)(𝑡) (𝑡) ∑ 𝑛ế𝑢 |𝑈𝑠𝑒𝑟(𝑥, 𝑞)|(𝑡) < 𝜃 𝑟𝑖𝑥 𝑖∈𝑈𝑠𝑒𝑟(𝑥,𝑞)(𝑡) b) Mở rộng ma trận đánh giá theo hồ sơ sản phẩm công thức (2.11): (𝑡) (𝑡) 𝑟𝑖𝑥 (𝑡) c) Xác định 𝑆𝑥 (𝑡) ={ (𝑡) 𝑟𝑖𝑥 = 𝑟𝑖𝑥 (𝑡) 𝑣𝑞𝑥 𝑛ế𝑢 𝑖 ∈ 𝑈 𝑛ế𝑢 𝑞 ∈ 𝑇 (𝑖 = 𝑞) (𝑡) (𝑡) theo công thức (2.23): 𝑆𝑥 = {𝑦 ∈ 𝑃: |𝑈𝑥 ∩ (𝑡) (𝑡) 𝑈𝑦 | > 1 𝑣à |𝑇𝑥 ∩ 𝑇𝑦 | > 2 } (𝑡) d) Tính toán 𝑝𝑥𝑦 theo công thức (2.27): (𝑡) 𝑝𝑥𝑦 (𝑡) 𝑛ế𝑢 𝑦 𝑆𝑥 ̿̿̿̿̿ (𝑡) (𝑡) (𝑡) ∑𝑖∈𝐻 (𝑡)∩𝐻 (𝑡) (𝑟𝑖𝑥(𝑡) − ̿̿̿̿̿ 𝑟𝑥 ) (𝑟𝑖𝑦 − 𝑟𝑦 ) 𝑥 = (𝑡) 𝑦 √∑ { (𝑡) (𝑡) 𝑖∈𝐻𝑥 ∩𝐻𝑦 ̿̿̿̿̿ ̿̿̿̿̿ (𝑡) (𝑡) (𝑡) (𝑡) (𝑟𝑖𝑥 − 𝑟𝑥 ) √∑𝑖∈𝐻 (𝑡)∩𝐻 (𝑡) (𝑟𝑖𝑦 − 𝑟𝑦 ) 𝑥 (𝑡) (𝑡) 𝑦 (𝑡) (𝑡) (𝑡) e) Xác định 𝐾𝑥 theo công thức (2.32): 𝐾𝑥 = {𝑥 ∈ 𝑆𝑥 : 𝑝𝑥𝑦 > } f) Dự đoán giá trị (𝑡) 𝑟𝑖𝑥 (𝑡) 𝑛ế𝑢 𝑖 ∈ 𝑆𝑥 𝑣à 𝑎𝑥𝑦 ≥∝ 𝑣à 𝑏𝑥𝑦 theo công thức (2.33): (𝑡) 𝑟𝑖𝑥 (𝑡) (𝑡) (𝑡) 𝑝𝑥𝑦 𝑟𝑖𝑦 𝑦∈𝐾𝑥 (𝑡) ∑ (𝑡) |𝑝𝑥𝑦 | 𝑦∈𝐾𝑥 ∑ = 2.3 Tăng bước lặp : tt+1; Until Converges Bước 3(sinh tư vấn): (𝑡) ; ; End Hình 2.1: Thuật toán Semi-Learning 40 2.4 Kết luận Trên mô hình hợp lọc cộng tác lọc theo nội dung phương pháp học bán giám sát Phương pháp tiến hành cách hợp biểu diễn giá trị đặc trưng sản phẩm vào lọc cộng tác để thống phương pháp dự đoán dựa vào người dùng Sau đó, xây dựng phương pháp hợp biểu diễn giá trị đặc trưng người dùng vào lọc cộng tác để thống phương pháp dự đoán dựa vào sản phẩm Ta thấy phương pháp học bán giám sát để chuyển giao kết dự đoán hai phương pháp dự đoán theo người dùng dự đoán theo sản phẩm Để phát huy ưu điểm hạn chế nhược điểm phương pháp lọc, xây dựng hai kiểu bán giám sát: bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng Bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm tiến hành cách xây dựng tập không thưa người dùng Bán giám sát tập đánh giá sản phẩm tập đặc trưng người dùng tiến hành cách xác định tập không thưa sản phẩm Dựa tập không thưa người dùng sản phẩm, hạn chế trình tính toán mức độ tương tự cặp người dùng, tập láng giềng người dùng sản phẩm để xác định kết dự đoán chắn Trên sở hai trình bán giám sát xây dựng, thuật toán học bán giám sát xây dựng để chuyển giao kết dự đoán trình bán giám sát 41 Chương - THỬ NGHIỆM VÀĐÁNH GIÁ Chương trình bày phương pháp thử nghiệm thuật toán nêu chương chương Dựa kết thử nghiệm đưa so sánh đánh giá tính xác, hiệu thuật toán 3.1 Dữ liệu thử nghiệm Thuật toán lọc cộng tác thử nghiệm liệu MovieLens nhóm nghiên cứu GroupLens thuộc trường đại học Minnesota Bộ liệu thứ ml-100K bao gồm 100.000 đánh giá 943 người dùng cho 1.682 phim Giá trị đánh giá thực từ đến Mức độ thưa thớt liệu đánh giá 98.7% Bộ liệu thứ hai ml-1M bao gồm 1.000.000 đánh giá 6.000 người dùng cho 4.000 phim Bộ liệu thứ ba ml-10M bao gồm 10.000.000 đánh giá 72.000 người dùng [11] Lần lượt chọn ngẫu nhiên 200, 400, 600 người dùng tập ml-100K làm liệu huấn luyện, 200 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Chọn ngẫu nhiên 1.000, 2.000 3.000 người dùng tập ml-1M làm liệu huấn luyện, 1.000 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Chọn ngẫu nhiên 10.000, 20.000 40.000 người dùng tập ml-1M làm liệu huấn luyện, 10.000 người dùng lựa chọn ngẫu nhiên số lại để làm tập kiểm tra Để thử nghiệm khả phương pháp lọc kết hợp so với phương pháp khác trường hợp có liệu, em thay đổi số lượng đánh giá người dùng tập kiểm tra cho số lượng đánh giá biết 5, 10 20 phần lại đánh giá cần dự đoán Chọn  = 14 cho tập liệu huấn luyện để thực tính toán theo mô hình Co-Training Điều có nghĩa, việc tính toán mức độ tương tự cặp người dùng sản phẩm thực cặp người dùng sản phẩm giao 2/3 sản phẩm người dùng đánh giá Dựa việc tính toán này, phương 42 pháp dự đoán nhãn phân loại chắn cho trình huấn luyện theo người dùng sản phẩm thực Thuật toán học bán giám sát cho lọc kết hợp thử nghiệm liệu MovieLens nhóm nghiên cứu GroupLens thuộc trường đại học Minnesota Tập liệu MovieLens có ba lựa chọn với kích thước khác là: MovieLens 100k, MovieLens 1M MovieLens 10M Trong đó, tập liệu MovieLens 100KB tập tập MovieLens 1M Tập đặc trưng sản phẩm người dùng cung cấp đầy đủ kèm theo tập đánh giá người dùng Tập liệu MovieLens 10M lớn không cung cấp tập đặc trưng người dùng tập đặc trưng sản phẩm Chính vậy, em sử dụng tập liêu MovieLens 1M để tiến hành thử nghiệm Tập liệu MovieLens 1M gồm 1MB đánh giá 6040 người dùng cho 3.952 phim Giá trị đánh giá thực từ đến Mức độ thưa thớt liệu đánh giá 99.1% Dữ liệu cụ thể cung cấp file sau:  u.data: lưu trữ đầy đủ 1MB đánh giá 6040 người dùng cho 3.952 phim Mỗi người dùng đánh giá 20 phim Mỗi hàng có cấu trúc: user id | item id | rating | timestamp  u.info: File lưu số lượng người dùng, số lượng sản phẩm, số lượng xếp hạng tập liệu File u.item lưu thông tin phim  u.genre: File lưu danh sách 19 thể loại phim khác Đây tập đặc trưng nội dung sản phẩm dùng thử nghiệm phương pháp lọc kết hợp Ngoài ra, ứng với phim tách IMDB để lấy tập đặc trưng nước sản xuất, hãng phim, đạo diễn, diễn viên để làm tập đặc trưng phim  u.user: File lưu thông tin người dùng Các hàng có cấu trúc chung: user id | age | gender | occupation | zip code User id sử dụng tập liệu u.data u.occupation: File lưu danh sách nghề nghiệp Đây tập đặc trưng nội dung người dùng dùng thử nghiệm phương pháp học bán giám sát 3.2 Phương pháp thử nghiệm Thử nghiệm 1: Trước tiên, toàn liệu thử nghiệm chia thành hai phần, phần Utr sử dụng làm liệu huấn luyện, phần lại Ute sử dụng để 43 kiểm tra Tập Utr chứa 75% đánh giá tập Ute chứa 25% đánh giá Dữ liệu huấn luyện sử dụng để xây dựng mô hình theo thuật toán mô tả Với người dùng i thuộc tập liệu kiểm tra, đánh giá (đã có) người dùng chia làm hai phần Oi Pi Oi coi biết, Pi đánh giá cần dự đoán từ liệu huấn luyện Oi Sai số dự đoán MAEu với khách hàng u thuộc tập liệu kiểm tra tính trung cộng sai số tuyệt đối giá trị dự đoán giá trị thực tất mặt hàng thuộc tập Pu MAE u  Pu  rˆ u y  ry u (3.1) yPu Sai số dự đoán toàn tập liệu kiểm tra tính trung bình cộng sai số dự đoán cho khách hàng thuộc Ute MAE   MAE u uU t e U te (3.2) Giá trị MAE nhỏ tốt, tức phương pháp xác Thử nghiệm 2: Trước tiên, toàn liệu thử nghiệm chia thành hai phần, phần Utr sử dụng làm liệu huấn luyện, phần lại Ute sử dụng để kiểm tra Tập Utr chứa 80% đánh giá tập Ute chứa 20% đánh giá Dữ liệu huấn luyện sử dụng để xây dựng mô hình theo thuật toán mô tả Với người dùng i thuộc tập liệu kiểm tra, đánh giá (đã có) người dùng chia làm hai phần Oi Pi Oi coi biết, Pi đánh giá cần dự đoán từ liệu huấn luyện Oi[2, 3] Sai số dự đoán MAEu với khách hàng u thuộc tập liệu kiểm tra tính trung cộng sai số tuyệt đối giá trị dự đoán giá trị thực tất mặt hàng thuộc tập Pu 𝑀𝐴𝐸𝑢 = |𝑃𝑢 | ∑𝑦∈𝑃𝑢 |𝑟̂𝑢𝑦 − 𝑟𝑢𝑦 | (3.3) 44 Sai số dự đoán toàn tập liệu kiểm tra tính trung bình cộng sai số dự đoán cho khách hàng thuộc Ute.Giá trị MAE nhỏ phương pháp dự đoán có độ xác cao [2, 3] 𝑀𝐴𝐸 = ∑𝑢∈𝑈𝑡𝑒 𝑀𝐴𝐸𝑢 (3.4) |𝑈𝑡𝑒 | 3.3 So sánh kết Phương pháp Co-Training-UserBased (ký hiệu Co-UserBased) so sánh với phương pháp sau: - Phương pháp UserBased sử dụng độ tương quan Pearson Đây phương pháp lọc cộng tác dựa người dùng trình bày Mục 2.1 - Phương pháp ItemBased sử dụng độ tương quan Pearson Đây phương pháp lọc cộng tác dựa sản phẩm người dùng trình bày Mục 2.1 Bảng 3.1: Giá trị MAE tập ml-100K Số đánh giá biết trước Kích thước tập Phương pháp liệu huấn luyện 10 20 200 người dùng 400 người dùng 600 người dùng UserBased 0.732 0.711 0.645 ItemBased 0.742 0.722 0.673 Co-UserBased 0.621 0.594 0.512 Co-ItemBased 0.598 0.572 0.507 UserBased 0.694 0.675 0.644 ItemBased 0.711 0.697 0.653 Co-UserBased 0.615 0.615 0.587 Co-ItemBased 0.607 0.607 0.517 UserBased 0.693 0.686 0.686 ItemBased 0.697 0.687 0.687 Co-UserBased 0.548 0.519 0.511 Co-ItemBased 0.534 0.524 0.514 45 Bảng 3.2: Giá trị MAE tập ml-1M Kích thước tập liệu huấn luyện 1.000 người dùng 2.000 người dùng 4.000 người dùng Phương pháp Số đánh giá biết trước 10 20 UserBased 0.792 0.779 0.764 ItemBased 0.789 0.774 0.732 Co-UserBased 0.764 0.752 0.716 Co-ItemBased 0.759 0.756 0.714 UserBased 0.734 0.725 0.663 ItemBased 0.731 0.739 0.657 Co-UserBased 0.685 0.654 0.615 Co-ItemBased 0.667 0.647 0.607 UserBased 0.713 0.688 0.686 ItemBased 0.719 0.675 0.618 Co-UserBased 0.684 0.642 0.597 Co-ItemBased 0.667 0.631 0.598 Bảng 3.3: Giá trị MAE tập ml-10M Kích thước tập liệu huấn luyện 10.000 người dùng 20.000 người dùng 40.000 người dùng Phương pháp Số đánh giá biết trước 10 20 UserBased 0.763 0.724 0.716 ItemBased 0.788 0.729 0.723 Co-UserBased 0.712 0.694 0.647 Co-ItemBased 0.708 0.674 0.653 UserBased 0.734 0.615 0.664 ItemBased 0.746 0.618 0.672 Co-UserBased 0.689 0.643 0.622 Co-ItemBased 0.681 0.667 0.619 UserBased 0.796 0.766 0.684 ItemBased 0.790 0.775 0.698 46 Co-UserBased 0.688 0.669 0.616 Co-ItemBased 0.679 0.654 0.642 Giá trị MAE Bảng 3.1, Bảng 3.2 Bảng 3.3 ước lượng từ trung bình 10 lần thử nghiệm ngẫu nhiên Kết thử nghiệm cho thấy hai phương pháp lọc cộng tác phương pháp Co-Training cho kết tốt so với phương pháp lọc UserBased ItemBased Sai số MAE phương pháp CoTraining-UserBased Co-Training-ItemBased nhỏ kích thước liệu huấn luyện số lượng đánh giá cho trước người dùng Điều khẳng định phương pháp cải thiện đáng kể kết dự đoán cho lọc cộng tác Trong trường hợp liệu tương đối đầy đủ, cụ thể biết trước nhiều đánh giá người dùng tập kiểm tra, phương pháp Co-Training-UserBased CoTraining-ItemBased cho lại kết tương đương Tuy nhiên, liệu đi, cụ thể biết trước 10 đánh giá người dùng kiểm tra đa số trường hợp, Co-Training-ItemBased cho sai số MAE nhỏ so với Co-TrainingUserBased Lý chủ yếu lực lượng tập Cx xác định theo (2.13) lớn lực lượng tập Si xác định theo (2.9) Điều cho phép dự đoán nhãn phân loại bổ sung vào trình huấn luyện theo người dùng tốt Phương pháp học bán giám sát thử nghiệm so sánh với phương pháp sau: - Phương pháp KNN dựa vào người dùng sử dụng độ tương quan Pearson (ký hiệu CF-UserBased) Đây phương pháp tư vấn cộng tác chuẩn dựa vào người dùng đề xuất [9] - Phương pháp KNN dựa vào sản phẩm sử dụng độ tương quan Pearson (ký hiệu CF-ItemBased) Đây phương pháp tư vấn cộng tác chuẩn dựa vào sản phẩm đề xuất [10] - Phương pháp KNN dựa vào hồ sơ người dùng sử dụng độ tương quan Pearson (ký hiệu CBF-UserBased) Đây phương pháp tư vấn dựa vào việc so sánh mức độ tương tự hai hồ sơ người dùng theo công thức (2.15) 47 - Phương pháp KNN dựa vào hồ sơ sản phẩm sử dụng độ tương quan Pearson (ký hiệu CBF-ItemBased) Đây phương pháp tư vấn dựa vào việc so sánh mức độ tương tự hai hồ sơ sản phẩm theo công thức (2.26) - Phương pháp tư vấn kết hợp KNN dựa vào người dùng tập đặc trưng sản phẩm sử dụng độ tương quan Pearson (ký hiệu Hybrid-UserBased) Đây phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson theo công thức (2.16) - Phương pháp tư vấn kết hợp dựa theo sản phẩm tập đặc trưng người dùng sử dụng độ tương quan Pearson (ký hiệu Hybrid-ItemBased) Đây phương pháp tư vấn kết hợp dựa vào độ tương quan Pearson theo công thức (2.27) Lấy ngẫu nhiên 4.000 người dùng tập MovieLens làm liệu huấn luyện Chọn ngẫu nhiên 1.000 người dùng số lại để làm tập liệu kiểm tra (test1.inp, test2.inp, test3.inp, test3.inp) Đối với tập liệu kiểm tra, em thực loại bỏ ngẫu nhiên đánh giá cho số đánh giá biết trước người dùng sản phẩm lại 5, 10, 15 20 đánh giá Tập test1.inp, test2.inp, test3.inp có số đánh giá giá biết trước người dùng 5, 10, 15 tương ứng với trường hợp liệu huấn luyện thưa [3] Tập test4.inp có số đánh giá giá biết trước 20 tương ứng với trường hợp liệu huấn luyện thưa [3] Chọn  = 4, 8, 12, 15 ứng với test theo thứ tự để xác định xác định wis, vqx theo công thức (6), (10) Chọn 1= 4, 8, 12, 15 (cho tập liệu theo thứ tự), 2= 10 =0.9 (cho tất tập liệu kiểm tra) để xác định 𝑆𝑖 , 𝑢𝑖𝑗 , 𝐾𝑖 theo công thức (2.12), (2.16), (2.21), 𝑆𝑥 , 𝑝𝑥𝑦 , 𝐾𝑥 theo công thức (2.23), (2.27), (2.32) Giá trị MAE Bảng lấy trung bình 10 lần thử nghiệm ngẫu nhiên Giá trị MAE nhỏ chứng tỏ phương pháp có kết dự đoán tốt [1, 2, 3] 48 Bảng 3.4: Giá trị MAE phương pháp Số lượng đánh giá biết trước tập kiểm tra Phương pháp 10 15 20 CBF-UserBased 0.865 0.859 0.855 0.835 CBF-ItemBased 0.894 0.883 0.875 0.845 CF-UserBased 0.824 0.817 0.821 0.813 CF-ItemBased 0.846 0.841 0.836 0.815 Hybrid-UserBased 0.793 0.792 0.791 0.702 Hybrid-ItemBased 0.798 0.788 0.782 0.695 Semi-Learning 0.672 0.629 0.617 0.585 0.9 0.8 CBF-UserBased 0.7 CBF-ItemBased MAE 0.6 CF-UserBased 0.5 CF-ItemBased 0.4 Hybrid-UserBased 0.3 Hybrid-ItemBased Semi-Learning 0.2 0.1 10 15 20 Kết thử nghiệm cho thấy phương pháp tư vấn nội dung dựa vào hồ sơ người dùng hồ sơ sản phẩm cho lại giá trị MAE lớn so với phương pháp lại Phương pháp tư vấn cộng tác dựa vào đánh giá người dùng đánh giá sản phẩm cho lại giá trị MAE nhỏ so với phương pháp tư vấn theo nội dung Cụ thể, ứng với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20, phương pháp CBF-UerBased CBF-Itembased cho lại giá trị MAE 0.865, 0.859, 0.855, 49 0.835 0.894, 0.883, 0.876, 0.845 theo thứ tự Trong đó, phương pháp CFUserBased CF-ItemBased cho lại giá trị MAE 0.824, 0.817, 0.821, 0.813 0.846, 0.841, 0.836, 0.815 theo thứ tự Kết hoàn toàn phù hợp với nghiên cứu trước [1, 2] Phương pháp Hybrid-UserBased cho lại giá trị MAE thấp nhiều so với phương pháp CBF-UserBased CF-UserBased Cụ thể ứng với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20 phương pháp CBF-UserBased CFUserBased cho lại giá trị MAE 0.865, 0.859, 855, 0.835 0.824, 0.817, 0.821, 0.813 so với 0.793, 0.792, 0.791, 702 phương pháp Hybrid-UserBased Phương pháp Hybrid-ItemBased cho lại giá trị MAE thấp so với phương pháp CBF-ItemBased CF-ItemBased Với số lượng đánh giá biết trước tập kiểm tra 5, 10, 15, 20 phương pháp CBF-ItemBased CF-ItemBased cho lại giá trị MAE 0.894, 0.833, 875, 0.845 0.846, 0.841, 0.836, 0.815 so với 0.798, 0.788, 0.782, 0.695 phương pháp Hybrid-ItemBased Điều lý giải phương pháp tính toán mức độ tương tự cặp người dùng tập đánh giá người dùng đặc trưng sản phẩm xác so với phương pháp tính toán mức độ tương tự cặp người dùng dựa vào đánh giá người dùng hồ sơ người dùng Phương pháp tính toán mức độ tương tự cặp sản phẩm tập đánh giá sản phẩm đặc trưng người dùng xác so với phương pháp tính toán mức độ tương tự cặp sản phẩm dựa vào đánh giá sản phẩm hồ sơ sản phẩm Phương pháp Semi-Learning cho lại giá trị MAE thấp tất mức độ thưa thớt liệu khác Đối với tập liệu kiểm tra có đánh giá biết trước, phương pháp Hybrid-UserBased Hybrid-ItemBased cho lại giá trị MAE 0.793, 0.798 so với 0.672 phương pháp Semi-Learning Với tập liệu kiểm tra có 10 đánh giá biết trước, phương pháp Hybrid-UserBased HybridItemBased cho lại giá trị MAE 0.792, 0.788 so với 0.629 phương pháp Semi-Learning Với tập liệu kiểm tra có 15 đánh giá biết trước, phương pháp Hybrid-UserBased Hybrid-ItemBased cho lại giá trị MAE 0.791, 0.782 50 so với 0.617 phương pháp Semi-Learning Đặc biệt, với tập liệu kiểm tra có 20 đánh giá biết trước, phương pháp cho lại giá trị MAE 0.585 Điều khẳng định phương pháp xác định độ tương tự dựa tập không thưa người dùng sản phẩm hoàn toàn tin cậy Phương pháp chuyển giao kết dự đoán trình bán giám sát tập đánh giá người dùng tập đặc trưng sản phẩm tập đánh giá sản phẩm tập đặc trưng người dùng hạn chế hiệu vấn đề liệu thưa phương pháp lọc 3.4 Kết luận Chương luận văn em trình bày thử nghiệm đánh giá kết thử nghiệm sử dụng tập liệu MovieLen Qua trình thử nghiệm cho thấy thuật toán lọc kết hợp cho kết tốt phương pháp lọc cộng tác túy Phương pháp đồng huấn luyện lọc kết hợp cho kết dự đoán tốt phương pháp lọc cộng tác bằngđồng huấn luyện.Từ trình thử nghiệm xem xét áp dụng phương pháp kết hợp vào hệ thống tư vấn 51 KẾT LUẬN Luận văn trình bày mô hình kết hợp lọc cộng tác với lọc nội dung cách tích hợp đặc trưng sản phẩm, đặc trưng người dùng vào lọc cộng tác để tận dụng lợi hai phương pháp Dựa cách kết hợp luận văn trình bày thuật toán lọc kết hợp dựa người dùng, lọc kết hợp dựa sản phẩm Đặc biệt phương pháp đồng huấn luyện cho mô hình kết hợp Phương pháp đồng huấn luyện cho mô hình kết hợp sở dựa mô hình đồng huấn luyện lọc cộng tác,nó kết hợp hai cách quan sát:quan sát theo người dùng quan sát theo sản phẩm để huấn luyện liệu đánh giá Tuy nhiện mô hình đồng huấn luyện khác mô hình cũ sử dụng liệu đánh giá sau kết hợp với đặc trưng sản phẩm đặc trưng người dùng Trong thử nghiệm ban đầu cho thấy: - Các phương pháp lọc kết hợp dựa người dùng tốt so với phương pháp lọc cộng tác dựa vào người dùng - Các phương pháp lọc kết hợp dựa sản phẩm tốt so với phương pháp lọc cộng tác dựa vào sản phẩm - Phương pháp đồng huấn luyện lọc kết hợp cho kết tốt phương pháp đồng huấn luyện lọc cộng tác - Mô hình kết hợp giải phần vấn đề thưa thớt liệu cải thiện chất lượng tư vấn Một số hướng phát triển luận văn: - Xác định việc tích hợp đặc trưng người dùng hay đặc trưng sản phẩm vào mô hình kết hợp cho kết tốt - Xây dựng ứng dụng áp dụng thuật toán kết hợp lọc cộng tác với lọc nội dung 52 TÀI LIỆU THAM KHẢO Sarwar B., Karypis G., Konstan J., and Riedl J., “Item-Based Collaborative Filtering Recommendation Algorithms”, Proc 10th Int’l WWW Conf (2001) Robin D Burke, “Hybrid Recommender Systems: Survey and Experiments” User Model User-Adapt Interact 12(4): 331-370 (2002) Do Thị Lien, Nguyen Duy Phuong,“ A Semi-supervised Learning for collabortive Filtering ” , KSE 2015 Do Thị Lien, Nguyen Duy Phuong,“A Semi-supervised Learning for Hybrid Filtering ” , Fair 2016 M D Ekstrand, J T Riedl and J A Konstan, “Collaborative Filtering Recommender System” Foundations and Trends in Human–Computer Interaction, Vol 4, No2, 2010, pp 81:173 Adomavicius G., Tuzhilin A., “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”, IEEE Transactions On Knowledge And Data Engineering, vol 17, No 6, 2005 Claypool, M., Gokhale, A., Miranda, T., Murnikov, P., Netes, D., Sartin, M “Combining content-based and collaborative filters in an online newspaper” In: Proceedings of ACM SIGIR workshop on recommender systems, vol 60 Citeseer (1999) Herlocker J.L, Konstan J.A., Terveen L.G., and Riedl J.T., “Evaluating Collaborative Filtering Recommender Systems”, ACM Trans Information Systems, vol 22, No (2004), pp 5-53 W.Pan, Q Yang,.” Transfer learning in heterogeneous collaborative filtering domains”., Artification Intelligence, Volume 197, April 2013, Pages 39–55 10 W Pan, E Xiang, N L Yang., “Transfer Learning in Collaborative Filtering for Sparsity Reduction.,” Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), pp:230-235 53 11 W Pan, E Xiang, Q Yang.,” Transfer Learning in CollaborativeFiltering with Uncertain Ratings,.” Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (2012), pp:662-668 12 Breese J S., Heckerman D., and Kadie C., “Empirical analysis of Predictive Algorithms for Collaborative Filtering”, In Proc of 14th Conf on Uncertainty in Artificial (1998) 13 Raghavan, S., Gunasekar, S., Ghosh, J “Review quality aware collaborative filtering” In Proceedings of the sixth ACM conference on Recommender systems, pp 123–130 ACM(2012) 14 Su X., Khoshgoftaar T M., “A Survey of Collaborative Filtering Techniques.,” Advances in Artificial Intelligence ,2009, pp.1-20 15 http://grouplens.org/datasets/movielens/ 16 https://en.wikipedia.org/wiki/Mean_absolute_error 17 http://www.grouplens.org/ ... 1.2.2 Hạn chế phương pháp học không giám sát 1.2.3 Phương pháp cải tiến 1.3 PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC CỘNG TÁC 1.3.1 Học bán giám sát dựa vào người dùng... TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 1.1 PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC 1.2 LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT 1.2.1 Lọc cộng tác phương pháp học không giám sát ...HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Trần Ngọc Hưng NGHIÊN CỨU PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO HỆ TƯ VẤN LAI Chuyên ngành: Khoa học máy tính Mã

Ngày đăng: 27/04/2017, 14:22

Xem thêm: Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ), Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)

Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (LV thạc sĩ)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan