Hệ thống đề xuất địa điểm sử dụng phương pháp lai (hybrid) trên dữ liệu foody vn

81 436 0
Hệ thống đề xuất địa điểm sử dụng phương pháp lai (hybrid) trên dữ liệu foody vn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH KHÔI HỆ THỐNG ĐỀ XUẤT ĐỊA ĐIỂM SỬ DỤNG PHƯƠNG PHÁP LAI (HYBRID) TRÊN DỮ LIỆU FOODY.VN LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 TP HỒ CHÍ MINH, tháng 04 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH KHÔI HỆ THỐNG ĐỀ XUẤT ĐỊA ĐIỂM SỬ DỤNG PHƯƠNG PHÁP LAI (HYBRID) TRÊN DỮ LIỆU FOODY.VN LUẬN VĂN THẠC SĨ Chuyên ngành : Công nghệ Thông tin Mã số ngành : 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THANH SANG TP HỒ CHÍ MINH, tháng 04 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS Nguyễn Thị Thanh Sang Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 11 tháng 04 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chủ tịch Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch TS Võ Đình Bảy Phản biện TS Lư Nhật Vinh Phản biện PGS.TSKH Nguyễn Xuân Huy TS Nguyễn Văn Mùi Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 11…tháng…04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN MINH KHÔI .Giới tính: Nam Ngày, tháng, năm sinh: 20-12-1987 .Nơi sinh: Long An Chuyên ngành: .Công nghệ thông tin .MSHV:1341860007 I- Tên đề tài: HỆ THỐNG ĐỀ XUẤT ĐỊA ĐIỂM SỬ DỤNG PHƯƠNG PHÁP LAI (HYBRID) TRÊN DỮ LIỆU FOODY.VN II- Nhiệm vụ nội dung: - Nghiên cứu xây dựng Hệ thống đề xuất dựa kết hợp đặc trưng liệu địa điểm đánh giá người dùng kết hợp với liệu địa lý để loại trừ kết không thực tế mặt không gian + Đưa kết đề xuất dựa vào đặc trưng địa điểm + Đưa kết dựa vào đánh giá người dùng + Kết hợp kết loại trừ kết không phù hợp với vị trí địa lý người dùng + So sánh kết có kết hợp với vị trí địa lý III- Ngày giao nhiệm vụ: 08-08-2014 IV- Ngày hoàn thành nhiệm vụ: 11-04-2014 V- Cán hướng dẫn: ……………TS NGUYỄN THỊ THANH SANG CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) ii LỜI CÁM ƠN Lời cảm ơn chân thành xin gởi đến Ban Giám Hiệu, toàn thể cán nhân viên, giảng viên trường Đại Học HUTECH, Ban lãnh đạo Phòng Quản Lý Khoa Học Đào Tạo Sau Đại Học, khoa Công Nghệ Thông Tin tạo điều kiện thuận lợi cho học tập nghiên cứu suốt học trình cao học Chúng xin chân thành tri ân đến thầy cô trực tiếp động viên, hướng dẫn suốt học trình: PGS.TS Lê Hoài Bắc, PGS.TS Nguyễn Xuân Huy, TS Nguyễn An Khương, TS Nguyễn Chánh Thành, TS Nguyễn Thị Thanh Sang, TS Tân Hạnh, TS Nguyễn Đình Thuân, TS Lê Mạnh Hải, TS Nguyễn Tuấn Đăng, TS Lư Nhật Vinh Với lòng tri ân sâu sắc, muốn nói lời cảm ơn chân thành đến cô TS Nguyễn Thị Thanh Sang tận tụy nghiêm túc hướng dẫn trình thực nghiên cứu Cuối yếu tố quan trọng giúp hoàn thành nghiên cứu này, gia đình Chúng muốn nói lời tri ân chân thành đến mẹ, em động viên chia sẻ hoàn cảnh với suốt học trình Nguyễn Minh Khôi iii TÓM TẮT Hiện Smart Phone ngày phổ biến Các Smart Phone tích hợp định vị GPS Với chức kết hợp với ứng dụng mạng xã hội địa điểm người dùng chia sẻ nơi biết hay tới Trong số Foody.vn mạng xã hội địa điểm lớn Việt Nam Sau thời gian phát triển, số lượng địa điểm chia sẻ Foody.vn trở nên nhiều làm cho người dùng bị tải Cần thiết phải nghiên cứu Hệ thống đề xuất (Recommender System - RS) áp dụng liệu địa điểm Trong toán đề xuất địa điểm cần phải kết hợp đặc trưng địa điểm, đánh giá người dùng vị trí địa lý địa điểm với vị trí người dùng có khả tới Với lý chọn đề tài: “Hệ thống đề xuất địa điểm sử dụng phương pháp lai (Hybrid) liệu Foody.vn” Các yêu cầu cần thực đề tài là: Nghiên cứu Hệ thống đề xuất dựa kết hợp đặc trưng liệu địa điểm, đánh giá người dùng vị trí địa lý để loại trừ kết không thực tế mặt không gian - Cụ thể: + Đưa kết đề xuất dựa vào đặc trưng địa điểm + Đưa kết dựa vào đánh giá người dùng + Kết hợp kết loại trừ kết không phù hợp với khu vực địa lý mà người dùng hay đến + So sánh kết có kết hợp với khu vực địa lý iv ABSTRACT The Smart Phone technology is becoming more innovative All Smart Phones now contain a GPS tracking device With this function and the ability to browse the World Wide Web, a person can share their current as well as previous locations Vide Web Foody.vn is one of the most popular social network of attractions in Vietnam After a period time of Web development, the number of interesting locations shared on Foody.vn drastically increases and overloads customers Therefore, the RS needs to be used for attractive places recommendation on Web, which can be utilized with the smart phone devices The concerning problem is how to effectively combine the recognition of locations, consumers’ reports, destinations, and user profiles for the best recommendation results With all reasons above, we decide to make the topic: "The places recommender system using Hybric method on Foody.vn data." The recommender system is proposed based on the features of places combined with user ratings and geographic location in Foody.vn website In particular, the objectives of this thesis are listed as follows: + Giving the recommendation results based on the features of places + Giving the recommendation results based on the user ratings + Combining all above results and eliminating unrealistic results with present geographic location of users + Comparing and evaluating the experimental results v MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH ix DANH MỤC CÁC BẢNG x CHƯƠNG MỞ ĐẦU 1.1 Giới thiệu 1.2 Lý chọn đề tài 1.3 Mục tiêu đề tài 1.4 Đối tượng phạm vi nghiên cứu 1.5 Tổ chức luận văn CHƯƠNG TỔNG QUAN VỀ HỆ THỐNG ĐỀ XUẤT 2.1 Hệ thống đề xuất 2.1.1 Khái niệm 2.1.2 Phát biểu toán đề xuất 2.1.3 Nguồn liệu sử dụng hệ thống đề xuất 2.1.4 Cách tiếp cận dùng RS 2.2 Mô hình hệ thống đề xuất 2.3 Một vài hệ đề xuất tiếng 2.4 Phương pháp lọc cộng tác 10 2.4.1 Giới thiệu: 10 2.4.2 Phát biểu toán: 11 2.4.3 Các phương pháp lọc cộng tác: 11 2.5 Phương pháp lọc dựa nội dung 12 2.5.1 Giới thiệu 12 2.5.2 Phát biểu toán 14 2.5.3 Các phương pháp lọc theo nội dung 14 2.6 Phương pháp lai 15 2.7 Đồ thị hai phía hệ thống đề xuất 16 2.7.1 Đồ thị hai phía (Biparties Graph) 16 vi 2.7.2 Tổng quan tình hình nghiên cứu 16 2.7.3 Sử dụng đồ thị hai phía hệ thống đề xuất 18 2.7.4 Phương pháp lọc theo nội dung sử dụng đồ thị kết hợp đồ thị hai phía 33 CHƯƠNG HỆ THỐNG ĐỀ XUẤT ĐỊA ĐIỂM FOODY 35 3.1 Mô hình hệ thống đề xuất cho FOODY 35 3.2 Chương trình Demo 36 3.3 Thu thập liệu 41 3.4 Cài đặt Lọc cộng tác 45 3.5 Cài đặt Lọc theo nội dung 48 3.6 Cài đặt Kết hợp 49 3.7 Cài đặt bổ sung vị trí địa lý 51 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 56 4.1 Thực nghiệm 56 4.1.1 Dữ liệu thực nghiệm 56 4.1.2 Phương pháp đánh giá 56 4.1.3 So sánh đánh giá thực nghiệm 56 4.2 Phân tích kết 60 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 5.1 Đánh giá kết đạt 62 5.2 Hạn chế đề tài 63 5.3 Hướng phát triển 64 TÀI LIỆU THAM KHẢO 65 52 Hình 12: Mô tả đề xuất liệu check-in - Tuy nhiên khả đến địa điểm mà không gặp trở ngại không gian lại không phản ánh sở thích người dùng, cần kết hợp với kết phương pháp lai tính bên để tăng độ xác đề xuất 53 - Câu truy vấn sau: Bảng 14: Đại số quan hệ truy vấn kết lọc kết hợp có bổ sung kết lọc dựa vào quan hệ check-in Users,DiaDiem ℑSum(Values) ( Users,DiaDiem ℑSum(Values) ( 𝜋User,DiaDiem,Values (CheckIn_KetQua) ) ⋈ Users,DiaDiem ℑSum(Values) ( Users,DiaDiem ℑSum(Values) ( 𝜋User,DiaDiem,Values (Duong_KetQua) ⋈ 𝜋User,DiaDiem,Values (Am_KetQua) ) ⋈ Users,DiaDiem ℑSum(Values) ( 54 𝜋User,DiaDiem,Values ( 𝜋User,DiaDiem,Values (Duong_KetQua) ⋈ 𝜋User,DiaDiem,Values (Am_KetQua) ) LCT ⋈LCT.DiaDiem=NoiDung_KetQua.DiaDiem 𝜋User,DiaDiem,Values (NoiDung_KetQua) ) ) ) * Diễn giải: + CheckIn_KetQua: Kết tính trọng số mối quan hệ người dùng check-in địa điểm Bảng 15: Trích dẫn 10 mẫu kết phương pháp lai kết hợp với check-in Địa điểm Users ID Trọng số 102564 /gia-lai/den-café 16.6725526750 102564 /ha-noi/al-fresco-s-nha-tho 14.7528977650 102564 /ha-noi/al-fresco-s-hai-ba-trung 14.2965340770 102564 /ha-noi/acid-bar-giang-vo 13.1502848856 102564 /ben-tre/ninh-kieu-2 12.1182472686 55 102564 /ha-noi/avalon-cafe-lounge 10.9549029326 102564 /ha-noi/al-fresco-s-truc-bach 10.6757104206 102564 /ha-noi/banh-bo-bong-benh 9.4993692150 102564 /ha-noi/agni-café 7.5788655530 102564 /dong-nai/tram-dung-chan-mekong-long-thanh 2.2323114580 * Trọng số: Là tổng trọng số phương pháp lọc kết hợp bổ sung kết lọc cộng tác với liệu quan hệ check-in Đã xếp theo thứ tự giảm dần 56 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Thực nghiệm 4.1.1 Dữ liệu thực nghiệm Bộ liệu thử nghiệm thu thập từ ứng dụng Foody.vn Dữ liệu xử lý lưu trữ dạng liệu quan hệ Cơ sở liệu lưu trữ MS SQL Server 2008 Các mức đánh giá quy đổi sau: từ tới 10 giá trị 0; 1; 2; 3; tương ứng -0.5; -0.4; -0.3; -0.2; -0.1 (đánh giá kém) giá trị tương ứng với (không tốt không xấu tương đương với không đánh giá) giá trị 6; 7; 8; 9; 10 tương ứng 0.1; 0.2; 0.3; 0.4; 0.5 (đánh giá tốt) Mỗi check-in đặc trưng tương ứng giá trị 0.5 Dữ liệu có thông số sau: Bảng 1: Thông số liệu đánh giá Số lượng User Số dòng đánh giá Số dòng đặc trưng 100 886 88 Số dòng check-in 638 4.1.2 Phương pháp đánh giá Chúng sử dụng phương pháp đánh sau: + P (Precision): độ xác [4] - Công thức: 𝐏 = 𝐍𝐫𝐬 𝐍𝐫 Gọi 𝐍𝐫 số lần hệ thống thực đề xuất Gọi 𝐍𝐫𝐬 số lần hệ thống đề xuất xác Các độ đo lớn tốt phương pháp xác 4.1.3 So sánh đánh giá thực nghiệm - Trường hợp người dùng chưa có đánh giá hay check-in nào, kết đề xuất địa điểm được xếp hạng dựa vào trọng số, tất người dùng có kết đề xuất giống 57 Bảng 2: Danh sách 10 đề xuất có trọng số cao cho người dùng Địa điểm Trọng số /ho-chi-minh/watcha-café 19.6466308572 /ho-chi-minh/dairy-queen-nguyen-thi-minh-khai 17.4041673580 /gia-lai/den-café 17.0997054500 /ho-chi-minh/sua-dua-8-tin 16.9967023347 /ho-chi-minh/waffle-place-banh-to-ong-nuong 16.8912222592 /ho-chi-minh/the-bean-store-soy-delights 16.8912222592 /ho-chi-minh/sky-sushi-sushi-via-he-duong-pho 16.5323620050 /ha-noi/banh-xeo-okonomiyaki 15.7901784600 /ho-chi-minh/fruitique 15.7206167906 /ha-noi/al-fresco-s-nha-tho 15.2235033506 - Trường hợp người dùng cũ có tương tác đánh giá, check-in Đánh giá 10 người dùng ngẫu nhiên xử lý đề xuất Bảng 3: Chi tiết trình đánh giá Lọc cộng tác với liệu đánh giá STT User Id N Nr Nrs 119238 166820 1 26183 1 249242 5 91219 207 40402 207 7 30189 429 2 81439 423 Precision 58 112046 10 134985 1 Tổng 1278 36 23 0.63889 Lọc theo nội dung STT User Id N Nr Nrs Precision 119238 166820 26183 249242 5 91219 40402 7 30189 23 81439 23 112046 10 134985 Tổng 49 36 0.05556 Precision Phương pháp lai STT User Id N Nr Nrs 119238 166820 1 26183 1 249242 5 91219 207 40402 207 7 30189 429 2 81439 423 59 112046 10 134985 1 Tổng 1278 36 23 0.63889 Phương pháp lai kết hợp với Lọc cộng tác với liệu check-in STT User Id N Nr Nrs 119238 458 6 166820 1 26183 1 249242 458 5 91219 460 3 40402 460 7 30189 429 2 81439 777 6 112046 4 10 134985 1 Tổng 3049 36 35 Precision 0.97222 Bảng 4: So sánh độ xác Phương pháp Lọc cộng tác với liệu đánh giá Precision 0.63889 Lọc theo nội dung 0.05556 Phương pháp lai 0.63889 Phương pháp lai kết hợp với Lọc cộng tác với liệu check-in 0.97222 60 Precision 1.2 0.8 Lọc cộng tác với liệu đánh giá, 0.63889 Phương pháp lai kết hợp với Lọc cộng tác với liệu check-in, 0.97222 Phương pháp lai, 0.63889 0.6 0.4 Lọc theo nội dung, 0.05556 0.2 Lọc cộng tác với liệu đánh giá Lọc theo nội dung Phương pháp lai Phương pháp lai kết hợp với Lọc cộng tác với liệu check-in Hình 1: Biểu đồ so sánh độ xác 4.2 Phân tích kết Độ đo phương pháp Lọc cộng tác với liệu đánh giá; Phương pháp lai tương đối gần Với Lọc theo nội dung có độ đo thấp nguyên nhân thưa thớt liệu đặc trưng Riêng phương pháp lai kết hợp với Lọc cộng tác liệu check-in có độ xác cao Trong trình vận dụng phương pháp lọc để áp dụng vào liệu thực tế nảy sinh vấn đề liệu cho phương pháp lọc cộng tác đầy đủ phương pháp lọc theo nội dung Do kết phương pháp lọc cộng tác xác cao phương pháp lọc theo nội dung Phương pháp đề xuất có liệu check-in có độ xác cao liệu check-in thể địa điểm mà người dùng tới sử dụng phương pháp lọc cộng tác khai thác tối đa tính chất bắt cầu Do kết đề xuất có liệu checkin có xu hướng đề xuất nơi gần với khu vực người dùng thường hay đến từ mà kết đề xuất sử dụng liệu check-in cao 61 Dữ liệu check-in chưa phản ánh đầy đủ việc sử dụng địa điểm thực tế Khác với việc xác định người dùng mua sản phẩm trực tuyến, việc xác định người dùng đến địa điểm khó Người dùng đến lại không check-in mà thực tế trường hợp chiếm phần lớn Do độ đo chấp nhận với so với liệu thu thập 62 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Đánh giá kết đạt Sau trình tìm hiểu nghiên cứu, luận văn đạt số mục tiêu đề sau: - Luận văn trình bày sở lý thuyết phương pháp lọc cộng tác, phương pháp lọc theo nội dung phương pháp lai để xây dựng hệ thống đề xuất Xây dựng hoàn chỉnh hệ thống có khả đề xuất kết xác cho người dùng dựa liệu khứ người dùng người dùng khác Tích hợp kỹ thuật phương pháp để dần hoàn thiện ứng dụng tiến tới khai thác thực tế sau - Trình bày sở lý thuyết xây dựng mô hình đồ thị hai phía áp dụng phương pháp lọc cộng tác Vận dụng mô hình hai đồ thị hai phía áp dụng phương pháp lọc theo nội dung Kết hợp kết phương pháp lọc cộng tác phương pháp lọc theo nội dung phương pháp lai Sử dụng liệu check-in để gia tăng độ xác kết đề xuất - Ứng dụng linh hoạt sở lý thuyết vào thực tiễn Việt Nam mà cụ thể liệu địa điểm FOODY để giải toàn đề xuất địa điểm Hệ thống đề xuất xây dựng có khả thu thập liệu từ ứng dụng FOODY để làm liệu đầu vào Hệ thống có khả phát sinh kết đề xuất từ liệu đánh giá người dùng, từ đặc trưng địa điểm liệu check-in Hiện kết cho người dùng chưa đăng nhập đăng nhập - Vận dụng độ đo để đánh độ xác kết đề suất Kết cho thấy kết đề xuất phương pháp lai tương đương với kết đề xuất phương pháp lọc cộng tác, với liệu check-in kết đạt tốt kết để xuất phương pháp lại 63 - Nhờ vào việc áp dụng mô hình đồ thị hai phía hệ thống đề xuất mở khả cao để mở rộng hệ thống liệu đầu vào thay đổi mà xây dựng lại từ đầu Trong tương lại hệ thống có triển vọng đáp ứng mức độ phát triển người dùng, địa điểm ứng dụng FOODY 5.2 Hạn chế đề tài Ngoài kết đạt được, nên mục 5.1 đề tài có hạn chế sau: - Hạn chế lớn đề tài độ phức tạp thuật toán duyệt tính tổng trọng số tất đường đồ thị hai phía cao làm cho tốc độ phát sinh kết đề xuất chậm Giới hạn tốc độ khiến việc đề xuất kết mà phải xây dựng trước kết đề xuất Do mà kết đề xuất không cập nhật liệu đầu vào thay đổi - Tuy việc sử dụng mô hình đồ thị hai phía mở khả mở rộng hệ thống nhiên đề tài chưa đạt tới khả tự mở rộng kết đề xuất liệu đầu vào thay đổi Chưa thể sử dụng lại kết tính trước mà phải tính lại từ đầu gây lãng phí lớn - Kết phương pháp lai phương pháp lọc cộng tác liệu đầu vào cho phương pháp lọc theo nội dung thưa thớt Cần phải bổ sung liệu cho lọc theo nội dung - Hệ thống đề xuất xây dựng dừng lại mức độ demo để sử dụng cho nghiên cứu sau phát triển thêm chưa thể đưa vào khai thác hay ứng dụng thực tế 64 5.3 Hướng phát triển Hướng phát triển tập trung vào việc khắc phục hạn chế đề tài nêu mục 5.2 sau: - Cải thiện độ thức tạp thuật toán tính tổng trọng số tất đường đồ thị hai phía hướng tới khả đáp ứng tức thời Định hướng tách đồ thị hai phía thành đồ thị nhỏ đồ thị không liên thông với Giúp giảm độ lớn đồ thị thực duyệt đồ thị - Bổ sung số ưu tiên thành phần lọc cộng tác lọc nội dung phương pháp lai Vì thực tế liệu thành phần không đồng nhu cầu người dùng chuộng kết phương pháp lọc công tác hoăc lọc theo nội dung kết phương pháp lại - Tiếp tục phát triển phát triển hoàn thiện ứng dụng đề xuất để đưa vào khai thác thực tế module xữ lý tạo đề xuất module web hiển thị kết cho người dùng 65 TÀI LIỆU THAM KHẢO Hoàng, L M "Lý thuyết đồ thị." Đại Học Sư Phạm Hà Nội Nguyễn Duy Phương, T M P (2013) "Collaborative Filtering with a Graphbased Similarity Measure." Các công trình nghiên cứu, phát triển ứng dụng CNTTTT: Tập V-1, Số 10 (30) Phương, M T N v N D (2012) "A Collaborative Filtering Method Based on Bipartite Graph Model." Các công trình nghiên cứu, phát triển ứng dụng CNTTTT Tập V-1, Số (28) Phương, N D (2011) "Phát triển số phương pháp lọc thông tin cho hệ tư vấn." Trường Đại học Công nghệ Luận án TS ngành: Khoa học máy tính Adomavicius, G and A Tuzhilin (2005) "Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions." IEEE Transactions on Knowledge and Data Engineering 17(6): 734-749 Huang, Z., et al (2004) "Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering." ACM Transactions on Information Systems 22(1): 116-142 Huang, Z., et al (2007) "Analyzing Consumer-Product Graphs: Empirical Findings and Applications in Recommender Systems." Management Science 53(7) Koren, Y (2008) "Factorization meets the neighborhood." 426 Lops, P., et al (2011) "Content-based Recommender Systems: State of the Art and Trends." 73-105 10 Prem Melville, R J M., Ramadass Nagarajan (2002) "Content-Boosted Collaborative Filtering for Improved Recommendations." American Association for Artificial Intelligence Menlo Park 11 Ricci, F., et al (2011) "Recommender Systems Handbook." 12 Silvestri, F (2010) "Mining Query Logs: Turning Search Usage Data into Knowledge." Foundations and Trends® in Information Retrieval 4(1–2): 1-174 66 13 L.Baltrunas, F Ricci, “Experimental evaluation of context-dependent collaborative filtering using item splitting.” User modeling and user-adapted interactions (2013) Springer 14 J.R.Wen, JY.Nie, H.Jiang “Query Clustering Using User Logs.” ACM Transactions on Information Systems, Vol 20, No 1, January 2002 15 J.B Schafer, J.A Konstan, and J Riedl “E-Commerce Recommendation Applications.” Data Mining and Knowledge Discovery, vol 5, pp 115-153 16 J.A Konstan, B.N Miller, D Maltz, J.L Herlocker, L.R Gordon, and J Riedl “GroupLens: Applying Collaborative Filtering to Usenet News.” Comm ACM, vol 40, No 3, pp 77-87, 1997 17 J Li and O.R Zainane “Combining Usage, Content, and Structure Data to Improve Web Site Recommendationl”, Electronic Commerce and Web Technologies, pp 305-315 18 G.-R Xue, C Lin, Q Yang, W Xi, H.-J Zeng, Y Yu, and Z Chen “Scalable collaborative filtering using cluster-based smoothing” In Proc of SIGIR 19 G Takács, I Pilászy, B Németh, D Tikk “Investigation of various matrix factorization methods for large recommender systems.”, in Proceedings of the IEEE International Conference on Data Mining Workshops (ICDM '08), pp 553–562 20 G Linden, B Smith, and J York “Amazon.com Recommendations: Item-to-Item Collaborative Filtering.” IEEE Internet Computing 21 D Billsus and M Pazzani “Learning Collaborative Information Filters”, Proc Int’l Conf Machine Learning [...]... Tổng quan về hệ thống đề xuất: Trình bày tổng quan về hệ thống đề xuất, trình bày mô hình của hệ thống đề xuất Trình bày cơ sở lý thuyết và các công trình nghiên cứu về hệ thống đề xuất Web Trình bày phương pháp Lọc cộng tác sử dụng mô hình đồ thị hai phía Trình bày phương pháp Lọc theo nội dung sử dụng mô hình đồ thị hai phía Trình bày phương pháp Lai • Chương 3 Hệ thống đề xuất địa điểm FOODY: Trình... tới để đạt được kết quả tốt nhất 2 Với những lý do trên tôi chọn đề tài: Hệ thống đề xuất địa điểm sử dụng phương pháp lai (Hybrid) trên dữ liệu Foody. vn 1.3 Mục tiêu của đề tài Với những lý do nêu trên cần thiết nghiên cứu Hệ thống đề xuất dựa trên kết hợp giữa đặc trưng của dữ liệu địa điểm và đánh giá của người dùng, và kết hợp với dữ liệu về địa lý để hạn chế tối đa các kết quả không thực tế... nổi tiếng về hệ thống đề xuất như: đề xuất sản phẩm của Amazon.com, hệ đề xuất phim của NetFlix… Hệ thống đề xuất giúp giải quyết được tình trạng quá tải thông tin Hệ thống đề xuất là một trong những công cụ mạnh mẽ và phổ biến trong thương mại điện tử Dữ liệu người dùng Hệ thống đề xuất Kết quả đề xuất Người dùng Hình 2 1: Hệ thống đề xuất Theo Adomavicius và Tuzhilin [5] bài toán đề xuất được coi... đóng góp chính của đề tài là: - Nghiên cứu phương pháp lọc cộng tác, lọc theo nội dung, phương pháp lai để xây dựng hệ thống đề xuất - Vận dụng kết quả nghiên cứu xây dựng hệ thống đề xuất sử dụng dữ liệu của Việt Nam đem lại lợi ích thiết thực Ý nghĩa khoa học và thực tiễn - Về mặt khoa học: Đề tài nghiên cứu phương pháp lọc cộng tác, phương pháp lọc theo nội dung và phương pháp lai sử dụng mô hình đồ... vào phương pháp trích xuất nội dung đặc trưng của sản phẩm và đó cũng là một trong những hạn chế của phương pháp + Phương pháp lai – Hybrid Filtering: Một hướng giải quyết khác là kết hợp lọc cộng tác với hướng tiếp cận dựa trên nội dung [10] Tận dụng kết quả của cả hai phương pháp giúp kết quả đề xuất chính xác hơn Hình 2 3: Sơ đồ các phương pháp trong hệ thống đề xuất 9 2.2 Mô hình hệ thống đề xuất. .. lai sử dụng mô hình đồ thị hai phía từ đó xây dựng được hệ thống đề xuất - Về mặt thực tiễn: Đề tài ứng dụng kết quả nghiên cứu vào bộ dữ liệu địa điểm FOODY của Việt Nam để xây dựng hệ thống đề xuất địa điểm, đem lại lợi ích thiết thực cho người sử dụng 1.4 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu luận văn gồm khái niệm về Hệ thống đề xuất, khái niệm về Lọc cộng tác, Lọc theo nội dung, Lọc... 2: Trích 10 mẫu dữ liệu địa điểm 42 Bảng 3 3: Trích 10 mẫu dữ liệu đánh giá 43 Bảng 3 4: Trích 10 mẫu dữ liệu đặc trưng địa điểm 44 Bảng 3 5: Trích 10 mẫu dữ liệu check-in 44 Bảng 3 6: Trích dẫn 10 mẫu kết quả đề xuất trên dữ liệu đánh giá dương 45 Bảng 3 7: Trích dẫn 10 mẫu kết quả đề xuất trên dữ liệu đánh giá âm 46 Bảng 3 8: Đại số quan hệ truy vấn kết quả... vào người dùng UserBased Lọc dựa vào sản phẩm ItemBased ix DANH MỤC CÁC HÌNH Hình 2 1: Hệ thống đề xuất 5 Hình 2 2: Mô hình dữ liệu cho hệ thống đề xuất 7 Hình 2 3: Sơ đồ các phương pháp trong hệ thống đề xuất 8 Hình 2 4: Mô hình hệ thống đề xuất 9 Hình 2 5: Minh họa Phương pháp lọc cộng tác 10 Hình 2 6: Minh họa lọc theo nội dung 13 Hình 2 7:... 70.000 địa điểm và 12.000.000 người sử dụng và đang tiếp tục gia tăng về số lượng địa điểm và người dùng Mỗi ngày trên ứng dụng Foody. vn một lượng lớn đánh giá, địa điểm mới được tạo ra một cách rời rạc Đặt ra vấn đề về khai thác những dữ liệu rời rạc trên để cung cấp những địa điểm phù hợp với sở thích, thói quen của từng người dùng cụ thể Hệ thống hỗ trợ đưa ra các gợi ý cho người dùng được gọi là Hệ thống. .. VỀ HỆ THỐNG ĐỀ XUẤT 2.1 Hệ thống đề xuất 2.1.1 Khái niệm Hệ thống đề xuất là một phân lớp của hệ thống lọc thông tin Mục đích là để cung cấp những gợi ý cho người dùng về một sản phẩm, dịch vụ nào đó trên Internet như phim ảnh, âm nhạc, tin tức, sách, bài báo nghiên cứu, truy vấn tìm kiếm Cũng có những hệ thống đề xuất cho các chuyên gia, nhà hàng, dịch vụ tài chính, bảo hiểm nhân thọ… Một vài ứng dụng ... lý chọn đề tài: Hệ thống đề xuất địa điểm sử dụng phương pháp lai (Hybrid) liệu Foody. vn Các yêu cầu cần thực đề tài là: Nghiên cứu Hệ thống đề xuất dựa kết hợp đặc trưng liệu địa điểm, đánh... nghệ thông tin .MSHV:1341860007 I- Tên đề tài: HỆ THỐNG ĐỀ XUẤT ĐỊA ĐIỂM SỬ DỤNG PHƯƠNG PHÁP LAI (HYBRID) TRÊN DỮ LIỆU FOODY. VN II- Nhiệm vụ nội dung: - Nghiên cứu xây dựng Hệ thống. .. Hệ thống đề xuất Hình 2: Mô hình liệu cho hệ thống đề xuất Hình 3: Sơ đồ phương pháp hệ thống đề xuất Hình 4: Mô hình hệ thống đề xuất Hình 5: Minh họa Phương

Ngày đăng: 10/12/2015, 00:27

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan