Khóa luận tốt nghiệp Nghiên cứu phương pháp lọc cộng tác cho hệ thống tư vấn phim

67 670 9
Khóa luận tốt nghiệp Nghiên cứu phương pháp lọc cộng tác cho hệ thống tư vấn phim

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ oOo KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Sinh viên thực hiện: Nguyễn Thùy Trang Giảng viên hƣớng dẫn Lớp: K43 Tin học kinh tế ThS. Lê Viết Mẫn Niên khóa: 2009 – 2013 Huế, tháng 04 năm 2013 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang i LỜI CẢM ƠN Luận văn này là kết quả nghiên cứu của tôi qua 4 tháng thực tập trên cơ sở kiến thức của quá trình học tập tại trƣờng Đại học Kinh tế Huế trong suốt 4 năm qua. Với tình cảm chân thành, tôi xin bày tỏ lòng biết ơn cao quý đến ban chủ nhiệm khoa Hệ thống thông tin Kinh tế - Đại học Kinh tế Huế, các thầy cô giáo, gia đình, bạn bè và Công ty Cổ phần phần mềm dịch vụ Mặt Trời đã tạo điều kiện, động viên và giúp đỡ tôi rất nhiều trong quá trình hoàn thành luận văn tốt nghiệp này. Đặc biệt, tôi xin chân thành gửi lời cảm ơn sâu sắc đến Th.S Lê Viết Mẫn đã tận tình hƣớng dẫn, quan tâm, thƣờng xuyên theo dõi, cung cấp các tài liệu và có những đánh giá, nhận xét, góp ý thẳng thắn để tôi có thể hoàn thiện báo cáo khóa luận tốt nghiệp một cách tốt nhất. Mặc dù tôi đã rất cố gắng nhƣng chắc chắn luận văn sẽ không thể tránh khỏi những thiếu sót, rất mong nhận đƣợc những ý kiến đóng góp, bổ sung của quý thầy cô để tôi có thể sữa chữa, bổ sung và nghiên cứu kỹ hơn về đề tài này. Tôi xin chân thành cảm ơn! Huế, tháng 4 năm 2013 Sinh viên Nguyễn Thùy Trang NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang ii MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii PHỤ LỤC HÌNH ẢNH v PHỤ LỤC BẢNG BIỂU vi PHỤ LỤC THUẬT NGỮ vii MỞ ĐẦU 8 CHƢƠNG 1: TỔNG QUAN VỀ HỆ TƢ VẤN 10 1.1. Giới thiệu về hệ tƣ vấn 10 1.2. Chức năng của hệ tƣ vấn 12 1.3. Dữ liệu và các nguồn tri thức 16 1.4. Các phƣơng pháp của hệ tƣ vấn 18 1.4.1. Phương pháp tiếp cận dựa trên các tư vấn phổ biến 18 1.4.2. Phương pháp tiếp cận dựa trên nội dung 18 1.4.3. Phương pháp lọc cộng tác 19 1.4.4. Phương pháp tiếp cận dựa trên nhóm mặt hàng 20 1.4.5. Phương pháp tiếp cận dựa trên nhân khẩu học 21 1.4.6. Phương pháp tiếp cận dựa trên danh tiếng 21 1.4.7. Phương pháp lai 21 1.5. Ứng dụng và đánh giá 22 CHƢƠNG 2: GIỚI THIỆU PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ KỸ THUẬT LÁNG GIỀNG 24 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iii 2.1. Phƣơng pháp lọc cộng tác 24 2.1.1. Định nghĩa phương pháp lọc cộng tác 24 2.1.2. Quy trình phương pháp lọc cộng tác 25 2.2. Kỹ thuật láng giềng 30 2.2.1. Giới thiệu kỹ thuật láng giềng 30 2.2.2. Phân loại kỹ thuật láng giềng 32 2.2.3. Các bước của kỹ thuật láng giềng 35 CHƢƠNG 3: HỆ THỐNG TƢ VẤN PHIM DỰA TRÊN KỸ THUẬT LÁNG GIỀNG CỦA PHƢƠNG PHÁP LỌC CỘNG TÁC 40 3.1. Giới thiệu hệ thống tƣ vấn 40 3.1.1. Mô tả bài toán 40 3.1.2. Mô tả về bộ dữ liệu MovieLens 41 3.1.3. Ưu, nhược điểm của bộ dữ liệu MovieLens: 42 3.2. Phân tích và thiết kế hệ thống 43 3.2.1. Sơ đồ chức năng kinh doanh (BFD) 43 3.2.2. Sơ đồ ngữ cảnh 45 3.2.3. Sơ đồ luồng dữ liệu mức 0 (DFD mức 0) 45 3.2.4. Sơ đồ luồng dữ liệu mức 1.0 (DFD mức 1.0) 46 3.2.5. Sơ đồ luồng dữ liệu mức 2.0 (DFD mức 2.0) 46 3.2.6. Sơ đồ luồng dữ liệu mức 3.0 (DFD mức 3.0) 47 3.2.7. Sơ đồ mô hình cơ sở dữ liệu 48 3.3. Thuật toán 49 3.3.1. Kỹ thuật tư vấn dựa trên người dùng User-based 49 3.3.2. Kỹ thuật tư vấn mặt hàng phù hợp Matching Product 51 3.3.3. Kỹ thuật tư vấn dựa trên mặt hàng Item-based 52 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iv 3.4. Demo chƣơng trình và một số kết quả 55 3.5. So sánh phƣơng pháp và một số vấn đề đƣợc rút ra 59 3.5.1. So sánh các phương pháp 59 3.5.2. Một số vấn đề được rút ra 60 KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang v PHỤ LỤC HÌNH ẢNH Hình 1.1. Hệ tƣ vấn của trang web Amazon.com 11 Hình 1.2. Phƣơng pháp tiếp cận dựa trên nội dung 19 Hình 1.3. Phƣơng pháp lọc cộng tác 20 Hình 2.1. Hệ thống tƣ vấn lọc cộng tác của trang web Amazon.com 24 Hình 2.2. Quy trình phƣơng pháp lọc cộng tác 25 Hình 3.1. Sơ đồ chức năng kinh doanh BFD 44 Hình 3.2. Sơ đồ ngữ cảnh 45 Hình 3.3. Sơ đồ DFD mức 0 45 Hình 3.4. Sơ đồ DFD mức 1.0 46 Hình 3.5. Sơ đồ DFD mức 2.0 46 Hình 3.6. Sơ đồ DFD mức 3.0 47 Hình 3.7. Sơ đồ mô hình cơ sở dữ liệu 48 Hình 3.8. Giao diện trang chủ 56 Hình 3.9. Giao diện trang đăng nhập 56 Hình 3.10. Giao diện trang đăng ký 57 Hình 3.11. Giao diện trang đánh giá 57 Hình 3.12. Giao diện trang tƣ vấn dựa trên ngƣời dùng 58 Hình 3.13. Giao diện trang tƣ vấn dựa trên kỹ thuật mặt hàng phù hợp và phƣơng pháp tƣ vấn dựa trên mặt hàng 59 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vi PHỤ LỤC BẢNG BIỂU Bảng 3.1. Quá trình tính toán thuật toán tƣ vấn dựa trên ngƣời dùng 50 Bảng 3.2. Quá trình tính toán thuật toán tƣ vấn dựa trên mặt hàng 53 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vii PHỤ LỤC THUẬT NGỮ Recommender System Hệ tƣ vấn Collaborative filtering Lọc cộng tác Neighborhood-based Kỹ thuật láng giềng Latent Semantic Indexing Phƣơng pháp chỉ mục ngữ nghĩa tiềm ẩn Mean-squared difference Độ bất tƣơng tự trung bình bình phƣơng Deviation-from-mean Độ lệch chuẩn Weighted average Trọng số bình quân User-based Phƣơng pháp tƣ vấn dựa trên ngƣời dùng Matching Product Mặt hàng phù hợp Item-based Phƣơng pháp tƣ vấn dựa trên mặt hàng k nearest-neighbors k láng giềng gần nhất Mean-centering Phƣơng pháp điểm trung bình Top-N filtering Lọc top N Threshold filtering Lọc định mức Negative filtering Lọc đánh giá âm BFD – Business Function Diagram Sơ đồ chức năng kinh doanh DFD – Data Flow Diagram Sơ đồ luồng dữ liệu Best Item Mặt hàng tốt nhất NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 8 MỞ ĐẦU Hiện nay, internet với các tiện ích của nó đang có ảnh hƣởng lớn đối với đại bộ phận ngƣời sử dụng mạng. Với lƣợng thông tin khổng lồ, nhu cầu ngƣời dùng ngày càng lớn, ngƣời dùng cần có sự tƣ vấn chính xác và kịp thời để có thể tìm kiếm thông tin một cách nhanh chóng và tiết kiệm tối đa thời gian. Một khi dữ liệu càng lớn thì hệ tƣ vấn càng có vai trò quan trọng. Có thể kể đến hệ tƣ vấn áp dụng đối với các website thuộc các lĩnh vực âm nhạc, phim ảnh, sách báo… Tuy nhiên, các lĩnh vực trong cuộc sống lại rất phong phú, đa dạng, và một khi nhu cầu đã lớn thì yêu cầu đặt ra cũng sẽ cao hơn rất nhiều. Thực tế hiện nay, kinh doanh mua bán là một trong các lĩnh vực đang phát triển mạnh và áp dụng triệt để công nghệ thông tin. Một website thƣơng mại điện tử thu hút không chỉ dừng lại ở mặt hàng phong phú, giao diện đẹp, thông tin cập nhật nhanh chóng mà còn phải nắm bắt nhu cầu, đáp ứng yêu cầu và hỗ trợ khách hàng tối đa. Hệ tƣ vấn thực sự cần thiết cho một website mua bán hàng hóa với số lƣợng hàng hóa khổng lồ, số lƣợng chủng loại mặt hàng lớn cùng vô số thông tin về mặt hàng để giúp khách nắm bắt thông tin mà họ tìm kiếm. Khi cần tìm thông tin về một mặt hàng nào đó, giải pháp đƣợc hầu hết ngƣời dùng sử dụng là đƣa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum chuyên ngành. Tuy nhiên, máy tìm kiếm chỉ có thể đƣa ra một danh sách các lựa chọn chứ không thể nói đƣợc lựa chọn nào là tốt nhất. Do đó, tôi thực hiện đề tài “Nghiên cứu phƣơng pháp lọc cộng tác cho hệ thống tƣ vấn phim” với mục tiêu tìm hiểu lý thuyết về hệ tƣ vấn (Recommender System), các kỹ thuật của hệ tƣ vấn, đặc biệt là phƣơng pháp lọc cộng tác (Collaborative filtering) và kỹ thuật láng giềng thuộc phƣơng pháp lọc cộng tác. Tiếp đến, đề tài tập trung xây dựng Website tƣ vấn phim sử dụng kỹ thuật láng giềng của phƣơng pháp lọc cộng tác, phân tích, đánh giá hiệu quả của việc ứng dụng hệ tƣ vấn trong việc triển khai xây dựng website. [...]... ta có thể lựa chọn thuật toán tƣ vấn tối ƣu và thiết kế một sự tƣơng tác giữa con ngƣời với máy tính có hiệu quả NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 23 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM CHƢƠNG 2 GIỚI THIỆU PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ KỸ THUẬT LÁNG GIỀNG 2.1 Phƣơng pháp lọc cộng tác 2.1.1 Định nghĩa phương pháp lọc cộng tác Lọc cộng tác (Collaborative Filtering) là... pháp lọc cộng tác và kỹ thuật láng giềng (Neighborhoodbased) thuộc phƣơng pháp lọc cộng tác Chương III: Hệ thống tƣ vấn phim dựa trên kỹ thuật láng giềng của phƣơng pháp lọc cộng tác Nội dung chƣơng này đi vào phân tích hệ tƣ vấn đƣợc sử dụng trong khóa luận, phân tích và thiết kế hệ thống, các kỹ thuật ứng dụng trong khóa luận, mô tả thuật toán, giới thiệu demo chƣơng trình và so sánh các phƣơng pháp, ... năng làm loãng cho hệ thống lọc cộng tác Trong thực tế, đối với một tập lớn các mặt hàng có sẵn, NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 25 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM ngƣời dùng có thể đánh giá hoặc chọn một tỷ lệ rất thấp của các mặt hàng, tạo ra một ma trận ngƣời dùng rất thƣa thớt Kết quả là, hệ thống tƣ vấn lọc cộng tác không thể đƣa ra tƣ vấn cho một ngƣời... HỌC KINH TẾ Trang 22 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Tin tức / báo chí: GroupLens - GroupLens là một phòng thí nghiệm nghiên cứu tại Khoa Khoa học Máy tính và Kỹ thuật tại Đại học Minnesota, tiến hành nghiên cứu trong một số lĩnh vực, bao gồm: - Hệ thống tƣ vấn - Cộng đồng trực tuyến - Công nghệ di động và công nghệ phổ biến - Thƣ viện kỹ thuật số - Hệ thống thông tin vùng...NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Cấu trúc đề tài đƣợc chia thành 3 chƣơng: Chương I: Tổng quan về hệ tƣ vấn – Recommender System Chƣơng này sẽ giới thiệu tổng quan về hệ tƣ vấn, các chức năng, dữ liệu và các nguồn kiến thức, các phƣơng pháp và các ứng dụng, đánh giá của hệ tƣ vấn Chương II: Giới thiệu phƣơng pháp lọc cộng tác và kỹ thuật láng giềng... đồng ý”, Xếp hạng đơn giản Ví dụ: tốt hay xấu, thích hay không thích,… Hoặc có đánh giá hoặc không đánh giá NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 17 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM 1.4 Các phƣơng pháp của hệ tƣ vấn Để thực hiện chức năng tƣ vấn, một hệ tƣ vấn phải dự đoán đƣợc một mặt hàng để tƣ vấn Muốn làm đƣợc điều này, hệ thống phải dự đoán sở thích của một... trong phƣơng pháp này, ngƣời dùng chia sẻ sở thích NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 24 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM của họ về từng mặt hàng mà họ đã từng tiêu dùng để những ngƣời dùng khác của hệ thống có những quyết định tốt hơn đối với những mặt hàng đó Cách tiếp cận lọc cộng tác là kỹ thuật tƣ vấn thành công nhất và đƣợc chấp nhận rộng rãi cho đến nay... tƣ vấn đƣợc Hơn nữa, vì hệ này chủ yếu so sánh dựa trên nội dung nên khó có thể tạo ra đƣợc sự bất ngờ trong tƣ vấn, đôi khi nó còn tƣ vấn cho ngƣời dùng những mặt hàng mà ngƣời dùng đã biết hoặc sử dụng trƣớc đó Hình 1.2 Phƣơng pháp tiếp cận dựa trên nội dung 1.4.3 Phương pháp lọc cộng tác Lọc cộng tác là kỹ thuật sử dụng các sở thích cá nhân của ngƣời dùng để đƣa ra tƣ vấn Một hệ thống lọc cộng tác. .. tƣơng đồng cao Hệ số tư ng quan Pearson: Hệ số tƣơng quan Pearson là biện pháp tính độ tƣơng tự đƣợc sử dụng phổ biến nhất trong các hệ thống lọc cộng tác Nó có nguồn gốc từ mô hình hồi quy tuyến tính Nhƣ vậy, độ tƣơng tự giữa ngƣời dùng và ngƣời dùng sẽ đƣợc tính theo công thức sau: NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 26 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM với: là... vai trò hệ tƣ vấn của nhà cung cấp so với vai trò hệ tƣ vấn của ngƣời sử dụng Ví dụ, một hệ thống tƣ vấn du lịch thƣờng đƣợc giới thiệu bởi một trung gian du lịch hoặc một tổ chức quản lý để tăng doanh thu của nó qua việc cho thuê phòng khách sạn nhiều hơn hoặc để tăng số lƣợng khách du NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 12 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM lịch . CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iii 2.1. Phƣơng pháp lọc cộng tác 24 2.1.1. Định nghĩa phương pháp lọc cộng tác 24 2.1.2 HUẾ TRƢỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ oOo KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Sinh viên. của phƣơng pháp lọc cộng tác, phân tích, đánh giá hiệu quả của việc ứng dụng hệ tƣ vấn trong việc triển khai xây dựng website. NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM NGUYỄN

Ngày đăng: 23/05/2015, 09:42

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan