Lọc cộng tác dựa trên mô hình đồ thị hai phía

18 585 0
Lọc cộng tác dựa trên mô hình đồ thị hai phía

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG MAI THỊ NHƯ ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN HÌNH ĐỒ THỊ HAI PHÍA CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học.: TS Nguyễn Duy Phương Phản biện 1: ………………………………………………………………… Phản biện 2: ………………………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm …… Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài nghiên cứu Vấn đề quá tải thông tin (Information Overload) được J.Denning nêu ra lần đầu tiên vào năm 1982. Với những lý lẽ và bằng chứng thuyết phục, Denning khẳng định khả năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khăn nghiêm trọng bởi sự gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử. Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá tải thông tin đối với người dùng, thúc đẩy một lĩnh vực nghiên cứu mới đólọc thông tin. Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng. Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được quan tâm nhiều nhất hiện nay. Hệ tư vấn (Recommender System) là hệ thống có khả năng tự động phân tích, phân loại, lựa chọn và cung cấp cho người dùng những thông tin, hàng hóa hay dịch vụ mà họ quan tâm. Hệ tư vấn được xem như một biến thể điển hình có vai trò quan trọng trong lọc thông tin. Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, tiêu biểu là hệ tư vấn của các hãng Amazon.com, Netflix.com, Procter & Gamble. Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: Lọc theo nội dung (Content-Based Filtering) và lọc cộng tác (Collaborative Filtering). Lọc theo nội dung khai thác những khía cạnh liên quan đến nội dung thông tin sản phẩm hoặc người dùng đã từng sử dụng hay truy nhập trong quá khứ để tạo nên tư vấn. Trái lại, lọc cộng tác khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm để đưa ra dự đoán các sản phẩm mới cho người dùng này. Lọc cộng tác được tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa vào bộ nhớ (Memory Based Collaborative Filtering) và Lọc cộng tác dựa trên hình (Model Based Collborative Filtering). So với lọc cộng tác dựa vào bộ nhớ, lọc cộng tác dựa trên hình cho lại kết quả tốt hơn. Chính vì vậy, em đã lựa chọn đề tài “Lọc cộng tác dựa trên hình đồ thị hai phía” để thực hiện trong khuôn khổ luận văn thạc sĩ chuyên ngành truyền số liệu và mạng máy tính. 2. Mục tiêu của luận văn Mục tiêu của luận án là nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa trên hình, cụ thể là hình đồ thị hai phía nhằm cải thiện độ chính xác của lọc thông tin trong các hệ tư vấn. Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán nhu cầu người dùng trong trường hợp dữ liệu thưa. 3. Các kết quả đạt được của luận văn Luận văn đã thực hiện đầy đủ những nội dung theo đề cương đã được phê duyệt. Những kết quả đạt được của luận văn bao gồm: Nghiên cứu và tổng hợp được những vấn đề tổng quan về lọc cộng tác, bao gồm: - Kiến trúc tổng quát của các hệ thống lọc thông tin, phân biệt hệ thống lọc thông tinh với các hệ thống khác như hệ thống truy vấn thông tin (Information Retrieval) hệ thống tách thông tin (Information Extraction); - Phát biểu bài toán lọc cộng tác tổng quát và những vấn đề liên quan. - Nghiên cứu và tổng hợp lại các phương pháp lọc cộng tác tổng quát: Lọc cộng tác dựa trên bộ nhớ (MBCF), lọc cộng tác dựa trên hình (MDBCF). Phân tích rõ lợi thể và hạn chế của mỗi phương pháp để xác định mục tiêu nghiên cứu cụ thể của đề tài. Nghiên cứu và mở rộng hình đồ thị hai phía cho lọc cộng tác, bao gồm: - Nghiên cứu và mở rộng phương pháp biểu diễn đồ thị hai phía cho lọc cộng tác. Trong đó, phương pháp biểu diễn mở rộng trực tiếp hình của Huang. - Nghiên cứu và mở rộng phương pháp dự đoán cho lọc cộng tác bằng cách xem xét bài toán lọc cộng tác như bài toán tìm kiếm trên đồ thị. - Thử nghiệm, so sánh và đánh giá kết quả của hình so với các phương pháp khác. Kết quả cho kiểm nghiệm cho thấy, hình đã cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác. Đặc biệt, hình hạn chế được vấn đề dữ liệu thưa của lọc cộng tác. Xây dựng hệ thống tư vấn lựa chọn phim dựa trên hình đồ thị hai phía. hình phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc và cho lại kết quả tư vấn tốt trong trường hợp dữ liệu thưa. 4. Bố cục của luận văn Nội dung luận văn được xây dựng thành ba chương, trong đó: Chương 1. giới thiệu tổng quan về lọc cộng tác. Trình bày những nghiên cứu cơ bản của lọc cộng tác, các phương pháp lọc cộng tác và những vấn đề cần tiếp tục nghiên cứu của mỗi phương pháp. Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu cụ thể của đề tài. Chương 2. trình bày phương pháp biểu diễn, phương pháp dự đoán cho lọc cộng tác bằng hình đồ thị hai phía. Đây cũng là kết quả nghiên cứu chính của đề tài. Chương 3. Trình bày thiết kế và xây dựng ứng dụng hệ tư vấn lưạ chọn phim. Ứng dụng được thiết kế và cài đặt theo phương pháp lọc cộng tác được trình bày trong chương 2. Cuối cùng là phần kết luận. CHƯƠNG 1: TỔNG QUAN VỀ LỌC CỘNG TÁC Mục tiêu chính của chương này trình là bày những vấn đề tổng quan về lọc cộng tác, các phương pháp lọc cộng tác, phân tích rõ những hạn chế tồn tại mỗi phương pháp để từ đó xác định rõ hướng nghiên cứu cụ thể của đề tài. Những kết quả nghiên cứu của đề tài sẽ được trình bày trong các chương tiếp theo của luận văn. 1.1. Tổng quan về lọc thông tin 1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản. Thành phần phân tích dữ liệu (Data Analyser Component), thành phần hình người dùng (User Model Component), thành phần học (Learning Component) và thành phần lọc ( Filtering Component). Hinh 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin 1.1.2. Lọc thông tin và truy vấn thông tin 1.1.3. Lọc thông tin và các hệ tư vấn 1.2. Phát biểu bài toán lọc cộng tác Cho tập hợp hữu hạn U = {u 1 , u 2 ,…, u N } là tập gồm N người dùng, P = {p 1 , p 2 , , p M } là tập gồm M sản phẩm. Mỗi sản phẩm p x P có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Để thuận tiện trong trình bày, ta viết p x P ngắn gọn thành xP; và u i U là iU. Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua ma trận đánh giá R={ r ix }, i = 1 N, x = 1 M. Mỗi giá trị r ix thể hiện đánh giá của người dùng i  U cho một số sản phẩm x  P. Giá trị r ix có thể được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng. Giá trị r ix =  được hiểu người dùng i chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm x. Tiếp đến ta ký hiệu, P i P là tập các sản phẩm được đánh giá bởi người dùng iU và U x U là tập các người dùng đã đánh giá sản phẩm xP. Với một người dùng cần được tư vấn aU (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng tích cực), bài toán lọc cộng tác là dự đoán đánh giá của a đối với những mặt hàng x (P \ P a ), trên cơ sở đó tư vấn cho người dùng a những sản phẩm được đánh giá cao. Ma trận đánh giá R = (r ix ) là đầu vào duy nhất của các phương pháp lọc cộng tác. Dựa trên ma trận đầu vào, các phương pháp lọc cộng tác thực hiện như được tả trong Hình 1.2. Hinh 1.2. Các thành phần của hệ thống lọc cộng tác Có nhiều phương pháp đề xuất khác nhau để giải quyết bài toán lọc cộng tác. Tuy vậy ta có thể phân loại các phương pháp thành hai cách tiếp cận chính: Lọc cộng tác dựa vào bộ nhớ và lọc cộng tác dựa vào hình. Nội dung cụ thể của hai phương pháp này được trình bày trong những mục tiếp theo. 1.3. Phương pháp lọc cộng tác dựa trên bộ nhớ Lọc cộng tác dựa trên độ bộ nhớ được tiếp cận theo hai phương pháp chính: Phương pháp lọc dựa vào người dùng (UserBased) và lọc dựa vào sản phẩm (ItemBased). Mỗi phương pháp đều có những ưu điểm riêng khai thác những khía cạnh liên quan đến người dùng hoặc sản phẩm. Đặc điểm chung của cả hai phương pháp này là sử dụng toàn bộ tập dữ liệu đánh giá để dự đoán quan điểm của người dùng cần được tư vấn về các sản phẩm mà họ chưa hề biết đến. 1.3.1. Phương pháp UserBased và ItemBased 1.3.2. Ví dụ minh họa 1.3.3. Hạn chế của phương pháp User-Based và Item-Based 1.4. Phương pháp dựa trên hình Việc thiết kế và phát triển các hình (như các thuật toán học máy, khai phá dữ liệu) có thể cho phép hệ thống học cách nhận biết các mẫu phức tạp dựa trên dữ liệu huấn luyện, và sau đó đưa ra các dự đoán thông minh cho nhiệm vụ lọc cộng tác cho dữ liệu kiểm thử hay dữ liệu thực, dựa trên các hình đã học được. Các thuật toán CF dựa trên hình, như là các hình Bayesian, các hình phân cụm và các mạng phụ thuộc đã được nghiên cứu để giải quyết những hạn chế của các thuật toán CF dựa trên bộ nhớ 1.4.1. Các thuật toán CF mạng bayes tin cậy 1.4.2. Các thuật toán CF phân cụm 1.4.3. Những vấn đề còn hạn chế 1.5. Mục tiêu nghiên cứu của đề tài. Mục tiêu nghiên cứu chính của đề tài là:  Đưa ra phương pháp biểu diễn đồ thị phù hợp với các bộ dữ liệu hiện nay. Phương pháp xây dựng dựa trên hình đồ thị hai phía gồm các đỉnh người dùng và đỉnh sản phẩm. Các đỉnh người dùng và đỉnh sản phẩm được liên kết với nhau dựa trên dữ liệu đánh giá của người dùng với các sản phẩm.  Xây dựng và đưa ra phương pháp huấn luyện và dự đoán dựa trên hình đồ thị trọng số.  Thử nghiệm và đánh giá dựa trên các tập dữ liệu thực hiện nay, từ đó rút ra kết quả để so sánh với các nghiên cứu trước đây để thấy được hiệu quả của các phương pháp. CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN HÌNH ĐỒ THỊ HAI PHÍA Nội dung chương này trình bày một hình lọc cộng tác dựa trên đồ thị hai phía. Phương pháp biểu diễn phù hợp với tất cả các bộ dữ liệu hiện nay của lọc cộng tác. Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị cho phép ta sử kế thừa được các thuật toán hiệu quả trên đồ thị. Kết quả thử nghiệm trên dữ liệu thực về phim cho thấy hình đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác. 2.1 Giới thiệu về đồ thị hai phía Định nghĩa. Đồ thị vô hướng G= <T, E>, trong đó T là tập đỉnh, E là tập các cặp là tập cạnh được gọi là đồ thị hai phía (Đồ thị lưỡng phân, đồ thị phân đôi, đồ thị đối sánh) nếu T được chia thành hai tập U, V (T = UV) sao cho với mọi cạnh e =(s,t)  E thì s  U và tV. Hinh 2.1. Ví dụ về đồ thị hai phía. [...]... biểu diễn đồ thị phù hợp với tất cả các bộ dữ liệu thực của lọc cộng tác Đối với vấn đề kết nâng cao kết quả dự đoán cho lọc cộng tác, luận văn đề xuất phương pháp xem xét bài toán lọc cộng tác như bài toán tìm kiếm trên đồ thị Phương pháp dự đoán được qui về việc xem xét các đường đi có độ dài L giữa đỉnh người dùng và đỉnh sản phẩm Việc biểu diễn quan hệ Người dùng- Sản phẩm như một đồ thị hai phía cho... CHỌN PHIM DỰA TRÊN HÌNH ĐỒ THỊ HAI PHÍA Hệ thống tư vấn lựa chọn phim (Film Recommendation System) được xây dựng dựa vào mô hình đồ thị hai phía đã được trình bày trong Chương2 Hệ thống cho phép người dùng xem phim, tra cứu nội dung phim, đánh giá phim, tìm kiếm nội dung phim, tư vấn phim và một số chức năng cập nhật thông tin về phim và thông tin người dùng Toàn bộ hệ thống được xây dựng dựa trên công... thưa của lọc cộng tác, luận văn sử dụng biểu diễn mô hình đồ thị hai phía Trong đó, một phía là tập người dùng, phía còn lại là tập các sản phẩm hệ thống cần cung cấp cho người dùng Mối liên hệ giữa tập người dùng và tập sản phẩm là các cạnh đánh giá của người dùng đối với mỗi sản phẩm Để khắc phục được những hạn chế trước đây, hình sử dụng phương pháp ước lượng trọng số cho mỗi cạnh của đồ thị Phương... đánh giá Dựa trên biểu diễn đồ thị này, hệ thống tư vấn có thể được triển khai dễ dàng theo tất cả các khía cạnh: Phân bổ thông tin thích hợp hoặc gỡ bỏ thông tin không thích hợp cho mỗi người dùng Để phân bổ thông tin phù hợp và loại bỏ thông tin không phù hợp cho mỗi người dùng, đồ thị tổng quát được thực hiện tách thành hai đồ thị con: Đồ thị con G+ biểu diễn các đánh giá thích hợp và đồ thị con... hiện trên các dạng thông tin đa phương tiện Lọc cộng tác có thể lọc được mọi loại thông tin nhưng gặp phải khó khăn khi người dùng dữ liệu đánh giá thưa thớt, một người dùng mới chưa có đánh giá nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá Dựa vào những nghiên cứu cơ bản này, luận văn tập trung xây dựng hình đồ thị hai phía cho lọc cộng tác để giải quyết vấn đề dữ liệu thưa và... nghiệm trên các bộ dữ liệu thực về sách và phim có nhiều mức đánh giá khác nhau cho thấy hình đề xuất cho lại độ chính xác, độ nhạy và tỷ lệ F cao hơn hẳn các phương pháp ItemBased, UserBased và Huang-Graph Điều đó có thể khẳng định, phương pháp biểu diễn và dự đoán của mô hình đồ thị hai phía có trọng số đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Ưu điểm nổi bật của hình so... Tầng dữ liệu 3.2 hình các lớp cơ sở 3.3 Các chức năng chính của hệ thống 3.3.1 Giao diện trang chủ của FRS 3.3.2 tả chi tiết phim 3.3.3 Giao diện tìm kiếm thông tin về phim 3.3.4 Hiển thị phim theo thể loại 3.3.5 Tư vấn phim cho người dùng 3.4 Kết luận Hệ thống tư vấn lựa chọn phim được xây dựng dựa vào mô hình đồ thị hai phía đã tả đầy đủ các chức năng chính của một hệ thống lọc thông tin,... giữa người dùng và sản phẩm Cuối cùng, phương pháp lọc trênhình đồ thị hai phía được sử dụng để xây dựng hệ tư vấn lựa chọn phim Hệ thống phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc thông tin, bao gồm thành phần phân tích thông tin, thành phần hình người dùng, thành phần học và thành phần lọc Hệ thống cho lại kết quả tư vấn tốt trên bộ dữ liệu MovieLens gồm 3900 phim và 6040 người... nổi bật của hình so với những hình trước đây là thỏa mãn biểu diễn hiện có của tất cả các tập dữ liệu của lọc cộng tác Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị có trọng số cho phép ta phân biệt được mức độ quan trọng của từng loại đường đi bằng cách sử dụng các thuật toán hiệu quả đã được áp dụng thành công cho nhiều ứng dụng khác nhau trên đồ thị Chất lượng dự đoán được cải... các đánh giá không thích hợp Quá trình suy diễn trên đồ thị G+ phản ánh mức độ phù hợp của sản phẩm tương ứng cho mỗi người dùng Quá trình suy diễn trên đồ thị G- phản ánh mức độ không phù hợp của sản phẩm tương ứng cho mỗi người dùng Cuối cùng, kết quả dự đoán được tổ hợp lại làm kết quả dự đoán chung cho cả hình Trong trường hợp dữ liệu thưa, hình cho phép mở rộng độ là đường đi từ đỉnh người . pháp. CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ HAI PHÍA Nội dung chương này trình bày một mô hình lọc cộng tác dựa trên đồ thị hai phía. Phương. với lọc cộng tác dựa vào bộ nhớ, lọc cộng tác dựa trên mô hình cho lại kết quả tốt hơn. Chính vì vậy, em đã lựa chọn đề tài Lọc cộng tác dựa trên mô hình

Ngày đăng: 13/02/2014, 12:55

Hình ảnh liên quan

ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA  - Lọc cộng tác dựa trên mô hình đồ thị hai phía
ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA Xem tại trang 1 của tài liệu.
CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA  - Lọc cộng tác dựa trên mô hình đồ thị hai phía

2.

LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA Xem tại trang 10 của tài liệu.
3.2. Mơ hình các lớp cơ sở - Lọc cộng tác dựa trên mô hình đồ thị hai phía

3.2..

Mơ hình các lớp cơ sở Xem tại trang 15 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan