Nghiên cứu hệ đề xuất thời trang dựa trên kỹ thuật thừa số hóa ma trận

62 0 0
Nghiên cứu hệ đề xuất thời trang dựa trên kỹ thuật thừa số hóa ma trận

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Hệ thống đề xuất được sử dụng rộng rãi trong ngành công nghiệp và phổ biến trong cuộc sống hàng ngày của chúng ta. Các hệ thống này được sử dụng trong một số lĩnh vực như trang web mua sắm trực tuyến (ví dụ: Amazon.com, Shopee, Tiki, …), trang web dịch vụ âm nhạc phim (ví dụ: Netflix và Spotify), cửa hàng ứng dụng di động (ví dụ: cửa hàng ứng dụng IOS và google play), trực tuyến quảng cáo. Mục tiêu chính của hệ thống đề xuất là giúp người dùng khám phá các mục có liên quan như thời trang để mua, tin nhắn văn bản để đọc hoặc sản phẩm cần mua, để tạo ra trải nghiệm người dùng thú vị. Hơn nữa, hệ thống đề xuất là một trong những hệ thống máy học mạnh mẽ nhất mà các nhà bán lẻ trực tuyến triển khai để tăng doanh thu. Hệ thống đề xuất là sự thay thế của các công cụ tìm kiếm bằng cách giảm nỗ lực tìm kiếm chủ động và gây ngạc nhiên cho người dùng với các đề nghị mà họ chưa bao giờ tìm kiếm. Nhiều công ty đã cố gắng đặt mình trước các đối thủ cạnh tranh với sự trợ giúp của các hệ thống đề xuất hiệu quả hơn. Do đó, hệ thống đề xuất không chỉ là trung tâm trong cuộc sống hàng ngày của chúng ta mà còn rất cần thiết trong một số ngành công nghiệp. Hệ đề xuất (Recommender System) được xem như một hệ thống lọc tích cực, có chức năng hỗ trợ đưa ra quyết định, nhằm mục dích cung cấp cho người sử dụng những gợi ý về thông tin, sản phẩm và dịch vụ phù hợp nhất với yêu cầu và sở thích riêng của từng người tại từng tình huống (ngữ cảnh). Cụ thể, hệ đề xuất cung cấp một giải pháp giảm tải thông tin bằng cách đưa ra dự đoán đánh giá mức độ sở thích của người dùng với sản phẩm mới và cung cấp một danh sách ngắn các sản phẩm (trang web, shop thời trang, bản tin, phim, video…) mà nhiều khả năng người dùng sẽ quan tâm 1. Trên thực tế, hệ đề xuất không chỉ hướng đến vấn đề giảm tải thông tin cho mỗi người dùng mà nó còn là yếu tố quyết định đến thành công của các hệ thống thương mại điện tử. Hệ đề xuất dang ngày càng trở thành một lĩnh vực nghiên cứu quan trọng từ sau khi xuất hiện bài báo đầu tiên về lọc cộng tác vào giữa những năm 90 1. Ðã có rất nhiều công việc được thực hiện cả trong ngành công nghiệp và nghiên cứu hàn lâm để phát triển các hệ đề xuất trong hơn thập kỷ qua. Về cơ bản hệ đề xuất được chia thành hai hướng tiếp cận chính 2 tùy thuộc vào cách khai thác các thông tin đầu vào khác nhau phục vụ cho mục đích đề xuất, đó là: 1) Hệ đề xuất với cách tiếp cận truyền thống; 2) Hệ đề xuất mở rộng cách tiếp cận truyền thống. Trong đó, cách tiếp cận truyền thống sử dụng một trong ba phương pháp lọc tin chính (Lọc cộng tác, lọc theo nội dung và lọc kết hợp) lên ba loại thông tin đầu vào phổ biến (Thông tin người đùng, thông tin sản phẩm và phản hồi của người dùng về sản phẩm). Cách tiếp cận mở rộng đề cập ở đây được biết đến với một số hướng như: Hệ đề xuất theo ngữ cảnh (Contextaware Recommender Systems) 45, hệ đề xuất dựa trên mạng xã hội (Socialbased Recommender Systems) 6, hệ đề xuất dựa trên mối quan tâm (Attentionbased Recommender Systems) 7 hoặc phát triển các phương pháp lọc kết hợp. Theo đó, bên cạnh các loại thông tin điển hình của hệ đề xuất theo cách truyền thống, cách tiếp cận mở rộng này cho phép tích hợp thêm đa dạng các nguồn thông tin đầu vào (Thông tin ngữ cảnh, liên kết từ mạng xã hội, mối quan tâm …) nhằm cải thiện chất lượng của hệ đề xuất thực tế. Trong quá trình nghiên cứu và ứng dụng, mặc dù đã có nhiều nghiên cứu đề xuất được đưa ra để giải quyết bài toán đề xuất theo hai hướng tiếp cận trên 8, tuy nhiên, một số vấn đề mang tính đặc thù đối với thông tin đề xuất như vấn đề dữ liệu thưa, người dùng mới, sản phẩm mới, vấn đề sở thích thay đổi theo thời gian, yêu cầu kết hợp các dạng thông tin khác nhau, làm việc với dữ liệu kích thước lớn được cập nhật thường xuyên… luôn là những vấn đề có tính thời sự và thu hút được sự quan tâm của cộng đồng trong việc nghiên cứu và triển khai vào thực tế. 2. Mục tiêu của đề tài Ðề tài “Xây dựng hệ đề xuất dựa trên kỹ thuật Thừa số hóa ma trận” được thực hiện trong khuôn khổ chuyên ngành khoa học máy tính nhằm góp phần giải quyết các vấn đề: Tìm hiểu các hệ đề xuất (recommendation systems). Tìm hiểu các khái niệm, phương pháp xây dựng 1 hệ đề xuất.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN - - LÊ XUÂN TRƯỜNG NGHIÊN CỨU HỆ ĐỀ XUẤT THỜI TRANG DỰA TRÊN KỸ THUẬT THỪA SỐ HÓA MA TRẬN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, 2024 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN - - LÊ XUÂN TRƯỜNG NGHIÊN CỨU HỆ ĐỀ XUẤT THỜI TRANG DỰA TRÊN KỸ THUẬT THỪA SỐ HÓA MA TRẬN Chuyên ngành: Khoa học máy tính Mã số: 848 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Lê Thanh Long ĐÀ NẴNG, 2024 i LỜI CẢM ƠN Đầu tiên, tôi xin bày lòng cảm ơn chân thành và sâu sắc nhất đến TS Lê Thanh Long vì sự hướng dẫn và chỉ bảo tận tình của Thầy trong suốt quá trình em theo học và làm luận văn tốt nghiệp Những định hướng, những lời khuyên và những kiến thức vô cùng quý giá của Thầy đã giúp em rất nhiều trong quá trình hoàn thành luận văn tốt nghiệp Tôi xin được gửi lời cảm ơn sâu sắc nhất tới các Thầy Cô trong khoa Khoa học Máy Tính – trường Đại học Duy Tân đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình tôi học tập tại khoa Đây cũng chính là tiền đề giúp tôi hoàn thiện luận văn thạc sĩ Cuối cùng, tôi cũng xin được gửi lời cảm ơn chân thành đến các anh chị em đồng nghiệp cũng như gia đình, bạn bè, người thân đã giúp đỡ tôi cả về vật chất lẫn tinh thần để tôi hoàn thành được luận văn này Mặc dù đã rất cố gắng nhưng luận văn chắc chắn không tránh khỏi những thiếu sót, tôi rất mong nhận được những ý kiến nhận xét và đánh giá từ phía các Thầy Cô để luận văn được hoàn thiện hơn Tôi xin chân thành cảm ơn! Đà Nẵng, ngày tháng năm 2024 Học viên ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu hệ đề xuất thời trang dựa trên kỹ thuật thừa số hóa ma trận” được thực hiện dưới sự hướng dẫn của TS Lê Thanh Long Tham khảo từ những nghiên cứu liên quan đều được trích dẫn một cách rõ ràng trong danh mục tài liệu tham khảo Không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC CÁC TỪ VIẾT TẮT .v DANH MỤC CÁC HÌNH VẼ vi MỞ ÐẦU 1 1 Tính cấp thiết của đề tài 1 2 Mục tiêu của đề tài 2 3 Đối tượng và phạm vi nghiên cứu 3 4 Các đóng góp của đề tài 3 5 Bố cục của đề tài .3 Chương 1 TỔNG QUAN VỀ HỆ ĐỀ XUẤT 5 1.1 Khái niệm hệ đề xuất 5 1.2 Lợi ích của hệ thống đề xuất 6 1.3 Các lĩnh vực ứng dụng của hệ đề xuất 7 1.4 Phát biểu bài toán đề xuất .8 1.5 Qui trình xây dựng hệ đề xuất 8 1.6 Các hướng tiếp cận xây dựng hệ đề xuất 10 1.6.1 Lọc cộng tác 10 1.6.2 Lọc dựa trên nội dung 11 1.6.3 Hệ thống đề xuất lai (Hybrid recommender systems) 13 1.6.4 Phản hồi rõ ràng và phản hồi ngầm 15 1.6.5 Các kỹ thuật không cá nhân hóa 16 1.6.6 Deep learning trong hệ thống đề xuất: 16 1.6.7 Hệ thống đề xuất tin tức 17 1.7 Những vấn đề khi áp dụng phương pháp lọc cộng tác .18 1.8 Tình hình nghiên cứu trong và ngoài nước 18 Chương 2 CƠ SỞ LÝ THUYẾT KỸ THUẬT THỪA SỐ HÓA MA TRẬN .20 2.1 Giới thiệu Kỹ thuật thừa số hóa ma trận .20 iv 2.1.1 Giới thiệu 20 2.1.2 Ưu điểm và nhược điểm của Kỹ thuật thừa số hóa ma trận 20 2.2 Mô hình Phân rã Ma trận 23 2.3 Hệ Số Bias 26 2.4 Phương Pháp Giảm Gradient Ngẫu Nhiên (Stochastic Gradient Descent) 27 2.5 Regularization 28 2.6 Xây dựng biểu diễn tf.SparseTensor của Ma trận xếp hạng .29 2.7 Tính toán lỗi 30 Chương 3 XÂY DỰNG HỆ ĐỀ XUẤT THỜI TRANG DỰA TRÊN KỸ THUẬT THỪA SỐ HÓA MA TRẬN 32 3.1 Khám phá dữ liệu Clothinglens .36 3.1.1 Người dùng 36 3.1.2 Sản phẩm thời trang (Clothing) 38 3.2 Đào tạo mô hình phân rã ma trận 40 3.2.1 Lớp trợ giúp CFModel (Mô hình lọc cộng tác) 40 3.3.2 Đào tạo mô hình phân rã ma trận 43 3.3 Kiểm tra việc nhúng .44 KẾT LUẬN 51 4.1 Kết luận 51 4.2 Hạn chế của ứng dụng: 51 4.3 Một số hướng mở rộng đề tài 52 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao) v DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Tiếng Anh Tiếng Việt NMF Non-negative Matrix Factorization Phân rã ma trận không âm DB Database Cơ sở dữ liệu UI User Interface Giao diện người dùng RS Recommendation System Hệ thống đề xuất RMSE Root-mean-square error Căn bậc hai trung bình bình CF Collaborative Filtering phương sai số Hệ thống đề xuất - lọc cộng tác Số hiệu vi Trang hình DANH MỤC CÁC HÌNH VẼ 6 1.1 Tên hình 8 1.2 9 1.3 16 1.4 25 2.1 37 3.1 39 3.2 40 3.3 44 3.4 1 MỞ ÐẦU 1 Tính cấp thiết của đề tài Hệ thống đề xuất được sử dụng rộng rãi trong ngành công nghiệp và phổ biến trong cuộc sống hàng ngày của chúng ta Các hệ thống này được sử dụng trong một số lĩnh vực như trang web mua sắm trực tuyến (ví dụ: Amazon.com, Shopee, Tiki, …), trang web dịch vụ âm nhạc / phim (ví dụ: Netflix và Spotify), cửa hàng ứng dụng di động (ví dụ: cửa hàng ứng dụng IOS và google play), trực tuyến quảng cáo Mục tiêu chính của hệ thống đề xuất là giúp người dùng khám phá các mục có liên quan như thời trang để mua, tin nhắn văn bản để đọc hoặc sản phẩm cần mua, để tạo ra trải nghiệm người dùng thú vị Hơn nữa, hệ thống đề xuất là một trong những hệ thống máy học mạnh mẽ nhất mà các nhà bán lẻ trực tuyến triển khai để tăng doanh thu Hệ thống đề xuất là sự thay thế của các công cụ tìm kiếm bằng cách giảm nỗ lực tìm kiếm chủ động và gây ngạc nhiên cho người dùng với các đề nghị mà họ chưa bao giờ tìm kiếm Nhiều công ty đã cố gắng đặt mình trước các đối thủ cạnh tranh với sự trợ giúp của các hệ thống đề xuất hiệu quả hơn Do đó, hệ thống đề xuất không chỉ là trung tâm trong cuộc sống hàng ngày của chúng ta mà còn rất cần thiết trong một số ngành công nghiệp Hệ đề xuất (Recommender System) được xem như một hệ thống lọc tích cực, có chức năng hỗ trợ đưa ra quyết định, nhằm mục dích cung cấp cho người sử dụng những gợi ý về thông tin, sản phẩm và dịch vụ phù hợp nhất với yêu cầu và sở thích riêng của từng người tại từng tình huống (ngữ cảnh) Cụ thể, hệ đề xuất cung cấp một giải pháp giảm tải thông tin bằng cách đưa ra dự đoán đánh giá mức độ sở thích của người dùng với sản phẩm mới và cung cấp một danh sách ngắn các sản phẩm (trang web, shop thời trang, bản tin, phim, video…) mà nhiều khả năng người dùng sẽ quan tâm [1] Trên thực tế, hệ đề xuất không chỉ hướng đến vấn đề giảm tải thông tin cho mỗi người dùng mà nó còn là yếu tố quyết định đến thành công của các hệ thống thương mại điện tử 2 Hệ đề xuất dang ngày càng trở thành một lĩnh vực nghiên cứu quan trọng từ sau khi xuất hiện bài báo đầu tiên về lọc cộng tác vào giữa những năm 90 [1] Ðã có rất nhiều công việc được thực hiện cả trong ngành công nghiệp và nghiên cứu hàn lâm để phát triển các hệ đề xuất trong hơn thập kỷ qua Về cơ bản hệ đề xuất được chia thành hai hướng tiếp cận chính [2] tùy thuộc vào cách khai thác các thông tin đầu vào khác nhau phục vụ cho mục đích đề xuất, đó là: 1) Hệ đề xuất với cách tiếp cận truyền thống; 2) Hệ đề xuất mở rộng cách tiếp cận truyền thống Trong đó, cách tiếp cận truyền thống sử dụng một trong ba phương pháp lọc tin chính (Lọc cộng tác, lọc theo nội dung và lọc kết hợp) lên ba loại thông tin đầu vào phổ biến (Thông tin người đùng, thông tin sản phẩm và phản hồi của người dùng về sản phẩm) Cách tiếp cận mở rộng đề cập ở đây được biết đến với một số hướng như: Hệ đề xuất theo ngữ cảnh (Context-aware Recommender Systems) [4][5], hệ đề xuất dựa trên mạng xã hội (Social-based Recommender Systems) [6], hệ đề xuất dựa trên mối quan tâm (Attention-based Recommender Systems) [7] hoặc phát triển các phương pháp lọc kết hợp Theo đó, bên cạnh các loại thông tin điển hình của hệ đề xuất theo cách truyền thống, cách tiếp cận mở rộng này cho phép tích hợp thêm đa dạng các nguồn thông tin đầu vào (Thông tin ngữ cảnh, liên kết từ mạng xã hội, mối quan tâm …) nhằm cải thiện chất lượng của hệ đề xuất thực tế Trong quá trình nghiên cứu và ứng dụng, mặc dù đã có nhiều nghiên cứu đề xuất được đưa ra để giải quyết bài toán đề xuất theo hai hướng tiếp cận trên [8], tuy nhiên, một số vấn đề mang tính đặc thù đối với thông tin đề xuất như vấn đề dữ liệu thưa, người dùng mới, sản phẩm mới, vấn đề sở thích thay đổi theo thời gian, yêu cầu kết hợp các dạng thông tin khác nhau, làm việc với dữ liệu kích thước lớn được cập nhật thường xuyên… luôn là những vấn đề có tính thời sự và thu hút được sự quan tâm của cộng đồng trong việc nghiên cứu và triển khai vào thực tế 2 Mục tiêu của đề tài Ðề tài “Xây dựng hệ đề xuất dựa trên kỹ thuật Thừa số hóa ma trận” được thực hiện trong khuôn khổ chuyên ngành khoa học máy tính nhằm góp phần giải quyết các vấn đề:

Ngày đăng: 17/03/2024, 09:22

Tài liệu cùng người dùng

Tài liệu liên quan