Nâng cao chất lượng quảng cáo trực tuyến sử dụng phương pháp học máy

79 180 0
Nâng cao chất lượng quảng cáo trực tuyến sử dụng phương pháp học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Võ Trọng Trung NÂNG CAO CHẤT LƢỢNG QUẢNG CÁO TRỰC TUYẾN SỬ DỤNG PHƢƠNG PHÁP HỌC MÁY Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT … NGƢỜI HƢỚNG DẪN KHOA HỌC TS CAO TUẤN DŨNG Hà Nội - 2015 LỜI CẢM ƠN Trƣớc tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Tiến sĩ Cao Tuấn Dũng, ngƣời tận tình bảo hƣớng dẫn suốt trình thực luận văn Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trƣờng Đại học Bách khoa Hà Nội Tôi xin gửi lời cảm ơn tới công ty amobi thu thập, xử lý cung cấp liệu giúp cho nghiên cứu, thử nghiệm, áp dụng vào luận văn Tôi xin chân thành cảm ơn! MỤC LỤC DANH MỤC BẢNG BIỂU i DANH MỤC HÌNH VẼ ii DANH MỤC CÁC TỪ VIẾT TẮT iii MỞ ĐẦU iv Chƣơng I TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN 1.1 Quảng cáo trực tuyến 1.2 Những ƣu điểm quảng cáo trực tuyến 1.3 Cách tính phí quảng cáo 1.4 Tìm hiểu quảng cáo ứng dụng di động 1.5 Vấn đề quảng cáo trúng đích Chƣơng II MỘT SỐ PHƢƠNG PHÁP HỌC MÁY 2.1 Giới thiệu học máy hệ khuyến nghị 2.1.1 Khái niệm học máy 2.1.1 Hệ thống khuyến nghị 10 2.2 Một số phƣơng pháp khuyến nghị 13 2.2.1 Lọc cộng tác dựa vào nhớ 13 2.2.2 Phƣơng pháp phân rã ma trận (Matrix-factorization) 22 2.2.3 Phƣơng pháp đồng phân cụm 28 Chƣơng III ÁP DỤNG CÁC PHƢƠNG PHÁP KHUYẾN NGHỊ VÀO BÀI TOÁN QUẢNG CÁO TRỰC TUYẾN 35 3.1 Bài toán quảng cáo di động 35 3.2 Phƣơng pháp đánh giá 37 3.3 Thử nghiệm 37 3.3.1 Tiền xử lý liệu 38 3.3.2 Không sử dụng phƣơng pháp học máy 41 3.3.3 Phƣơng pháp lọc cộng tác dựa vào ứng dụng: 42 3.3.4 Phƣơng pháp lọc cộng tác dựa vào quảng cáo: 44 3.3.5 Phƣơng pháp phân rã ma trận 46 3.3.6 Phƣơng pháp đồng phân cụm 50 3.4 Kết đạt đƣợc đề xuất 54 Chƣơng IV HỆ THỐNG KHUYẾN NGHỊ QUẢNG CÁO 59 4.1 Cơ sở liệu 59 4.2 Hệ thống theo dõi khuyến nghị 61 KẾT LUẬN 67 DANH MỤC BẢNG BIỂU Bảng 2.1: Ví dụ lọc cộng tác 14 Bảng 2.2: Độ phức tạp thuật toán 33 Bảng 3.1: Mô tả liệu view 39 Bảng 3.2: Mô tả liệu click 39 Bảng 3.3: Mô tả kết học lọc cộng tác theo ứng dụng 43 Bảng 3.4: Mô tả kết học lọc cộng tác theo quảng cáo 45 Bảng 3.5: Mô tả ma trận tiềm ẩn ứng dụng 48 Bảng 3.6: Mô tả ma trận tiềm ẩn quảng cáo 49 Bảng 3.7: Mô tả cụm ứng dụng 51 Bảng 3.8: Mô tả cụm quảng cáo 52 Bảng 3.9: Mô tả tỷ lệ click/view trung bình ứng dụng 52 Bảng 3.10: Mô tả tỷ lệ click/view trung bình quảng cáo 53 Bảng 3.11: Mô tả tỷ lệ click/view trung bình cụm ứng dụng 53 Bảng 3.12: Mô tả tỷ lệ click/view trung bình cụm quảng cáo 53 Bảng 3.13: Mô tả tỷ lệ click/view trung bình đồng phân cụm 54 Bảng 3.14: Kết kiểm thử 55 i DANH MỤC HÌNH VẼ Hình 2.1: Ví dụ xếp hạng trang web Hình 2.2: Ví dụ lọc cộng tác Hình 2.3: Ví dụ nhận dạng khuôn mặt Hình 2.4: Quá trình xử lý lọc cộng tác 14 Hình 2.5: Sự khác lọc cộng tác theo ngƣời dùng theo item 18 Hình 2.6: Tính khoảng cách theo item 19 Hình 2.7: Ví dụ phân rã ma trận 23 Hình 3.1: Ảnh hƣớng k tới RMSE lọc cộng tác theo ứng dụng 42 Hình 3.2: Ảnh hƣớng k tới RMSE lọc cộng tác theo quảng cáo 44 Hình 3.3: Ảnh hƣớng f tới RMSE phân rã ma trận 46 Hình 3.4: Ảnh hƣớng λ tới RMSE phân rã ma trận 47 Hình 3.5: Ảnh hƣớng k tới RMSE đồng phân cụm 50 Hình 3.6: Ảnh hƣớng l tới RMSE đồng phân cụm 51 Hình 3.7: Biểu đồ so sánh thời gian học phƣơng pháp 55 Hình 3.8: Biểu đồ so sánh thời gian dự đoán phƣơng pháp 56 Hình 3.9: Biểu đồ so sánh tài nguyên phƣơng pháp 56 Hình 3.10: Biểu đồ so sánh sai số RMSE MAE phƣơng pháp 57 Hình 4.1: Mô tả sở liệu hệ khuyến nghị 60 Hình 4.2: Chức top ứng dụng 61 Hình 4.3: Chức khuyến nghị quảng cáo cho ứng dụng 62 Hình 4.4: Chức so sánh tỷ lệ click/view ứng dụng quảng cáo dự đoán thực tế 63 Hình 4.5: Chức top quảng cáo 64 Hình 4.6: Chức khuyến nghị ứng dụng 65 Hình 4.7: Chức so sánh tỷ lệ click/view quảng cáo ứng dụng dự đoán thực tế 66 ii DANH MỤC CÁC TỪ VIẾT TẮT CSDL Cơ Sở Dữ Liệu CTR Click-through Rate – Tỷ lệ click MF Matrix Factorization – phân rã ma trận CPC Cost Per Click – Giá theo lƣợt click CPM Cost Per Impression – Giá theo lƣợt ghé thăm CPD Cost per Duration – Giá theo thời gian CPA Cost Per Action – Giá theo hành động CPI Cost Per Install – Giá theo cài đặt SGD Stochastic Gradient Descent - Phƣơng pháp xuống đôì ngẫu nhiên RMSE Root Mean Square Error – Sai số bình phƣơng trung bình MAE Mean Absolute Error – Sai số tuyệt đối trung bình CC Column cluster – Cụm cột RC Row cluster – Cụm hàng COC Co-Cluster – Đồng phân cụm iii MỞ ĐẦU Hiện với bùng nổ công nghệ thông tin, lƣợng liệu lƣu thông internet ngày đồ sộ, số ngƣời dùng thƣờng xuyên trực tuyến ngày gia tăng, với chuyển hƣớng marketing từ phƣơng pháp truyền thống sang mạng toàn cầu internet Một cách quảng bá sản phẩm doanh nghiệp quảng cáo trực tuyến thông qua mạng internet Quảng cáo mạng khác hẳn quảng cáo phƣơng tiện thông tin đại chúng khác, giúp ngƣời tiêu dùng tƣơng tác với quảng cáo Vậy việc khai thác tƣơng tác để giúp hệ thống thông minh hơn, quảng cáo trúng đích đến ngƣời tiêu dùng cải tiến giúp doanh nghiệp tiếp cận ngƣời dùng dễ dàng Các doanh nghiệp thƣờng thông qua kênh quảng cáo trung gian, chi phí hiệu thông thƣờng đƣợc quy đổi thành tỷ lệ click/view Để quảng cáo trực tuyến hiệu đồng nghĩa với việc tăng tỷ lệ Để làm đƣợc điều cần áp dụng phƣơng pháp học máy để giúp hệ thống quảng cáo quảng cáo thông minh hơn, mang lại hiệu cao Do đó, luận văn "Nâng cao chất lƣợng quảng cáo trực tuyến sử dụng phƣơng pháp học máy" sau tìm hiểu tổng quan học máy, vài phƣơng pháp học máy, thực trạng quảng cáo trực tuyến thử nghiệm phƣơng pháp học máy vào quảng cáo trực tuyến, từ đề xuất áp dụng học máy vào hệ thống quảng cáo trực tuyến để nâng cao chất lƣợng quảng cáo Về bố cục luận văn chia làm chƣơng: Chƣơng I: Trình bày tổng quan quảng cáo trực tuyến, ƣu điểm so với quảng cáo truyền thống, đặt vấn đề toán quảng cáo di động Chƣơng II: Trình bày tổng quan học máy, số phƣơng pháp khuyến nghị lọc cộng tác dựa vào nhớ, phƣơng pháp phân rã ma trận phƣơng pháp đồng phân cụm iv Chƣơng III: Nêu toán quảng cáo trực truyến công ty amobi áp dụng phƣơng pháp trình bày chƣơng II vào toán quảng cáo, đƣa kết luận, đề xuất áp dụng vào việc nâng cao chất lƣợng quảng cáo cách ƣu tiên quảng cáo có dự đoán tỷ lệ click/view lớn đƣợc ƣu tiên hiển thị lên ứng dụng Chƣơng IV: Xây dựng hệ thống khuyến nghị, theo dõi tƣơng quan việc áp dụng hệ khuyến nghị việc dự đoán tỷ lệ click/view thực tế Chƣơng I TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN 1.1 Quảng cáo trực tuyến Tƣơng tự loại hình quảng cáo báo giấy, truyền hình, áp phích, quảng cáo trực tuyến nhằm mục đích cung cấp thông tin, giúp ngƣời dùng tiếp cận sản phẩm thúc đẩy việc mua bán ngƣời dùng doanh nghiệp Nhƣng quảng cáo trực tuyến khác hẳn quảng cáo phƣơng tiện thông tin đại chúng khác, giúp ngƣời tiêu dùng tƣơng tác với quảng cáo Khách hàng nhấn vào quảng cáo để lấy thông tin, cung cấp đánh giá, mua sản phẩm mẫu mã quảng cáo Quảng cáo trực tuyến tạo hội cho nhà quảng cáo nhắm xác vào khách hàng mình, giúp họ tiến hành quảng cáo theo với sở thích thị hiếu ngƣời tiêu dùng Các phƣơng tiện thông tin đại chúng khác có khả nhắm chọn, nhƣng có mạng Internet có khả nhắm chọn xác Khái niệm nhà quảng cáo đƣợc hiểu ngƣời có chuyên môn, chịu trách nhiệm cho thƣơng hiệu hay sản phẩm việc thiết lập giám sát chiến dịch quảng cáo 1.2 Những ƣu điểm quảng cáo trực tuyến Khả nhắm chọn Quảng cáo trực tuyến có nhiều khả nhắm chọn vào doanh nghiệp, ngƣời dùng mà không bị giới hạn địa lý, quốc gia, lĩnh vực hoạt động Họ có * Thời gian đƣa dự đoán Thời gian dự đoán (s) 3.5 2.5 1.5 0.5 Thời gian dự đoán Hình 3.8: Biểu đồ so sánh thời gian dự đoán phương pháp Dựa vào biểu đồ thời gian dự đoán phƣơng pháp đồng phân cụm cho kết nhanh nhất, phƣơng pháp lọc cộng tác dựa vào ngƣời dùng item nhiều thời gian, phƣơng pháp phân rã ma trận có thời gian đƣa dự đoán tốt * Tài nguyên sử dụng Bộ nhớ (MB) 20 15 10 Bộ nhớ (MB) Hình 3.9: Biểu đồ so sánh tài nguyên phương pháp 56 Dựa vào biểu đồ nhớ mà chƣơng trình với phƣơng pháp khác sử dụng phƣơng pháp truyền thống không sử dụng học máy thƣờng tài nguyên lƣu trữ liệu tỷ lệ, phƣơng pháp học máy phƣơng pháp đồng phân cụm sử dụng nhớ hiệu * Thống kê lỗi RMSE MAE RMSE & MAE 0.6 0.5 0.4 RMSE 0.3 MAE 0.2 0.1 Random UserKNN ItemKNN MF Co-clustering Hình 3.10: Biểu đồ so sánh sai số RMSE MAE phương pháp 57 Dựa vào biểu đồ sai số RMSE MAE, ta thấy không áp dụng phƣơng pháp học máy sai số cao, phƣơng pháp đồng phân cụm có sai số nhỏ Kết luận: Khi không áp dụng phƣơng pháp học máy vào hệ thống hệ thống không thời gian tính toán, nhƣng không đem lại kết tốt cho việc dự đoán tỷ lệ click/view để giúp khuyến nghị tăng thông số lên cho quảng cáo Phƣơng pháp lọc cộng tác dựa item, dựa nội dung cho kết tƣơng đối tốt, nhiên gặp vấn đề ứng dụng quảng cáo nhiều thời gian để tính toán để đƣa dự đoán Phƣơng pháp phân rã ma trận đƣa kết dự đoán tƣơng đối nhanh dựa vào ma trận nhân tố tiềm ẩn, nhiên cho độ xác mức vừa phải, chấp nhận đƣợc Phƣơng pháp đồng phân cụm có độ xác tốt nhất, lại giải vấn đề thƣa thớt liệu tốt, có khả học cộng dồn mà không cần học lại, có thời gian học lâu nhƣng sử dụng nhớ hiệu đƣa kết dự đoán nhanh Do toán quảng cáo trực tuyến di động, phƣơng pháp tốt dựa vào phƣơng pháp đồng phân cụm để đƣa dự đoán tỷ lệ click/view, từ đƣa khuyến nghị quảng cáo cho ứng dụng nhƣ ứng dụng thích hợp để quảng cáo 58 Chƣơng IV HỆ THỐNG KHUYẾN NGHỊ QUẢNG CÁO Qua nghiên cứu tác giả xin đƣợc đề xuất áp dụng học máy vào quảng cáo trực tuyến áp dụng với quảng cáo ứng dụng di động tƣơng tự công ty amobi nhƣ sau: - Xây dựng hệ thống theo dõi thống kê tỷ lệ click/view hàng ngày - Áp dụng phƣơng pháp khuyến nghị đồng phân cụm giúp hệ thống học hành vi ngƣời dùng đƣa dự đoán tỷ lệ click/view quảng cáo cáo ứng dụng tƣơng ứng - Hiển thị quảng cáo theo thứ tự xếp quảng cáo theo tỷ lệ dựa đoán từ cao đến thấp hiển thị tới ứng dụng 4.1 Cơ sở liệu Các bảng liên quan sẵn có hệ thống quản lý quảng cáo amobi: - adv_categories: Thể loại quảng cáo - advertisement: Chứa thông tin quảng cáo nhƣ tên, thể loại, - link: Chứa thông tin banner quảng cáo, bao gồm đƣờng dẫn ảnh banner, url điều hƣớng, kích thƣớc banner, - widget_app: Chứa thông tin ứng dụng cần quảng cáo nhƣ: tên ứng dụng, mã ứng dụng, 59 Để tích hợp hệ thống khuyến nghị quảng cáo, cần thêm bảng sau: - widget_publisher_code: Chứa log click, view theo ngày banner quảng cáo đƣợc đăng ứng dụng khác - predictor: Chứa thông tin dự đoán tỷ lệ click/view banner quảng cáo tƣơng ứng với ứng dụng Hình 4.1: Mô tả sở liệu hệ khuyến nghị 60 4.2 Hệ thống theo dõi khuyến nghị - Website quản lý bao gồm chức sau: + Top ứng dụng: Xem danh sách ứng dụng đƣợc xếp theo tỷ lệ dự đoán click/view quảng cáo Hình 4.2: Chức top ứng dụng 61 + Khuyến nghị quảng cáo: Khi click vào "Quảng cáo khuyến nghị" điều hƣớng sang trang danh sách quảng cáo đƣợc khuyến nghị để quảng cáo ứng dụng Hình 4.3: Chức khuyến nghị quảng cáo cho ứng dụng + Thống kê click/view: Khi click vào chức "Thống kê click/view" điều hƣớng sang trang biểu đồ biểu thị so sánh tỷ lệ click/view dự đoán tỷ lệ click/view thực tế theo thời gian 62 Hình 4.4: Chức so sánh tỷ lệ click/view ứng dụng quảng cáo dự đoán thực tế Biểu đồ thể chênh lệch tỷ lệ dự đoán ứng dụng Pikachu quảng cáo Chuyện kể bé nghe 63 + Top Quảng cáo: Xem danh sách quảng cáo đƣợc xếp theo tỷ lệ dự đoán click/view tăng dần quảng cáo lên ứng dụng Hình 4.5: Chức top quảng cáo 64 + Khuyến nghị ứng dụng: Khi click vào chức "Ứng dụng khuyến nghị" điều hƣớng sang danh sách ứng dụng đƣợc khuyến nghị quảng cáo lên Hình 4.6: Chức khuyến nghị ứng dụng Danh sách ứng dụng khuyến nghị cho quảng cáo smaato_65820908 Khi click vào chức "Thống kê click/view" điều hƣớng sang trang biểu đồ biểu thị so sánh tỷ lệ click/view dự đoán tỷ lệ click/view thực tế theo thời gian 65 Hình 4.7: Chức so sánh tỷ lệ click/view quảng cáo ứng dụng dự đoán thực tế Biểu đồ thể chênh lệch tỷ lệ dự đoán ứng dụng Kim Cương 2015 quảng cáo smaato_65820908 66 KẾT LUẬN Nhƣ luận văn tìm hiểu học máy, khả ứng dụng học máy, luận văn nêu đƣợc tầm quan trọng học máy lĩnh vực khác đời sống Luận văn tìm hiểu hệ khuyến nghị, vài phƣơng pháp khuyến nghị đƣợc cộng đồng học máy đánh giá cao Tìm hiểu tổng quan quảng cáo trực tuyến, đặc điểm riêng quảng cáo trực tuyến tiềm quảng cáo di động, triển khai, cài đặt thử nghiệm với liệu phản hồi từ ngƣời dùng thu đƣợc trình triển khai quảng cáo ứng dụng di động công ty amobi Kết thu đƣợc áp dụng học máy đƣa dự đoán tỷ lệ click/view cao nhiều so với phƣơng pháp truyền thống dựa vào lựa chọn ngẫu nhiên quảng cáo Việc thử nghiệm đƣợc áp dụng liệu thực tế cho kết dự đoán với độ sai số RMSE nhỏ 0.07-0.09

Ngày đăng: 26/07/2017, 21:01

Từ khóa liên quan

Mục lục

  • trang bia

  • loi cam on

  • muc luc

  • danh muc bang bieu

  • danh muc hinh ve

  • danh muc tu viet tat

  • mo dau

  • chuong 1

  • chuong 2

  • chuong 3

  • chuong 4

  • ket luan

  • tai lieu tham khao

Tài liệu cùng người dùng

Tài liệu liên quan