TRUY HỒI CHÉO MÔ HÌNH CHO NHẠC VÀ LỜI BÀI HÁT

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VƢƠNG THỊ HỒNG TRUY HỒI CHÉO MƠ HÌNH CHO NHẠC VÀ LỜI BÀI HÁT Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã Số: 8480104.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY Hà nội – 12/2018 i Mục lục LỜI CẢM ƠN ii LỜI CAM ĐOAN iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG v LỜI MỞ ĐẦU Chƣơng 1: Giới thiệu truy hồi thông tin 1.1 1.2 1.3 Dữ liệu đa phƣơng thức truy hồi thông tin Phân loại truy hồi chéo mơ hình Phát biểu toán Chƣơng 2: Các phƣơng pháp truy hồi chéo mơ hình 2 2 Phƣơng pháp học không gian Phƣơng pháp học sâu 13 Một số phƣơng pháp khác 17 Chƣơng 3: Mô hình đề xuất 18 3.1 3.2 3.3 3.4 Trích chọn đặc trƣng 19 Học sâu 21 Phân tích tƣơng quan tắc 24 Truy hồi chéo mơ hình 26 Chƣơng 4: Thực nghiệm đánh giá 27 4.1 4.2 4.3 4.4 Dữ liệu trích xuất đặc trƣng 27 Môi trƣờng công cụ thực nghiệm 27 Kịch thực nghiệm 28 Kết thực nghiệm đánh giá 28 KẾT LUẬN 40 TÀI LIỆU THAM KHẢO 41 ii LỜI CẢM ƠN Trƣớc tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo PGS TS Hà Quang Thụy – ngƣời hƣớng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Tơi xin chân thành cảm ơn TS Yi Yu – giảng viên Viện tin học quốc gia, Nhật Bản tạo điều kiện tốt cho tơi hồn thành chƣơng trình thực tập cao học Đồng thời xin chân thành cảm ơn thầy cô anh chị Phòng thí nghiệm Cơng nghệ tri thức giúp đỡ, động viên thời gian học tập công tác Tôi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trƣờng Đại học Công nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho tơi kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trƣờng Cuối cùng, xin cảm ơn tất ngƣời thân u gia đình tơi tồn thể bạn bè ngƣời ln giúp đỡ, động viên tơi học tập nghiên cứu chƣơng trình thạc sĩ Đại học Công nghệ, ĐHQGHN iii LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Truy hồi chéo mô hình cho nhạc lời hát” cơng trình nghiên cứu riêng tôi, không chép lại ngƣời khác Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng 12 năm 2018 iv DANH MỤC HÌNH VẼ Hình 1.1: Quy trình truy hồi chéo mơ hình cho liệu đa phương tiện Hình 2.1: Minh họa học sâu cho học biểu diễn kết hợp cho ảnh văn 14 Hình 3.1: Quy trình truy hồi chéo mơ hình cho nhạc lời hát 19 Hình 1: Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo MRR mức độ thực thể 33 Hình 2: Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo MRR mức độ nhãn 36 Hình : Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo R@1 R@5 39 v DANH MỤC BẢNG Bảng 1.1: Bảng kí hiệu giải thích Bảng 1: Thống kê liệu, đặc trưng công cụ 27 Bảng 2: Các công cụ thực nghiệm 27 Bảng 3: Kết thực nghiệm với phương pháp đề xuất 29 Bảng 4: Kết thực nghiệm biến thể RCCA 30 Bảng 5: Kết thực nghiệm so sánh độ đo MRR mức độ thực thể (khi sử dụng nhạc truy vấn) 31 Bảng 6: Kết thực nghiệm so sánh độ đo MRR mức độ thực thể (khi sử dụng lời hát truy vấn) 32 Bảng 7: Kết thực nghiệm so sánh độ đo MRR mức độ nhãn (khi sử dụng nhạc truy vấn) 34 Bảng 8: Kết thực nghiệm so sánh độ đo MRR mức độ nhãn (khi sử dụng lời hát truy vấn) 35 Bảng 9: Kết độ đo hồi tưởng so sánh với JointTrainDCCA (khi sử dụng nhạc truy vấn) 37 Bảng 10: Kết độ đo hồi tưởng so sánh với JointTrainDCCA (khi sử dụng lời hát truy vấn) 38 LỜI MỞ ĐẦU Ngày nay, liệu đa phƣơng tiện phát triển nhanh chóng trang mạng ngày cập nhật nhiều tin tức mang tính thời nhƣ mang tính sở thích cá nhân hóa với đa dạng kiểu liệu văn bản, hình ảnh hay âm Các kiểu liệu nhƣ văn bản, hình ảnh âm đƣợc sử dụng mô tả kiện chủ đề đƣợc đề cập tới gọi liệu đa phƣơng thức [16] Dữ liệu đa phƣơng thức đƣợc ứng dụng cho truy hồi chéo mơ hình, hệ tƣ vấn phát chủ đề ẩn Những năm gần đây, truy hồi chéo mơ hình trở thành xu hƣớng nghiên cứu cộng đồng Nhiều nghiên cứu giới nhƣ [3, 5, 14, 18] tập trung vào truy hồi chéo mơ hình cho văn hình ảnh, video hình ảnh Các phƣơng pháp truy hồi cổ điển dựa vào mơ hình [2, 7, 11], kỹ thuật sử dụng siêu liệu (meta data) nhƣ từ khóa, thẻ đoạn mơ tả nội dung liên quan dựa vào nội dung liệu đa phƣơng thức Các nghiên cứu [18, 20, 21] tập trung đề xuất ý tƣởng sử dụng học sâu để truy hồi chéo mơ hình tăng hiệu độ xác dựa nội dung liệu đa phƣơng thức Truy hồi chéo mô hình khơng chủ đề quan tâm cộng đồng nghiên cứu giới mà nhận quan tâm công nghiệp Các nghiên cứu ứng dụng nhằm cải tiến đáp ứng đƣợc nhu cầu truy vấn chéo thông tin liệu đa phƣơng thức ngƣời dùng Cùng góp phần vào trào lƣu nghiên cứu giới, luận văn có tên đề tài truy hồi chéo mơ hình cho nhạc lời hát thực để xây dựng mơ hình cho phép truy hồi chéo sử dụng nhạc truy vấn sử dụng lời hát truy vấn Xuất phát từ ứng dụng thực tế cần xây dựng hệ thống truy hồi chéo thông tin liệu đa phƣơng tiện cho phép truy vấn chéo kiểu liệu khác Luận văn tập trung vào giải tốn cải tiến độ xác truy hồi chéo mơ hình cho nhạc lời hát Phƣơng pháp tiếp cận luận văn kết hợp học sâu phân tích tƣơng quan tắc để cải tiến độ xác cho mơ hình Luận văn gồm bốn chƣơng nội dung đƣợc mô tả sơ nhƣ sau: Chƣơng Giới thiệu truy hồi thông tin trình bày liệu đa phƣơng thức, truy hồi thơng tin nói chung truy hồi chéo mơ hình nói riêng Trình bày sơ lƣợc phân loại truy hồi chéo mơ hình quy trình chung để giải tốn truy hồi chéo mơ hình, đồng thời phát biểu toán luận văn triển khai Chƣơng Các phương pháp truy hồi chéo mơ hình trình bày hai phƣơng pháp chính: phƣơng pháp học khơng gian con, học sâu số phƣơng pháp khác cho truy hồi chéo mơ hình Chƣơng Mơ hình đề xuất trình bày phƣơng pháp tiếp cận tốn đƣa quy trình xây dựng mơ hình chi tiết pha Chƣơng cách thực bƣớc mơ hình dựa cách tiếp cận phƣơng pháp đề xuất Chƣơng Thực nghiệm đánh giá mơ tả liệu, trích xuất đặc trƣng cho kiểu liệu, môi trƣờng công cụ thực nghiệm Đồng thời chƣơng mô tả kịch thực nghiệm, đƣa kết đánh giá mơ hình đề xuất Cuối cùng, phần kết luận đƣa nhận xét đánh giá chung kết đạt đƣợc luận văn Chƣơng 1: Giới thiệu truy hồi thông tin Chƣơng tập trung vào giới thiệu liệu đa phƣơng thức, truy hồi thơng tin nói chung truy hồi chéo mơ hình nói riêng Trình bày sơ lƣợc phân loại truy hồi chéo mơ hình quy trình chung để giải tốn truy hồi chéo mơ hình, đồng thời phát biểu toán luận văn triển khai 1.1 Dữ liệu đa phƣơng thức truy hồi thông tin Hơn thập kỉ qua, liệu đa phƣơng tiện phát triển nhanh chóng gia tăng số lƣợng ngƣời dùng ngày lớn Các trang mạng ngày cập nhật nhiều tin tức vừa mang tính thời vừa mang tính sở thích cá nhân hóa với đa dạng kiểu liệu văn bản, hình ảnh hay âm Đối với trang mạng xã hội, liệu đƣợc tạo cộng đồng ngƣời dùng, ngƣời dùng tự đăng có nội dung văn bản, hình ảnh video mà khơng giới hạn số lƣợng nội dung đăng ngày Các kiểu liệu nhƣ văn bản, hình ảnh âm đƣợc sử dụng mô tả kiện chủ đề đƣợc đề cập tới gọi liệu đa phương thức (multi-modal data) [16] Sự phát triển nhanh chóng mạng xã hội cho phép cộng đồng kết nối, chia sẻ giao tiếp với cách dễ dàng Theo thống kê Facebook1 đến hết tháng năm 2014 số lƣợng ngƣời dùng hoạt động 890 triệu ngƣời, tăng 18% so với kì năm 2013 Đến nay, số thống kê ngƣời dùng Facebook lên tỉ ngƣời dùng toàn giới Instagram ứng dụng cộng đồng cho phép đăng văn ngắn hình ảnh thu hút tỉ ngƣời dùng tính tới tháng năm 2018 Chính gia tăng liệu đa phƣơng thức nói chung liệu đa phƣơng tiện nói riêng, ngƣời dùng gặp khó khăn việc tìm kiếm thơng tin liên quan cách hiệu nhanh chóng Dữ liệu đa phƣơng thức đƣợc ứng dụng cho truy hồi chéo mơ hình, hệ tƣ vấn phát chủ đề ẩn [16] Dữ liệu dạng hình ảnh, âm hay văn đề cập tới kiện, chủ đề chúng có mối tƣơng quan ngữ nghĩa Ứng dụng liệu đa phƣơng thức cho truy hồi chéo mơ hình ảnh văn [17, 21] , cho âm nhạc nhạc lời hát [20] Bên cạnh phát triển liệu đa phƣơng thức, phƣơng pháp, kỹ thuật để lập http://investor.fb.com/annuals.cfm mục tìm kiếm liệu đa phƣơng thức đƣợc quan tâm nghiên cứu Tuy nhiên, kỹ thuật tìm kiếm chủ yếu dựa mơ hình dựa từ khóa nội dung truy xuất cho phép thực tìm kiếm tƣơng tự loại liệu, ví dụ truy hồi văn bản, truy hồi hình ảnh, truy hồi [2, 7, 11] Do đó, u cầu đòi hỏi để thúc đẩy truy hồi thông tin phát triển mơ hình truy hồi hỗ trợ tìm kiếm tƣơng tự cho nhiều kiểu liệu đề cập tới chủ đề hay kiện Những năm gần đây, truy hồi chéo mơ hình hay truy hồi chéo thông tin trở thành xu hƣớng nghiên cứu phát triển nhanh chóng liệu đa phƣơng thức Truy hồi chéo mơ hình sử dụng kiểu liệu nhƣ truy vấn để truy xuất kiểu liệu khác liên quan Ví dụ, ngƣời dùng sử dụng đoạn văn ngắn truy vấn để tìm danh sách hình ảnh âm phù hợp với đoạn văn ngắn ngƣợc lại, sử dụng hình ảnh âm truy vấn để tìm danh sách từ liên quan tới hình ảnh âm Các ứng dụng mạng xã hội nhƣ Facebook, Flickr, Youtube Twitter thay đổi cách ngƣời tƣơng tác với giới thông tin quan tâm Ngƣời dùng gửi nội dung kiểu liệu để truy vấn kiểu liệu khác cho có ngữ nghĩa Do đó, việc truy hồi chéo mơ hình ngày trở nên quan trọng Nhiều nghiên cứu giới, nhƣ [3, 5, 14, 18] tập trung vào truy hồi mơ hình chéo cho văn hình ảnh, video hình ảnh Thách thức truy hồi chéo mơ hình để đo đƣợc tƣơng tự nội dung kiểu liệu khác Các phƣơng pháp truy hồi cổ điển dựa vào mơ hình [2, 7, 11], kỹ thuật sử dụng siêu liệu (meta data) nhƣ từ khóa, thẻ đoạn mô tả nội dung liên quan dựa vào nội dung liệu đa phƣơng thức Các phƣơng pháp truy hồi chéo mơ hình u cầu phải mơ hình hóa mối quan hệ kiểu liệu để ngƣời dùng tìm đƣợc liên quan tới truy vấn họ Các nghiên cứu [18, 20, 21] tập trung đề xuất ý tƣởng truy hồi chéo mơ hình tăng hiệu độ xác dựa nội dung liệu đa phƣơng thức 28 4.3 Kịch thực nghiệm Luận văn thực kịch thực nghiệm: thực nghiệm phƣơng pháp đề xuất, thực nghiệm so sánh với RCCA, thực nghiệm so sánh với phƣơng pháp khác [20] liệu đánh giá kết thực nghiệm độ đo - Thực nghiệm phƣơng pháp đề xuất: thực nghiệm kiểm thử chéo tập (cross-validation) truy hồi chéo mô hình cho nhạc lời hát với độ đo Đánh giá kết độ đo trung bình tập kiểm tra - Thực nghiệm với RCCA: so sánh kết thực nghiệm truy hồi chéo mô hình cho nhạc lời hát với CCA Kiểm thử chéo tập đánh giá kết trung bình độ đo - Thực nghiệm so sánh với phƣơng pháp [20]: PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA liệu để đánh giá So sánh đánh giá thực nghiệm với phƣơng pháp đề xuất [20] JointTrainDCCA-là phƣơng pháp đề xuất tác giả Yu cộng [20] đạt kết tốt Mục đích thực nghiệm so sánh hiệu phƣơng pháp đề xuất với phƣơng pháp khác Thực nghiệm đánh giá thực độ đo MRR mức độ thực thể mức độ nhãn MRR mức độ thực thể đƣợc tính theo cơng thức (20) dựa độ tƣơng tự co-sin mà không quan tâm tới nhãn nhạc lời hát, kí hiệu I-MRR-A, I-MRR-L với A, L sử dụng nhạc, lời hát đầu vào truy vấn tƣơng ứng MRR mức độ nhãn đƣợc tính theo cơng thức (20) dựa nhãn nhạc lời hát Thực nghiệm đánh giá với độ đo R@1-A, R@1-L, R@5-A R@5-L 4.4 Kết thực nghiệm đánh giá a) Kết thực nghiệm phương pháp đề xuất Kết thực nghiệm phƣơng pháp đề xuất sử dụng lời nhạc nhƣ truy vấn sử dụng nhạc nhƣ truy vấn Bảng Kết độ đo MRR, độ hồi tƣởng sử dụng truy vấn nhạc hay lời hát cho kết xấp xỉ Điều chứng tỏ, mơ hình đề xuất học đƣợc không gian chung tốt cho nhạc lời hát Khi số lƣợng thành phần tắc từ 20 tới 100, kết độ đo tăng từ 20% đến 50% Điều chứng tỏ không gian chung biểu diễn tốt 29 phản ánh đặc trƣng chéo mơ hình tăng số lƣợng chiều đặc trƣng chéo nhạc hay lời hát theo số lƣợng thành phần tắc Khi thành phần tắc 100 kết độ đo đạt từ 40 % đến 50% sử dụng truy hồi chéo mơ hình cho nhạc cho lời hát Bảng 3: Kết thực nghiệm với phương pháp đề xuất CCA I-MRR-A I-MRR-L C-MRR-A C-MRR-L R@1-A R@1-L R@5-A R@5-L 0.080 0.081 0.213 0.212 0.045 0.047 0.100 0.099 0.200 0.200 0.305 0.305 0.137 0.136 0.251 0.253 30 0.300 0.300 0.387 0.387 0.224 0.224 0.371 0.376 40 0.370 0.366 0.448 0.445 0.288 0.284 0.454 0.447 50 0.415 0.411 0.448 0.484 0.335 0.327 0.498 0.496 60 0.439 0.436 0.506 0.506 0.358 0.354 0.523 0.519 70 0.453 0.449 0.519 0.517 0.371 0.367 0.539 0.535 80 0.456 0.452 0.521 0.519 0.373 0.370 0.540 0.536 90 0.447 0.444 0.515 0.513 0.365 0.362 0.531 0.529 100 0.427 0.425 0.497 0.497 0.349 0.346 0.507 0.505 10 20 b) Kết thực nghiệm với RCCA Kết thực nghiệm với biến thể RCCA sử dụng lời nhạc nhƣ truy vấn sử dụng nhạc nhƣ truy vấn Bảng 4 Tƣơng tự với CCA, RCCA với phƣơng pháp đề xuất truy hồi chéo mô hình hoạt động tốt cho liệu nhạc, lời hát với tham số chuẩn hóa r đƣợc lựa chọn thực nghiệm Kết thực nghiệm RCCA tốt với tham số r = 1e-04 Số lƣợng thành phần tắc từ 30 trở đi, kết độ đo tăng từ 20% đến 40% Khi thành phần tắc 100, kết độ đo sử dụng nhạc lời hát truy vấn cho kết cao từ 30% đến 40% Phƣơng pháp đề xuất cho kết độ đo cao so với RCCA từ 5% đến 10% từ 30 thành phần tắc trở 30 Bảng 4: Kết thực nghiệm biến thể RCCA CCA I-MRR-A I-MRR-L C-MRR-A C-MRR-L R@1-A R@1-L R@5-A R@5-L 10 0.079 0.084 0.079 0.084 0.052 0.057 0.093 0.099 20 0.163 0.170 0.163 0.170 0.126 0.132 0.190 0.203 30 0.221 0.223 0.221 0.223 0.177 0.179 0.252 0.257 40 0.268 0.263 0.268 0.263 0.221 0.213 0.307 0.308 50 0.295 0.296 0.295 0.296 0.243 0.244 0.343 0.343 60 0.324 0.322 0.324 0.322 0.273 0.265 0.370 0.375 70 0.341 0.343 0.341 0.343 0.288 0.287 0.388 0.394 80 0.357 0.359 0.357 0.359 0.304 0.302 0.409 0.408 90 0.368 0.368 0.368 0.368 0.314 0.310 0.419 0.421 100 0.369 0.371 0.369 0.371 0.317 0.317 0.419 0.417 c) So sánh với phương pháp khác Truy hồi chéo mơ hình cho nhạc lời hát đƣợc nghiên cứu tiên phong tác giả [20] cộng Luận văn so sánh với phƣơng pháp [20]: PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA liệu để đánh giá Kịch so sánh: thực thực nghiệm so sánh truy hồi chéo mơ hình độ đo MRR mức độ thực thể mức độ nhãn, R@1, R@5 sử dụng nhạc lời truy vấn Bảng 4.5 4.6 kết thực nghiệm so sánh với bốn phƣơng pháp [20] độ đo MRR mức độ thực thể tƣơng ứng sử dụng nhạc, lời hát truy vấn Bảng 4.7 4.8 kết thực nghiệm so sánh với bốn phƣơng pháp [20] độ đo MRR mức độ nhãn tƣơng ứng sử dụng nhạc, lời hát truy vấn Bảng 4.9 4.10 kết thực nghiệm so sánh với JointTrainDCCA phƣơng pháp đạt kết cao [20] độ đo R@1 R@5 nhãn tƣơng ứng sử dụng nhạc, lời hát truy vấn 31 Bảng 5: Kết thực nghiệm so sánh độ đo MRR mức độ thực thể (khi sử dụng nhạc truy vấn) CCA PretrainCNN-CCA 10 0.022 20 DCCA Đề xuất PretrainCNN-DCCA JointTrainDCCA 0.125 0.189 0.247 0.080 0.040 0.168 0.225 0.254 0.200 30 0.054 0.183 0.236 0.256 0.300 40 0.069 0.183 0.239 0.256 0.370 50 0.078 0.178 0.237 0.256 0.415 60 0.085 0.177 0.240 0.257 0.439 70 0.090 0.174 0.239 0.256 0.453 80 0.094 0.171 0.237 0.257 0.456 90 0.098 0.164 0.238 0.257 0.447 100 0.099 0.154 0.237 0.257 0.427 Kết độ đo MRR mức độ thực thể sử dụng nhạc truy vấn Bảng 4.5 phƣơng pháp đề xuất luận văn cao so với phƣơng pháp PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA Kết phƣơng pháp đề xuất luận văn với MRR mức độ thực thể từ 40% đến 50% từ thành phần tắc 40 trở đi, PretrainCNN-CCA 10%, DCCA trung bình 15%, PretrainCNN-DCCA xấp xỉ 25% JointTrainDCCA xấp xỉ 25% So với PretrainCNN-CCA, DCCA, phƣơng phát đề xuất có độ đo MRR cao từ 10% đến 30% từ thành phần tắc 30 trở MRR so với PretrainCNN-DCCA, JointTrainDCCA cao từ 5% đến 15% từ thành phần tắc 40 trở 32 Bảng 6: Kết thực nghiệm so sánh độ đo MRR mức độ thực thể (khi sử dụng lời hát truy vấn) CCA PretrainCNN-CCA DCCA PretrainCNN-DCCA JointTrainDCCA Đề xuất 10 0.022 0.124 0.190 0.248 0.081 20 0.038 0.168 0.225 0.245 0.200 30 0.053 0.184 0.236 0.256 0.300 0.065 0.183 0.240 0.254 0.366 50 0.076 0.180 0.236 0.256 0.411 60 0.083 0.176 0.241 0.257 0.436 70 0.089 0.174 0.240 0.256 0.449 80 0.094 0.170 0.237 0.257 0.452 90 0.099 0.163 0.239 0.256 0.444 100 0.120 0.152 0.237 0.256 0.425 40 Kết độ đo MRR mức độ thực thể sử dụng lời hát truy vấn Bảng 4.6 phƣơng pháp đề xuất luận văn cao so với bốn phƣơng pháp PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA Kết MRR phƣơng pháp đề xuất luận văn so với bốn phƣơng pháp bảng 4.6 tƣơng tự với bảng 4.5 So với PretrainCNN-CCA, DCCA, phƣơng phát đề xuất có độ đo MRR cao từ 10% đến 30% từ thành phần tắc 30 trở MRR so với PretrainCNN-DCCA, JointTrainDCCA cao từ 5% đến 15% từ thành phần tắc 40 trở Kết độ đo MRR mức độ thực thể Bảng 4.5 4.6 sử dụng nhạc hay lời hát truy vấn gần nhƣ tƣơng tự nhau, chứng tỏ phƣơng pháp đề xuất hoạt động tốt truy hồi chéo mơ hình cho nhạc lời hát Hình 4.1 So sánh kết độ đo MRR mức độ thực thể sử dụng nhạc hay lời hát truy vấn 33 0.60 0.50 0.40 0.30 0.20 0.10 0.00 10 20 30 40 50 PretrainCNN-CCA DCCA JointTrainDCCA Đề xuất 60 70 80 90 100 PretrainCNN-DCCA Hình 1: Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo MRR mức độ thực thể 34 Bảng 7: Kết thực nghiệm so sánh độ đo MRR mức độ nhãn (khi sử dụng nhạc truy vấn) CCA Đề xuất PretrainCNN-CCA DCCA PretrainCNN-DCCA JointTrainDCCA 10 0.172 0.260 0.313 0.364 0.213 20 0.187 0.296 0.344 0.367 0.305 30 0.199 0.307 0.349 0.368 0.387 0.212 0.307 0.356 0.370 0.448 50 0.218 0.304 0.358 0.373 0.448 60 0.225 0.302 0.355 0.370 0.506 70 0.230 0.298 0.358 0.370 0.519 80 0.234 0.294 0.352 0.370 0.521 90 0.235 0.294 0.356 0.370 0.515 100 0.233 0.282 0.354 0.374 0.497 40 Kết độ đo MRR mức độ nhãn sử dụng nhạc truy vấn Bảng 4.7 phƣơng pháp đề xuất luận văn cao so với phƣơng pháp PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA Kết MRR mức độ nhãn phƣơng pháp đề xuất luận văn sử dụng nhạc truy vấn từ 38% đến 52% từ thành phần tắc 20 trở Từ thành phần tắc 10 đến 100, phƣơng pháp đề xuất luận văn cho kết MRR cao từ 5% đến 25% PretrainCNN-CCA Phƣơng pháp đề xuất có MRR cao từ 5% đến 20% DCCA từ thành phần 30 trở So với PretrainCNN-DCCA, JoinTraintDCCA, phƣơng pháp đề xuất cao từ 5% đến 10% 35 Bảng 8: Kết thực nghiệm so sánh độ đo MRR mức độ nhãn (khi sử dụng lời hát truy vấn) Đề xuất CCA PretrainCNN-CCA DCCA PretrainCNN-DCCA JointTrainDCCA 10 0.170 0.256 0.314 0.366 0.212 20 0.188 0.294 0.344 0.368 0.305 30 0.198 0.305 0.351 0.372 0.387 40 0.208 0.307 0.358 0.365 0.445 50 0.220 0.306 0.455 0.373 0.484 60 0.223 0.302 0.356 0.374 0.506 70 0.231 0.298 0.360 0.371 0.517 80 0.236 0.290 0.354 0.370 0.519 90 0.237 0.288 0.356 0.369 0.513 100 0.238 0.280 0.355 0.375 0.497 Kết độ đo MRR mức độ nhãn sử dụng lời hát truy vấn Bảng 4.8 phƣơng pháp đề xuất luận văn cao so với phƣơng pháp PretrainCNN-CCA, DCCA, PretrainCNN-DCCA, JointTrainDCCA Kết MRR mức độ nhãn phƣơng pháp đề xuất sử dụng lời hát truy vấn từ 38% đến 52% từ thành phần tắc 20 trở Từ thành phần tắc 10 đến 100, phƣơng pháp đề xuất luận văn cho kết MRR cao từ 5% đến 25% PretrainCNN-CCA Phƣơng pháp đề xuất có MRR cao từ 5% đến 20% DCCA từ thành phần 30 trở So với PretrainCNN-DCCA, JoinTraintDCCA, phƣơng pháp đề xuất cao từ 5% đến 10% Kết MRR mức độ nhãn bảng 4.7 4.8 tƣơng tự nhau, chứng tỏ mô hình đề xuất hoạt động hiệu cho nhạc lẫn lời hát truy vấn 36 Hình 4.2 So sánh kết độ đo MRR mức độ nhãn sử dụng nhạc hay lời hát truy vấn 0.60 0.50 0.40 0.30 0.20 0.10 0.00 10 20 30 40 50 PretrainCNN-CCA DCCA JointTrainDCCA Đề xuất 60 70 80 90 100 PretrainCNN-DCCA Hình 2: Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo MRR mức độ nhãn 37 Bảng 9: Kết độ đo hồi tưởng so sánh với JointTrainDCCA (khi sử dụng nhạc truy vấn) R@1 R@1 R@5 R@5 JointTrain DCCA Đề xuất JointTrain DCCA Đề xuất CCA 10 0.233 0.045 0.257 0.100 20 0.243 0.137 0.262 0.251 30 0.245 0.224 0.263 0.371 40 0.245 0.288 0.262 0.454 50 0.246 0.335 0.262 0.498 60 0.246 0.358 0.263 0.523 70 0.246 0.371 0.263 0.539 80 0.246 0.373 0.264 0.540 90 0.247 0.365 0.263 0.531 100 0.246 0.349 0.263 0.507 Kết độ đo R@ R@5 sử dụng nhạc truy vấn Bảng 4.9 phƣơng pháp đề xuất luận văn cao so với phƣơng pháp JointTrainDCCA Kết R@ phƣơng pháp đề xuất luận văn sử dụng nhạc truy vấn từ 25% đến 35% từ thành phần tắc 40 trở cao từ 5% đến 10% so với phƣơng pháp JointTrainDCCA Kết R@ phƣơng pháp đề xuất luận văn sử dụng nhạc truy vấn từ 25% đến 54% từ thành phần tắc 30 trở cao từ 10% đến 25% so với phƣơng pháp JointTrainDCCA 38 Bảng 10: Kết độ đo hồi tưởng so sánh với JointTrainDCCA (khi sử dụng lời hát truy vấn) CCA R1 JointTrain DCCA R1 Đề xuất R5 JointTrain DCCA R5 Đề xuất 10 0.235 0.047 0.257 0.099 20 0.242 0.136 0.261 0.253 30 0.245 0.224 0.263 0.376 40 0.244 0.284 0.261 0.447 50 0.246 0.327 0.262 0.496 60 0.247 0.354 0.263 0.519 70 0.245 0.367 0.263 0.535 80 0.247 0.370 0.264 0.536 90 0.246 0.362 0.263 0.529 100 0.247 0.346 0.262 0.505 Kết độ đo R@ R@5 sử dụng lời hát truy vấn Bảng 4.10 phƣơng pháp đề xuất luận văn hoạt động tốt so với phƣơng pháp JointTrainDCCA Kết R@ phƣơng pháp đề xuất luận văn sử dụng lời hát truy vấn từ 25% đến 35% từ thành phần tắc 40 trở cao từ 5% đến 10% so với phƣơng pháp JointTrainDCCA Kết R@ phƣơng pháp đề xuất luận văn sử dụng lời hát truy vấn từ 25% đến 50% từ thành phần tắc 30 trở cao từ 10% đến 25% so với phƣơng pháp JointTrainDCCA Hình 4.3 so sánh kết độ đo R@1 R@5 phƣơng pháp đề xuất với JointTrainDCCA [20] 39 0.60 0.50 0.40 0.30 0.20 0.10 0.00 10 20 30 R@1 JointTrain DCCA 40 50 R@1 Đề xuất 60 70 R@5 JointTrain DCCA 80 90 100 R@5 Đề xuất Hình : Biểu đồ đường so sánh phương pháp đề xuất với phương pháp khác độ đo R@1 R@5 40 KẾT LUẬN Truy hồi chéo mơ hình không chủ đề quan tâm cộng đồng nghiên cứu giới mà nhận quan tâm công nghiệp Các nghiên cứu ứng dụng nhằm cải tiến đáp ứng đƣợc nhu cầu truy vấn chéo thông tin liệu đa phƣơng thức ngƣời dùng Cùng góp phần vào trào lƣu nghiên cứu giới, luận văn có tên đề tài truy hồi chéo mơ hình cho nhạc lời hát thực để xây dựng mơ hình cho phép truy hồi chéo sử dụng nhạc truy vấn sử dụng lời hát truy vấn Luận văn đề xuất phƣơng pháp kết hợp học sâu phân tích tƣơng quan tắc sử dụng mơ hình đề xuất để truy hồi chéo cho nhạc lời hát Đồng thời luận văn đánh giá so sánh hiệu phƣơng pháp đề xuất với phƣơng pháp điển hình khác để chứng minh phƣơng pháp đề xuất khả quan để ứng dụng vào thực tiễn Kết phƣơng pháp đề xuất cao so với phƣơng pháp so sánh tập liệu Kết độ đo MRR, R@1, R@5 phƣơng pháp đề xuất luận văn sử dụng nhạc hay sử dụng lời hát truy vấn từ 30% đến 50% tập liệu âm nhạc Phƣơng pháp đề xuất luận văn đƣợc ứng dụng cho hệ thống tìm kiếm chéo trang âm nhạc nhằm đáp ứng nhu cầu truy vấn ngƣời dùng 41 TÀI LIỆU THAM KHẢO Andrew, G., Arora, R., Bilmes, J., Livescu, K.: Deep canonical correlation analysis In International Conference on Machine Learning pp 1247-1255 (2013) Boutell, M., Luo, J.: Photo classification by integrating image content and camera metadata In Pattern Recognition, 2004 ICPR 2004 Proceedings of the 17th International Conference on vol 4, pp 901-904 IEEE (2004) Chaudhuri, K., Kakade, S.M., Livescu, K., Sridharan, K.: Multi-view clustering via canonical correlation analysis In Proceedings of the 26th annual international conference on machine learning pp 129-136 ACM (2009) De Bie, T., De Moor, B.: On the regularization of canonical correlation analysis Int Sympos ICA and BSS pp 785-790 (2003) Feng, F., Li, R., Wang, X.: Deep correspondence restricted boltzmann machine for cross-modal retrieval Neurocomputing 154, 50-60 (2015) Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets In: Advances in neural information processing systems pp 2672-2680 (2014) Hu, X., Downie, J.S., Ehmann, A.F.: Lyric text mining in music mood classification American music 183(5,049), 2-209 (2009) Le, Q., Mikolov, T.: Distributed representations of sentences and documents In International Conference on Machine Learning pp 1188-1196 (2014) Mandal, A., Maji, P.: Regularization and shrinkage in rough set based canonical correlation analysis In International Joint Conference on Rough Sets pp 432446 Springer (2017) 10 Mandal, A., Maji, P.: Faroc: fast and robust supervised canonical correlation analysis for multimodal omics data IEEE transactions on cybernetics 48(4), 1229-1241 (2018) 11 McAuley, J., Leskovec, J.: Image labeling on a network: using social-network metadata for image classification In European conference on computer vision pp 828-841 Springer (2012) 12 Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., Ng, A.Y.: Multimodal deep learning In Proceedings of the 28th international conference on machine learning (ICML-11) pp 689-696 (2011) 42 13 Peng, Y., Huang, X., Qi, J.: Cross-media shared representation by hierarchical learning with multiple deep networks In IJCAI pp 3846-3853 (2016) 14 Wang, B., Yang, Y., Xu, X., Hanjalic, A., Shen, H.T.: Adversarial cross-modal retrieval In Proceedings of the 2017 ACM on Multimedia Conference pp 154162 ACM (2017) 15 Wang, K., He, R., Wang, W., Wang, L., Tan, T.: Learning coupled feature spaces for cross-modal matching In Proceedings of the IEEE International Conference on Computer Vision pp 2088-2095 (2013) 16 Wang, K., Yin, Q., Wang, W., Wu, S., Wang, L.: A comprehensive survey on cross-modal retrieval arXiv preprint arXiv:1607.06215 (2016) 17 Xia, R., Pan, Y., Lai, H., Liu, C., Yan, S.: Supervised hashing for image retrieval via image representation learning In AAAI vol 1, p (2014) 18 Yan, F., Mikolajczyk, K.: Deep correlation for matching images and text In Proceedings of the IEEE conference on computer vision and pattern recognition pp 3441-3450 (2015) 19 Yao, T., Mei, T., Ngo, C.W.: Learning query and image similarities with ranking canonical correlation analysis In Proceedings of the IEEE International Conference on Computer Vision pp 28-36 (2015) 20 Yu, Y., Tang, S., Raposo, F., Chen, L.: Deep cross-modal correlation learning for audio and lyrics in music retrieval arXiv preprint arXiv:1711.08976 (2017) 21 Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X., Wang, X., Metaxas, D.: Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks arXiv preprint (2017) 22 Zhang, J., Peng, Y., Yuan, M.: Unsupervised generative adversarial cross-modal hashing arXiv preprint arXiv:1712.00358 (2017)

TRUY HỒI CHÉO MÔ HÌNH CHO NHẠC VÀ LỜI BÀI HÁT

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan