Khóa luận nghiên cứu bài toán phân tích cảm xúc của người hùng

82 200 6
Khóa luận nghiên cứu bài toán phân tích cảm xúc của người hùng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM LÊ SI LẮC KHÓA LUẬN TỐT NGHIỆP NGHIÊN CỨU BÀI TỐN PHÂN TÍCH CẢM XÚC CỦA NGƯỜI DÙNG A Research on Sentiment Analysis KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM LÊ SI LẮC - 17520669 KHĨA LUẬN TỐT NGHIỆP NGHIÊN CỨU BÀI TỐN PHÂN TÍCH CẢM XÚC CỦA NGƯỜI DÙNG A Research on Sentiment Analysis KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN LƯU THÙY NGÂN TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên iv LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn cô Nguyễn Lưu Thùy Ngân tận tình hướng dẫn, định hướng phản biện nhằm giúp đạt kết tốt cho khóa luận Nếu khơng có hướng dẫn từ cơ, mục tiêu khóa luận khơng thể hồn thành Bên cạnh đó, tơi mong muốn cảm ơn hỗ trợ anh Đặng Văn Thìn (nghiên cứu viên The UIT Natural Language Processing Group) hỗ trợ khơng ngừng nghỉ đóng góp định giúp tơi hồn thiện thật tốt đề tài khóa luận Tơi xin gửi lời cảm ơn đến Phịng thí nghiệm Truyền thơng Đa phương tiện trường Đại học Công nghệ thông tin đồng thời Seedcom Group nhiệt tình hỗ trợ tơi kiến thức trang thiết bị trình làm khóa luận Điều quan trọng nhất, tơi chân thành cảm ơn gia đình điểm tựa vững thời gian thực nghiên cứu Tôi xin chân thành cảm ơn v Mục lục TĨM TẮT KHỐ LUẬN MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Đối tượng phạm vi nghiên cứu 1.2.1 Đối tượng nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Mục tiêu nghiên cứu 1.3.1 Kết nghiên cứu 1.4 Phát biểu toán 1.5 Cấu trúc khóa luận xiv TỔNG QUAN 2.1 Tổng quan phân tích cảm xúc 2.2 Tình hình nghiên cứu 2.2.1 Tình hình nghiên cứu giới 2.2.2 Tình hình nghiên cứu nước 2.2.3 Nhận xét 1 3 3 6 8 10 10 12 14 TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI 3.1 Giới thiệu liệu 3.1.1 Vietnamese Language and Speech Processing Sentiment Analysis(VLSP) 3.1.2 Hotel Sentiment Analysis (HSA) 3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSFC) 3.1.4 Vietnamese Sentiment Analysis (VS) 15 16 16 17 18 19 vi 3.2 Tiền xử lý liệu LÝ THUYẾT 4.1 Mơ hình BERT 4.2 Các biến thể BERT dành cho tiếng Việt 4.3 Kỹ thuật làm giàu liệu (Data augmentation) 4.3.1 Character Augmenter 4.3.2 Word Augmenter 4.3.3 Contextual Word Embeddings Augmenter 20 22 22 23 24 25 25 26 KẾT QUẢ THỰC NGHIỆM 5.1 Kết 5.1.1 Thực nghiệm toán SA 5.1.1.1 VS 5.1.1.2 UIT_VSFC 5.1.1.3 VLSP 5.1.1.4 HSA 5.1.2 Thực nghiệm sử dụng bổ trợ mơ hình ngơn ngữ (Language Model) 5.1.3 Đánh giá tính hiệu kỹ thuật làm giàu liệu 5.1.3.1 Thực nghiệm đánh giá mơ hình truyền thống 5.1.3.2 Độ chuẩn xác nguồn liệu sinh 5.2 Ứng dụng 5.2.1 Đặc tả phần mềm (Software Requirement Specification) 5.2.1.1 Objective 5.2.1.2 Thiết kế 5.2.2 Công nghệ 5.2.2.1 Dash 5.2.2.2 Dash Bootstrap 5.2.2.3 Selenium 28 28 28 28 32 35 38 41 44 44 46 50 50 50 51 53 53 53 54 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Hạn chế 6.2 Hướng phát triển tương lai 55 56 56 vii A QUÁ TRÌNH HUẤN LUYỆN MƠ HÌNH NGƠN NGỮ (LANGUAGE MODEL) A.1 Dữ liệu A.2 Trích xuất tập từ vựng A.3 Bổ sung tập từ vựng trích xuất tiến hành huấn luyện mơ hình ngơn ngữ 59 B CÔNG BỐ KHOA HỌC 60 58 58 58 viii Danh sách hình vẽ 1.1 2.1 2.2 3.1 3.2 3.3 3.4 Minh họa hệ thống đánh giá nhà hàng người dùng trang web Yelp Biểu đồ trình bày cấp độ ngơn ngữ học gồm cấp độ phổ biến: Ngữ âm học (Phonetics), Âm vị học (Phonology), Hình thái học (Morphology), Cú pháp (Syntax), Ngữ nghĩa học (Semantics) Ngữ dụng học (Pragmatics) Mô tả ba nhiệm vụ ABSA: Mục đích tốn trích xuất mục tiêu ý kiến, trường hợp "sushi" "phục vụ" Đối với toán xác định thực thể khía cạnh (aspect category detection), thiết đặt danh mục xác định trước, nhiệm vụ xác định: thực thểkhía cạnh, khía cạnh "sushi" "Food" thực thể biểu thị khía cạnh "Quality" Xác định cảm xúc khía cạnh mục tiêu (sentiment polarity) - tích cực tiêu cực Tỉ lệ thời gian dành cho giai đoạn để xây dựng hệ thống khoa học ngữ liệu Nguồn: báo cáo học ngữ liệu 2016 [5] Bộ liệu VLSP (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện tập kiểm tra (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu Bộ liệu HSA (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu Bộ liệu UIT-VSFC (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 10 15 17 18 19 ix 3.5 Bộ liệu VS (a) Phân bố nhãn tập liệu tương ứng tập huấn luyện, kiểm thử đánh giá (b) Tỉ lệ đồ dài câu ứng với nhãn có liệu 20 4.1 4.2 4.3 Kiến trúc mơ hình BERT trình bày [9] Biểu diễn giá trị từ Mô tả BERT Fill-Mask 23 26 27 5.1 5.2 5.3 5.4 5.5 5.6 Mô tả sử dụng mơ hình ngơn ngữ Thống kê số lượng câu bình luận theo độ dài câu Dữ liệu sinh bộ ngữ liệu UIT_VSFC Dữ liệu sinh bộ ngữ liệu HSA Dữ liệu sinh bộ ngữ liệu KSE Thơng tin độ dài trung bình bình luận đồng thời tập từ vựng phổ cập liệu thu thập Thông tin chi tiết kết dự đoán tập liệu 41 42 47 48 49 52 52 A.1 Mơ tốn Masked Language Model 59 5.7 x Danh sách bảng 3.1 5.1 5.2 5.3 5.4 Thống kê tóm tắt cho kho ngữ liệu thử nghiệm N: kích thước liệu c: Số lớp mục tiêu l pre−avg : Trung bình độ dài câu trước trình tiền xử lý l pre−max : Độ dài câu dài trước trình tiền xử lý lavg : Trung bình độ dài câu sau trình tiền xử lý lmax :Độ dài câu dài sau trình tiền xử lý |V |: Kích thước từ vựng Test: Kích thước tập đánh giá (CV có nghĩa đánh giá thơng qua kiểm chéo (cross-validation) Kết PhoBERTBase kết hợp với bốn mức độ làm giàu ngữ liệu (data augmentation) liệu VS [46] Chúng tơi tiến hành tính tốn số Macro F1 -score [46] dựa thống kê kết nhãn liệu Theo đơn vị % Thống kê tính hiệu mức độ làm giàu ngữ liệu dựa kết từ bốn tỉ lệ ngữ liệu sinh (10%, 20%, 30% 40%) thông qua độ lệch chuẩn giá trị trung bình liệu VS [46] Kết PhoBERTBase kết hợp với bốn mức độ làm giàu ngữ liệu (data augmentation) liệu UIT-VSFC [29] Chúng tơi tiến hành tính tốn số Macro F1 -score dựa thống kê kết nhãn liệu Theo đơn vị % Thống kê tính hiệu mức độ làm giàu ngữ liệu dựa kết từ bốn tỉ lệ ngữ liệu sinh (10%, 20%, 30% 40%) thơng qua độ lệch chuẩn giá trị trung bình liệu UIT-VSFC [29] 20 30 31 33 34 Chương KẾT QUẢ THỰC NGHIỆM 5.2.2.3 54 Selenium Selenium WebDriver công cụ phổ biến nói đến tự động hóa giao diện người dùng Web Khung Selenium sử dụng với nhiều ngơn ngữ lập trình Python, Java, C , v.v Python ngơn ngữ lập trình phát triển nhanh nhất; Selenium WebDriver với Python ưa thích rộng rãi nhà phát triển làm việc thử nghiệm tự động hóa web 55 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bên cạnh mặt hạn chế trình nghiên cứu thực nghiệm khóa luận tơi liệt kê chương Hơn hết, nêu hướng đề xuất phát triển cho khóa luận nhằm giúp cải thiện kết tốt Khóa luận tơi trình nghiên cứu áp dụng kỹ thuật làm giàu liệu mơ hình PhoBERT Base vào tốn Phân tích cảm xúc người dùng đa dạng liệu với văn cảnh khác Cùng với đó, tơi tiến hành đánh giá kết đạt cách chi tiết toàn diện thang đo khác gồm Accuracy, Balance Acc, Weighted F1, Macro F1, Micro F1 Bên cạnh đó, tơi tiến hành đánh giá sâu tính hiệu kỹ thuật mơ hình truyền thống SVM tính chuẩn xác ngữ liệu sinh - văn cảnh khác gồm tổng quát, mang tính chủ đề, phức tạp Mặt khác, tơi tiến hành huấn luyện thêm mơ hình ngơn ngữ (language model) - liệu gồm triệu câu để thực phần nội dung muốn cải thiện tới Cùng với đó, tơi thực chương trình minh họa nhỏ tốn mình, cho phép người dùng trực tiếp thu thập bình luận trang bán hàng (hiện hỗ trợ Shopee) tạo báo cáo tổng quan đánh giá người dùng dành cho thương hiệu (brand image/sentiment index/audience scale) Nhìn chung, qua thực nghiệm nhóm nhận thấy mơ hình PhoBERTBase thực tốt việc giải toán này, bên cạnh đó, kết hợp thêm kỹ thuật làm giàu liệu mức độ ngữ cảnh - đặc biệt kỹ thuật dịch ngược, lại mang đến nhiều thời gian thử nghiệm Song, thời gian tài nguyên Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56 thực nghiệm vấn đề nan giải lớn q trình hồn thiện tốn Vì với liệu, ngữ cảnh, tỉ lệ làm giàu liệu khác Bên cạnh đó, nghiên cứu tiến hành thực nghiệm cách tổng quan liệu mơ hình truyền thống - kết hợp với quan sát độ chuẩn xác liệu sinh ba văn cảnh khác 6.1 Hạn chế Trong trình thực nghiệm đánh giá, rút số hạn chế sau: • Chưa thực khai thác tính hiệu phương pháp PhoBERTBase với nhiều thơng số thiết lập mơ hình khác • Chưa có so sánh sử dụng mơ hình BERT Elmo [33] • Thời gian tài nguyên hạn chế dẫn đến trình thực nghiệm nghiên cứu bên cạnh bị giới hạn • Về ứng dụng, chưa thiết đặt hệ thống server có GPU, dẫn đến việc trải nghiệm người dùng đa phần chưa mượt mà cần bổ sung thêm nhiều tính bổ ích Tuy nhiên, dựa kết nghiên cứu có (như nêu trên), tin kỹ thuật làm giàu liệu chuyên biệt chứng minh kết đầy hứa hẹn tiêu chuẩn 6.2 Hướng phát triển tương lai Ngôn ngữ vốn phức tạp trình định lượng, thẩm định chất lượng cảm xúc từ văn không dễ dàng Ngay việc giao tiếp thường nhật người với khó thể biết cảm xúc đối phương dành cho Có điều khác biệt nằm máy móc cần phải hạn chế yếu tố định tính giao tiếp chuyển đổi đặc tính thành điểm số, thang đo nhằm mang tính định lượng cho cảm xúc người Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57 Từ hạn chế nêu trên, nhóm có đề xuất sau nhằm phát triển khóa luận: • Đầu tư thêm nhiều thời gian thực nghiệm với đa dạng hướng tiếp cận, chiến lược khác để nhằm cải thiện kết • Sử dụng phương pháp để thực tiếp cận nhiều liệu tiếng Việt với đa dạng văn cảnh khác • Đầu tư thêm mặt liệu đa dạng ngữ cảnh, đặc biệt nguồn liệu lớn từ trang thương mại điện tử nhằm làm giàu tập liệu để huấn luyện mơ hình ngơn ngữ - thay dừng lại số triệu câu • Tiến hành kiểm tra cách hiệu với nhiều đánh giá thực tế với kết đạt mơ hình việc sử dụng kĩ thuật trình bày [36] • Bên cạnh đó, việc mở rộng tốn điều quan trọng Có thể nói, việc đơn giản phân tích tổng quan cảm xúc người dùng biểu câu nói chưa đủ, mà cần tiết nhiều Và toán mà thân muốn tiếp tục phát triển mở rộng phân tích khía cạnh/cảm xúc người dùng, đồng thời, chức muốn thực thi trang web có Lúc bây giờ, cá nhân người bán hàng hiểu rõ sâu đối tượng khách hàng 58 Phụ lục A Q TRÌNH HUẤN LUYỆN MƠ HÌNH NGƠN NGỮ (LANGUAGE MODEL) A.1 Dữ liệu Tơi tiến hành thu thập số liệu gồm • Hai triệu câu bình luận từ trang Foody.vn, nơi người để lại chia sẻ trải nghiệm dịch vụ ăn uống từ quán ăn đường phố chuỗi nhà hàng sang trọng 63 tỉnh thành nước (tôi tiến hành thu thập với số lượng 76.572 nơi ăn uống 63 tỉnh thành) • Khoảng ba triệu câu cịn lại, tơi tiến hành thu thập trang gồm Traveloka, Mytour Booking Số lượng bình luận thu thập từ khoảng 6.000 khách sạn/nhà nghỉ/căn hộ (ở thành phố lớn - Hồ Chí Minh, Hà Nội, Huế, Nha Trang, Đà Nẵng, Vũng Tàu, Đà Lạt, Phú Quốc, Cần Thơ Hạ Long) tảng Booking, 16.782 khách sạn/nhà nghỉ/căn hộ ỏ tảng Agoda 3.589 khách sạn/nhà nghỉ/căn hộ ỏ tảng Mytour A.2 Trích xuất tập từ vựng Tơi tiến hành sử dụng thư viện scikit-learn1 để thực trình tạo tập từ vựng từ liệu gồm năm triệu câu (đã thực trình tiền xử lý) Bằng https://scikit-learn.org/stable/ Phụ lục A QUÁ TRÌNH HUẤN LUYỆN MƠ HÌNH NGƠN NGỮ (LANGUAGE 59 MODEL) việc tính giá trị TF-IDF (Term Frequency-Inverse Document Frequency), tơi xác định mức độ quan trọng/phổ biến token tồn ngữ liệu để trích xuất thành tập từ vựng A.3 Bổ sung tập từ vựng trích xuất tiến hành huấn luyện mơ hình ngơn ngữ Sau có tập từ vựng mới, tơi bổ sung tập từ vựng (16.000 từ) vào tập từ sẵn có PhoBERT (gồm 64.000 từ) Sau thực huấn luyện hai mơn hình ngơn ngữ (language model) Masked Language Model, tốn này, nhiệm vụ mơ hình dự đoán từ bị che lại token , số lượng từ bị che câu 15% Hình A.1 HÌNH A.1: Mơ tốn Masked Language Model 60 Phụ lục B CÔNG BỐ KHOA HỌC Le L.S., Thin D.V., Nguyen N.LT., Trinh S.Q (2020) A Multi-filter BiLSTMCNN Architecture for Vietnamese Sentiment Analysis In: Hernes M., Wojtkiewicz K., Szczerbicki E (eds) Advances in Computational Collective Intelligence ICCCI 2020 Communications in Computer and Information Science, vol 1287 Springer, Cham https://doi.org/10.1007/978-3-030-631192_61 Van Thin, Dang, Ngan Luu-Thuy Nguyen, Tri Minh Truong, Lac Si Le, and Duy Tin Vo "Two New Large Corpora for Vietnamese Aspect-based Sentiment Analysis at Sentence Level." Transactions on Asian and Low-Resource Language Information Processing 20, no (2021): 1-22 Van Thin, Dang, Lac Si Le, and Ngan Luu-Thuy Nguyen "NLP@UIT: Exploring Feature Engineer and Ensemble Model for Hate Speech Detection at VLSP 2019", The sixth international workshop on Vietnamese Language and Speech Processing (VLSP 2019), (2019) Van Thin, D., Le, L S and Minh-Hao Nguyen, Ngan Luu-Thuy Nguyen (2021) A Joint Multi-task Architecture for Document-level Aspect-based Sentiment Analysis in Vietnamese International Journal of Machine Learning and Computing (Completed Accept) Phụ lục B CÔNG BỐ KHOA HỌC 61 Lac Si Le, Multi-Task Learning On Vietnamese Datasets For Aspect And Polarity Recognition, Student Science And Technology Topic 2020, University of Information Technology, Vietnam National University Ho Chi Minh City Van Thin, Dang, Khoa Thi-Kim Pham; Lac Si Le; Vu Xuan Hoang; Khoa Phụ lục B CÔNG BỐ KHOA HỌC 62 Dang Pham; Vu Duc Nguyen and Ngan Luu-Thuy NguyenVietnamese Sentiment Analysis: A Comprehensive Study on Fine-tuning Pretrained Language Models (Under review Information Processing and Management journal) Van Thin, D., Le, L S., Hoang, V X., Nguyen, N L T (2021) Investigating Monolingual and Multilingual BERTModels for Vietnamese Aspect Category Detection arXiv preprint arXiv:2103.09519 63 Bibliography [1] Ngô Xuân Bách “An Empirical Study on Sentiment Analysis for Vietnamese Comparative Sentences” In: Journal of Science and Technology on Information and Communications 1.3 (2018), pp 44–52 [2] Ngo Xuan Bach and Tu Minh Phuong “Leveraging user ratings for resourcepoor sentiment classification” In: Procedia Computer Science 60 (2015), pp 322– 331 [3] K H Brodersen et al “The Balanced Accuracy and Its Posterior Distribution” In: 2010 20th International Conference on Pattern Recognition 2010, pp 3121–3124 DOI: 10.1109/ICPR.2010.764 [4] Alexis Conneau et al “Unsupervised Cross-lingual Representation Learning at Scale” In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics 2020, pp 8440–8451 [5] CrowdFlower “Data Science Report 2016” In: (2016) [6] Andrew M Dai and Quoc V Le “Semi-supervised sequence learning” In: arXiv preprint arXiv:1511.01432 (2015) [7] Thin Dang et al “A TRANSFORMATION METHOD FOR ASPECT-BASED SENTIMENT ANALYSIS” In: Journal of Computer Science and Cybernetics 34.4 (2019), pp 323–333 ISSN: 1813-9663 DOI: 10.15625/1813-9663/34/4/ 13162 URL: http://vjs.ac.vn/index.php/jcc/article/view/13162 [8] Kushal Dave, Steve Lawrence, and David M Pennock “Mining the peanut gallery: Opinion extraction and semantic classification of product reviews” In: Proceedings of the 12th international conference on World Wide Web 2003, pp 519–528 [9] Jacob Devlin et al “Bert: Pre-training of deep bidirectional transformers for language understanding” In: arXiv preprint arXiv:1810.04805 (2018) Bibliography 64 [10] Jacob Devlin et al “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume (Long and Short Papers) 2019, pp 4171–4186 [11] N T Duyen, N X Bach, and T M Phuong “An empirical study on sentiment analysis for Vietnamese” In: 2014 International Conference on Advanced Technologies for Communications (ATC 2014) 2014, pp 309–314 DOI: 10.1109/ATC.2014.7043403 [12] Nguyen Thi Duyen, Ngo Xuan Bach, and Tu Minh Phuong “An empirical study on sentiment analysis for Vietnamese” In: 2014 International Conference on Advanced Technologies for Communications (ATC 2014) IEEE 2014, pp 309–314 [13] Marzieh Fadaee, Arianna Bisazza, and Christof Monz “Data augmentation for low-resource neural machine translation” In: arXiv preprint arXiv:1705.00440 (2017) [14] Vojtech Franc and Václav Hlavác “Multi-class support vector machine” In: Object recognition supported by user interaction for service robots Vol IEEE 2002, pp 236–239 [15] Gayatree Ganu, Noemie Elhadad, and Amélie Marian “Beyond the stars: improving rating predictions using review text content.” In: WebDB Vol Citeseer 2009, pp 1–6 [16] Siddhant Garg and Goutham Ramakrishnan “Bae: Bert-based adversarial examples for text classification” In: arXiv preprint arXiv:2004.01970 (2020) [17] Margherita Grandini, Enrico Bagli, and Giorgio Visani Metrics for MultiClass Classification: an Overview 2020 arXiv: 2008.05756 [stat.ML] [18] Tanjim Ul Haque, Nudrat Nawal Saber, and Faisal Muhammad Shah “Sentiment analysis on large scale Amazon product reviews” In: 2018 IEEE international conference on innovative research and development (ICIRD) IEEE 2018, pp 1–6 [19] Jeremy Howard and Sebastian Ruder “Universal language model fine-tuning for text classification” In: arXiv preprint arXiv:1801.06146 (2018) Bibliography 65 [20] Binh Thanh Kieu and Son Bao Pham “Sentiment analysis for Vietnamese” In: 2010 Second International Conference on Knowledge and Systems Engineering IEEE 2010, pp 152–157 [21] DK Kirange and Ratnadeep R Deshmukh “Emotion classification of restaurant and laptop review dataset: Semeval 2014 task 4” In: International Journal of Computer Applications 113.6 (2015) [22] Sosuke Kobayashi “Contextual augmentation: Data augmentation by words with paradigmatic relations” In: arXiv preprint arXiv:1805.06201 (2018) [23] Lac Si Le et al “A Multi-filter BiLSTM-CNN Architecture for Vietnamese Sentiment Analysis” In: International Conference on Computational Collective Intelligence Springer 2020, pp 752–763 [24] Tetsuya Nasukawa and Jeonghee Yi “Sentiment analysis: Capturing favorability using natural language processing” In: Proceedings of the 2nd international conference on Knowledge capture 2003, pp 70–77 [25] Dat Quoc Nguyen and Anh Tuan Nguyen “PhoBERT: Pre-trained language models for Vietnamese” In: arXiv preprint arXiv:2003.00744 (2020) [26] Dat Quoc Nguyen and Anh Tuan Nguyen “PhoBERT: Pre-trained language models for Vietnamese” In: Findings of the Association for Computational Linguistics: EMNLP 2020 Online: Association for Computational Linguistics, Nov 2020, pp 1037–1042 DOI: 10.18653/v1/2020.findings- emnlp.92 URL : https://www.aclweb.org/anthology/2020.findings-emnlp.92 [27] Huyen Nguyen et al “VLSP SHARED TASK: SENTIMENT ANALYSIS” In: Journal of Computer Science and Cybernetics 34.4 (2019), pp 295–310 ISSN: 1813-9663 DOI: 10.15625/1813-9663/34/4/13160 URL: http://vjs.ac vn/index.php/jcc/article/view/13160 [28] Huyen TM Nguyen et al “VLSP shared task: sentiment analysis” In: Journal of Computer Science and Cybernetics 34.4 (2018), pp 295–310 [29] K V Nguyen et al “UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis” In: 2018 10th International Conference on Knowledge and Systems Engineering (KSE) 2018, pp 19–24 DOI: 10.1109/KSE.2018 8573337 Bibliography 66 [30] Quan Nguyen, Ly Vu, and Quang Uy Nguyen “A TWO-CHANNEL MODEL FOR REPRESENTATION LEARNING IN VIETNAMESE SENTIMENT CLASSIFICATION PROBLEM” In: Journal of Computer Science and Cybernetics 36.4 (2020), pp 305–323 ISSN: 1813-9663 DOI: 10 15625 / 1813 - 9663 / 36 / / 14829 URL: http://vjs.ac.vn/index.php/jcc/article/view/14829 [31] Quoc Thai Nguyen et al “Fine-Tuning BERT for Sentiment Analysis of Vietnamese Reviews” In: arXiv preprint arXiv:2011.10426 (2020) [32] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan “Thumbs up? Sentiment classification using machine learning techniques” In: arXiv preprint cs/0205070 (2002) [33] Matthew E Peters et al “Deep contextualized word representations” In: arXiv preprint arXiv:1802.05365 (2018) [34] Maria Pontiki et al “Semeval-2015 task 12: Aspect based sentiment analysis” In: Proceedings of the 9th international workshop on semantic evaluation (SemEval 2015) 2015, pp 486–495 [35] Maria Pontiki et al “Semeval-2016 task 5: Aspect based sentiment analysis” In: International workshop on semantic evaluation 2016, pp 19–30 [36] Marco Tulio Ribeiro et al “Beyond accuracy: Behavioral testing of NLP models with CheckList” In: arXiv preprint arXiv:2005.04118 (2020) [37] Kim Schouten and Flavius Frasincar “Survey on aspect-level sentiment analysis” In: IEEE Transactions on Knowledge and Data Engineering 28.3 (2015), pp 813–830 [38] Rico Sennrich, Barry Haddow, and Alexandra Birch “Improving neural machine translation models with monolingual data” In: arXiv preprint arXiv:1511.06709 (2015) [39] Zeenia Singla, Sukhchandan Randhawa, and Sushma Jain “Statistical and sentiment analysis of consumer product reviews” In: 2017 8th International Conference on Computing, Communication and Networking Technologies (ICCCNT) IEEE 2017, pp 1–6 Bibliography 67 [40] Amane Sugiyama and Naoki Yoshinaga “Data augmentation using backtranslation for context-aware neural machine translation” In: Proceedings of the Fourth Workshop on Discourse in Machine Translation (DiscoMT 2019) 2019, pp 35–44 [41] Viet Bui The, Oanh Tran Thi, and Phuong Le-Hong Improving Sequence Tagging for Vietnamese Text Using Transformer-based Neural Models 2020 arXiv: 2006.15994 [cs.CL] [42] Tun Thura Thet, Jin-Cheon Na, and Christopher SG Khoo “Aspect-based sentiment analysis of movie reviews on discussion boards” In: Journal of information science 36.6 (2010), pp 823–848 [43] T L Truong, H L Le, and T P Le-Dang “Sentiment Analysis Implementing BERT-based Pre-trained Language Model for Vietnamese” In: 2020 7th NAFOSTED Conference on Information and Computer Science (NICS) 2020, pp 362–367 DOI: 10.1109/NICS51282.2020.9335912 [44] Kiet Van Nguyen et al “UIT-VSFC: Vietnamese students’ feedback corpus for sentiment analysis” In: 2018 10th International Conference on Knowledge and Systems Engineering (KSE) IEEE 2018, pp 19–24 [45] Khuong Vo et al “Handling negative mentions on social media channels using deep learning” In: Journal of Information and Telecommunication 3.3 (2019), pp 271–293 [46] Q Vo et al “Multi-channel LSTM-CNN model for Vietnamese sentiment analysis” In: 2017 9th International Conference on Knowledge and Systems Engineering (KSE) 2017, pp 24–29 DOI: 10.1109/KSE.2017.8119429 [47] Quan-Hoang Vo et al “Multi-channel LSTM-CNN model for Vietnamese sentiment analysis” In: 2017 9th international conference on knowledge and systems engineering (KSE) IEEE 2017, pp 24–29 [48] William Yang Wang and Diyi Yang “That’s So Annoying!!!: A Lexical and Frame-Semantic Embedding Based Data Augmentation Approach to Automatic Categorization of Annoying Behaviors using #petpeeve Tweets” Bibliography 68 In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Lisbon, Portugal: Association for Computational Linguistics, Sept 2015, pp 2557–2563 DOI: 10.18653/v1/D15-1306 URL: https: //www.aclweb.org/anthology/D15-1306 [49] Jason Wei and Kai Zou “Eda: Easy data augmentation techniques for boosting performance on text classification tasks” In: arXiv preprint arXiv:1901.11196 (2019) [50] Mengzhou Xia et al “Generalized data augmentation for low-resource translation” In: arXiv preprint arXiv:1906.03785 (2019) [51] Yukun Zhu et al “Aligning books and movies: Towards story-like visual explanations by watching movies and reading books” In: Proceedings of the IEEE international conference on computer vision 2015, pp 19–27 ... với nghiên cứu này, thực tốn phân tích cảm xúc bình luận/ phản hồi người dùng 1.3 Mục tiêu nghiên cứu Trong nghiên cứu này, tơi tiến hành nghiên cứu, tìm hiểu giải mục tiêu sau: • Nghiên cứu thực... tốn phân tích cảm xúc người dùng, phân tích hướng nghiên cứu thực nước liên quan đến tốn Trình bày tốn nghiên cứu tiến hành nghiên cứu thực • Chương 3: Trình bày khái lược bốn liệu sử dụng nghiên. .. nhiên, nghiên cứu xem đặt móng cho phân tích ý kiến nghiên cứu Pang cộng [32] Kể từ nghiên cứu toán ngày quan tâm phát triển • Cơng trình [32] tiến hành nghiên cứu phân tích ý kiến từ phản hồi người

Ngày đăng: 05/09/2021, 20:52

Mục lục

  • TÓM TẮT KHOÁ LUẬN

  • MỞ ĐẦU

    • Đặt vấn đề

    • Đối tượng và phạm vi nghiên cứu

      • Đối tượng nghiên cứu

      • Phạm vi nghiên cứu

      • Mục tiêu của nghiên cứu

        • Kết quả của nghiên cứu

        • Phát biểu bài toán

        • Cấu trúc khóa luận

        • TỔNG QUAN

          • Tổng quan về phân tích cảm xúc

          • Tình hình nghiên cứu

            • Tình hình nghiên cứu trên thế giới

            • Tình hình nghiên cứu trong nước

            • TỔNG QUAN VỀ CÁC BỘ NGỮ LIỆU PHÂN TÍCH CẢM XÚC PHẢN HỒI

              • Giới thiệu về bộ dữ liệu

                • Vietnamese Language and Speech Processing Sentiment Analysis(VLSP)

                • Hotel Sentiment Analysis (HSA)

                • Vietnamese Students’ Feedback Corpus (UIT-VSFC)

                • Vietnamese Sentiment Analysis (VS)

                • Tiền xử lý dữ liệu

                • LÝ THUYẾT

                  • Mô hình BERT

                  • Các biến thể của BERT dành cho tiếng Việt

                  • Kỹ thuật làm giàu dữ liệu (Data augmentation)

                    • Character Augmenter

                    • Contextual Word Embeddings Augmenter

                    • KẾT QUẢ THỰC NGHIỆM

                      • Kết quả

                        • Thực nghiệm trên bài toán SA

                          • VS

Tài liệu cùng người dùng

Tài liệu liên quan