TIẾP CẬN PHƯƠNG PHÁP MÁY HỌC TRONG KHAI THÁC Ý KIẾN KHÁCH HÀNG TRỰC TUYẾN

Kinh Doanh - Tiếp Thị - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công nghệ thông tin Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á Năm thứ 30, Số 10 (2019), 27–41 www.jabes.ueh.edu.vn Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á http:www.emeraldgrouppublishing.comservicespublishingjabesindex.htm Tiếp cận phương pháp máy học trong khai thác ý kiến khách hàng trực tuyến THÁI KIM PHỤNG a,, NGUYỄN AN TẾ a, TRẦN THỊ THU HÀ b a Trường Đại học Kinh tế TP. Hồ Chí Minh b Trường Đại học Kinh tế Quốc dân T H Ô N G T I N T Ó M T Ắ T Ngày nhận: 07112019 Ngày nhận lại: 03022020 Duyệt đăng: 04022020 Mã phân loại JEL: C61; C63; C67 Từ khóa: Khai thác ý kiến; Phân loại ý kiến; Phân loại bằng máy học. Keywords: Opinion mining; Opinion classification; Opinion classification using machine learning. Nghiên cứu này được tiến hành nhằm ứng dụng phương pháp máy học trong khai thác ý kiến khách hàng trực tuyến. Trước tiên, nghiên cứu này tiến hành thu thập tự động 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó thực hiện huấn luyện các mô hình máy học để tìm ra mô hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mô hình này để dự báo ý kiến cho toàn bộ tập dữ liệu. Kết quả cho thấy các phương pháp Logistic Regression (LR) và Support Vector Machines (SVM) có hiệu suất tốt nhất đối với khai thác ý kiến bằng ngôn ngữ tiếng Việt. Nghiên cứu này có giá trị tham khảo cho các ứng dụng khai thác ý kiến trong lĩnh vực kinh doanh. Abstract The study was conducted to apply supervised machine learning methods in mining online customer reviews. First, the study automatically collects 15,480 traveler reviews on hotels in Vietnam on Agoda.com website. Then, this study conducts the training process with machine learning models in order to find out the best model which is compatible with the training dataset and apply this model to forecast opinions for entire collected data. The results show that Logistic Regression (LR) and Support Vector Machines (SVM) methods have the best performance in Vietnamese language. This study is Tác giả liên hệ. Email: phungthkueh.edu.vn (Thái Kim Phụng), tenaueh.edu.vn (Nguyễn An Tế), thuha.timgmail.com (Trần Thị Thu Hà). Trích dẫn bài viết: Thái Kim Phụng, Nguyễn An Tế, Trần Thị Thu Hà. (2019). Tiếp cận phương pháp máy học trong khai thác ý kiến khách hàng trực tuyến. Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á, 30(10), 27–41. Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 28 valuable as a reference for applications of opinion mining in the field of business. 1. Giới thiệu Ngày nay, những tiến bộ của công nghệ thông tin đã làm thay đổi cách thức truyền thông giúp cho khách hàng dễ dàng truy cập thông tin và trao đổi ý kiến về sản phẩm và dịch vụ trên một quy mô lớn trong thời gian thực. Sự ra đời của mạng xã hội và các website đánh giá trực tuyến (như: Agoda, TripAdvisor, Yelp, Amazon...) cho phép khách hàng có cơ hội đưa ra ý kiến của mình thông qua các bài bình luận về sản phẩm, dịch vụ (Mudambi Shuff, 2010). Với sự bùng nổ của dữ liệu lớn (Big Data), các ý kiến bình luận của cộng đồng trực tuyến cần được thu thập và khai thác một cách tự động, cho phép các nhà kinh doanh theo dõi hành vi mua sắm, phát hiện sở thích và đánh giá sự hài lòng của khách hàng về chất lượng sản phẩm, dịch vụ. Vì thế, khai thác ý kiến (Opinion Mining) đã trở thành tiêu điểm của rất nhiều nghiên cứu trong các lĩnh vực: Nghiên cứu thị trường (Market Research), kinh doanh điện tử (E-Business), thăm dò chính sách (Political Polls)... (Yadav, 2015). Hiện nay, cộng đồng các nhà khoa học đã có nhiều nghiên cứu về phương pháp khai thác ý kiến cũng như các ứng dụng của khai thác ý kiến ở nhiều mức độ khác nhau. Từ kết quả lược khảo những công trình nghiên cứu trong và ngoài nước, tác giả nhận thấy có hai cách tiếp cận phổ biến trong khai thác ý kiến: (1) Dựa vào máy học (Machine Learning), và (2) dựa vào từ vựng (Lexicon) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017). Ngoài ra, để gia tăng hiệu suất của việc khai thác ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp phương pháp máy học và từ vựng (Sun và cộng sự, 2017). Hướng nghiên cứu, phương pháp khai thác ý kiến không phải mới, tuy nhiên, mỗi phương pháp có những ưu và nhược điểm riêng, không có phương pháp nào được xem là chính xác tuyệt đối. Đặc biệt, việc áp dụng phương pháp từ vựng trong khai thác ý kiến đối với tiếng Việt là một thách thức lớn đối với các nhà nghiên cứu vì sự phức tạp trong cấu trúc ngôn ngữ, và hiện tại không có nhiều tập từ vựng cảm xúc và công cụ xử lý tốt trên ngôn ngữ tiếng Việt. Do vậy, việc áp dụng phương pháp máy học và đánh giá độ chính xác của phương pháp là cần thiết nhằm chọn ra phương pháp phù hợp nhất trong lĩnh vực nghiên cứu thông qua bộ dữ liệu thu thập được. Mục tiêu của nghiên cứu này nhằm lược khảo các nghiên cứu về khai thác ý kiến và đề xuất ứng dụng phương pháp máy học trong khai thác ý kiến bình luận của khách hàng bằng ngôn ngữ tiếng Việt. Nghiên cứu này áp dụng phương pháp nghiên cứu khai phá tri thức từ dữ liệu, với nguồn dữ liệu được thu thập bằng chương trình tự động, trong đó với 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó, nghiên cứu tiến hành tiền xử lý dữ liệu và huấn luyện bằng các phương pháp máy học để tìm ra mô hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mô hình này để dự báo phân loại ý kiến cho toàn bộ tập dữ liệu. Cấu trúc bài báo này được chia làm 5 phần: Phần 1 trình bày về sự cần thiết của nghiên cứu. Các cơ sở lý luận liên quan đến nghiên cứu được trình bày trong phần 2. Trong phần 3, tác giả tập trung mô tả phương pháp nghiên cứu và các thiết kế thực nghiệm. Kết quả nghiên cứu được trình bày chi Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 29 tiết trong phần 4. Cuối cùng, kết luận và định hình những nghiên cứu tiếp theo được trình bày trong phần 5. 2. Cơ sở lý thuyết 2.1. Phương pháp khai thác ý kiến Khai thác ý kiến, hay còn gọi là phân tích cảm xúc (Sentiment Analysis) là lĩnh vực nghiên cứu nhằm phân tích, đánh giá nhận định của con người về các đối tượng như: Sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện, chủ đề và các thuộc tính của chúng (Pang Lee, 2008; Liu, 2012). Một quy trình khai thác ý kiến thường gồm ba bước chính: (1) Thu thập ý kiến (Opinion Retrieval), (2) Phân loại ý kiến (Opinion Classification), và (3) Tổng hợp ý kiến (Opinion Summarization) (Ali, 2015; Kumar Reddy, 2016). Trong đó, phân loại ý kiến được xem là bước quan trọng nhất nhằm mục đích phân lớp ý kiến theo các quan điểm: Lạc quan, tích cực (Positive); bi quan, tiêu cực (Negative); và trung lập (Neutral). Theo Liu (2012), khai thác ý kiến được chia thành ba mức độ: (1) Mức tài liệu (Document Level), ở mức khai thác này, giả định mỗi tài liệu thể hiện ý kiến về một thực thể đơn. Vì vậy, các phân tích sẽ không thể áp dụng được cho những tài liệu đề cập đến nhiều đối tượng; (2) mức câu (Sentence Level), ở mức khai thác này, giả định mỗi câu thể hiện ý kiến về một đối tượng, tuy nhiên, các phân tích sẽ bỏ qua những câu có nhiều mệnh đề, mỗi mệnh đề thể hiện ý kiến về các đối tượng khác nhau; và (3) mức thực thể, khía cạnh (EntityAspect Level), thay vì khai thác ý kiến theo cấu trúc ngôn ngữ (tài liệu, câu, mệnh đề...), mức phân tích này xem xét ý kiến theo mục tiêu (Target), mục tiêu của ý kiến có thể là đối tượng hoặc khía cạnh (thuộc tính) của đối tượng. Ngày nay, với sự bùng nổ của dữ liệu lớn, phương pháp khai thác ý kiến tự động dựa trên công cụ máy tính trở nên quan trọng trong nhiều lĩnh vực kinh tế - xã hội. Trong lĩnh vực kinh doanh, khai thác ý kiến cho phép các nhà quản trị có thể xác định điểm mạnh và điểm yếu của sản phẩm và dịch vụ, phân tích các mối đe dọa từ đối thủ cạnh tranh, hỗ trợ ra quyết định và quản lý rủi ro. Ngược lại, khách hàng cũng cần khai thác ý kiến đánh giá trực tuyến để đưa ra quyết định về việc mua sản phẩm, dịch vụ (Lee và cộng sự, 2011). Một ứng dụng khác của khai thác ý kiến là trong lĩnh vực chính quyền thông minh (Government Intelligence) (Pang Lee, 2008), ở đó cho phép chính phủ có thể theo dõi ý kiến của người dân về các chính sách công vì các ý kiến công chúng rất quan trọng trong việc ra quyết định của chính phủ. Bên cạnh đó, chính phủ có thể dự đoán những gì công chúng đang nghĩ đến về các đề xuất liên quan đến chính sách và luật pháp (Stylios và cộng sự, 2010). Khai thác ý kiến cũng có ứng dụng tiềm năng trong phân tích tin tức. Phương pháp này giúp phân tích nội dung chứa cảm xúc trong tin tức và làm nổi bật những tin tức tương tự hoặc bị trùng lặp (Wanner và cộng sự, 2009), hoặc xác định xu hướng trong nội dung tin tức. Mặt khác, người đọc có thể tìm thấy các bài viết phổ biến nhất, được thảo luận nhiều nhất, hoặc được trích dẫn nhiều nhất. Khai thác ý kiến cũng có thể được bổ sung cho các hệ tư vấn thông tin (Recommender Systems) để đề xuất các sản phẩm được phản hồi tích cực và không nên giới thiệu các danh mục nhận được nhiều phản hồi tiêu cực (Pang Lee, 2008). Khai thác ý kiến cũng được ứng dụng nhằm cải thiện hệ thống giáo dục dựa trên sự phân tích cảm xúc của người học về các khóa học, cơ sở đào tạo và giáo viên (Binali và cộng sự, 2009). Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 30 2.2. Kỹ thuật phân loại ý kiến Phân loại ý kiến là một kỹ thuật khai thác dữ liệu dạng văn bản (Text Mining) trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing). Có hai cách tiếp cận phổ biến trong phân loại ý kiến: Dựa vào phương pháp máy học (Machine Learning), dựa vào từ vựng (Lexicon Based) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017). Ngoài ra, để gia tăng hiệu suất của việc phân loại ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp hai phương pháp máy học và từ vựng. Phương pháp tiếp cận máy học đóng một vai trò quan trọng trong việc khai thác ý kiến. Naive Bayes (NB), Support Vector Machine (SVM) là các mô hình máy học có giám sát (Supervised Learning) được sử dụng phổ biến nhất (Shawe-Taylor Sun, 2011). Tuy nhiên, với những tình huống đa lĩnh vực (Cross-Domain) hoặc đa ngôn ngữ (Cross-Lingual), kết quả huấn luyện không thể đem áp dụng cho lĩnh vực khác hoặc ngôn ngữ khác. Latent Dirichlet Allocation (LDA) (Blei và cộng sự, 2003) là một mô hình học bán giám sát (Semi-Supervised Learning) được đề xuất sử dụng để giải phóng sự phụ thuộc vào ngôn ngữ. Phương pháp tiếp cận từ vựng xác định loại của một văn bản dựa trên tập từ vựng cảm xúc. Tập từ vựng là một từ điển bao gồm các từ và cụm từ cảm xúc cùng với phân loại của chúng (tích cực, tiêu cực, hoặc trung lập). Phân loại cho toàn bộ câu hoặc văn bản được xác định bằng cách tính toán tổng hợp dựa trên phân loại của các từ hoặc cụm từ trong câu hoặc văn bản đó. Hình 1. Kỹ thuật phân loại ý kiến (Medhat và cộng sự, 2014) 2.3. Các công cụ và kho ngữ liệu hỗ trợ khai thác ý kiến Phân loại ý kiến là một kỹ thuật xử lý ngôn ngữ tự nhiên. Hiện tại, có rất nhiều công cụ hỗ trợ khai thác ý kiến. Dựa trên các nghiên cứu tổng hợp của các tác giả (Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017), các công cụ được liệt kê trong Bảng 1 sau. Khai thác ý kiến (Opinion Mining) Phương pháp máy học (Machine Learning Approach) Học có giám sát (Supervised Learning) Cây quyết định (Decision Tree) Phân loại tuyến tính (Linear Classifiers) Máy vector hỗ trợ (Support Vector Machines - SVM) Mạng thần kinh (Neural Network - NN) Phân loại dựa trên luật (Rule-Based Classifiers) Phân loại theo xác suất (Probabilistic Classifiers) Phân loại Naive Bayes (Naive Bayes - NB) Mạng Bayes (Bayesian Network - BN) Entropy cực đại (Maximum Entropy - ME) Học không giám sát (Unsupervised Learning) Phương pháp từ vựng (Lexicon-Based Approach) Dựa trên từ điển (Dictionary-Based) Dựa trên Corpus (Corpus-Based) Thống kê (Statistical) Ngữ nghĩa (Semantic) Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 31 Bảng 1. Các công cụ khai thác ý kiến STT Tên công cụ Mục đích sử dụng Website tham khảo 1 Natural Language Toolkit (NLTK) Để xử lý văn bản, phân loại (Classification), mã hóa (Tokenization), đưa về từ gốc (Stemming), gán nhãn từ loại (Tagging), phân tích cú pháp (Parsing), cung cấp giao diện dễ sử dụng với hơn 50 tài nguyên nội dung và từ vựng. http:www.nltk.org 2 GATE Hữu ích trong việc phát triển một đường ống (Pipeline). Các module phân tích ngôn ngữ cho các ngôn ngữ khác nhau được đóng góp bởi các nhà phát triển. Chúng có sẵn để được sử dụng tích hợp vào đường ống. https:gate.ac.uk 3 CoreNLP Thực hiện các tác vụ xử lý ngôn ngữ tự nhiên phổ biến nhất, chẳng hạn như: Gán nhãn loại từ (Part-of-Speech Tagging), trích xuất thực thể đã gán tên (Named Entity Extraction), xác định cụm từ (Chunking) và đồng tham chiếu (Co-Reference). http:nlp.stanford.edusoftware corenlp.html 4 OpenNLP Là một thư viện JAVA dùng để xử lý ngôn ngữ tự nhiên, hỗ trợ các tác vụ phổ biến, bao gồm: Mã hóa, phân tách câu, gán nhãn loại từ, nhận dạng đối tượng, phân tích cú pháp. https:opennlp.apache.org 5 LINGPIPE Được sử dụng để xử lý ngôn ngữ văn bản, bao gồm: Phân cụm (Clustering), phân loại (Classification), và trích xuất thực thể (Entity Extraction). http:alias-i.comlingpipe 6 GENSIM Là một thư viện mã nguồn mở cho mô hình chủ đề (Topic Models), bao gồm: Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projection, Hierarchical Dirichlet Process. http:radimrehurek.comgensim 7 OPINIONFIN DER Nhằm mục đích xác định các câu chủ quan và đánh dấu các khía cạnh khác nhau của tính chủ quan trong các câu này, bao gồm: Người đưa ra ý kiến chủ quan, và các từ nằm trong cụm từ thể hiện cảm xúc tích cực hoặc tiêu cực. https:mpqa.cs.pitt.edu opinionfinder 8 WEKA Các thuật toán khai thác dữ liệu, tiền xử lý dữ liệu, phân loại, phân cụm, hồi quy, luật kết hợp, trực quan hóa. http:www.cs.waikato.ac.nzml weka 9 PATTERN Khai thác dữ liệu, gán nhãn từ loại, phân tích cảm xúc, WordNet, máy học, phân tích mạng, trực quan hóa. http:www.clips.ua.ac.bepattern Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 32 STT Tên công cụ Mục đích sử dụng Website tham khảo 10 VnTokenizer Là công cụ chuyên dùng tách từ, gán nhãn từ loại cho tiếng Việt, được phát triển bởi Le và cộng sự (2008). VnTokenizer được viết bằng JAVA, có thể sử dụng như Tools Command Line hoặc Programming. http:mim.hus.vnu.edu.vn phuonglhsoftwaresvnTokenizer 11 JVnTextPro Là công cụ tách từ có thể nhận biết được các danh từ riêng, các từ đơn và từ ghép với độ chính xác trung bình khá cao. http:sourceforge.netprojects jvntextpro 12 VNLP Là một khung phân tích, xử lý ngôn ngữ tiếng Việt, bao gồm: Các công cụ dòng lệnh, plugin cho các ứng dụng GATE. VNLP có thể thực hiện: Phân loại từ, gán nhãn, phân tích cú pháp, nhận dạng thực thể có tên, được phát triển bởi Le và cộng sự (2013). https:bitbucket.orgepilabvnlp 13 VnCoreNLP Hỗ trợ các tác vụ xử lý ngôn ngữ tự nhiên chính, bao gồm: Phân đoạn từ, gán nhãn loại từ (POS), nhận dạng thực thể có tên (NER), và phân tích cú pháp tiếng Việt. https:github.comvncorenlp VnCoreNLP 14 Underthesea - Vietnamese NLP Toolkit Là bộ các module Python, tập dữ liệu và hướng dẫn mã nguồn mở hỗ trợ nghiên cứu và phát triển trong Xử lý ngôn ngữ tự nhiên tiếng Việt. https:underthesea.readthedocs.io Kho ngữ liệu (Lexicons) rất quan trọng cho cả phương pháp dựa trên từ vựng và phương pháp máy học. Sun và cộng sự (2017) đã tổng hợp một số kho ngữ liệu thường dùng phổ biến trong các nghiên cứu về khai thác ý kiến (xem Bảng 2). Các nhà nghiên cứu, xử lý ngôn ngữ tiếng Việt trong nước thường sử dụng bộ từ điển VietSentiWordNet với hơn 1.000 từ vựng cảm xúc. Bảng 2. Kho ngữ liệu hỗ trợ khai thác ý kiến STT Kho ngữ liệu Ngôn ngữ Mô tả 1 Bing Liu’s Opinion Lexicon Tiếng Anh Phiên bản mới nhất bao gồm 4.783 từ tiêu cực (Negative) và 2.006 từ tích cực (Positive). 2 MPQA Subjectivity Lexicon Tiếng Anh Từ điển này bao gồm 8.222 từ thể hiện quan điểm (mạnh hoặc yếu), được gán nhãn loại từ và phân cực (tích cực hoặc tiêu cực). 3 SentiWordNet Tiếng Anh SentiWordNet kết hợp các từ với các điểm số, trong khoảng 0, 1 thể hiện tính tích cực, tiêu cực và trung tính. 4 Harvard General Inquirer Tiếng Anh Harvard General Inquirer có 182 loại bao gồm các chỉ số thể hiện tích cực và tiêu cực. Trong đó: 1.915 từ tích cực, và 2.291 từ tiêu cực được đánh dấu. Thái Kim Phụng và cộng sự (2019) JABES 30(10) 27–41 33 STT Kho ngữ liệu Ngôn ngữ Mô tả 5 LIWC Tiếng Anh Linguistic Inquiry Word Counts (LIWC) cung cấp nhiều cụm từ thông dụng được phân loại liên quan đến cảm xúc. 6 HowNet Tiếng TrungAnh HowNet cung cấp từ vựng tiếng TrungAnh cho phân tích cảm xúc, bao gồm 8.942 từ tiếng Trung và 8.945 từ tiếng Anh. 7 NTUSD Tiếng Trung Cung cấp 2.812 từ tích cực và 8.276 từ tiêu cực trong tiếng Trung giản thể và tiếng Trung truyền thống. 8 VietSentiWordNet Tiếng Việt Bộ từ điển cảm xúc tiếng Việt với hơn 1.000 từ. 3. Phương pháp nghiên cứu Nghiên cứu này được tiến hành theo phương pháp khai phá tri thức từ dữ liệu KDD (Knowledge Discovery in Databases). Các bước trong quy trình nghiên cứu ...

Trang 1

THÁI KIM PHỤNG a,*, NGUYỄN AN TẾ a, TRẦN THỊ THU HÀ b

a Trường Đại học Kinh tế TP Hồ Chí Minh b Trường Đại học Kinh tế Quốc dân Phân loại ý kiến; Phân loại bằng máy học

Keywords:

Opinion mining; Opinion classification; Opinion classification using machine learning

Nghiên cứu này được tiến hành nhằm ứng dụng phương pháp máy học trong khai thác ý kiến khách hàng trực tuyến Trước tiên, nghiên cứu này tiến hành thu thập tự động 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó thực hiện huấn luyện các mô hình máy học để tìm ra mô hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mô hình này để dự báo ý kiến cho toàn bộ tập dữ liệu Kết quả cho thấy các phương pháp Logistic Regression (LR) và Support Vector Machines (SVM) có hiệu suất tốt nhất đối với khai thác ý kiến bằng ngôn ngữ tiếng Việt Nghiên cứu này có giá trị tham khảo cho các ứng dụng khai thác ý kiến trong lĩnh vực kinh doanh

Abstract

The study was conducted to apply supervised machine learning methods in mining online customer reviews First, the study automatically collects 15,480 traveler reviews on hotels in Vietnam on Agoda.com website Then, this study conducts the training process with machine learning models in order to find out the best model which is compatible with the training dataset and apply this model to forecast opinions for entire collected data The results show that Logistic Regression (LR) and Support Vector Machines (SVM) methods have the best performance in Vietnamese language This study is

* Tác giả liên hệ

Email: phungthk@ueh.edu.vn (Thái Kim Phụng), tena@ueh.edu.vn (Nguyễn An Tế), thuha.tim@gmail.com (Trần Thị Thu Hà)

Trích dẫn bài viết: Thái Kim Phụng, Nguyễn An Tế, & Trần Thị Thu Hà (2019) Tiếp cận phương pháp máy học trong khai thác ý kiến

khách hàng trực tuyến Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á, 30(10), 27–41

Trang 2

valuable as a reference for applications of opinion mining in the field of business

1 Giới thiệu

Ngày nay, những tiến bộ của công nghệ thông tin đã làm thay đổi cách thức truyền thông giúp cho khách hàng dễ dàng truy cập thông tin và trao đổi ý kiến về sản phẩm và dịch vụ trên một quy mô lớn trong thời gian thực Sự ra đời của mạng xã hội và các website đánh giá trực tuyến (như: Agoda, TripAdvisor, Yelp, Amazon ) cho phép khách hàng có cơ hội đưa ra ý kiến của mình thông qua các bài bình luận về sản phẩm, dịch vụ (Mudambi & Shuff, 2010) Với sự bùng nổ của dữ liệu lớn (Big Data), các ý kiến bình luận của cộng đồng trực tuyến cần được thu thập và khai thác một cách tự động, cho phép các nhà kinh doanh theo dõi hành vi mua sắm, phát hiện sở thích và đánh giá sự hài lòng của khách hàng về chất lượng sản phẩm, dịch vụ Vì thế, khai thác ý kiến (Opinion Mining) đã trở thành tiêu điểm của rất nhiều nghiên cứu trong các lĩnh vực: Nghiên cứu thị trường (Market Research), kinh doanh điện tử (E-Business), thăm dò chính sách (Political Polls) (Yadav, 2015) Hiện nay, cộng đồng các nhà khoa học đã có nhiều nghiên cứu về phương pháp khai thác ý kiến cũng như các ứng dụng của khai thác ý kiến ở nhiều mức độ khác nhau Từ kết quả lược khảo những công trình nghiên cứu trong và ngoài nước, tác giả nhận thấy có hai cách tiếp cận phổ biến trong khai thác ý kiến: (1) Dựa vào máy học (Machine Learning), và (2) dựa vào từ vựng (Lexicon) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017) Ngoài ra, để gia tăng hiệu suất của việc khai thác ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp phương pháp máy học và từ vựng (Sun và cộng sự, 2017) Hướng nghiên cứu, phương pháp khai thác ý kiến không phải mới, tuy nhiên, mỗi phương pháp có những ưu và nhược điểm riêng, không có phương pháp nào được xem là chính xác tuyệt đối Đặc biệt, việc áp dụng phương pháp từ vựng trong khai thác ý kiến đối với tiếng Việt là một thách thức lớn đối với các nhà nghiên cứu vì sự phức tạp trong cấu trúc ngôn ngữ, và hiện tại không có nhiều tập từ vựng cảm xúc và công cụ xử lý tốt trên ngôn ngữ tiếng Việt Do vậy, việc áp dụng phương pháp máy học và đánh giá độ chính xác của phương pháp là cần thiết nhằm chọn ra phương pháp phù hợp nhất trong lĩnh vực nghiên cứu thông qua bộ dữ liệu thu thập được

Mục tiêu của nghiên cứu này nhằm lược khảo các nghiên cứu về khai thác ý kiến và đề xuất ứng dụng phương pháp máy học trong khai thác ý kiến bình luận của khách hàng bằng ngôn ngữ tiếng Việt Nghiên cứu này áp dụng phương pháp nghiên cứu khai phá tri thức từ dữ liệu, với nguồn dữ liệu được thu thập bằng chương trình tự động, trong đó với 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó, nghiên cứu tiến hành tiền xử lý dữ liệu và huấn luyện bằng các phương pháp máy học để tìm ra mô hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mô hình này để dự báo phân loại ý kiến cho toàn bộ tập dữ liệu

Cấu trúc bài báo này được chia làm 5 phần: Phần 1 trình bày về sự cần thiết của nghiên cứu Các cơ sở lý luận liên quan đến nghiên cứu được trình bày trong phần 2 Trong phần 3, tác giả tập trung mô tả phương pháp nghiên cứu và các thiết kế thực nghiệm Kết quả nghiên cứu được trình bày chi

Trang 3

tiết trong phần 4 Cuối cùng, kết luận và định hình những nghiên cứu tiếp theo được trình bày trong phần 5

2 Cơ sở lý thuyết

2.1 Phương pháp khai thác ý kiến

Khai thác ý kiến, hay còn gọi là phân tích cảm xúc (Sentiment Analysis) là lĩnh vực nghiên cứu nhằm phân tích, đánh giá nhận định của con người về các đối tượng như: Sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện, chủ đề và các thuộc tính của chúng (Pang & Lee, 2008; Liu, 2012) Một quy trình khai thác ý kiến thường gồm ba bước chính: (1) Thu thập ý kiến (Opinion Retrieval), (2) Phân loại ý kiến (Opinion Classification), và (3) Tổng hợp ý kiến (Opinion Summarization) (Ali, 2015; Kumar & Reddy, 2016) Trong đó, phân loại ý kiến được xem là bước quan trọng nhất nhằm mục đích phân lớp ý kiến theo các quan điểm: Lạc quan, tích cực (Positive); bi quan, tiêu cực (Negative); và trung lập (Neutral) Theo Liu (2012), khai thác ý kiến được chia thành ba mức độ: (1) Mức tài liệu (Document Level), ở mức khai thác này, giả định mỗi tài liệu thể hiện ý kiến về một thực thể đơn Vì vậy, các phân tích sẽ không thể áp dụng được cho những tài liệu đề cập đến nhiều đối tượng; (2) mức câu (Sentence Level), ở mức khai thác này, giả định mỗi câu thể hiện ý kiến về một đối tượng, tuy nhiên, các phân tích sẽ bỏ qua những câu có nhiều mệnh đề, mỗi mệnh đề thể hiện ý kiến về các đối tượng khác nhau; và (3) mức thực thể, khía cạnh (Entity/Aspect Level), thay vì khai thác ý kiến theo cấu trúc ngôn ngữ (tài liệu, câu, mệnh đề ), mức phân tích này xem xét ý kiến theo mục tiêu (Target), mục tiêu của ý kiến có thể là đối tượng hoặc khía cạnh (thuộc tính) của đối tượng Ngày nay, với sự bùng nổ của dữ liệu lớn, phương pháp khai thác ý kiến tự động dựa trên công cụ máy tính trở nên quan trọng trong nhiều lĩnh vực kinh tế - xã hội Trong lĩnh vực kinh doanh, khai thác ý kiến cho phép các nhà quản trị có thể xác định điểm mạnh và điểm yếu của sản phẩm và dịch vụ, phân tích các mối đe dọa từ đối thủ cạnh tranh, hỗ trợ ra quyết định và quản lý rủi ro Ngược lại, khách hàng cũng cần khai thác ý kiến đánh giá trực tuyến để đưa ra quyết định về việc mua sản phẩm, dịch vụ (Lee và cộng sự, 2011) Một ứng dụng khác của khai thác ý kiến là trong lĩnh vực chính quyền thông minh (Government Intelligence) (Pang & Lee, 2008), ở đó cho phép chính phủ có thể theo dõi ý kiến của người dân về các chính sách công vì các ý kiến công chúng rất quan trọng trong việc ra quyết định của chính phủ Bên cạnh đó, chính phủ có thể dự đoán những gì công chúng đang nghĩ đến về các đề xuất liên quan đến chính sách và luật pháp (Stylios và cộng sự, 2010) Khai thác ý kiến cũng có ứng dụng tiềm năng trong phân tích tin tức Phương pháp này giúp phân tích nội dung chứa cảm xúc trong tin tức và làm nổi bật những tin tức tương tự hoặc bị trùng lặp (Wanner và cộng sự, 2009), hoặc xác định xu hướng trong nội dung tin tức Mặt khác, người đọc có thể tìm thấy các bài viết phổ biến nhất, được thảo luận nhiều nhất, hoặc được trích dẫn nhiều nhất Khai thác ý kiến cũng có thể được bổ sung cho các hệ tư vấn thông tin (Recommender Systems) để đề xuất các sản phẩm được phản hồi tích cực và không nên giới thiệu các danh mục nhận được nhiều phản hồi tiêu cực (Pang & Lee, 2008) Khai thác ý kiến cũng được ứng dụng nhằm cải thiện hệ thống giáo dục dựa trên sự phân tích cảm xúc của người học về các khóa học, cơ sở đào tạo và giáo viên (Binali và cộng sự, 2009)

Trang 4

2.2 Kỹ thuật phân loại ý kiến

Phân loại ý kiến là một kỹ thuật khai thác dữ liệu dạng văn bản (Text Mining) trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) Có hai cách tiếp cận phổ biến trong phân loại ý kiến: Dựa vào phương pháp máy học (Machine Learning), dựa vào từ vựng (Lexicon Based) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017) Ngoài ra, để gia tăng hiệu suất của việc phân loại ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp hai phương pháp máy học và từ vựng

Phương pháp tiếp cận máy học đóng một vai trò quan trọng trong việc khai thác ý kiến Naive Bayes (NB), Support Vector Machine (SVM) là các mô hình máy học có giám sát (Supervised Learning) được sử dụng phổ biến nhất (Shawe-Taylor & Sun, 2011) Tuy nhiên, với những tình huống đa lĩnh vực (Cross-Domain) hoặc đa ngôn ngữ (Cross-Lingual), kết quả huấn luyện không thể đem áp dụng cho lĩnh vực khác hoặc ngôn ngữ khác Latent Dirichlet Allocation (LDA) (Blei và cộng sự, 2003) là một mô hình học bán giám sát (Semi-Supervised Learning) được đề xuất sử dụng để giải phóng sự phụ thuộc vào ngôn ngữ

Phương pháp tiếp cận từ vựng xác định loại của một văn bản dựa trên tập từ vựng cảm xúc Tập từ vựng là một từ điển bao gồm các từ và cụm từ cảm xúc cùng với phân loại của chúng (tích cực, tiêu cực, hoặc trung lập) Phân loại cho toàn bộ câu hoặc văn bản được xác định bằng cách tính toán tổng hợp dựa trên phân loại của các từ hoặc cụm từ trong câu hoặc văn bản đó

Hình 1 Kỹ thuật phân loại ý kiến (Medhat và cộng sự, 2014)

2.3 Các công cụ và kho ngữ liệu hỗ trợ khai thác ý kiến

Phân loại ý kiến là một kỹ thuật xử lý ngôn ngữ tự nhiên Hiện tại, có rất nhiều công cụ hỗ trợ khai thác ý kiến Dựa trên các nghiên cứu tổng hợp của các tác giả (Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017), các công cụ được liệt kê trong Bảng 1 sau

Trang 5

Bảng 1

Các công cụ khai thác ý kiến

STT Tên công cụ Mục đích sử dụng Website tham khảo 1 Natural

Language Toolkit (NLTK)

Để xử lý văn bản, phân loại (Classification), mã hóa (Tokenization), đưa về từ gốc (Stemming), gán nhãn từ loại (Tagging), phân tích cú pháp (Parsing), cung cấp giao diện dễ sử dụng với hơn 50 tài nguyên nội dung và từ vựng

http://www.nltk.org/

2 GATE Hữu ích trong việc phát triển một đường ống (Pipeline) Các module phân tích ngôn ngữ cho các ngôn ngữ khác nhau được đóng góp bởi các nhà phát triển Chúng có sẵn để được sử dụng tích hợp vào đường ống

https://gate.ac.uk/

3 CoreNLP Thực hiện các tác vụ xử lý ngôn ngữ tự nhiên phổ biến nhất, chẳng hạn như: Gán nhãn loại từ (Part-of-Speech Tagging), trích xuất thực thể đã gán tên (Named Entity Extraction), xác định cụm từ (Chunking) và đồng tham chiếu (Co-Reference)

http://nlp.stanford.edu/software/ corenlp.html

4 OpenNLP Là một thư viện JAVA dùng để xử lý ngôn ngữ tự nhiên, hỗ trợ các tác vụ phổ biến, bao gồm: Mã hóa, phân tách câu, gán nhãn loại từ, nhận dạng đối tượng, phân tích cú pháp

https://opennlp.apache.org/

5 LINGPIPE Được sử dụng để xử lý ngôn ngữ văn bản, bao gồm: Phân cụm (Clustering), phân loại (Classification), và trích xuất thực thể (Entity Extraction)

http://alias-i.com/lingpipe/

6 GENSIM Là một thư viện mã nguồn mở cho mô hình chủ đề (Topic Models), bao gồm: Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projection, Hierarchical Dirichlet Process

http://radimrehurek.com/gensim/

7 OPINIONFINDER

Nhằm mục đích xác định các câu chủ quan và đánh dấu các khía cạnh khác nhau của tính chủ quan trong các câu này, bao gồm: Người đưa ra ý kiến chủ quan, và các từ nằm trong cụm từ thể hiện cảm xúc tích cực hoặc tiêu cực

https://mpqa.cs.pitt.edu/ opinionfinder/

8 WEKA Các thuật toán khai thác dữ liệu, tiền xử lý dữ liệu, phân loại, phân cụm, hồi quy, luật kết hợp, trực quan hóa

http://www.cs.waikato.ac.nz/ml/ weka/

9 PATTERN Khai thác dữ liệu, gán nhãn từ loại, phân tích cảm xúc, WordNet, máy học, phân tích mạng, trực quan hóa

http://www.clips.ua.ac.be/pattern

Trang 6

STT Tên công cụ Mục đích sử dụng Website tham khảo 10 VnTokenizer Là công cụ chuyên dùng tách từ, gán nhãn từ

loại cho tiếng Việt, được phát triển bởi Le và cộng sự (2008) VnTokenizer được viết bằng JAVA, có thể sử dụng như Tools Command Line hoặc Programming

http://mim.hus.vnu.edu.vn/ phuonglh/softwares/vnTokenizer

11 JVnTextPro Là công cụ tách từ có thể nhận biết được các danh từ riêng, các từ đơn và từ ghép với độ chính xác trung bình khá cao

http://sourceforge.net/projects/ jvntextpro/

12 VNLP Là một khung phân tích, xử lý ngôn ngữ tiếng Việt, bao gồm: Các công cụ dòng lệnh, plugin cho các ứng dụng GATE VNLP có thể thực hiện: Phân loại từ, gán nhãn, phân tích cú pháp, nhận dạng thực thể có tên, được phát triển bởi Le và cộng sự (2013)

https://bitbucket.org/epilab/vnlp

13 VnCoreNLP Hỗ trợ các tác vụ xử lý ngôn ngữ tự nhiên chính, bao gồm: Phân đoạn từ, gán nhãn loại từ (POS), nhận dạng thực thể có tên (NER), và phân tích cú pháp tiếng Việt

Là bộ các module Python, tập dữ liệu và hướng dẫn mã nguồn mở hỗ trợ nghiên cứu và phát triển trong Xử lý ngôn ngữ tự nhiên tiếng Việt

https://underthesea.readthedocs.io

Kho ngữ liệu (Lexicons) rất quan trọng cho cả phương pháp dựa trên từ vựng và phương pháp máy học Sun và cộng sự (2017) đã tổng hợp một số kho ngữ liệu thường dùng phổ biến trong các nghiên cứu về khai thác ý kiến (xem Bảng 2) Các nhà nghiên cứu, xử lý ngôn ngữ tiếng Việt trong nước thường sử dụng bộ từ điển VietSentiWordNet với hơn 1.000 từ vựng cảm xúc

Bảng 2

Kho ngữ liệu hỗ trợ khai thác ý kiến

STT Kho ngữ liệu Ngôn ngữ Mô tả

1 Bing Liu’s Opinion Lexicon Tiếng Anh Phiên bản mới nhất bao gồm 4.783 từ tiêu cực (Negative) và 2.006 từ tích cực (Positive) 2 MPQA Subjectivity Lexicon Tiếng Anh Từ điển này bao gồm 8.222 từ thể hiện quan

điểm (mạnh hoặc yếu), được gán nhãn loại từ và phân cực (tích cực hoặc tiêu cực)

3 SentiWordNet Tiếng Anh SentiWordNet kết hợp các từ với các điểm số, trong khoảng [0, 1] thể hiện tính tích cực, tiêu cực và trung tính

4 Harvard General Inquirer

Tiếng Anh Harvard General Inquirer có 182 loại bao gồm các chỉ số thể hiện tích cực và tiêu cực Trong đó: 1.915 từ tích cực, và 2.291 từ tiêu cực được đánh dấu

Trang 7

STT Kho ngữ liệu Ngôn ngữ Mô tả

5 LIWC Tiếng Anh Linguistic Inquiry Word Counts (LIWC) cung cấp nhiều cụm từ thông dụng được phân loại liên quan đến cảm xúc

6 HowNet Tiếng Trung/Anh HowNet cung cấp từ vựng tiếng Trung/Anh cho phân tích cảm xúc, bao gồm 8.942 từ tiếng Trung và 8.945 từ tiếng Anh

7 NTUSD Tiếng Trung Cung cấp 2.812 từ tích cực và 8.276 từ tiêu cực trong tiếng Trung giản thể và tiếng Trung truyền thống

8 VietSentiWordNet Tiếng Việt Bộ từ điển cảm xúc tiếng Việt với hơn 1.000 từ

3 Phương pháp nghiên cứu

Nghiên cứu này được tiến hành theo phương pháp khai phá tri thức từ dữ liệu KDD (Knowledge Discovery in Databases) Các bước trong quy trình nghiên cứu được thực hiện như trong Hình 2 Môi trường thực nghiệm được cài đặt bằng ngôn ngữ lập trình Python với sự hỗ trợ của công cụ tách từ Python Vietnamese Toolkit (dành cho ngôn ngữ tiếng Việt) và các thư viện có sẵn

Thu thập và tiền xử lý dữ liệu

Nghiên cứu này đã tiến hành thu thập dữ liệu bằng chương trình tự động, dữ liệu lấy từ trang Agoda.com Đây là phương pháp thu thập nội dung tự động từ các trang HTML của bất kỳ tài nguyên Internet bằng các chương trình hoặc mã lệnh đặc biệt Với đối tượng và phạm vi nghiên cứu hướng đến là ngôn ngữ tiếng Việt, do đó, dữ liệu chỉ sử dụng những bình luận của khách hàng bằng tiếng Việt Tiếp đến, nghiên cứu đã tiến hành tiền xử lý dữ liệu bằng cách loại bỏ những dữ liệu khuyết, những bình luận không chứa đựng thông tin cần thiết để tiến hành bước xử lý tiếp theo

Bước 1 Gán nhãn dữ liệu (Data Labeling)

Bước này nhằm chuẩn bị tập dữ liệu đã được gán nhãn (hay đã được phân loại) đủ lớn để đưa vào làm tập dữ liệu huấn luyện Thông thường đối với các nghiên cứu ứng dụng phương pháp máy học, tập dữ liệu này sẽ được xây dựng bằng thủ công Tuy nhiên, trong nghiên cứu này, sau khi xem xét ngẫu nhiên nội dung của tập dữ liệu bình luận đã thu thập được và dựa vào kết quả điểm đánh giá (trường rating trong tập dữ liệu), nghiên cứu này nhận thấy các bình luận có điểm đánh giá nhỏ hơn 7,0 mang ý nghĩa tiêu cực (Negative), và ngược lại, các bình luận có điểm đánh giá lớn hơn 7,0 mang ý nghĩa tích cực (Positive) Do đó, tập dữ liệu huấn luyện được xác định có 15.480 bình luận, trong đó có 4.772 bình luận là tiêu cực (được gán nhãn 0) và 10.708 bình luận là tích cực (được gán nhãn 1)

Trang 8

Hình 2 Quy trình nghiên cứu Bước 2 Làm sạch dữ liệu (Data Cleaning)

Bước này tiến hành làm sạch dữ liệu trước khi bắt đầu xử lý trên tập dữ liệu, bao gồm một số công đoạn xử lý ngôn ngữ tự nhiên như loại bỏ hư từ (Stop Words), hoặc kiểm tra chính tả…

Bước 3 Tách từ (Words Segmentation)

Bước này rất quan trọng trong việc xử lý ngôn ngữ tự nhiên, và đặc biệt đối với ngôn ngữ Tiếng Việt vì có nhiều từ ghép, tách từ theo nhiều cách khác nhau có thể sẽ gây ra sự nhập nhằng về mặt ngữ nghĩa Nghiên cứu này kế thừa bộ thư viện tách từ Python Vietnamese Toolkit

Bước 4 Trích xuất đặc trưng (Feature Extraction)

Bước này sẽ chọn ra các đặc trưng tiêu biểu (chính là các từ khóa - Keywords) có tính đại diện cho tập dữ liệu để làm đầu vào (Input) cho thuật toán phân loại Nghiên cứu này lựa chọn từ khóa theo phương pháp TF-IDF (Term Frequency/Inverse Document Frequency), giá trị TF-IDF của một

mô hình Dự báo phân loại

Dữ liệu được phân loại Từ điển Stopwords

Từ điển tiếng Việt Thu thập và tiền xử lý dữ liệu

Trang 9

từ khóa là một con số thu được qua thống kê thể hiện mức độ quan trọng của từ khóa này trong một

bình luận TF-IDF của từ khóa wi trong bình luận d được tính bằng công thức sau:

𝑡𝑓_𝑖𝑑𝑓!"= 𝑓!" × log𝑁 𝑛!

Trong đó: fid : Tần suất xuất hiện của từ khóa wi trong bình luận d,

N: Tổng số bình luận

ni : Số bình luận mà có từ khóa wi xuất hiện

Bước 5 Huấn luyện mô hình phân loại ý kiến

Đây là giai đoạn quan trọng nhất của một nghiên cứu khai thác ý kiến, nhằm mục đích xác định một bình luận của khách hàng là “tích cực” hay “tiêu cực” Nghiên cứu này ứng dụng một số thuật toán phân loại thuộc nhóm máy học giám sát (Supervised Machine Learning) được cho là tốt nhất, dựa trên kết quả tổng hợp từ các nghiên cứu trước có liên quan đến đề tài để tìm ra mô hình phù hợp nhất đối với tập dữ liệu là các bình luận đã được phân loại, từ đó, tiến hành dự báo cho các dữ liệu bình luận chưa được phân loại hoặc các dữ liệu bình luận mới phát sinh mà không cần phải huấn luyện lại Quá trình huấn luyện được tiến hành theo 2 cách:

- Cách 1: Dùng phương pháp Hold-Out, chia ngẫu nhiên dữ liệu thành 2 tập con theo quy tắc thông thường: 70% dữ liệu huấn luyện, và 30% dữ liệu dùng để kiểm thử

- Cách 2: Dùng phương pháp K-Fold, chia ngẫu nhiên dữ liệu thành K tập con không giao nhau Mỗi thực nghiệm (trong số K lần), một tập con được sử dụng làm tập kiểm thử, và (K-1) tập con còn lại được dùng làm tập huấn luyện Nghiên cứu này sử dụng K=5

Hình 3 Phương pháp K-Fold

Ghi chú: Performance1, Performance2, Performance3, Performance4 , Performance5: Là hiệu suất của mỗi lần thực nghiệm Performance: Là hiệu suất trung bình của 5 lần thực nghiệm

K Iterations: Lặp lại K lần

Validation Fold: Tập dữ liệu dùng để kiểm thử Training Fold: Tập dữ liệu dùng để huấn luyện

Trang 10

Bước 6 Đánh giá mô hình phân loại

Nghiên cứu này dùng cách đánh giá phổ biến là dựa trên các chỉ số tính toán trong ma trận sai lầm

(Confusion Matrix) như Bảng 3

Bảng 3

Ma trận sai lầm (Confusion Matrix)

Thông thường, hiệu quả của mô hình phân loại ý kiến được đánh giá dựa trên 4 chỉ số: Độ chính xác (Accuracy), Độ hội tụ (Precision), Độ bao phủ (Recall), và Giá trị trung bình điều hòa (F1) Ngoài ra, nghiên cứu này cũng xét đến yếu tố thời gian huấn luyện (Time) của từng mô hình

4 Kết quả nghiên cứu

4.1 Kết quả thu thập và tiền xử lý dữ liệu

Kết quả thu thập dữ liệu được 15.480 bình luận bằng tiếng Việt của 551 khách sạn ở 41 tỉnh thành Dữ liệu được phân bố như trong Bảng 4 sau: