Luận Văn Thạc Sĩ Khoa Học Dữ Liệu Ứng Dụng Học Máy Và Xử Lý Ngôn Ngữ Tự Nhiên Trong Việc Nhận Diện Mức Độ Hài Lòng Của Du Khách Tại Các Khách Sạn Thông Qua Các Lời Bình Luận Và Nhận Xét

Luận Văn Thạc Sĩ Khoa Học Dữ Liệu Ứng Dụng Học Máy Và Xử Lý Ngôn Ngữ Tự Nhiên Trong Việc Nhận Diện Mức Độ Hài Lòng Của Du Khách Tại Các Khách Sạn Thông Qua Các Lời Bình Luận Và Nhận Xét PHẦN I MỞ ĐẦU 1. Tính cấp thiết của đề tài Theo báo cáo thường niên của Bộ Văn hóa thể thao và Du lịch Việt Nam [1], năm 2019 tiếp tục là một năm thắng lợi của Du lịch Việt Nam. Ngành du lịch đón trên 18 triệu lượt khách quốc tế, tăng 16,2%; phục vụ 85 triệu lượt khách nội địa, tăng 6%; tổng thu du lịch đạt 755 nghìn tỷ đồng, tăng 18,5% so với năm 2018. Việt Nam cũng lần thứ 2 liên tiếp được ghi nhận là điểm đến hàng đầu khu vực Châu Á do World Travel Awards trao tặng. Đóng góp trực tiếp của du lịch chiếm tỷ trọng ngày càng cao trong Tổng sản phẩm quốc nội (GDP): năm 2015 là 6,3% đến năm 2019 là 9,2%, tăng 2,9 điểm phần trăm. Theo đà tăng trưởng của ngành du lịch, hoạt động kinh doanh cơ sở lưu trú du lịch (CSLTDL) cũng được đầu tư và mở rộng đáp ứng nhu cầu đa dạng của khách du lịch trong nước và quốc tế. Đến hết năm 2019, tổng số CSLTDL cả nước ước tính khoảng 30.000 cơ sở với 650.000 buồng, tăng 2.000 CSLTDL (+7,1%) và 100.000 buồng (+18%) so với năm 2018. giai đoạn 2015-2019, số lượng CSLTDL tăng 1,58 lần từ 19.000 cơ sở lên 30.000 cơ sở (tăng bình quân 12,0%/năm); số lượng buồng tăng 1,76 lần từ 370.000 buồng lên 650.000 buồng (tăng bình quân 15,1%/năm). Dấu ấn về công nghệ số hiện hữu ngày càng rõ nét trong lĩnh vực kinh doanh lưu trú với xu hướng gia tăng đặt phòng trực tuyến, thanh toán điện tử, công nghệ thông minh được áp dụng trong quản lý và cung cấp tiện ích phục vụ khách tại cơ sở lưu trú. Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Chỉ thị 16/CT-TTg ngày 04/5/2017 của Thủ tướng Chính phủ về việc tăng cường năng lực tiếp cận cuộc Cách mạng công nghiệp lần thứ 4, trong đó đặt ra yêu cầu ưu tiên phát triển du lịch thông minh. Quyết định 1671/QĐ-TTg ngày 30/11/2018 của Thủ tướng Chính phủ phê duyệt Đề án tổng thể ứng dụng Công nghệ thông tin trong lĩnh vực du lịch giai đoạn 2018-2020, định hướng đến năm 2025 xác định quan điểm ứng dụng công nghệ thông tin là yêu cầu, giải pháp đột phá để tạo thuận lợi, thu hút khách du lịch, nâng cao năng lực cạnh tranh và hội nhập quốc tế, góp phần hiện thực hóa mục tiêu phát triển du lịch trở thành ngành kinh tế mũi nhọn. Và Quyết định 1783/QĐ-BVHTTDL ngày 17/5/2019 của Bộ VHTTDL ban hành Kế hoạch thực hiện Đề án tổng thể ứng dụng công nghệ thông tin trong lĩnh vực du lịch, đề ra những nhiệm vụ, giải pháp cụ thể để triển khai Đề án của Thủ tướng Chính phủ. Nhu cầu ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn hiện nay. Khai phá dữ liệu từ các lời bình luận, bình luận của du khách trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới đáp ứng nhu cầu này. Dữ liệu về các khách sạn, nhà hàng, điểm đến thu hút khách du lịch hay phản hồi và đánh giá của họ tạo ra một bộ dữ liệu du lịch khổng lồ, ẩn chứa trong đó nhiều tri thức có giá trị. Khám phá từ bộ dữ liệu du lịch này để có được những thông tin mới, thú vị và hữu ích có thể giúp cho các CSLTDL tối ưu các sản phẩm du lịch đồng thời xác định được các đối tượng du lịch cùng hành vi và sở thích của họ. Cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý CSLTDL có thể thu được từ bộ dữ liệu du lịch này. Tùy từng mức độ phân tích mà cảm xúc này có biểu hiện được một cái nhìn tổng quan hay một khía cạnh cụ thể từ góc nhìn của khách hàng đối với chất lượng của dịch vụ. Tuy nhiên, việc đọc và phân tích hàng trăm, thậm chí hàng ngàn đánh giá mỗi ngày là một công việc rất khó khăn đối với con người. Do đó, ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận. 2. Mục tiêu nghiên cứu 2.1. Mục tiêu chung Mục tiêu chung của nghiên cứu là ứng dụng được học máy và xử lý ngôn ngữ tự nhiên để tạo ra một hệ thống có khả năng nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét. 2.2. Mục tiêu cụ thể - Thu thập các lời bình luận và nhận xét bằng tiếng Anh của du khách về khách sạn kèm điểm đánh giá. - Ứng dụng xử lý ngôn ngữ tự nhiên để trích xuất các đặc trưng của các lời bình luận, nhận xét. - Ứng dụng học máy để học tập và nhận diện mức độ hài lòng của du khách qua các lời bình luận nhận xét. - Đề xuất mô hình kết hợp học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách thông qua các lời bình luận, nhận xét. - Thực nghiệm triển khai mô hình và đánh giá kết quả mô hình. 3. Đối tượng và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu - Mức độ hài lòng của du khách nước ngoài đối với khách sạn tại Việt Nam thông qua các lời bình luận và nhận xét trên nền tảng TripAdvisor. - Nền tảng TripAdvisor - Các mô hình học máy: ▪ Mạng nơron LSTM ▪ RandomForest (RF) - Các kỹ thuật xử lý ngôn ngữ tự nhiên: ▪ Về tiền xử lý văn bản ▪ Phân tích và lấy mẫu ▪ Làm sạch dữ liệu • Loại bỏ kí tự đặc biệt • Loại bỏ từ dừng • Chuẩn hóa chữ thường • Chuẩn hóa chính tả • Bổ đề ngôn ngữ ▪ Trích chọn tập con đặc trưng ▪ Biến đổi thuộc tính dữ liệu ▪ Về trích xuất đặc trưng ▪ Nhúng từ (Embedding) ▪ Term frequency – Inverse document frequency (TF-IDF) ▪ Global Vector (GloVe) - Các thang đo điểm đánh giá mô hình học máy: ▪ Thang đo MA F1-score ▪ Thang đo WA F1-score ▪ Thang đo Accuracy 3.2. Phạm vi nghiên cứu - Thời gian: 03/2023-09/2023. - Không gian: Thực nghiệm trên bộ dữ liệu lời bình luận, nhận xét bằng tiếng Anh của tất cả du khách nước ngoài cùng điểm đánh giá về các khách sạn ở Việt Nam thu được từ website Tripadvisor.com. - Thời điểm hoàn thành thu thập dữ liệu: 30/8/2023.4. Phương pháp nghiên cứu Nghiên cứu này sử dụng kết hợp các phương pháp nghiên cứu sau: - Phương pháp nghiên cứu lý thuyết, tổng hợp tài liệu: lý thuyết về thu thập dữ liệu, lý thuyết về xử lý ngôn ngữ tự nhiên, lý thuyết học máy. - Phương pháp thực nghiệm: xây dựng chương trình thu thập dữ liệu, chương trình xử lý dữ liệu, chương trình học máy kết hợp xử lý ngôn ngữ tự nhiên. - Phương pháp thu thập dữ liệu: Sử dụng các kỹ thuật thu thập dữ liệu tự động (Crawling) để tiến hành thu thập các bài đánh giá, nhận xét về khách sạn bao gồm dữ liệu về nội dung lời đánh giá và xếp hạng sao của đánh giá. - Các phương pháp tiền xử lý dữ liệu văn bản và gán nhãn cho dữ liệu và lưu lại thành tập dữ liệu cho thực nghiệm. - Các thuật toán học máy: Sử dụng thuật toán học máy khác nhau về xử lý ngôn ngữ tự nhiên trong quá trình đào tạo và kiểm thử mô hình thực nghiệm. 5. Kết cấu luận văn: Nội dung luận văn gồm có 3 chương: Chương 1: Cơ sở lý luận và thực tiễn về học máy và xử lý ngôn ngữ tự nhiên trong nhận diện mức độ hài lòng từ các lời đánh giá và nhận xét. Chương 2: Đề xuất mô hình nhận diện mức độ hài lòng của du khách đối với các khách sạn thông qua các lời bình luận trên Tripadvisor. Chương 3: Thực nghiệm mô hình đề xuất và phân tích kết quả.

Trang 1

ĐẠI HỌC HUẾ

KHOA KỸ THUẬT VÀ CÔNG NGHỆ

TẠ PHƯỚC ÁNH

ỨNG DỤNG HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG

Trang 2

ĐẠI HỌC HUẾ

KHOA KỸ THUẬT VÀ CÔNG NGHỆ

TẠ PHƯỚC ÁNH

ỨNG DỤNG HỌC MÁY VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRONG VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG

Trang 3

i

LỜI CẢM ƠN

Tôi xin chân thành bày tỏ lòng biết ơn sâu sắc đến TS Lê Thị Quỳnh Liên, người hướng dẫn khoa học đã tận tình hướng dẫn, chỉ bảo, giúp đỡ tôi hoàn thành luận văn này

Tôi xin chân thành cảm ơn quý thầy cô Khoa Kỹ thuật và Công Nghệ - Đại học Huế đã tận tình giảng dạy, hướng dẫn tôi trong suốt quá trình học tập, nghiên cứu và rèn luyện

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp và các chuyên gia đã tham gia đóng góp hỗ trợ trong suốt thời gian thực hiện đề tài nghiên cứu này Trong quá trình nghiên cứu, mặc dù đã cố gắng tham khảo tài liệu, trao đổi tiếp thu ý kiến của thầy cô, chuyên gia nhưng nghiên cứu cũng không thể tránh khỏi những thiếu sót Rất mong nhận được ý kiến đóng góp từ Quý thầy cô để bài nghiên cứu trở nên hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Tạ Phước Ánh

Trang 4

ii

LỜI CAM ĐOAN

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH

TẠI KHOA KỸ THUẬT VÀ CÔNG NGHỆ - ĐẠI HỌC HUẾ

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của TS Lê Thị Quỳnh Liên Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo

Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình Khoa Kỹ thuật và Công nghệ - Đại học Huế không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)

Tạ Phước Ánh

Trang 5

iii

TÓM TẮT

Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4 Ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn này Khai phá dữ liệu từ các lời bình luận, bình luận của du khách về các khách sạn trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới Trong đó, cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý khách sạn có thể thu được từ bộ dữ liệu này Ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận Giải pháp này có nhiều ưu điểm, đặc biệt trong đó là giúp con người xử lý được một khối lượng lớn dữ liệu có thể được thu thập từ các nền tảng du lịch trực tuyến Nghiên cứu này tập trung vào việc ứng dụng các kỹ thuật trong học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua lời các lời bình luận và nhận xét được thu thập từ website du lịch nổi tiếng Tripadvisor.com Nghiên cứu đã đề xuất mô hình ứng dụng và triển khai với 6 thí nghiệm đối với tập dữ liệu hơn 100.000 lời bình luận Nghiên cứu đã cho thấy một kết quả tích cực đối với triển khai giải pháp này với kết quá các thí nghiệm tốt nhất đạt độ chính xác lên đến 77% Nghiên cứu cũng đề xuất các hướng phát triển hoặc nghiên cứu sau này để nâng cao hiệu suất của mô hình Thông qua đó, các nhà quản lý khách sạn sẽ có một giải pháp tiên tiến để khai thác được các giá trị tiềm ẩn từ tập dữ liệu lời bình luận của du khách, làm cơ sở để đầu tư, cải tiến nâng cao chất lượng sản phẩm dịch vụ, tạo thuận lợi thu hút khách du lịch, nâng cao năng lực cạnh tranh của cơ sở

Trang 6

1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1

2 MỤC TIÊU NGHIÊN CỨU 2

2.1 MỤC TIÊU CHUNG 2

2.2 MỤC TIÊU CỤ THỂ 2

3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3

3.1 ĐỐI TƯỢNG NGHIÊN CỨU 3

3.2 PHẠM VI NGHIÊN CỨU 3

4 PHƯƠNG PHÁP NGHIÊN CỨU 4

5 KẾT CẤU LUẬN VĂN: 4

PHẦN II NỘI DUNG NGHIÊN CỨU 5

CHƯƠNG 1 THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT 5

1.1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI VÀ TRONG NƯỚC 5

1.1.1 Tình hình nghiên cứu trên thế giới 5

1.1.2 Tình hình nghiên cứu tại Việt Nam 7

1.2 THỰC TRẠNG VỀ NGÀNH DU LỊCH Ở VIỆT NAM 9

1.2.1 Hệ thống khách sạn tại Việt Nam 9

1.2.2 Đặc điểm khách du lịch quốc tế 9

1.2.3 Đặc điểm khách du lịch nội địa 11

1.3 TÍNH CẤP THIẾT CỦA VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN 12

1.4 TỔNG QUAN VỀ TRIPADVISOR 13

Trang 7

v

1.5 TỔNG QUAN VỀ CÁC KỸ THUẬT ĐƯỢC SỬ DỤNG TRONG NGHIÊN CỨU

14

1.5.1 Công cụ, phần mềm 14

1.5.2 Tổng quan về kỹ thuật thu thập dữ liệu website 18

1.5.3 Tổng quan về các kỹ thuật xử lý ngôn ngữ tự nhiên 21

1.5.4 Tổng quan về các mô hình học máy 32

1.6 ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ MÔ HÌNH HỌC MÁY TRONG NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH 36

CHƯƠNG 2 ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN TRÊN TRIPADVISOR 37

2.1 ĐỀ XUẤT MÔ HÌNH NGHIÊN CỨU 37

2.2 GIAI ĐOẠN 1: THU THẬP DỮ LIỆU VÀ GÁN NHÃN 37

2.2.1 Quá trình thu thập dữ liệu 37

2.2.2 Gắn nhãn dữ liệu 39

2.3 GIAI ĐOẠN 2: TIỀN XỬ LÝ DỮ LIỆU 40

2.3.1 Phân tích và lấy mẫu dữ liệu 40

2.3.2 Làm sạch dữ liệu 40

2.3.3 Trích chọn tập con đặc trưng 41

2.3.4 Biến đổi thuộc tính dữ liệu 42

2.4 GIAI ĐOẠN 3: TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN 42

2.4.1 Trích xuất đặc trưng bằng Embedding 42

2.4.2 Trích xuất đặc trưng bằng GloVe 43

2.4.3 Trích xuất đặc trưng bằng TF-IDF 43

2.5 GIAI ĐOẠN 3: HUẤN LUYỆN VÀ KIỂM THỬ MÔ HÌNH DỰ ĐOÁN PHÂN LOẠI CẢM XÚC 44

2.5.1 Mô hình BiLSTM 44

2.5.2 Mô hình RandomForest 45

2.5.3 Ước lượng hiệu quả của các mô hình bằng phương pháp xác thực chéo k-Fold Cross Validation (k-CV) 47

2.6 GIAI ĐOẠN 4: ĐÁNH GIÁ MÔ HÌNH 48

2.6.1 Thước đo điểm F1 trung bình vĩ mô 51

2.6.2 Thước đo điểm F1 trung bình có trọng số 51

2.6.3 Thước đo độ chính xác 52

CHƯƠNG 3 THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ 53

Trang 8

3.2.3 Trích xuất tập con đặc trưng 60

3.2.4 Vector hóa các tập dữ liệu 61

3.3 TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN 63

3.3.1 Trích xuất đặc trưng văn bản với Embedding 63

3.3.2 Trích xuất đặc trưng văn bản với GloVe 63

3.3.3 Trích xuất đặc trưng văn bản với TF-IDF 65

3.4 HUẤN LUYỆN VÀ KIỂM THỬ 66

3.4.1 Thí nghiệm 1: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình phân loại BiLSTM 66

3.4.2 Thí nghiệm 2: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình phân loại BiLSTM 68

3.4.3 Thí nghiệm 3: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình phân loại BiLSTM 71

3.4.4 Thí nghiệm 4: Trích xuất đặc trưng văn bản bằng nhúng từ kết

1 MÃ NGUỒN CHƯƠNG TRÌNH THU THẬP DỮ LIỆU: 82

2 MÃ NGUỒN GIAI ĐOẠN TIỀN XỬ LÝ DỮ LIỆU 84

3 MÃ NGUỒN MÔ HÌNH THÍ NGHIỆM 86

3.1 THÍ NGHIỆM 1 86

3.2 THÍ NGHIỆM 2 86

3.3 THÍ NGHIỆM 3 88

Trang 11

ix

DANH MỤC CÁC BẢNG

Bảng 1.1 Bảng sô sánh tính năng của PorterStemmer và WordNetLemmatizer 16

Bảng 1.2 Các trường dữ liệu được sử dụng trong nghiên cứu 21

Bảng 1.3 Xác suất xảy ra đồng thời từ 42 tỷ mã thông báo xuất hiện 27

Bảng 2.1 Đầu ra của mô hình phân loại nhiều lớp 49

Bảng 2.2 Kết quả đầu ra phân loại nhị phân đối với nhãn Tích cực 49

Bảng 2.3 Kết quả đầu ra phân loại nhị phân đối với nhãn Trung lập 49

Bảng 2.4 Kết quả đầu ra phân loại nhị phân đối với nhãn Tiêu cực 50

Bảng 3.1 Bảng thống kê dữ liệu lời bình luận theo các ngôn ngữ 56

Bảng 3.2 Điểm đánh giá các mô hình 76

Trang 12

x

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Khách quốc tế theo tháng, năm 2022 (nghìn lượt) 10

Hình 1.2 Các thị trường gửi khách hàng đầu năm 2022 (nghìn lượt) 10

Hình 1.3 Khách quốc tế đến Việt Nam năm 2022, phân theo châu lục (%) 11

Hình 1.4 Khách nội địa theo tháng, năm 2022 11

Hình 1.5 Phân tích yêu cầu truy xuất dữ liệu khách sạn và các lời bình luận về khách sạn của website tripadvisor.com 20

Hình 1.6 Phần dữ liệu được trả về đối với yêu cầu truy xuất dữ liệu của website tripadvisor.com 20

Hình 1.7 Bài bình luận trên website tripadvisor.com 21

Hình 1.8 Hàm trọng số với α=3/4 30

Hình 1.9 Kiến trúc của BiLSTM 34

Hình 2.1 Mô hình nghiên cứu 37

Hình 2.2 Các bước tiễn xử lý văn bản 41

Hình 2.3 Mô hình BiLSTM 45

Hình 2.4 Quá trình huấn luyện với k-CV 48

Hình 3.1 Cấu trúc dữ liệu của hai bảng dữ liệu `hotel` và `review` 53

Hình 3.2 Tập dữ liệu về khách sạn ở Việt Nam 54

Hình 3.3 Tập dữ liệu các lời bình luận của du khách về khách sạn 55

Hình 3.4 Tập dữ liệu các lời bình luận bằng tiếng Anh 56

Hình 3.5 Tập dữ liệu các lời bình luận đã được gán nhãn 57

Hình 3.6 Phân bổ dữ liệu cho từng lớp 57

Hình 3.7 Kết quả phân bổ dữ liệu sau khi lấy mẫu 58

Hình 3.8 Kết quả Bước 1: đổi về chữ viết thường 58

Hình 3.9 Kết quả Bước 2: Loại bỏ ký tự đặc biệt 58

Hình 3.10 Kết quả Bước 3: Tách từ 59

Hình 3.11 Kết quả Bước 4: Loại bỏ từ dừng 59

Hình 3.12 Kết quả Bước 5: Chuyển về dạng từ gốc 59

Hình 3.13 Kết quả Bước 6: Nối từ thành văn bản 59

Hình 3.14 Tập dữ qua quá trình làm sạch dữ liệu 60

Hình 3.15 Phân bổ dữ liệu cho từng tập dữ liệu 60

Hình 3.16 Từ điển được trích chọn từ tập dữ liệu huấn luyện 61

Hình 3.17 Phân bổ độ dài các lời bình luận 62

Hình 3.18 Quá trình vector hóa một lời bình luận 62

Hình 3.19 Kết quả trích xuất đặc trưng bằng Embedding 63

Trang 13

xi

Hình 3.20 Vector trọng số của từ ‘hotel’ trong từ điển trọng số GloVe 64

Hình 3.21 Kết quả trích xuất đặc trưng với GloVe 64

Hình 3.22 Tập vector đặc trưng được trích xuất từ điển TF-IDF của tập dữ liệu huấn luyện 65

Hình 3.23 Một vector đặc trưng của một lời bình luận qua kỹ thuật TF-IDF 66 Hình 3.24 Mô hình phân loại kết hợp trích xuất đặc trưng bằng lớp Embedding và BiLSTM 67

Hình 3.25 Kết quả huấn luyện mô hình Thí nghiệm 1 68

Hình 3.26 Kết quả kiểm tra mô hình của Thí nghiệm 1 68

Hình 3.27 Mô hình phân loại kết hợp trích xuất đặc trưng bằng lớp Embedding với ma trận trọng số GloVe và BiLSTM 69

Hình 3.30 Mô hình phân loại kết hợp trích xuất đặc trưng với TF-IDF kết hợp mô hình phân loại BiLSTM 71

Hình 3.34 Kết quả kiểm tra mô hình của thí nghiệm 4 73

Hình 3.36 Kết quả kiểm tra mô hình Thí nghiệm 5 74

Hình 3.38 Kết quả kiểm tra mô hình Thí nghiệm 6 75

Trang 14

1

PHẦN I MỞ ĐẦU

1 Tính cấp thiết của đề tài

Theo báo cáo thường niên của Bộ Văn hóa thể thao và Du lịch Việt Nam [1], năm 2019 tiếp tục là một năm thắng lợi của Du lịch Việt Nam Ngành du lịch đón trên 18 triệu lượt khách quốc tế, tăng 16,2%; phục vụ 85 triệu lượt khách nội địa, tăng 6%; tổng thu du lịch đạt 755 nghìn tỷ đồng, tăng 18,5% so với năm 2018 Việt Nam cũng lần thứ 2 liên tiếp được ghi nhận là điểm đến hàng đầu khu vực Châu Á do World Travel Awards trao tặng Đóng góp trực tiếp của du lịch chiếm tỷ trọng ngày càng cao trong Tổng sản phẩm quốc nội (GDP): năm 2015 là 6,3% đến năm 2019 là 9,2%, tăng 2,9 điểm phần trăm

Theo đà tăng trưởng của ngành du lịch, hoạt động kinh doanh cơ sở lưu trú du lịch (CSLTDL) cũng được đầu tư và mở rộng đáp ứng nhu cầu đa dạng của khách du lịch trong nước và quốc tế Đến hết năm 2019, tổng số CSLTDL cả nước ước tính khoảng 30.000 cơ sở với 650.000 buồng, tăng 2.000 CSLTDL (+7,1%) và 100.000 buồng (+18%) so với năm 2018 giai đoạn 2015-2019, số lượng CSLTDL tăng 1,58 lần từ 19.000 cơ sở lên 30.000 cơ sở (tăng bình quân 12,0%/năm); số lượng buồng tăng 1,76 lần từ 370.000 buồng lên 650.000 buồng (tăng bình quân 15,1%/năm) Dấu ấn về công nghệ số hiện hữu ngày càng rõ nét trong lĩnh vực kinh doanh lưu trú với xu hướng gia tăng đặt phòng trực tuyến, thanh toán điện tử, công nghệ thông minh được áp dụng trong quản lý và cung cấp tiện ích phục vụ khách tại cơ sở lưu trú

Năm 2019, ngành du lịch triển khai thực hiện các đề án, chỉ thị của Thủ tướng Chính phủ về ứng dụng công nghệ thông tin tiếp cận cuộc Cách mạng công nghiệp lần thứ 4 (CMCN 4.0) Chỉ thị 16/CT-TTg ngày 04/5/2017 của Thủ tướng Chính phủ về việc tăng cường năng lực tiếp cận cuộc Cách mạng công nghiệp lần thứ 4, trong đó đặt ra yêu cầu ưu tiên phát triển du lịch thông minh Quyết định 1671/QĐ-TTg ngày 30/11/2018 của Thủ tướng Chính phủ phê duyệt Đề án tổng thể ứng dụng Công nghệ thông tin trong lĩnh vực du lịch giai đoạn 2018-2020, định hướng đến năm 2025 xác định quan điểm ứng dụng công nghệ thông tin là yêu cầu, giải pháp đột phá để tạo thuận lợi, thu hút khách du lịch, nâng cao năng lực cạnh tranh và hội nhập quốc tế, góp phần hiện thực hóa mục tiêu phát triển du lịch trở thành ngành kinh tế mũi nhọn Và Quyết định 1783/QĐ-BVHTTDL ngày 17/5/2019 của Bộ VHTTDL ban hành Kế hoạch thực hiện Đề án tổng thể ứng dụng công nghệ thông tin trong lĩnh vực

Trang 15

2

du lịch, đề ra những nhiệm vụ, giải pháp cụ thể để triển khai Đề án của Thủ tướng Chính phủ

Nhu cầu ứng dụng công nghệ mới để thu hút khách du lịch, nâng cao năng lực cạnh tranh là một trong những yếu tố đang được chú trọng trong giai đoạn hiện nay Khai phá dữ liệu từ các lời bình luận, bình luận của du khách trên các nền tảng công nghệ du lịch trực tuyến là một hướng tiếp cận mới đáp ứng nhu cầu này Dữ liệu về các khách sạn, nhà hàng, điểm đến thu hút khách du lịch hay phản hồi và đánh giá của họ tạo ra một bộ dữ liệu du lịch khổng lồ, ẩn chứa trong đó nhiều tri thức có giá trị Khám phá từ bộ dữ liệu du lịch này để có được những thông tin mới, thú vị và hữu ích có thể giúp cho các CSLTDL tối ưu các sản phẩm du lịch đồng thời xác định được các đối tượng du lịch cùng hành vi và sở thích của họ Cảm xúc của khách du lịch là một trong những thông tin hữu ích mà các nhà cung cấp dịch vụ hay các nhà quản lý CSLTDL có thể thu được từ bộ dữ liệu du lịch này Tùy từng mức độ phân tích mà cảm xúc này có biểu hiện được một cái nhìn tổng quan hay một khía cạnh cụ thể từ góc nhìn của khách hàng đối với chất lượng của dịch vụ Tuy nhiên, việc đọc và phân tích hàng trăm, thậm chí hàng ngàn đánh giá mỗi ngày là một công việc rất khó khăn đối với con người Do đó, ứng dụng học máy và xử lý ngôn ngữ tự nhiên là một giải pháp hiệu quả để đánh giá mức độ hài lòng của khách hàng thông qua các lời bình luận và bình luận

2 Mục tiêu nghiên cứu

2.1 Mục tiêu chung

Mục tiêu chung của nghiên cứu là ứng dụng được học máy và xử lý ngôn ngữ tự nhiên để tạo ra một hệ thống có khả năng nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét

- Ứng dụng học máy để học tập và nhận diện mức độ hài lòng của du khách qua các lời bình luận nhận xét

- Đề xuất mô hình kết hợp học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách thông qua các lời bình luận, nhận xét

- Thực nghiệm triển khai mô hình và đánh giá kết quả mô hình

Trang 16

3

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Mức độ hài lòng của du khách nước ngoài đối với khách sạn tại Việt Nam thông qua các lời bình luận và nhận xét trên nền tảng TripAdvisor

▪ Term frequency – Inverse document frequency (TF-IDF) ▪ Global Vector (GloVe)

- Các thang đo điểm đánh giá mô hình học máy: ▪ Thang đo MA F1-score

▪ Thang đo WA F1-score ▪ Thang đo Accuracy

3.2 Phạm vi nghiên cứu

- Thời gian: 03/2023-09/2023

- Không gian: Thực nghiệm trên bộ dữ liệu lời bình luận, nhận xét bằng tiếng Anh của tất cả du khách nước ngoài cùng điểm đánh giá về các khách sạn ở Việt Nam thu được từ website Tripadvisor.com

- Thời điểm hoàn thành thu thập dữ liệu: 30/8/2023

Trang 17

4

4 Phương pháp nghiên cứu

Nghiên cứu này sử dụng kết hợp các phương pháp nghiên cứu sau:

- Phương pháp nghiên cứu lý thuyết, tổng hợp tài liệu: lý thuyết về thu thập dữ liệu, lý thuyết về xử lý ngôn ngữ tự nhiên, lý thuyết học máy - Phương pháp thực nghiệm: xây dựng chương trình thu thập dữ liệu, chương trình xử lý dữ liệu, chương trình học máy kết hợp xử lý ngôn ngữ tự nhiên

- Phương pháp thu thập dữ liệu: Sử dụng các kỹ thuật thu thập dữ liệu tự động (Crawling) để tiến hành thu thập các bài đánh giá, nhận xét về khách sạn bao gồm dữ liệu về nội dung lời đánh giá và xếp hạng sao của đánh giá

- Các phương pháp tiền xử lý dữ liệu văn bản và gán nhãn cho dữ liệu và lưu lại thành tập dữ liệu cho thực nghiệm

- Các thuật toán học máy: Sử dụng thuật toán học máy khác nhau về xử lý ngôn ngữ tự nhiên trong quá trình đào tạo và kiểm thử mô hình thực nghiệm

5 Kết cấu luận văn:

Nội dung luận văn gồm có 3 chương:

Chương 1: Cơ sở lý luận và thực tiễn về học máy và xử lý ngôn ngữ tự nhiên trong nhận diện mức độ hài lòng từ các lời đánh giá và nhận xét

Chương 2: Đề xuất mô hình nhận diện mức độ hài lòng của du khách đối với các khách sạn thông qua các lời bình luận trên Tripadvisor

Chương 3: Thực nghiệm mô hình đề xuất và phân tích kết quả

Trang 18

1.1 Tổng quan tình hình nghiên cứu trên thế giới và trong nước

1.1.1 Tình hình nghiên cứu trên thế giới

Một nghiên cứu của Abdulaziz M Alayba và cộng sự (2018) [2] đã nghiên cứu về một mô hình kết hợp mạng thần kinh tích chập (Convolutional Neural Network - CNN) và mạng bộ nhớ dài ngắn hạn (Long Short-Term Memory - LSTM) cùng với các tác vụ Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) để phân loại cảm xúc cho văn bản Nghiên cứu sử dụng bô bộ dữ liệu văn bản bằng tiếng Ả Rập, được gán nhãn với hai lớp cảm xúc bao gồm Tích cực và Tiêu cực Bộ dữ liệu được tạo ra bởi bốn tập dữ liệu bao gồm: Tập dữ liệu dịch vụ y tế Ả Rập, tập dữ liệu các tweet trên Twitter (Ar-Twitter) chứ 2000 tweet với 1000 tweet cho mỗi lớp cảm xúc, một tập dữ liệu khác về cảm xúc bằng Tiếng Ả Rập chưa 54.000 tweets bao gồm bốn lớp cảm xúc, trong đó chỉ xử dụng 1684 tweet có với cảm xúc tiêu cực và 795 tweet có cảm xúc tích cực Các tác giả mở rộng số lượng tính năng trong tập dữ liệu thông qua phương pháp phân tách văn bản theo ba cấp độ bao gồm: cấp độ ký tự, cấp độ chuỗi ký tự và cấp độ từ Thí nghiệm cho thấy đối với phương pháp phân tách văn bản theo cấp độ từ hoặc chuỗi ký tự có kết quả phân loại tình cảm tốt hơn đối với cấp độ ký tự Mô hình đã cho ra kết quả phân loại cảm xúc dối với tập dữ liệu Dịch vụ Y tế Ả Rập (AHS) đạt 94,24%

Một nghiên cứu khác của Rehman và cộng sự (2019) [3]cũng đã đề xuất mô hình có tên là Hybird CNN-LSTM để giải quyết vấn đề phân tích tình cảm Đầu tiên, nghiên cứu này sử dụng phương pháp Word to Vector (Word2Vc) để huấn luyện các biểu diễn từ ban đầu còn được gọi là nhúng từ Word2Vc chuyển đổi các chuỗi văn bản thành một vector các giá trị số, tính toán khoảng cách giữa các từ và tạo các nhóm các từ tương tự dựa trên ý nghĩa của chúng Sau khi thực hiện nhúng từ, mô hình đề xuất kết hợp tập hợp các đặc trưng được trích xuất bởi các lớp tích chập và lớp tổng hợp tối đa toàn cầu với các phụ thuộc dài hạn Mô hình đề xuất cũng sử dụng kỷ thuật bỏ học, chuẩn hóa và một đơn vị tuyến tính chỉnh lưu để cải thiện độ chính xác Kết quả của nghiên cứu cho thấy rằng Mô hình Hybird CNN-LSTM được đề xuất vượt trội hơn các kỹ thuật học sâu và học máy truyền thống về các điểm đánh giá như precision,

Trang 19

6

recall, f-measure, và accuracy Mơ hình được đào tạo trên tập dữ liệu đánh giá phim IMDB với 40.000 bài đánh giá và tập dữ liệu đánh giá phim Amazon với 2000 bài đánh giá Tất cả các bài đánh giá đều được gán nhãn từ hai phân loại cảm xúc tích cực và tiêu cực Kết quả thí nghiệm đã đạt được những điểm nổi bật là mơ hình được đề xuất cải thiện điểm số f-measure lên tới 4-8% so với các mơ hình CNN hay LSTM riêng lẻ Độ chính xác của mơ hình cũng đạt được hơn 90% Kết quả này vẫn thấp hơn với mơ hình kết hợp Nạve Bayes và Support Vector Machine tuy sự chênh lệch về độ chính xác là khơng nhiều

Một nghiên cứu của Ali Ahani và cộng sự (2019) [4]đã nghiên cứu về việc áp dụng các phương pháp học máy vào phân tích các đánh giá và xếp hạng trực tuyến đối với khách sạn Mục tiêu của nghiên cứu này là phát triển phương pháp phân khúc khách sạn spa và dự đốn lựa chọn du lịch của khách hàng bằng cách áp dụng các phương pháp học máy Phương pháp đánh giá được thực hiện thơng qua tập hợp các tập dữ liệu từ xếp hạng của khách du lịch và đánh giá bằng văn bản về các khách sạn spa trên TripAdvisor Nghiên cứu đã đề xuất một phương pháp phân khúc khách sạn qua các bước: Chuẩn bị dữ liệu, phân cụm dữ liệu bằng phương pháp phân cụm khơng giám sát (Self-Organizing Map - SOM), tính tốn độ tương đồng giữa các cụm bằng phương pháp phân tích dữ liệu đa chiều Phân tích (Hierarchical Orthogonal Singular Value Decomposition – HOSVM), dự đốn mối quan tâm của khách hàng trong từng cụm bằng phương pháp phân loại và hồi quy dựa trên cây quyết định (Classification and Regression Trees – CART), phương pháp khai phá văn bản (Text mining) Kết quả nghiên cứu đã phát hiện được chín phân khúc thị trường khách sạn khác nhau

Một nghiên cứu của Said Gadri và cộng sự (2021) [5] nghiên cứu được một hệ thống cĩ thể dự đốn được sự hài lịng của khách hàng đối với các dịch vụ du lịch với độ chính xác lên đến 85% Hệ thống sử dụng các phương pháp học máy và học sâu như Linear Discriminant Analysis, k-nearest neighbors, Classification and Regression Trees, Naive Bayes, Deep Neural Networks và Support Vector Machines Tập dữ liệu được thu thập gồm các khoảng 100.000 lời bình luận trên Tripadvisor cho nhiều loại dịch vụ du lịch Dữ liệu đã được gán nhãn bởi mộ nhĩm chuyên gia dựa trên các tiêu chí về nội dung, từ ngữ, giọng điệu và một số yếu tố khác theo thang điểm của mức độ hài lịng từ 1 đến 5 sao với sự cân bằng về tỉ lệ cho khoảng 20% lời bình luận ở mỗi mức độ Nghiên cứu này cĩ một số hạn chế về tập dữ liệu cĩ thể kể đến đầu tiên về quy mơ tập dữ liệu, dữ liệu được chia nhỏ thành nhiều mảng cho nhiều dịch vụ với khoảng 10.000 lời bình luận cho mỗi dịch vụ Điều này cĩ thể khiến cho kết

Trang 20

7

quả dự đoán không chính xác theo từng ngữ cảnh cụ thể của từng dịch vụ Thứ hai việc gắn nhãn được xử lý thủ công bởi một nhóm chuyên gia và dựa trên một số tiêu chí, tuy điều này giúp tập dữ liệu chính xác hơn nhưng cũng dẫn đến sai lệch do sự chủ quan trong phân tích, gây tốn kém về sức người và thời gian xử lý và sẽ rất khó khăn nếu cần xử lý trên tập dữ liệu kích thước lớn hơn

Một nghiên cứu của Mingyang Li và cộng sự (2022) [6] đã đề xuất một phương pháp dựa trên lý thuyết bằng chứng (Evidence Theory - là một mô hình toán học để xử lý thông tin không chắc chắn) để khám phá sự hài lòng ẩn chứa bên trong các bài đánh giá của khách hàng với khách sạn thông qua các bài đánh giá trực tuyến đa website Phương pháp này đầu tiên xác định các thuộc tính khách sạn quan trọng nhất từ các bài đánh giá, sau đó sử dụng lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng với từng thuộc tính Phương pháp này được đánh giá trên một tập dữ liệu gồm 1000 bài đánh giá trực tuyến cho 10 khách sạn Kết quả cho thấy phương pháp này có thể tính toán mức độ hài lòng của khách hàng với độ chính xác cao Nghiên cứu này có một số hạn chế Đầu tiên, nghiên cứu chỉ sử dụng một tập dữ liệu với kích thước nhỏ này có thể dẫn đến sự thiên vị trong kết quả nghiên cứu Thứ hai, nghiên cứu chỉ tập trung vào một số thuộc tính khách sạn nhất định, chẳng hạn như vị trí, giá cả, tiện nghi và dịch vụ khách hàng Điều này có thể dẫn đến việc bỏ qua các thuộc tính khách sạn quan trọng khác Cuối cùng, nghiên cứu chỉ sử dụng phương pháp dựa trên lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng Điều này có thể dẫn đến việc bỏ qua các phương pháp khác có thể chính xác hơn

1.1.2 Tình hình nghiên cứu tại Việt Nam

Tại Việt Nam, các nghiên cứu về ứng dụng học máy và xử lý ngôn ngữ tự nhiên cũng được triển khai từ rất sớm Trong đó có thể kể đến nghiên cứu của Nguyễn Tấn Phát và cộng sự (2014) [7] đưa ra một hệ thống phân tích quan điểm các nhận xét của tiếng Việt trên các website thương mại điện tử dựa trên xử lý ngôn ngữ tự nhiên Hệ thống này có khả năng xác định xác định các chủ đề được đề cập đến trong lời bình luận và đưa ra nhận định về ý nghĩa của nhận xét mang tính tích cực, tiêu cực hoặc trung tính Tập dữ liệu sử dụng trong nghiên cứu này bao gồm ba loại: Tập dữ liệu bình luận một thực thể chứa các bình luận nói về một thực thể duy nhất, tập dữ liệu bình luận nhiều thực thể chứa các bình luận nói về nhiều hơn một thực thể, tập dữ liệu hỗn hợp chứa cả các lời bình luận về chỉ một thực thể hoặc nhiều hơn một thực thể Kết quả của nghiên cứu này có độ chính xác trên tập bình luận một thực thể là 90,37%, trên tập bình luận nhiều thực thể là 67,44% và trên tập bình luận về một hoặc nhiều

Trang 21

8

thực thể là 84,5% Kết quả này cho thấy mô hình hệ thống có nhược điểm đối với việc xác định các thực thể của tập dữ liệu bình luận Tập dữ liệu cần được xác định chủ đề về các thực thể được đề cập đến, hiệu suất mô hình cũng ảnh hưởng nhiều đối với số lượng thực thể được đề cập đến trong bình luận

Võ Hoàng Quân và cộng sự (2017) [8] cũng đã nghiên cứu một mô hình Đa kênh LSTM-CNN để phân tích cảm xúc đối với ngôn ngữ Việt Nam Nghiên cứu được triển khai trên hai tập dữ liệu gồm một tập dữ liệu do nhóm tác giả tự tạo đó là Vietnamese sentiment (VS) chứa 17.500 bài đánh giá bằng tiếng Việt trên các sàn thương mại điện tử và được gán nhãn bằng tay cho ba phân loại cảm xúc tích cực, tiêu cực và trung lập, một tập dữ liệu khác là tập dữ liệu Vietnamese Language and Speech Processing (VLSP) năm 2016 chứa 5.100 bài đánh giá đã được gán nhãn cho ba phân loại cảm xúc Kết quả mô hình đạt tốt nhất trên tập dữ liệu VS với điểm số Precision lần lượt trên ba phân loại tích cực, trung lập và tiêu cực là 0,92, 0,81 và 0,9 , với điểm số F1 lần lượt là 0,91, 0,85, 0,864, kết quả này tốt hơn nhiều so với kết quả trên tập dữ liệu VSLP với điểm số Precision cho ba phân loại lần lượt là 0,622, 0,534 và 0,632, với điểm số F1 lần lượt là 0,676, 0,5 và 0,598

Một nghiên cứu khác gần đây của Nguyễn Thành Thuỷ và cộng sự (2019) [9] đề xuất một mô hình học máy trong phân tích ý kiến khách hàng dựa trên văn bản tiếng Việt đối với bài toán dịch vụ khách sạn, phân lớp sắc thái một lời bình luận là tích cực hay tiêu cực Tập dữ liệu được sử dụng trong nghiên cứu này được thu thập từ website booking.com với 26.587 lời bình luận bằng Tiếng Việt Kết quả nghiên cứu đã cho thấy một mô hình hiệu quả với giá trị độ chính xác F1 đạt đến 96,03% Mặc dù có kết quả tốt, nhưng nghiên cứu vẫn còn hạn chế đó là đang thực hiện trên bài toán phân loại nhị phân Để thông tin khai thác được có giá trị sử dụng cao hơn, bài mô hình cần được mở rộng lên nghiên cứu trên bài toán phân loại đa lớp

Nguyễn Hữu Phát và cộng sự (2020) [10] đã nghiên cứu về sử dụng mạng LSTM và Word2Vec để phân loại văn bản bằng tiếng Việt Nghiên cứu đưa ra một hệ thống bao gồm hai khối chính, một khối huấn luyện và một khối dự đoán Trong hai khối, hai thuật toán Word2vec và LSTM được kết hợp để tăng độ chính xác cho việc phân loại văn bản tiếng Việt Ngoài ra, một bước tiền xử lý dữ liệu phù hợp với dữ liệu tiếng Việt được sử dụng Tập dữ liệu được sử dụng trong nghiên cứu này là VNTC chứa 10 chủ đề gồm 84.129 bài viết được chia thành hai phần dùng cho huấn luyện và dùng cho thử nghiệm Kết quả thí nghiệm đạt được độ chính xác 93,8%

Trang 22

9

1.2 Thực trạng về ngành du lịch ở Việt Nam

Tại Việt Nam, ngành Du lịch được xác định là một trong ba ngành kinh tế mũi nhọn, thúc đẩy sự phát triển của các ngành kinh tế hỗ trợ, góp phần thực hiện các chính sách an sinh xã hội Vì vậy, việc khôi phục phát triển ngành Du lịch trong thời gian tới là mục tiêu chiến lược của Việt Nam Sau gần hai năm suy giảm nghiêm trọng dưới tác động của đại dịch COVID-19, đến nay, các chính sách du lịch mới đã và đang có hiệu quả tích cực, ngành Du lịch Việt Nam đã ghi nhận sự phục hồi mạnh mẽ, tạo tiền đề bứt phá trong nửa cuối năm 2022 và năm 2023

1.2.1 Hệ thống khách sạn tại Việt Nam

Năm 2022, Tổng cục Du lịch đã ban hành 67 quyết định công nhận cơ sở lưu trú du lịch, tăng 26 quyết định so với năm 2021 Trong đó có 18 quyết định công nhận cơ sở lưu trú du lịch hạng 5 sao (12 cơ sở công nhận mới, 6 cơ sở công nhận lại) và 49 quyết định công nhận cơ sở lưu trú du lịch hạng 4 sao (24 cơ sở công nhận mới và 25 cơ sở công nhận lại)

Tính đến hết năm 2022, cả nước có 35.000 cơ sở lưu trú du lịch với khoảng 700.000 buồng, trong đó có 224 cơ sở lưu trú du lịch hạng 5 sao với 74.843 buồng và 345 cơ sở lưu trú hạng 4 sao với 46.279 buồng

Có thể thấy, trong bối cảnh ngành du lịch mở cửa trở lại hoàn toàn từ 15/3/2022, nhiều hoạt động sôi động đã diễn ra, nhu cầu du lịch phục hồi, tạo điều kiện thu hút các doanh nghiệp quay trở lại thị trường Sự gia tăng về số lượng các doanh nghiệp xin cấp mới giấy phép kinh doanh lữ hành, số lượng hướng dẫn viên được cấp thẻ, cũng như có thêm nhiều khách sạn cao cấp 4-5 sao được đưa vào hoạt động đã cho thấy tình hình thị trường đang rất tích cực với những cơ hội kinh doanh mới được mở ra [11]

1.2.2 Đặc điểm khách du lịch quốc tế

Theo thống kê của Tổng cục du lịch, Khách du lịch quốc tế đến đạt 3,6 triệu lượt trong năm 2022 đạt 73% kế hoạch năm và 707,1 nghìn lượt trong tháng 12 năm 2022 thăng 18,5% so với tháng trước và cao nhất tính từ đầu năm

Trang 23

10

Lượt khách du lịch quốc tế được thống kê theo biểu đồ tại Hình 1.1

Hình 1.1 Khách quốc tế theo tháng, năm 2022 (nghìn lượt)

Nguồn: Tổng cục Du Lịch, “Thông tin du lịch tháng 12/2022”, Trung tâm Thông tin du lịch, 2022 [11]

Hàn Quốc là thị trường khách lớn nhất của Du lịch Việt Nam năm 2022 với 965,4 nghìn lượt, chiếm 26,4% tổng số khách quốc tế Mỹ xếp thứ hai với 318,2 nghìn lượt, chiếm 8,7% Thống kê về thị trường khách được thể hiện với biểu đồ tại Hình 1.2

Hình 1.2 Các thị trường gửi khách hàng đầu năm 2022 (nghìn lượt)

Hình 1.3 thể hiện phân bổ khách quốc tế đến Việt Nam theo châu lục Trong tổng số 3,6 triệu lượt khách quốc tế đến Việt Nam trong năm 2022 có 2,6 triệu lượt đến từ châu Á (chiếm 71%) chiếm tỉ trọng lớn nhất, và thấp nhất từ Châu Phi chỉ với 0,3%

Trang 24

11

Hình 1.3 Khách quốc tế đến Việt Nam năm 2022, phân theo châu lục (%)

1.2.3 Đặc điểm khách du lịch nội địa

Cũng theo thông tin của Tổng cục Du lịch, trong năm 2022, khách du lịch nội địa vượt ngưỡng 100 triệu lượt, trong đó có 5 triệu lượt khách trong tháng 12, số lượt khách nghỉ đêm tại cơ sở lưu trú đạt 3,3 triệu

Tổng thu từ khách du lịch năm 2022 ước đạt 495 nghìn tỷ đồng, vượt trên 23% so với kế hoạch năm 2022 và đạt 66% so với năm 2019

Kết quả này là minh chứng cho chủ trương đúng đắn của Tổng cục Du lịch, Bộ Văn hóa, Thể thao và Du lịch lấy thị trường nội địa làm điểm tựa cho sự phục hồi du lịch, trong bối cảnh thị trường du lịch quốc tế ở châu Á năm 2022 vẫn rất trầm lắng

Hình 1.4 Khách nội địa theo tháng, năm 2022

Hình 1.4 thể hiện lượt khách du lịch nội địa trong năm 2022 được thống kê theo tháng Biểu đồ cho thấy lượng khách du lịch nội địa trong giai đoạn từ

Trang 25

12

đầu đến giữa năm Cao nhất vào những tháng hè từ tháng 5 đến tháng 7 lên đến hơn 11 triệu lượt khách mỗi tháng

1.3 Tính cấp thiết của việc nhận diện mức độ hài lòng của du khách đối với các khách sạn

Nhận diện mức độ hài lòng là quá trình thu thập và phân tích thông tin để xác định mức độ hài lòng của khách hàng hoặc nhân viên đối với một sản phẩm, dịch vụ hoặc trải nghiệm Mức độ hài lòng được đo lường bằng thang điểm từ 1 đến 5, trong đó 1 là "Rất không hài lòng" và 5 là "Rất hài lòng" Thông qua nhận diện mức độ hài lòng của du khách, các khách sạn có thể:

- Cải thiện trải nghiệm du khách: Bằng cách hiểu được những gì du

khách hài lòng và không hài lòng, khách sạn có thể cải thiện trải nghiệm của họ

- Tăng cường lòng trung thành của du khách: Du khách hài lòng có

nhiều khả năng quay trở lại và giới thiệu khách sạn cho những người khác

- Tăng doanh số bán hàng: Du khách hài lòng có nhiều khả năng sử

dụng dịch vụ nhiều hơn từ khách sạn

Nhận diện mức độ hài lòng được xác định là bài toán phân tích cảm xúc trong lĩnh vực học máy Phân tích cảm xúc sử dụng các thuật toán học máy để phân loại cảm xúc trong văn bản, âm thanh hoặc video thành các loại cảm xúc khác nhau, chẳng hạn như tích cực, tiêu cực và trung lập Mức độ hài lòng của du khách có thể được ước tính bằng cách phân loại cảm xúc trong lời bình luận, nhận xét của họ

Phân tích cảm xúc trong các đánh giá của người dùng là một phương pháp quan trọng để hiểu rõ hơn về những gì khách hàng thực sự cảm thấy về trải nghiệm của họ tại các khách sạn Phân tích cảm xúc có thể giúp xác định các vấn đề tiềm ẩn hoặc điểm mạnh của khách sạn Nếu khách hàng thường xuyên phàn nàn về một khía cạnh cụ thể của khách sạn, chẳng hạn như dịch vụ phòng ăn hoặc việc thanh toán, phân tích cảm xúc có thể giúp xác định được vấn đề này để khách sạn có thể cải thiện dịch vụ của mình và đáp ứng nhu cầu của khách hàng Hoặc nếu khách hàng đánh giá tích cực về một khía cạnh cụ thể của khách sạn, chẳng hạn như nhân viên thân thiện hoặc dịch vụ phòng sạch sẽ, khách sạn có thể sử dụng thông tin này để giữ chân khách hàng và tăng cường lượng khách hàng trung thành

Vì vậy, phân tích cảm xúc trong các đánh giá của khách hàng là một công cụ hữu ích để cải thiện trải nghiệm của khách hàng trong tương lai Lượng

Trang 26

13

khách du lịch từ Quốc tế đến Việt Nam vẫn có tỉ trọng thấp hơn nhiều so với lượng khách nội địa, và chủ yếu đến từ khu vực Châu Á Để có thể mở rộng thị trường và thúc đẩy lượng khách du dịch từ Quốc tế, việc năm bắt nhu cầu của du khách đến từ thị trường này là rất quan trọng Một trong những giải pháp đó là thông qua những lời bình luận và nhận xét trực tuyến của tập du khách này tìm ra những thông tin có giá trị nhằm đáp ứng nhu cầu của thị trường khách hàng này, nâng cao chất lượng dịch vụ của khách sạn và tăng cường lượng khách du lịch Quốc tế đến với Việt Nam

1.4 Tổng quan về TripAdvisor

Tripadvisor là một nền tảng đánh giá sản phẩm và dịch vụ trực tuyến hàng đầu trên thế giới về lĩnh vực lữ hành và du lịch [12] [13] Nền tảng có hơn 100 triệu lượt truy cập hàng tháng thông qua website tripadvisor.com Khách du lịch thường xuyên tìm đến Tripadvisor để tìm ưu đãi về chỗ ở, đặt các chuyến du lịch trải nghiệm, đặt bàn tại các nhà hàng ngon và khám phá những địa điểm tuyệt vời gần đó từ Việc chọn lựa và đưa ra quyết định của khách hàng có thể được tham khảo thông qua hơn 1 tỷ lời bình luận và nhận xét của gần 8 triệu cơ sở hay doanh nghiệp được giới thiệu tại đây Đây là một nguồn thông tin vô cùng phong phú và đa dạng, cung cấp cho khách hàng những góc nhìn thực tế từ những người đã trải nghiệm sản phẩm, dịch vụ mà khách hàng đang nhắm đến và đang được chính Tripadvisor đề xuất Tripadvisor hiện là công ty hướng dẫn du lịch có mặt ở 43 thị trường và 22 ngôn ngữ, Tripadvisor giúp việc lập kế hoạch trở nên dễ dàng cho bất kỳ loại chuyến đi nào mà khách hàng đang mong muốn và có ý định [14]

Tripadvisor cung cấp cho người dùng những thông tin hữu ích về các điểm đến, khách sạn, nhà hàng, hoạt động giải trí và các dịch vụ du lịch khác Đối với các nhà quản lý, Tripadvisor là một công cụ quan trọng để quảng bá thương hiệu, thu hút khách hàng và tăng doanh thu Các khách sạn có thể sử dụng Tripadvisor để tạo trang hồ sơ và quảng bá hoạt động kinh doanh Họ có thể cập nhật thông tin, hình ảnh và video, liên kết với các kênh đặt phòng và tương tác với khách hàng thông qua các hình thức phản hồi các bài đánh giá, trả lời các câu hỏi của khách hàng và các hình thức khác Các khách sạn cũng có thể theo dõi hiệu quả hoạt động thông qua các báo cáo và phân tích Tripadvisor cũng cung cấp cho khách sạn các giải pháp tiếp thị và quảng cáo trả phí để nâng cao vị thế cạnh tranh và thu hút nhiều khách hàng tiềm năng hơn Tripadvisor là một nền tảng không thể bỏ qua đối với bất kỳ khách sạn nào muốn thành công trong thị trường du lịch ngày càng phát triển

Trang 27

14

Nghiên cứu này lựa chọn xử lý trên tập dữ liệu của TripAdvisor là do điểm nổi bật của nền tảng TripAdvisor so với các nền tảng cùng lĩnh vực như Booking hay Agoda TripAdvisor là một nền tảng về đánh giá sản phẩm dịch vụ còn Booking hay Agoda là các nền tảng về đại lý du lịch trực tuyến TripAdvisor thu thập tất cả các lời bình luận và nhận xét từ các nền tảng du lịch khác kể cả từ Booking hay Agoda cùng với các bình luận của người dùng của TripAdvisor Do đó, TripAdvisor cung cấp một nguồn thông tin tham khảo phong phú và khách quan hơn cho người dùng

1.5 Tổng quan về các kỹ thuật được sử dụng trong nghiên cứu

1.5.1 Công cụ, phần mềm

1.5.1.1 NodeJs

NodeJs được sử dụng để xây dựng chương trình thu thập dữ liệu các bài đánh giá trên Tripadvisor.com NodeJs môi trường thực thi ngôn ngữ lập trình Javascript phía máy chủ Javascript là một ngôn ngữ lập trình hoạt động đơn luồng xử lý, mạnh mẽ trong việc xử lý các tác vụ bất đồng bộ, khiến cho việc thu thập lượng lớn các bài đánh giá trên Tripadvisor.com tiết kiệm được thời gian khi có thể được diễn ra đồng thời, cùng với các thư viện hỗ trợ việc gửi và nhận dữ liệu, hữu ích cho việc thu thập dữ liệu thông qua các API, hàm chức năng được cung cấp

1.5.1.2 JSON

JSON là viết tắt của JavaScript Object Notation, là một định dạng dữ liệu dựa trên văn bản được sử dụng rộng rãi trong lập trình web để trao đổi dữ liệu giữa các ứng dụng Nó được tạo thành từ các cặp key-value, trong đó key là một chuỗi và value là một giá trị có thể là chuỗi, số, boolean, mảng hoặc đối tượng JSON có một số ưu điểm như: dễ đọc và dễ hiểu, dung lượng nhỏ và có thể được sử dụng bởi hầu hết các ngôn ngữ lập trình JSON được sử dụng trong nhiều ứng dụng web khác nhau, bao gồm: truyền dữ liệu giữa máy chủ và ứng dụng web, lưu trữ dữ liệu trong cơ sở dữ liệu và xử lý dữ liệu

1.5.1.3 SQLite

SQLite là một hệ quản trị cơ sở dữ liệu dựa trên quan hệ SQLite được sử dụng để lưu trữ dữ liệu thô được thu thập thông qua chương trình NodeJs từ Tripadvisor.com

1.5.1.4 Python

Python được lựa chọn làm ngôn ngữ lập trình cho thí nghiệm vì nó hỗ trợ một loạt các thư viện cần thiết để thực hiện phân tích cảm xúc, trích xuất dữ liệu, v.v Python hữu ích cho tiền xử lý dữ liệu, dự đoán và nghiên cứu trực

Trang 28

15

quan hóa Python là một ngôn ngữ lập trình mã nguồn mở với các framework tuyệt vời cho Trí tuệ nhân tạo, Học máy, phân tích thống kê và trực quan hóa Nó hỗ trợ nhiều thư viện với khả năng mạnh mẽ và các triển khai được tùy chỉnh cao; một số gói được sử dụng để cải thiện kết quả

1.5.1.5 Pandas

Pandas là một thư viện trong ngôn ngữ Python cung cấp các gói của thư viện được sử dụng để phân tích và xử lý trước dữ liệu dưới dạng bảng và chuỗi [15] Pandas cung cấp các tính năng mạnh mẽ để thao tác, phân chia và trực quan hóa dữ liệu Đối với các bước tiếp theo, pandas cũng cung cấp các gói chức năng quan trọng để tạo ra một tập dữ liệu có cấu trúc từ dữ liệu được thu thập nhanh chóng và linh hoạt Tính đa năng đối với các tác vụ xử lý dữ liệu cũng là một lợi thế, tất cả dữ liệu được thu thập cho công việc nghiên cứu được chuyển đổi thành khung dữ liệu để phân tích và dự đoán thêm

1.5.1.6 NumPy

NumPy là viết tắt của “Numerical Python”, là một thư viện trong ngôn ngữ Python được sử dụng để thực hiện các phép tính số học cho vector và ma trận Nó cung cấp tốc độ tính toán nhanh hơn 50 lần so với dữ liệu danh sách Thư viện này được sử dụng cho phân tích dữ liệu và tính toán số học trong nghiên

cứu này

1.5.1.7 NLTK

Natural Language Toolkit (NLTK) là một thư viện tiêu chuẩn trong ngôn ngữ Python giúp dễ dàng sử dụng và triển khai các tác vụ xử lý ngôn ngữ tự nhiên và truy xuất thông tin như phân đoạn, tách từ, phân tích cú pháp và mối quan hệ văn bản ngữ nghĩa

- PorterStemmer, WordNetLemmatizer là hai phương thức của module stem được sử dụng cho nhiệm vụ tạo từ gốc trong quá trình làm sạch dữ liệu Các một số tính năng được phân biệt giữa hai phương thức này được thể hiện trong Bảng 1.1

o PorterStemmer là một thuật toán thu nhỏ từ dựa trên quy tắc

Nó sử dụng một tập hợp các quy tắc để loại bỏ các phần đuôi của từ Các quy tắc này được xác định trước và không phụ thuộc vào ngữ cảnh

o WordNetLemmatizer là một thuật toán thu nhỏ từ dựa trên từ

điển Nó sử dụng một từ điển để xác định dạng gốc của từ Từ điển này chứa thông tin về ngữ pháp và hình thái của từ

Trang 29

16

o Nghiên cứu sử dụng cả hai phương thức trên nhằm tăng độ chính xác và tăn tốc độ xử lý dữ liệu

• Tăng độ chính xác: PorterStemmer có thể được sử dụng để

giảm các từ biến đổi về dạng gốc chung của chúng WordNetLemmatizer có thể được sử dụng để xác định dạng gốc chính xác của từ Việc sử dụng cả hai thuật toán có thể giúp giảm thiểu khả năng tạo ra các dạng gốc không chính xác

• Tăng tốc độ: PorterStemmer có thể được sử dụng để giảm

các từ biến đổi về dạng gốc chung của chúng Sau đó, WordNetLemmatizer có thể được sử dụng để xác định dạng gốc chính xác của các từ này Việc sử dụng cả hai thuật toán có thể giúp tăng tốc độ của quá trình thu nhỏ từ

Bảng 1.1 Bảng sô sánh tính năng của PorterStemmer và WordNetLemmatizer

"running" -> "run" "run" -> "run" "went" -> "went" "went" -> "go"

- Stopwords là một phương thức của module corpus để tải tập từ điển về các từ dừng trong tiếng Anh Từ điển này được sử dụng cho nhiệm vụ loại bỏ từ dừng trong quá trình làm sạch dữ liệu văn bản

- RegexpTokenizer là một phương thức của module tokenize được sử dụng để tách văn bản theo một số định dạng chuỗi

1.5.1.8 Sklearn

Scikit-learn là một thư viện trong ngôn ngữ Python cung cấp cung cấp các công cụ và chức năng cho học máy và mô hình thống kê cho phân loại, phân cụm và các dự đoán khác Ví dụ: chia dữ liệu thành các tập con đào tạo, xác thực và kiểm tra, tạo tính năng cho đầu vào văn bản, tạo token và đếm vector như đếm tần số với TF-IDF Đối với các mô hình phân loại, nhiệm vụ về dữ liệu của thư viện này có thể kể đến như phân chia tập dữ liệu thành tập đào tạo và tập kiểm tra [16]

- RandomforestClassifier: một phương thức khởi tạo mô hình RF của module ensemble

Trang 30

17

- TfidfVectorizer: một phương thức của module feature_extraction.text sử dụng để vector hóa các đầu vào văn bản theo thuật toán TF-IDF - classification_report, accuracy_score là hai phương thức trong

module metrics dùng để tạo báo cáo đo lường kết quả của mô hình học máy

- train_test_split, Kfold là 2 phương thức của module model_selection được sử dụng để phân tách tập dữ liệu ban đầu thành các tập con - LabelEncoder là một phương thức của module preprocessing được sử

dụng để mã hóa nhãn dữ liệu

1.5.1.9 TensorFlow

TensorFlow là thư viện mã nguồn mở end-to-end hỗ trợ nhiều ngôn ngữ lập trình khác nhau, phục vụ cho việc tạo mô hình học sâu để xử lý dữ liệu lớn và triển khai các mô hình phức tạp để đơn giản hóa và tăng tốc quá trình

1.5.1.10 Keras

Keras là một phần mềm mã nguồn mở, API cấp cao (giao diện lập trình ứng dụng) cung cấp giao diện Python cho mạng nơ-ron nhân tạo Thư viện này hoạt động như một giao diện cho thư viện TensorFlow Keras thân thiện với người dùng hơn và nhanh hơn một chút so với TensorFlow Thư viện này được sử dụng để triển khai mô hình tuần tự, mô hình RandomForest, các lớp nhúng từ, BiLSTM và các lớp cơ bản khác trong luận triển khai nghiên cứu này Một số lớp được sử dụng trong nghiên cứu này bao gồm:

- Bidirectional: một lớp trong module layers của keras Được hiểu đúng hơn là một chức năng để triển khai các lớp mạng nơron hai chiều - LSTM: một lớp trong module layers của keras Được sử dụng để tạo

một lớp mạng nơron LSTM

- LayerNormalization: một lớp trong module layers của keras Lớp này có nhiệm vụ chuẩn hóa các giá trị dữ liệu về cùng một phạm vi giá trị từ -1.0 đến 1.0

- GlobalAveragePooling1D: một lớp trong module layers của keras Lớp này có vai nhiệm vụ tổng hợp các dữ liệu đầu ra nhiều chiều của các lớp trước về dữ liệu 1 chiều Nói cách khác lớp này làm phẳng dữ liệu để chuẩn bị cho các lớp học quan hệ phía sau

- Dense: một lớp trong module layers của keras Lớp này được sử dụng để tạo vào học các mối quan hệ phức tạp giữa các đầu vào và đầu ra của mô hình

Trang 31

18

- Dropout: một lớp trong module layers của keras Lớp này có tác dụng giảm thiểu các dữ liệu đầu vào, mô hình học máy không còn học trên toàn bộ dữ liệu đầu vào, từ đó giảm thiểu hiện tượng Overfitting - Concatenate: Một lớp trong module layers của keras Lớp này được sử

dụng để kết hợp các đặc trưng đầu vào từ các bộ đặc trưng khác nhau

1.5.2 Tổng quan về kỹ thuật thu thập dữ liệu website

Thu thập dữ liệu website là quá trình thu thập thông tin từ các website Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm:

- Tìm kiếm: Các công cụ tìm kiếm như Google sử dụng thu thập dữ liệu website để tìm kiếm và lập chỉ mục các website

- SEO: Các chuyên gia SEO sử dụng thu thập dữ liệu website để phân tích các website và cải thiện thứ hạng của chúng trong kết quả tìm kiếm

- Tự động hóa: Các doanh nghiệp có thể sử dụng thu thập dữ liệu website để tự động hóa các tác vụ như cập nhật dữ liệu sản phẩm hoặc thu thập thông tin từ các website khác

Có hai hình thức thu thập dữ liệu website chính:

- Thu thập dữ liệu thủ công: Quá trình này được thực hiện bởi con người bằng cách truy cập các website, sao chép và lưu trữ thủ công các thông tin cần thiết

- Thu thập dữ liệu tự động: Quá trình này được thực hiện bởi các chương trình phần mềm, còn được gọi là web crawler hoặc web spider

Nghiên cứu trong luận văn này sử dụng hình thức thu thập dữ liệu tự động Thu thập dữ liệu website tự động được thực hiện theo các bước sau:

- Bước 1: Web crawler sẽ bắt đầu gửi yêu cầu đến một địa chỉ website mục tiêu

- Bước 2: Web crawler sẽ thu thập dữ liệu được trả về qua phản hồi đã được yêu cầu từ máy chủ lưu trữ của website mục tiêu

- Bước 3: Web crawler phân tích dữ liệu thu được để tìm kiếm các thông tin cần thiết

- Bước 4: Web crawler lưu trữ các thông tin tìm thấy vào một cơ sở dữ liệu hoặc một hệ thống khác

Trang 32

- Tự động hóa: Thu thập dữ liệu tự động có thể được tự động hóa, giúp tiết kiệm thời gian và chi phí

- Độ chính xác: Thu thập dữ liệu tự động có thể được thực hiện chính xác, tránh sai sót của con người

Tuy nhiên, thu thập dữ liệu web tự động cũng có một số nhược điểm: - Có thể làm quá tải các website: Web crawler có thể làm quá tải các

website, đặc biệt là các website quy mô nhỏ, cơ sở hạ tầng thấp - Có thể vi phạm các quy tắc của website: Web crawler có thể vi phạm

các quy tắc của website, chẳng hạn như không được truy cập các website bị cấm, an toàn và bảo mật thông tin

- Có thể bị nhiễm mã độc: Web crawler có thể bị nhiễm mã độc từ các website độc hại do thường không có sự kiểm soát

Để thu thập dữ liệu website hiệu quả, cần lưu ý một số vấn đề sau:

- Chọn công cụ phù hợp: Có nhiều công cụ thu thập dữ liệu website khác nhau, mỗi công cụ có ưu và nhược điểm riêng Nên chọn công cụ phù hợp với nhu cầu và mục đích sử dụng

- Lập kế hoạch thu thập dữ liệu: Nên lập kế hoạch thu thập dữ liệu cụ thể, bao gồm các website cần thu thập, dữ liệu cần thu thập, và cách lưu trữ dữ liệu

- Tuân thủ các quy tắc của website: Nên tuân thủ các quy tắc của website, chẳng hạn như không được truy cập các website bị cấm, đảm bảo an toàn và bảo mật thông tin sau khi thu thập

- Cẩn thận với các website độc hại: Cẩn thận với các website độc hại, tránh bị nhiễm mã độc

Dựa trên phạm vi nghiên cứu của luận văn này, nghiên cứu thực hiện phân tích cấu trúc website của nền tảng TripAdvisor tại địa chỉ tripadvisor.com Qua quá trình phân tích, website tripadvisor.com thực hiện tải các dữ liệu về khách sạn và các lời đánh giá về khách sạn một cách không đồng thời với quá trình tải trang bởi các yêu cầu truy xuất dữ liệu về địa chỉ cung cấp dữ liệu tại

‘https://tripadvisor.com/data/graphql/ids’ như Hình 1.5

Trang 33

20

Hình 1.5 Phân tích yêu cầu truy xuất dữ liệu khách sạn và các lời bình luận về khách sạn của website tripadvisor.com

Dữ liệu được trả về là dữ liệu có cấu trúc bao gồm nhiều tổ hợp trường dữ liệu khác nhau như trong Hình 1.6

Hình 1.6 Phần dữ liệu được trả về đối với yêu cầu truy xuất dữ liệu của website tripadvisor.com

Do đó, nghiên cứu này đã sử dụng bộ công cụ thập và lưu trữ dữ liệu web được chạy trên môi trường Nodejs và hệ quản trị cơ sở dữ liệu SQLite Dữ liệu thu được sau các phản hồi từ yêu cầu truy xuất dữ liệu được phân tích, chọn ra các trường dữ liệu được sử dụng cho nghiên cứu này và được lưu vào cơ sở dữ liệu thông qua hệ quản trị cơ sở dữ liệu SQLite

Các bản ghi thu thập được chứa nhiều trường trường dữ liệu, trong đó nghiên cứu tập trung đến một số trường dữ liệu bao gồm một trường dữ liệu kiểu văn bản chứa nội dung lời bình luận và một trường dữ liệu kiểu số nguyên chứa điểm số của lời bình luận đó theo thang điểm 1 đến 5

Trang 34

1 Text Văn bản Nội dung lời bình luận, đánh giá

2 Rating Số nguyên Điểm đánh giá trên thang điểm 1 đến 5

Hình 1.7 thể hiện một bài bình luận được hiển thị trên website tripadvisor.com và Bảng 1.2 cho thấy mô ta về bản ghi trong tập dữ liệu sẽ được sử dụng trong nghiên cứu

Hình 1.7 Bài bình luận trên website tripadvisor.com

1.5.3 Tổng quan về các kỹ thuật xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của Trí tuệ nhân tạo, tập trung vào việc nghiên cứu sự tương tác giữa máy tính và ngôn ngữ tự nhiên của con người, dưới dạng tiếng nói (speech) hoặc văn bản (text) Mục tiêu của lĩnh vực này là giúp máy tính hiểu và thực hiện hiệu quả những nhiệm vụ liên quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cải thiện hiệu quả giao tiếp giữa con người với con người, hoặc đơn giản là nâng cao hiệu quả xử lý văn bản và lời nói [2]

Các ứng dụng NLP đang được sử dụng trong cuộc sống hằng ngày và tương tác với con người thông qua một số các ứng dụng như:

- Trợ lý ảo cá nhân: Google Assistant, Cortana, Copilot (sắp ra mắt trên Windows 11), Siri

Trang 35

22

- Gợi ý văn bản: Gợi ý biểu tượng cảm xúc của các ứng dụng nhắn tin như Zalo, Messenger, hay gợi ý hoàn thành văn bản như ô nhập tìm kiếm của Google,

- Kiểm tra lỗi chính tả: Hầu như ở khắp mọi nơi, Google Doc, Microsoft Word,

- Phiên Dịch: Google translate, Microsoft Word translate,…

Đối với lĩnh vực kinh doanh, NLP cũng đang có những ứng dụng đóng vai trò rất quan trọng, điển hình có thể kể đến như:

- Chat bot: tương tự như trợ lý ảo cá nhân, chat bot cũng sẽ giao tiếp với người dùng để giải đáp thắc mắc hoặc khiếu nại của khách hàng hay hơn thế nữa có thể tiếp nhận đơn hàng

- Phân tích cảm xúc: Các nhà cung cấp dịch vụ, các nhãn hàng sản xuất và cung cấp sản phẩm khi đưa sản phẩm, dịch vụ ra thị trường và tiếp thị chúng trên các nền tảng mạng xã hội, họ có thể đo lường độ thành công của chiến dịch (campaign) thông qua các chỉ số như: số lượt tiếp cận (reach, impression), số đơn đặt hàng, nhưng họ lại không biết được ý kiến của người tiêu dùng về sản phẩm, dịch vụ của mình, bao nhiêu phần trăm người thích, không thích và trung lập Với sự trợ giúp của NLP và học máy (ML), điều này hoàn toàn có thể được thực hiện thông qua phân tích cảm xúc (Sentiment Analysis)

Nghiên cứu này sử dụng các kỹ thuật trong NLP bao gồm tiền xử lý văn bản và trích xuất đặc trưng văn bản để sử dụng làm dữ liệu đầu vào cho mô hình ML

1.5.3.1 Tiền xử lý văn bản

Trước tiên hết, xuất phát từ khái niệm tiền xử lý dữ liệu (Data preprocessing) đôi khi được gọi là làm sạch dữ liệu bởi vì trên thực tế, hầu hết các tác vụ trong quá trình tiền xử lý dữ liệu là làm sạch dữ liệu Tuy nhiên tiền xử lý dữ liệu là một quá trình bao gồm nhiều bước hơn là chỉ làm sạch dữ liệu, chỉ loại bỏ các vấn đề trong dữ liệu Vì vậy, làm sạch dữ liệu là một tập hợp con của tiền xử lý dữ liệu Tiền xử lý dữ liệu được phân thành nhiều kỹ thuật

Trang 36

23 - Tạo đặc trưng

- Rời rạc hỏa và nhị phân hỏa - Biến đổi thuộc tính dữ liệu

Tiền xử lý văn bản là một trường hợp cụ thể của tiền xử lý dữ liệu, trong đó dữ liệu có kiểu là văn bản Trong phạm vi nghiên cứu của đề tài, một số kỹ thuật tiền xử lý văn bản được sử dụng để chuẩn bị dữ liệu cho quá trình học tập phân loại cảm xúc cũng như làm dữ liệu đầu vào cho quá trình phân tích, nhận diện cảm xúc của mô hình

a) Lấy mẫu

Lấy mẫu là một kỹ thuật phân tích thống kê được sử dụng để chọn, thao tác và phân tích một tập hợp con đại diện của các điểm dữ liệu nhằm xác định các mẫu và xu hướng trong tập dữ liệu lớn hơn đang được kiểm tra Nguyên tắc chính khi thực hiện lấy mẫu là một mẫu cũng sẽ làm việc tốt như đối với toàn bộ tập dữ liệu nếu và chỉ nếu mẫu đó mang tính đại diện

Trong nghiên cứu, đối với môi trường triển khai thí nghiệm, tập dữ liệu thu được có thể quá lớn, khiến việc huấn luyện mô hình học máy quá chậm hoặc quá tải Hơn nữa, tập dữ liệu cũng có thể bị mất cân bằng về các phân loại khiến cho kết quả học tập không đạt hiệu quả tốt Do đó, thực hiện kỹ thuật lấy mẫu đối với tập dữ liệu trong nghiên cứu này là cần thiết để việc huấn luyện mô hình có thể diễn ra thành công và có hiệu quả tốt hơn

b) Làm sạch dữ liệu

Làm sạch dữ liệu là tập hợp các bước loại bỏ các dữ liệu nhiễu, dữ liệu rác Các dữ liệu này thường không có giá trị đối với mục đích sử dụng, ảnh hưởng lớn đến hiệu suất huấn luyện và hiệu quả của mô hình

Trong nghiên cứu này, tập dữ liệu các lời bình luận thu được bao gồm các văn bản được người dùng tạo ra Các văn bản này thường xuyên chứa các ký tự đặc biệt, ký tự không phải các chữ cái latin không kết hợp thành từ, các từ dừng Các trường hợp này cần được loại bỏ ra khỏi dữ liệu Ngoài ra, các văn bản còn chứa các từ viết tắt, từ đồng nghĩa, từ ở nhiều hình thái từ khác nhau, các từ loại này thường biểu thị chung một giá trị ý nghĩa nên cần được làm chuẩn về một từ gốc chính xác

c) Trích chọn tập con đặc trưng

Trích chọn tập con đặc trưng là cách chọn tập hợp con các đặc trưng phù hợp nhất từ bộ đặc trưng ban đầu bằng cách loại bỏ các đặc trưng dư thừa,

Trang 37

24

không liên quan hoặc gây nhiễu Đối với bài toán xử lý văn bản, trích chọn tập con đặc trưng còn được gọi là xây dựng từ điển, mỗi đặc trưng chính là một từ trong từ điển

Trong khi phát triển mô hình học máy, chỉ một số đặc trưng trong tập dữ liệu là hữu ích để xây dựng mô hình và các đặc trưng còn lại là dư thừa hoặc không liên quan

Tập con đặc trưng này sẽ được sử dụng làm cơ sở để trích xuất đặc trưng cho các lời bình luận sau đó được dùng làm đầu vào cho huấn luyện mô hình và dự phân loại cảm xúc bằng mô hình

d) Biến đổi thuộc tính dữ liệu

Biến đổi thuộc tính dữ liệu là quá trình thay thế một thuộc tính được chọn bằng một hoặc nhiều thuộc tính mới, phụ thuộc chức năng vào thuộc tính gốc, nhằm tạo điều kiện thuận lợi cho việc phân tích tiếp theo

Các mô hình học máy thường được thiết kế để hoạt động với dữ liệu vector với các phần tư trong vector là các phần tử số Các thuật toán học máy cần có đầu vào là các vector có độ dài bằng nhau vì một số lý do như:

- Để đảm bảo tính nhất quán: Nếu các vector có độ dài khác nhau, thì

các thuật toán học máy có thể khó hiểu các mối quan hệ giữa các tính năng Điều này có thể dẫn đến kết quả không chính xác

- Để cải thiện hiệu suất: Các thuật toán học máy thường sử dụng các

phép tính tốn kém để tính toán các mối quan hệ giữa các tính năng Nếu các vector có độ dài khác nhau, thì các thuật toán học máy có thể phải thực hiện các phép tính bổ sung, điều này có thể làm giảm hiệu suất

- Để đơn giản hóa quá trình triển khai: Các thuật toán học máy thường

được triển khai dưới dạng các mô hình toán học Nếu các vector có độ dài khác nhau, thì mô hình toán học có thể trở nên phức tạp hơn, điều này có thể làm giảm khả năng hiểu và bảo trì

Do đó việc biến đổi thuộc tính dữ liệu trong nghiên cứu này sẽ thực hiện chuyển đổi các dữ liệu văn bản là các lời bình luận thành các vector có độ dài bằng nhau Điều này giúp các mô hình học máy có thể hiểu và xử lý dữ liệu văn bản một cách hiệu quả hơn

1.5.3.2 Trích xuất đặc trưng văn bản

Trích xuất đặc trưng dữ liệu văn bản là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên Nhiệm vụ này liên quan đến việc tạo ra các đại diện cho

Trang 38

25

văn bản có thể được sử dụng bởi các mô hình học máy để thực hiện các nhiệm vụ khác nhau, chẳng hạn như phân loại, tóm tắt và dịch

Có nhiều phương pháp khác nhau để trích xuất các tính năng từ văn bản Một phương pháp phổ biến là sử dụng các mô hình ngôn ngữ để tạo ra các vector đại diện cho các từ hoặc cụm từ Các vector này có thể được sử dụng để đo lường tương quan giữa các từ hoặc cụm từ, cũng như để đại diện cho ý nghĩa của văn bản

Dựa trên mục tiêu của đề tài, nghiên cứu này sử dụng một số phương pháp để trích xuất đặc trưng của dữ liệu văn bản bao gồm: Embedding, GloVe, kết hợp TF-IDF

Mỗi kỹ thuật có những ưu và nhược điểm riêng GloVe là kỹ thuật mạnh mẽ nhất, nhưng nó cũng tốn thời gian và tài nguyên để đào tạo TF-IDF là kỹ thuật đơn giản hơn và nhanh hơn để đào tạo, nhưng nó không hiệu quả như GloVe Embedding là một kỹ thuật trung gian giữa GloVe và TF-IDF, cả về sức mạnh và tốc độ đào tạo

a) Embedding

Embedding là một kỹ thuật được sử dụng để mã hóa mỗi từ trong văn bản thành một vector đại diện cho ý nghĩa của từ đó trong văn bản Các vector này được sử dụng bởi các mô hình học máy để thực hiện nhiệm vụ phân loại cảm xúc của văn bản là một lời bình luận

Trong nghiên cứu này, Embedding đề cập đến một kỹ thuật trích xuất đặc trưng cụ thể, tại đây, các vector trọng số biểu diễn các từ trong các văn bản được khởi tạo với các giá trị ngẫu nhiên, sau đó được học trong quá trình đào tạo mô hình Do đó, các giá trị trọng số hoàn toàn không cần quan tâm đến việc kiến trúc thuật toán nào được áp dụng để tính toán

Embedding có thể được học trong cả một bài toán tổng thể hoặc học riêng rẽ khác trước khi đưa vào một bài toán cụ thể Embedding thu được có thể được dùng như một đặc trưng nhiều chiều và có thể trong các mô hình khác nhau không chỉ cho học sâu

b) GloVe

GloVe là viết tắt của Global Vectors for Word Representation Đây là một mô hình ngôn ngữ được đào tạo trên một bộ dữ liệu khổng lồ gồm văn bản và mã Mô hình tạo ra các vector đại diện cho các từ, các vector này có thể được sử dụng để đo lường tương quan giữa các từ và để đại diện cho ý nghĩa của văn

Trang 39

26

bản Mô hình GloVe kết hợp hai cách tiếp cận được áp dụng rộng rãi để huấn luyện vectơ từ bao gồm: Phương pháp hệ số hóa ma trận và phương pháp dựa trên cửa sổ

Phương pháp hệ số hóa ma trận là phương pháp phân tích ma trận xuất hiện của từ-từ hoặc thuật ngữ tài liệu Trong ma trận từ-từ, các hàng biểu thị

các từ và các cột biểu thị ngữ cảnh Một giá trị trong ma trận Mij biểu thị số lần

một từ cụ thể Wi xuất hiện trong ngữ cảnh Wj Trong ma trận thuật ngữ tài liệu, hàng đại diện cho các từ và cột đại diện cho tài liệu tương ứng một bài đánh giá Một hàng thể hiện sự phân bổ của một từ cụ thể trên tất cả các bài đánh giá và một cột thể hiện sự phân bổ của tất cả các từ trong bài đánh giá đó

Ý tưởng thuật toán của mô hình Glove được tác giả đưa ra như sau Đặt X là ma trận xuất hiện từ-từ, trong đó Xᵢⱼ là số từ Wⱼ trong ngữ cảnh của từ Wᵢ

Ngữ cảnh xung quanh một từ có thể được định nghĩa là ngữ cảnh đối xứng bao gồm N từ trong quá khứ và N từ trong tương lai Ngữ cảnh bất đối xứng chỉ bao gồm N từ lịch sử trong quá khứ Một phép đếm đơn hoặc phép đếm có trọng số có thể được sử dụng để tính toán các giá trị trong ma trận Phép đếm đơn lấy 1

làm làm đơn vị đếm số lần xuất hiện Trong phép đếm có trọng số, 1/d được sử dụng làm đơn vị đếm số lần xuất hiện, trong đó d là khoảng cách từ đến từ khóa

được cho Ý nghĩa đằng sau việc sử dụng trọng số là các từ ngữ cảnh gần với từ khóa nhất quan trọng hơn các từ xa hơn về mặt ngữ nghĩa

𝑋𝑖 = ∑ 𝑋𝑖𝑘

(1)

Giá trị xuất hiện của hàng thứ i

Trong biểu thức (1), Xi là tổng của tất cả k từ xuất hiện trong ngữ cảnh của từ Xi

𝑃𝑖𝑗 = 𝑃(𝑗|𝑖) = 𝑋𝑖𝑗

Trong biểu thức (2), P là xác suất xảy ra đồng thời trong đó Pij là xác suất

của từ Wj xảy ra trong ngữ cảnh của từ Wi

GloVe gợi ý tìm mối quan hệ giữa hai từ về mặt xác suất thay vì số lượng

thô Mối quan hệ giữa hai từ (Wᵢ và Wⱼ) được kiểm tra bằng cách tìm xác suất xảy ra đồng thời với một số từ thăm dò (Wₖ)

Giả sử chúng ta có hai từ, Wᵢ là ‘clean’ và Wⱼ là ‘warm’ và một số từ thăm dò Wₖ là ‘hotel’, ‘room’, ‘tree’, ‘weather’ Từ hiểu biết cơ bản, chúng ta biết

Trang 40

27

rằng ‘hotel’, ‘room’, liên quan với ‘clean’ hơn là ‘warm’ và ‘weather’ liên quan với ‘warm’ hơn trong khi ‘tree’ có vẻ không liên quan đến cả ‘clean’ và ‘warm’ Bây giờ một mục tiêu được đề ra là tìm các từ có liên quan cho các từ đã cho trong số các từ thăm dò

Bảng 1.3 Xác suất xảy ra đồng thời từ 42 tỷ mã thông báo xuất hiện Xác suất và Tỉ lệ k = hotel k = room k = tree k = weather

P(k|clean)/ P(k|warm) 1.1195 0.9905 1.0306 0.6434

Từ Bảng 1.3, đối với từ thăm dò (Wk) là ‘hotel’, xác suất xuất hiện trong ngữ cảnh của ‘clean’ lớn hơn đối với ngữ cảnh của ‘warm’, tương tự đối với từ thăm dò là ‘weather’, xác suất xuất hiện trong ngữ cảnh của ‘clean’ bé hơn đối với ngữ cảnh của ‘warm’ Điều này là khá tương đồng với nhận đình ban đầu Tỷ lệ xác suất xảy ra đồng thời giúp phân biệt các từ ‘hotel’, ‘room’ phụ hợp với các từ nhất định hơn các từ không liên quan như ‘weather’ khi mà tỉ lệ này càng tiến dần về 1 Những từ có tỷ lệ gần bằng 1 có xuất hiện trong ngữ cảnh của từ cho sẵn hoặc không xuất hiện, do đó không ảnh hưởng đến mối quan hệ học tập giữa các từ cho sẵn Điều này chứng tỏ tỷ lệ xác suất xảy ra đồng thời là điểm khởi đầu cho việc học cách biểu diễn từ

Tỷ lệ xác suất xảy ra đồng thời Pᵢₖ/Pⱼₖ phụ thuộc vào ba từ Wᵢ, Wⱼ, Wₖ Dạng tổng quát nhất của hàm F có thể được định nghĩa trên các vectơ từ và ngữ cảnh

như biểu thức (3) dưới đây

𝐹(𝑊𝑖, 𝑊𝑗, 𝑊̃𝑘) = 𝑃𝑖𝑘

Trong đó, 𝑊 ∈ 𝑅𝑑 là một vector từ và 𝑊̃ ∈ 𝑅𝑑 là một vector ngữ cảnh Vế phải của biểu thức (3) là các xác suất thu được từ kho dữ liệu huấn luyện

Mặc dù F có rất nhiều khả năng hoạt động nhưng nó sẽ mã hóa thông tin có

trong 𝑃𝑖𝑘⁄𝑃𝑗𝑘 Mối quan hệ giữa các từ mục tiêu Wi và Wj có thể thu được bằng sự khác biệt của vector vì các vector này là từ các không gian vector tuyến tính

có kích thước d Do đó phương trình trở thành,

𝐹(𝑊𝑖 − 𝑊𝑗, 𝑊̃𝑘) =𝑃𝑖𝑘

Bây giờ, vế phải của phương trình (4) là bộ chia tỷ lệ trong khi đầu vào

của F là vector d chiều F có thể được tham số hóa bởi các mạng thần kinh phức

tạp, cuối cùng sẽ phá vỡ cấu trúc tuyến tính trong không gian vector Để tránh