PHÂN LOẠI CẢM XÚC NGƯỜI Dùng trong mạng xã hội

60 126 2
PHÂN LOẠI CẢM XÚC NGƯỜI Dùng trong mạng xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ HOÀNG ĐẠT PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2015 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ HOÀNG ĐẠT PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG TRONG MẠNG XÃ HỘI CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ HÀ NỘI - 2015 LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa cơng bố tài liệu khác TÁC GIẢ LUẬN VĂN ĐỖ HOÀNG ĐẠT LỜI CẢM ƠN Được đồng ý Khoa Quốc tế Sau Đại học Học Viện Công Nghệ Bưu Chính Viễn Thơng giảng viên hướng dẫn khoa học: PGS.TS Trần Đình Quế, tơi thực luận văn: “Phân loại cảm xúc người dùng mạng xã hội” Để hồn thành luận văn này, tơi xin chân thành cảm ơn thầy cô giảng viên khoa Quốc Tế Sau Đại Học Học Viện Cơng Nghệ Bưu Chính Viễn Thơng tận tình giảng dạy, hướng dẫn tơi suốt q trình học tập nghiên cứu Học Viện Xin chân thành cảm ơn thầy giáo Trần Đình Quế, người trực tiếp hướng dẫn nghiên cứu khoa học cho Trong trình thực luận văn, thầy bảo truyền đạt kiến thức khoa học quý báu, đồng thời đưa góp ý thiết thực giúp tơi hồn thành luận văn HỌC VIÊN ĐỖ HỒNG ĐẠT MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT DANH SÁCH BẢNG .6 DANH SÁCH HÌNH VẼ .7 MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng mạng xã hội .10 1.1.1 Lý phân loại cảm xúc người dùng 10 1.1.2 Giới thiệu toán số nghiên cứu liên quan 10 1.1.3 Mơ hình xử lý liệu cho toán phân loại cảm xúc 12 1.1.4 Những thách thức toán phân loại cảm xúc 13 1.2 Hướng tiếp cận giải toàn phân loại cảm xúc dựa vào kỹ thuật học máy 14 1.2.1 Phân loại dựa Naïve Bayes 15 1.2.2 Phân loại dựa máy vec-tơ hỗ trợ (Support Vector Machine) .17 1.3 Kết luận chương .19 CHƯƠNG 2: MƠ HÌNH BÀI TỐN VÀ CÁC BƯỚC TRONG PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 20 2.1 Mơ hình tổng qt tốn 20 2.2 Pha thu thập liệu 22 2.3 Pha tiền xử lý liệu .24 2.4 Pha trích chọn đặc trưng vec-tơ hóa văn .25 2.4.1 N-grams .25 2.4.2 Mơ hình khơng gian vec-tơ (Vector Space Model) 29 2.5 Phân loại sử dụng SVM & Naïve Bayes với Weka 38 2.5.1 Giới thiệu file arff 38 2.5.2 Sử dụng Weka để phân loại SVM Naïve bayes .39 2.6 Kết luận chương .41 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 42 3.1 Thông tin liệu môi trường thực nghiệm 42 3.2 Phát biểu toán thực nghiệm 43 3.3 Kết thử nghiệm 44 3.3.1 Bài toán 1: So sánh mơ hình Unigram VSM phân loại Support Vector Machine 45 3.3.2 Bài toán 2: So sánh mơ hình Unigram VSM phân loại Naïve Bayes 46 3.3.3 Bài toán 3: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram 48 3.3.4 Bài toán 4: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model 50 3.4 Thảo luận, đánh giá, so sánh 51 3.5 Kết luận chương .52 KẾT LUẬN 53 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 56 PHỤ LỤC .58 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt NLP HCI VSM SVM TF TF-IDF Tiếng Anh Natural Language Processing Human Computer Interaction Vector Space Model Tiếng Việt Xử lý ngôn ngữ tự nhiên Tương tác người – máy Mơ hình khơng gian vec-tơ Support Vector Machine Term Frequency Term Frequency–Inverse Document Frequency Máy vec-tơ hỗ trợ Tần suất từ Tần suất từ - tuần suất ngược văn DANH SÁCH BẢNG Hình 1.1: Mơ hình xử lý liệu cho toán phân loại cảm xúc 12 Hình 1.2: Mơ tả siêu phẳng SVM 17 Hình 1.3: Mô tả đường biên SVM .18 Hình 1.4: Mơ tả đường biên SVM .19 Hình 2.1 Mơ hình tổng quát toán 20 Hình 2.2: Dữ liệu thơ trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau crawl lưu trữ vào sở liệu 23 Hình 2.4 Túi từ vựng tạo mơ hình n-grams .28 Hình 2.5 Nhóm vec-tơ khảo sát với mơ hình n-grams 29 Hình 2.6: Minh họa Christian S Perone 30 Hình 2.7 Kết tính tốn TF, IDF với mơ hình VSM 37 Hình 2.8 Kết trích chọn đặc trưng với mơ hình VSM 37 Hình 2.9 Nhóm vec-tơ khảo sát với mơ hình VSM .38 Hình 2.10: Mẫu file arff chuẩn 39 Hình 2.11: Các bước sử dụng Weka để phân loại liệu 40 Hình 2.12: Kết đánh giá mơ hình tốn 41 Hình 3.1: Biểu đồ so sánh mơ hình unigram VSM SVM với k-folds=5 .45 Hình 3.2: Biểu đồ so sánh mơ hình unigram VSM SVM với k-folds=10 46 Hình 3.4: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=5 47 Hình 3.5: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=10 47 Hình 3.6: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với kfolds=5 49 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với kfolds=10 49 Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 50 DANH SÁCH HÌNH VẼ Hình 1.1: Mơ hình xử lý liệu cho toán phân loại cảm xúc 12 Hình 1.2: Mơ tả siêu phẳng SVM 17 Hình 1.3: Mơ tả đường biên SVM .18 Hình 1.4: Mơ tả đường biên SVM .19 Hình 2.1 Mơ hình tổng qt tốn 20 Hình 2.2: Dữ liệu thô trang mp3.zing.vn 23 Hình 2.3: Dữ liệu sau crawl lưu trữ vào sở liệu 23 Hình 2.4 Túi từ vựng tạo mơ hình n-grams .28 Hình 2.5 Nhóm vec-tơ khảo sát với mơ hình n-grams 29 Hình 2.6: Minh họa Christian S Perone 30 Hình 2.7 Kết tính tốn TF, IDF với mơ hình VSM 37 Hình 2.8 Kết trích chọn đặc trưng với mơ hình VSM 37 Hình 2.9 Nhóm vec-tơ khảo sát với mơ hình VSM .38 Hình 2.10: Mẫu file arff chuẩn 39 Hình 2.11: Các bước sử dụng Weka để phân loại liệu 40 Hình 2.12: Kết đánh giá mơ hình tốn 41 Hình 3.1: Biểu đồ so sánh mơ hình unigram VSM SVM với k-folds=5 .45 Hình 3.2: Biểu đồ so sánh mơ hình unigram VSM SVM với k-folds=10 46 Hình 3.4: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=5 47 Hình 3.5: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=10 47 Hình 3.6: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với kfolds=5 49 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với kfolds=10 49 Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 50 43 tổng số bình luận thực tế thuộc lớp F-score độ xác định thông qua Precision Recall (giá trị độ đo cao phân lớp có hiệu phân lớp tốt) Cụ thể: Trong đó:  TP (True Positive): số bình luận phân lớp y việc phân lớp  FP (False Positive): số bình luận phân lớp y việc phân lớp sai  FN (False Negative): số bình luận thuộc lớp y bị gán nhãn vào lớp khác 44 2.3.1 Bài tốn 1: So sánh mơ hình Unigram VSM phân loại Support Vector Machine Bảng 3.2: Kết so sánh unigram với SVM Support Vector Machine Unigram k=5 VSM k=5 Unigram k=10 VSM k=10 Nhạc trẻ 88,28 % 95,28 % 88,34 % 95,28 % Nhạc cách mạng 88,15 % 93,90 % 87,52 % 93,90 % Tất 87,72 % 91,87 % 86,63 % 91,88 % Hình 3.1: Biểu đồ so sánh mơ hình unigram VSM SVM với kfolds=5 45 Hình 3.2: Biểu đồ so sánh mơ hình unigram VSM SVM với kfolds=10 Từ hai biểu đồ cho thấy, mơ hình trích chọn đặc trưng VSM vượt trội hẳn so với mơ hình Unigram phân loại với phân loại SVM Giá trị F-Score cao từ 4-7% Ở lần thực nghiệm thứ với k-folds=5, miền liệu hát nhạc trẻ, mơ hình vec-tơ khơng gian có giá trị F-Score cao tới 7%, đạt 95,28% so với 88,28% mơ hình Unigram Ở lần thực nghiệm thứ k-folds=10, miền liệu hát nhạc trẻ, mơ hình vec-tơ khơng gian lần có giá trị F-Score cao tới 7%, đạt 95,28% so với 88,34% mơ hình Unigram 2.3.2 Bài tốn 2: So sánh mơ hình Unigram VSM phân loại Nạve Bayes Bảng 3.3: Kết so sánh Unigram VSM với Naïve Bayes Naïve Bayes Unigram k=5 VSM k=5 Unigram k=10 VSM k=10 Nhạc trẻ 86,18% 95,28% 86,44% 95,28% Nhạc cách mạng 85,81% 93,90% 86,06% 93,90% Tất 86,19% 91,88% 86,14% 91,88% 46 Hình 3.4: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=5 Hình 3.5: Biểu đồ so sánh mơ hình Unigram VSM Nạve Bayes với k-folds=10 Từ biểu đồ cho thấy, mơ hình trích chọn đặc trưng khơng gian vec-tơ (VSM) có giá trị F-Score cao so với mơ hình Unigram phân loại với phân loại Naïve Bayes 47 Trong lần thử nghiệm với k-folds=5, giá trị F-Score mơ hình khơng gian vec-tơ (VSM) cao từ 8-9% Đối với miền liệu hát nhạc trẻ có độ chênh lệch cao nhất, mơ hình khơng gian vec-tơ cao tới 9%, đạt 95,28% so với 86,18% Unigram Trong lần thử nghiệm với k-folds=10, giá trị F-Score mơ hình trích chọn đặc trưng Unigram giảm nhẹ, giá trị F-Score mơ hình khơng gian vec-tơ cao từ 8-9% Điều cho thấy vượt trội mơ hình khơng gian vec-tơ so với mơ hình Unigram 2.3.3 Bài tốn 3: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram Bảng 3.4: Kết so sánh SVM Naïve Bayes với Unigram Unigram Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 86,18% 88,28% 86,44% 88,34 % Nhạc cách mạng 85,81% 88,16% 86,06% 87,52 % Tất 86,19% 87,72% 86,14% 86,63 % Hình 3.6: Kết so sánh hai phân lớp SVM Nạve Bayes với Unigram với k-folds=5 48 Hình 3.7: Kết so sánh hai phân lớp SVM Naïve Bayes với Unigram với k-folds=10 Từ biểu đồ cho thấy, phân lớp Máy vec-tơ hỗ trợ (SVM) có giá trị F-Score cao so với phân lớp Naïve Bayes sử dụng mơ hình trích chọn đặc trưng Unigram Giá trị F-Score cao từ 1-3% Kết thực nghiệm hai phương pháp kiểm thử k-folds=5 kfolds=10 cho kết giống nhau, Máy vec-tơ hỗ trợ (SVM) có giá trị FScore cao Naïve Bayes từ 1-3% Đối với miền liệu hát nhạc cách mạng có độ chênh lệch cao nhất, SVM cao tới 3%, giá trị F-Score đạt 88,16% so với 85,81% Naïve bayes với k-folds=5 2.3.4 Bài tốn 4: So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Vector Space Model Bảng 3.5: Kết so sánh SVM Naïve Bayes với VSM VSM Naïve Bayes k=5 SVM k=5 Naïve Bayes k=10 SVM k=10 Nhạc trẻ 95,28% 95,28% 95.28% 95.28% Nhạc cách mạng 93,90% 93,90% 93.90% 93.90% 49 Tất 91,88% 91,88% 91.88% 91.88% Hình 3.8: Kết so sánh hai phân lớp SVM Naïve Bayes với VSM với k-folds=5 & k-folds=10 Từ biểu đồ cho thấy, phân lớp SVM ngang với phân lớp Naïve Bayes sử dụng mơ hình trích chọn đặc trưng VSM Các kết với miền nhạc trẻ, nhạc cách mạng, tất cho kết Điều hoàn tồn hợp lý, mơ hình VSM cho kết phân loại ln cảm xúc tích cực hay cảm xúc tiêu cực Vec-tơ đặc trưng mô hình gồm thuộc tính, đó, sử dụng phân lớp SVM hay Nạve Bayes có độ xác Thực nghiệm với hai phương pháp kiểm thử k-folds=5 k-folds=10 cho kết giống 2.4 Thảo luận, đánh giá, so sánh Luận văn thực phân loại cảm xúc người dùng dựa 04 toán thực nghiệm với phương pháp xây dựng vec-tơ đặc trưng khác Unigram VSM, với phân loại khác Naïve bayes SVM 03 miền liệu nhạc trẻ, nhạc cách mạng, tất Luận văn thực thử nghiệm với 02 phương pháp kiểm thử k-folds=5 k-folds=10 Tổng cộng tất 4x3x2=24 thử 50 nghiệm loại Từ kết toán thực nghiệm, luận văn đưa đươc kết luận sau:  Bộ phân lớp SVM tốt Nạve Bayes Trong việc phân loại liệu văn nói chung, phân loại cảm xúc nói riêng, phân lớp SVM tốt Nạve Bayes chút Tất nhiên, kết phụ thuộc vào nhiều yếu tố, cụ thể bước trích chọn đặc trưng ta xây dựng vectơ đặc trưng nào, tùy chọn thực giải thuật với phân loại Weka (với k-folds=5, k-folds=10, v.v.) Trong tốn thực nghiệm “So sánh tính hiệu phân loại SVM Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram” rằng, phân loại SVM tốt Naïve Bayes từ 1-3%  Phương pháp xây dựng vec-tơ đặc trưng theo mơ hình khơng gian vec-tơ (Vector Space Model) có kết tốt hẳn so với Unigram Độ xác phương pháp lên tới 95% (từ 91% - 95%) áp dụng với hai phân loại Naïve Bayes SVM (so với Unigram đạt kết khoảng 85% - 86%) Kết thể rõ hai tốn thực nghiệm “So sánh mơ hình Unigram VSM phân loại Naïve Bayes” “So sánh mơ hình Unigram VSM phân loại Support Vector Machine” Phương pháp VSM tận dụng ưu điểm tính điểm số (score) dựa vào đặc trưng từ vựng xuất nhãn cảm xúc, từ đánh giá từ vựng đặc trưng cho cảm xúc loại bỏ từ vựng khơng mang tính đặc trưng, chất xuất tất nhãn cảm xúc  Đề xuất mơ hình tối ưu cho phân loại cảm xúc người dùng mạng xã hội Từ kết luận trên, luận văn xây dựng mơ hình tương đối tốt tối ưu cho việc phân loại cảm xúc người dùng mạng xã hội áp dụng mơ hình trích chọn đặc trưng Vector Space Model với phân lớp Support Vector Machine 2.5 Kết luận chương 51 Trong chương này, luận văn chi tiết thông tin thử nghiệm đánh giá phương pháp xây dựng vec-tơ đặc trưng, đánh giá phân lớp dựa 04 toán thực nghiệm Đầu vào chương kết chương sau chạy thử nghiệm với ứng dụng Weka Luận văn đưa nhận xét, đánh giá so sánh mô hình, phân lớp, từ đưa mơ hình tốt việc giải toán phân loại cảm xúc người dùng mạng xã hội nêu 52 KẾT LUẬN Để giải toán phân loại cảm xúc người dùng mạng xã hội, luận văn thu thập liệu bình luận người dùng nghe nhạc tiến hành khảo sát, áp dụng số mơ hình xây dựng vec-tơ đặc trưng phân lớp khác để xây dựng nên mơ hình tốt giải toán Cụ thể luận văn đạt số kết sau:  Khảo sát hướng tiếp cận toán phân loại cảm xúc người dùng mạng xã hội Đây toán hay lĩnh vực khai phá quan điểm người dùng Trong hướng tiếp cận này, luận văn nhận thấy có nhiều cách để xây dựng vec-tơ đặc trưng, có nhiều phân lớp tốt nhiều nghiên cứu trước sử dụng Vì luận văn tập trung tiến hành thử nghiệm hướng tiếp cận khác để đưa mô hình tốt cho việc phân loại cảm xúc người dùng  Xây dựng ứng dụng áp dụng mơ hình trích chọn đặc trưng phân loại Luận văn xây dựng ứng dụng thu thập bình luận người dùng nghe nhạc, cụ thể trang mp3.zing.vn thu thập 13645 bình luận thuộc thể loại nhạc trẻ nhạc cách mạng Tuy nhiên sau pha tiền xử lý liệu, luận văn tiến hành loại bỏ giữ lại 1034 bình luận gán nhãn cho bình luận thuộc cảm xúc tích cực hay cảm xúc tiêu cực Bước thực thủ công nên chiếm nhiều thời gian, đòi hỏi kiên trì tỉ mỉ Sau luận văn thực code phương pháp xây dựng vec-tơ đặc trưng unigram mơ hình không gian vec-tơ (Vector Space Model) Kết bước file có định dạng arff để áp dụng hai phân loại phổ viến Naïve Bayes Support Vector Machine sử dụng Weka  Phân tích, đánh giá, so sánh kết việc áp dụng mơ hình trích chọn đặc trưng khác phân loại khác Luận văn tập trung tiến hành thử nghiệm hướng tiếp cận khác với mục đích tìm mơ hình tốt cho việc phân loại cảm xúc người dùng Luận văn tiến hành phân tích, đánh giá, thử nghiệm nhiều 53 lần để so sánh hai mơ hình trích chọn đặc trưng Unigram VSM, hai phân loại Nạve Bayes SVM Đề xuất mơ hình ưu việt trích chọn đặc trưng sử dụng Vector Space Model kết hợp với phân lớp Support Vector Machine kết đạt luận văn Tuy nhiên, bên cạnh vấn đề đạt được, luận văn số vấn đề chưa giải được, chưa tối ưu trình nghiên cứu Cụ thể sau:  Tính khách quan thực gán nhãn cảm xúc thủ công Cơng việc gán nhãn cảm xúc tích cực hay tiêu cực cho 1034 bình luận thực thủ cơng, bước dẫn tới tình trạng thiếu tính khách quan phụ thuộc phần cảm xúc người làm thủ công lúc  Chưa áp dụng giải thuật tách từ tiếng Việt Trong bước tiền xử lý, luận văn tập trung tách từ vựng theo từ chưa tách thành từ ghép có ý nghĩa VD: “Bài hát cảm động” bị tách thành từ “bài”, “hát”, “rất”, “cảm”, “động” riêng lẻ thay từ “bài hát”, “rất”, “cảm động”  Số lượng nhãn cảm xúc hạn chế Luận văn tập trung phân loại theo 02 nhãn “cảm xúc tích cực” “cảm xúc tiêu cực”, chưa phân loại 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi nhiều Luận văn đề xuất hướng phát triển  Kiểm thử độ xác mơ hình Vector Space Model + Support Vector Machine với tập liệu bình luận nhiều nhiều lĩnh vực (Hiện kiểm thử 1034 bình luận miền nhạc trẻ nhạc cách mạng website mp3.zing.vn)  Phân loại cảm xúc theo 06 nhãn vui, buồn, giận dữ, ngạc nhiên, ghét, sợ hãi  Phát triển từ điển đặc trưng cho cảm xúc dựa mơ hình Vector Space Model Mơ hình với việc tính score từ vựng xuất 54 nhãn cảm xúc, từ đánh giá từ vựng đặc trưng cho cảm xúc loại bỏ từ vựng mang tính chất xuất tất nhãn cảm xúc  Phát triển ứng dụng cho phép phát cảm xúc người dùng thông qua mẫu đoạn chat văn (chat text) 55 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] [2] W Gerrod Parrot “Emotions In Social Psychology”, 2001 H Yujin, Z Xiaoling, L L Wang, and Xuelin “A bayes text classification method based on vec-tơspace model” Computer and Digital Engineering, 32:28–30, feb 2004 [3] Pham Huyen-Trang, et al (2011) "A solution for grouping Vietnamese synonym feature words in product reviews." Services Computing Conference (APSCC), 2011 IEEE Asia-Pacific IEEE [4] Vu, Tien-Thanh, et al "A feature-based opinion mining model on product reviews in Vietnamese." Semantic Methods for Knowledge Management and Communication Springer Berlin Heidelberg, 2011 23-33 [10] Taner Danisman, Adil Alpkocak “Feeler: Emotion Classification of Text Using Vector Space Model” In AISB 2008 Convention, Communication, Interaction and Social Intelligence, Vol vol (April 2008) [12] Jason D M Rennie “Improving Multi-class Text Classification with Naive Bayes”, Massachusetts Institute of Technology, (2001) [14] Johan Hovold “Naive Bayes Spam Filtering Using Word-Position-Based Attributes”, Proceedings of the Second Conference on Email and Anti-Spam, (2004) [15] Bo Pang, Lillian Lee “A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts”, Proc of 42nd ACL, pp 271-278 (2004) [16] Yustinus Eko Soelistio and Martinus Raditia Sigit Surendra, “Simple text mining for sentiment analysis of political figure using Naïve Bayes classifier”, The Proceedings of The 7th ICTS, Bali, pp 99-104, (2013) [17] CORTES, C and V VAPNIK, 1995 Support-vec-tơ networks Machine Learning [Cited by 2683] (213.94/year) [18] Singh, Pravesh Kumar, and Mohd Shahid Husain "METHODOLOGICAL STUDY OF OPINION MINING AND SENTIMENT ANALYSIS TECHNIQUES."International Journal on Soft Computing 5.1, 2014 WEBSITE [5] http://en.wikipedia.org/wiki/Emotion, Truy cập ngày 20/03/2015 56 [6] [7] http://sentiwordnet.isti.cnr.it/, Truy cập ngày 20/03/2015 http://www.affective-sciences.org/researchmaterial, Truy cập ngày 20/03/2015 [8] http://www.affectivesciences.org/system/files/webpage/CodeAppB_0.pdf, Truy cập ngày 20/03/2015 [9] http://stackoverflow.com/questions/3656762/n-gram-generation-froma-sentence, Truy cập ngày 20/03/2015 [11] http://en.wikipedia.org/wiki/Emotion_classification, Truy cập ngày 20/03/2015 [13] http://www.cs.ucla.edu/~miodrag/cs259security/sahami98bayesian.pdf, Truy cập ngày 20/03/2015 [19] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-Tre/IWZ9Z088.html, Truy cập ngày 20/03/2015 [20] http://m.mp3.zing.vn/top-100/bai-hat-Nhac-CachMang/IWZ9Z08C.html, Truy cập ngày 20/03/2015 [21] https://code.google.com/p/google-gson/, Truy cập ngày 20/03/2015 57 PHỤ LỤC Phụ lục 01: Code project EmotionClassifications Trong đĩa CD gửi kèm luận văn Phụ lục 02: Kết liệu chạy chương trình với WEKA Trong đĩa CD gửi kèm luận văn ... Bài tốn phân loại cảm xúc người dùng mạng xã hội 1.1.1 Lý phân loại cảm xúc người dùng Ngày nay, với phát triển mạnh mẽ internet… người ta ngồi hàng ngày để đọc báo, nghe nhạc chia sẻ cảm xúc, viết... miền mạng xã hội Do số đặc điểm của ngôn ngữ mạng xã hội, ví dụ hạn chế số ký tự cảm xúc phụ thuộc nhiều vào nội dung người dùng đọc, nghe nên việc phân loại cảm xúc người dung mạng xã hội vấn... QUAN VỀ BÀI TOÁN PHÂN LOẠI CẢM XÚC NGƯỜI DÙNG 10 1.1 Bài toán phân loại cảm xúc người dùng mạng xã hội .10 1.1.1 Lý phân loại cảm xúc người dùng 10 1.1.2 Giới thiệu toán

Ngày đăng: 25/04/2020, 11:44

Từ khóa liên quan

Mục lục

  • 1.1. Bài toán phân loại cảm xúc người dùng trong mạng xã hội

    • 1.1.1. Lý do phân loại cảm xúc người dùng

    • 1.1.2. Giới thiệu bài toán và một số nghiên cứu liên quan

    • 1.1.3. Mô hình xử lý dữ liệu cho bài toán phân loại cảm xúc

    • 1.1.4. Những thách thức trong bài toán phân loại cảm xúc

    • 1.2. Hướng tiếp cận giải quyết bài toàn phân loại cảm xúc dựa vào các kỹ thuật học máy

      • 1.2.1. Phân loại dựa trên Naïve Bayes

      • 1.2.2. Phân loại dựa trên máy vec-tơ hỗ trợ (Support Vector Machine)

      • 1.3. Kết luận chương

      • 2.1. Mô hình tổng quát bài toán

      • 1.4. Pha thu thập dữ liệu

      • 1.5. Pha tiền xử lý dữ liệu

      • 1.6. Pha trích chọn đặc trưng và vec-tơ hóa văn bản

        • 1.6.1. N-grams

        • 1.6.2. Mô hình không gian vec-tơ (Vector Space Model)

        • 1.7. Phân loại sử dụng SVM & Naïve Bayes với Weka

          • 1.7.1. Giới thiệu về file arff

          • 1.7.2. Sử dụng Weka để phân loại SVM và Naïve bayes

          • 1.8. Kết luận chương

          • 2.1. Thông tin dữ liệu và môi trường thực nghiệm

          • 2.2. Phát biểu bài toán thực nghiệm

          • 2.3. Kết quả thử nghiệm

            • 2.3.1. Bài toán 1: So sánh mô hình Unigram và VSM trong bộ phân loại Support Vector Machine

            • 2.3.2. Bài toán 2: So sánh mô hình Unigram và VSM trong bộ phân loại Naïve Bayes

            • 2.3.3. Bài toán 3: So sánh tính hiệu quả của 2 bộ phân loại SVM và Naïve Bayes với phương pháp xây dựng vec-tơ đặc trưng Unigram

Tài liệu cùng người dùng

Tài liệu liên quan