Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt

58 178 2
Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)

1 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Tất số liệu kết luận văn trung thực chưa có cơng bố nghiên cứu khác Tp Hồ Chí Minh, ngày 22 tháng năm 2018 Học viên thực luận văn Lưu Thị Bích Diệp LỜI CẢM ƠN Đề hoàn thành luận văn này, nỗ lực nghiên cứu thân, xin chân thành cảm ơn TS Nguyễn Phương, người hướng dẫn khoa học, định hướng cho đề tài Mặc dù không thể đồng hành cùng thầy hết khóa luận, chỉ bảo, góp ý, động viên thầy nguồn cổ vũ tinh thần để tơi hồn thành đề tài Tơi cũng xin gửi lời cảm ơn đến quý Thầy/Cô Học viện Cơng nghệ Bưu Viễn thơng sở Hồ Chí Minh hết lòng truyền đạt kiến thức thời gian học tập Học viện Cuối cùng, xin cảm ơn đến gia đình, bạn bè đồng nghiệp, người cổ vũ tinh thần tạo điều kiện thuận lợi để tơi hồn thành luận văn Tp Hồ Chí Minh, ngày 22 tháng năm 2018 Học viên thực luận văn Lưu Thị Bích Diệp MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .v DANH SÁCH BẢNG vi DANH SÁCH HÌNH vii CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Giới thiệu chương 1.2 Đặt vấn đề 1.2.1 Mục tiêu .5 1.2.2 Đối tượng nghiên cứu 1.2.3 Phạm vi nghiên cứu 1.3 Kết luận chương CHƯƠNG 2: NGHIÊN CỨU XỬ NGÔN NGỮ TỰ NHIÊN SỬ DỤNG vnTOKENIZER, WORD2VEC SUPPORT VECTOR MACHINE 2.1 Các khái niệm 2.2 Phân loại Máy học 2.3 Tổng quan xử lý ngôn ngữ tự nhiên .10 2.4 Đặc trưng ngôn ngữ tiếng Việt 11 2.5 Công cụ tách từ vnTokenizer 12 2.6 Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec .18 2.7 Cảm xúc người dùng máy hỗ trợ vector (Support Vector Machine) .20 2.7.1 Cảm xúc người dùng (Sentiment) .20 2.7.2 Máy hỗ trợ vector (Support Vector Machine) 21 2.8 Kết luận chương 26 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG GÁN NHÃN CÁC CÂU BÌNH LUẬN TIẾNG VIỆT .27 3.1 Phát biểu toán .27 3.2 Mơ hình ứng dụng xử lý văn tiếng Việt .28 3.3 Các giai đoạn xử lý liệu 29 3.3.1 Giai đoạn thu thập liệu 29 3.3.2 Giai đoạn tách từ sử dụng công cụ vnTokenizer 31 3.3.4 Biểu diễn vector sử dụng công cụ Word2vec 34 3.3.5 Phân loại cảm xúc người dùng sử dụng Máy hỗ trợ vector (Support Vector Machine) .39 3.4 Giao diện người dùng 42 3.5 Nhận xét đánh giá kết 44 3.6 Kết luận chương 45 KẾT LUẬN 46 Kết đạt 46 1.1 Về mặt lý thuyết .46 1.2 Về mặt thực tiễn .46 Hạn chế .46 Hướng phát triển 47 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 48 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt AI SVM W NLP ∏ {xi} P(s) Tiếng Anh Artificial intelligence Support Vector Machine Weight Natural Language Processing Product The set whose elements are xi Probability Tiếng Việt Trí tuệ nhân tạo Máy hỗ trợ vector Trọng số Xử lý ngơn ngữ tự nhiên Tích đại số Tập gồm phần tử xi Xác suất DANH SÁCH BẢNG Bảng 2.1: Bảng thống kê chiều dài số lượng từ đo bằng âm tiết Bảng 3.1: Môi trường thực thực nghiệm Bảng 3.2: Số lượng báo thu thập Bảng 3.3: Kết thu sau giai đoạn tách từ Bảng 1.4: Tỉ lệ gán nhãn xác bằng thuật tốn khác 11 29 30 33 42 DANH SÁCH HÌNH Hình 2.1: Quy trình tách từ theo phương pháp so khớp cực đại Hình 2.2: Biểu đồ biểu diễn mợt cụm từ Hình 2.3: Xây dựng biểu đồ cho cụm từ S1S2…Sn Hình 2.4: Ước tính giá trị Hình 2.5: Biểu diễn từ dạng one-hot-vector Hình 2.6: Vector từ biểu diễn bằng ma trận trọng số Hình 2.7: Các siêu phẳng phân tách hai lớp liệu Hình 2.8: Biểu diễn siêu phẳng lề cực đại cho bợ phân lớp Hình 3.1: Mơ hình ứng dụng xử lý văn Tiếng Việt Hình 3.2: Bài báo website vnexpress.net Hình 3.3: Cấu trúc báo lấy dạng tập tin liệu Hình 3.4: Vòng lặp tách gom 100 tệp tin thành tệp tin Hình 3.5: Mã chương trình gom tệp tin Hình 3.6: Mã chương trình sử dụng cơng vụ vnTokenize Hình 3.7: Quy trình biểu diễn từ thành vector đặc trưng với N=138.437 Hình 3.8: Tìm từ gần với từ “sản phẩm” Hình 3.9: Các bước thực biểu diễn câu thành vector Hình 3.10: Vector biểu diễn bình luận “Tòa ch̉n xác” Hình 3.11: Biểu diễn bình luận gán nhãn dạng vector Hình 3.12: Mã chương trình thực chức biểu diễn câu thành vector Hình 3.13: Huấn luyện kiểm thử gán nhãn liệu Hình 3.14: Các bình luận gán nhãn tiến hành huấn luyện liệu Hình 3.15: Mã chương trình gán nhãn cảm xúc bằng thuật tốn khác Hình 3.16: Các chức ứng dụng thực bằng thẻ HTML Hình 3.17: Câu bình luận gán nhãn cảm xúc Tích cực Hình 3.18: Câu bình luận gán nhãn cảm xúc Tiêu cực Hình 3.19: Chức gán nhãn câu bình luận cho mợt báo 15 15 16 18 19 20 22 24 28 31 31 33 33 34 35 36 37 38 38 39 40 41 41 41 43 43 44 MỞ ĐẦU Ngày nay, dịch vụ xã hội phát triển ngày cao số lượng chất lượng Các nhà cung cấp dịch vụ, sản phẩm cho người sử dụng hướng tới việc thỏa mãn người dùng ở mức cao Vì việc phân tích phản hồi, bình luận, quan điểm người dùng sản phẩm hoặc dịch vụ quan trọng với nhà cung cấp Chính vậy, việc đo lường cảm xúc người tiêu dùng góp phần quan trọng chiến lược quản lý xây dựng thương hiệu Có nhiều doanh nghiệp đầu tư chi phí việc khảo sát lấy ý kiến người sử dụng sản phẩm, dịch vụ thông qua phiếu đánh giá hoặc phiếu lấy ý kiến Sau phiếu đánh giá mang phân loại một cách thủ cơng Việc gây nhiều chi phí nguồn lực công ty, chưa kể đến hạn chế số lượng phiếu đánh giá Mạng xã hội phát triển rộng khắp, thông tin sản phẩm, dịch vụ nhiều người biết đến Các phản hồi cũng cập nhật, chia sẻ liên tục từ người dùng Thông qua doanh nghiệp tổ chức có thể trực tiếp tiếp cận với người dùng mợt cách nhanh chóng xác Vì việc phân tích phản hồi mợt cách tự đợng, nhanh chóng, trực tiếp góp phần tiết kiệm chi phí, nguồn lực cho doanh nghiệp đồng thời góp phần quan trọng việc định hướng xây dựng chiến lược Để có nhìn nợi dung bình luận hoặc phản hồi việc phân tích ngữ nghĩa câu văn, đoạn văn quan trọng, việc hiểu sai có thể ảnh hưởng tới kết bước, định, chiến lược Câu văn hay đoạn văn mợt hình thức thể ngơn ngữ tự nhiên bằng văn Vì việc xử lý ngơn ngữ tự nhiên mợt nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên mợt phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ Có nhiều ứng dụng xử lý ngơn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự đợng,…Để thực ứng dụng mang tính trí tuệ ưu việt, cơng nghệ Machine Learning, dịch tiếng Việt có nghĩa Máy Học, áp dụng một cách linh hoạt Máy học, mợt tập trí tuệ nhân tạo có lịch sử phát triển với bước sơ khai từ năm 1950 nhà bác học Alan Turing khởi sáng, nơi mà thuật tốn máy tính sử dụng để tự học từ liệu thông tin Đến nay, công nghệ Máy học thực lan tỏa rợng khắp đóng mợt vai trò quan trọng phát minh ứng dụng công nghệ đời sống người Máy học áp dụng nhiều ngành công nghiệp làm việc với hàm lượng lớn liệu như: Các dịch vụ tài chính, Chính phủ, chăm sóc sức khỏe, dầu khí, vận tải,…Với mong muốn tiếp cận nghiên cứu sâu lĩnh vực Máy học, em chọn đề tài: “Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử văn tiếng Việt” với hy vọng đóng góp mợt phần cơng sức đưa thuật ngữ Máy học đến gần với người dùng Thuật toán Support Vector Machines–SVM (Máy hỗ trợ Vector) Corters Vapnik giới thiệu vào năm 1995 SVM hiệu để giải tốn với liệu có số chiều lớn vector biểu diễn văn Thuật toán SVM ban đầu chỉ thiết kế để giải toán phân lớp nhị phân tức số lớp hạn chế hai lớp Hiện nay, SVM đánh giá bợ phân lớp xác cho tốn phân lớp văn với tốc đợ phân lớp nhanh hiệu Khoa học kỹ thuật phát triền, khái niệm trí tuệ nhân tạo khơng lạ lẫm với người dùng, cơng trình nghiên cứu, sản phẩm cho đời cải tiến liên tục Về lĩnh vực nghiên cứu liên quan đến ngôn ngữ tiếng Việt như: Nhận dạng giọng nói, chữ viết tay, phân loại cảm xúc người tiêu dùng, …có thể kể mợt số cơng trình nghiên cứu sau: - “Bài toán thêm dấu cho tiếng Việt” Lưu Tuấn Anh Đại học khoa học kĩ thuật Nagaoka Nghiên cứu tác giả nhằm xây dựng một phần mềm thêm dấu cho tiếng Việt dựa vào từ âm tiết Tác giả đề xuất phương pháp tiến hành thêm dấu ở âm tiết mợt cách đợc lập Đợ xác phương pháp lên đến 94.7% Luận văn “Xây dựng mô hình đối thoại cho Tiếng Việt miền mơ dựa vào phương pháp học chuỗi liên tiếp – Nhữ Báo Vũ, Đại học Quốc gia Hà Nội, trường Đại học Công Nghệ” Luận văn xây dựng một mô hình đối thoại sử dụng mạng nơ-ron tái phát sẽ đọc chuỗi đầu vào tuần tự thời điểm, dự đốn mợt chuỗi đầu ra, cũng mợt dấu hiệu một thời điểm “A hybrid approach to word segmentation of VietNamese Texts - Lê Hồng Phương, Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Đại học quốc gia Hà Nợi ”, thuật tốn trình bày phương pháp tách từ tiếng Việt với đợ xác 97% Nghiên cứu Lê Hồng Phương cợng góp phần đắc lực vào lĩnh vực nghiên cứu liên quan đễn xử lý ngôn ngữ văn tiếng Việt “Ứng dụng xử ngôn ngữ tự nhiên dịch máy -Tiến sĩ Nguyễn Chí Hiếu, khoa Công nghệ Thông tin, trường Đại học Công nghiệp Tp HCM” Bài báo đề xuất mợt mơ hình nhận biết rút trích tự đợng cụm danh từ song ngữ từ liệu song ngữ Anh-Việt nhiều cơng trình nghiên cứu khác có liên quan tới vấn đề xử lý ngơn ngữ tự nhiên Tiếng Việt Tập trung vào vấn để xử lý văn Tiếng Việt sử dụng ứng dụng máy học, luận văn trình bày theo bố cục chương sau: Chương 1: Tổng quan về máy học: Chương sẽ trình bày tởng quan lịch sử phát triển trí tuệ nhân tạo, tính cấp thiết đề tài chi tiết mục tiêu cần đạt chương trình thực nghiệm Chương 2: Nghiên cứu xử lý ngôn ngữ tự nhiên sử dụng vnTokenizer, word2vec support vector machine: Nợi dung chương trình bày khái niệm liên quan đến lĩnh vực máy học, khái niệm thường nhắc đến lĩnh vực xử lý ngôn ngữ tự nhiên phân loại máy học sâu vào nghiên cứu đặc điểm ngơn ngữ tiếng Việt, thuật tốn ứng dụng vnTokenizer, word2vec Support Vevtor Machine Chương 3: Xây dựng ứng dụng xử lý văn bản tiếng Việt: Thực xây dựng ứng dụng xử lý văn tiếng Việt vào việc phân tích phân loại cảm xúc người dùng Sau chạy thực nghiệm đưa kết luận đợ xác thực nghiệm 37 Word2vec tiến hành giảm số chiều one-hot vector bằng cách lấy tích phép nhân ma trận one-hot vector với ma trận trọng số có kích thước [N x 200] [1 x N] x [N x 200] = [1 x 200] Kết phép nhân thu ma trận với kích thước: [1 x 200] Trong giá trị ma trận trọng số [N x 200] tìm bằng cách sử dụng mạng nơron có kích thước cửa sở số node lớp ẩn 200 Bộ từ điển vector từ kết thu giai đoạn biểu diễn từ thành vector Với bộ từ điển vector có thể sử dụng cho nhiều ứng dụng khác ví dụ việc tìm từ gần bằng phương pháp so sánh vector Hình 3.8: Tìm từ gần với từ “sản phẩm” 3.3.4.2 Biểu diễn câu bình luận thành các vector đặc trưng - Input (đầu vào): Các câu bình luận sau báo pháp luật báo - điện từ vnexpress.net Output (đầu ra): Bộ vector biểu diễn câu bình luận Các câu bình luận biểu diễn thành vector đặc trưng bằng cách tính vector trung bình từ có câu bình luận dựa bợ từ điển vector từ thu ở bước 3.3.4.1 trình bày luận văn Các bước thực giai đoạn biểu diễn câu bình luận thành vector đặc trưng mơ hình hóa bằng hình bên dưới: 38 Hình 3.9: Các bước thực biểu diễn câu thành vector đặc trưng Gần 2430 câu bình luận báo pháp luật trang báo điện tử vnexpress.net thu thập Các câu bình luận gán nhãn bởi thủ cơng vowis loại nhãn: Tích cực tiêu cực Trên sở bợ vector từ, câu bình luận gán nhãn tiền xử lý liệu sẽ biểu diễn dạng vector bằng cách tính trung bình cợng vector xuất câu bình luận Vector câu bình luận cũng có số chiều [1 x 200] 39 Hình 3.10: Vector biểu diễn bình luận “Tòa chuẩn xác” Hình 3.11: Biểu diễn các bình luận đã được gán nhãn dạng vector Kết thu bộ vector biểu diễn câu bình luận thành vector đặc trưng Để giảm thiểu việc sử dụng bộ nhớ RAM, thực nghiệm thực tách nhỏ tập hợp văn đưa câu vào mơ hình với hàm Interater (_iter_) Bản chất hàm có tác dụng mợt vòng lặp khơng thực load tồn bợ văn lên, giảm thiểu việc sử dụng RAM tối đa 40 Hình 3.12: Mã chương trình thực chức biểu diễn câu thành vector Ngoài ra, nội dung báo làm liệu đầu vào với từ viết tắt có diễn giải, người dùng nhập bình luận có chứa từ viết tắt chương trình thực nghiệm sẽ hiểu nghĩa từ viết tắt Ví dụ: Trong báo đầu vào có từ “THCS” từ viết tắt từ “Trung học sở” Cách viết một báo thường là: “trung học sở (THCS)” Khi người dùng nhập bình luận có từ “THCS”, chương trình thực nghiệm tự động hiểu từ “THCS” viết tắt cụm từ “Trung học sở” 3.3.5 Phân loại cảm xúc người dùng sử dụng Máy hỗ trợ vector (Support Vector Machine) Thực huấn luyện liệu bằng công tụ SVM với đầu vào bộ vector đặc trưng câu bình luận thu ở bước 3.3.4.2 trình bầy luận văn - Input (đầu vào): Các câu bình luận chưa gán nhãn Output (đầu ra): Các câu bình luận gán nhãn Quá trình huấn luyện liệu kiểm thử chương trình mơ hình hóa bằng sau: Bài luận sử dụng SVM tuyến tính để phân loại câu bình luận với tham số : 'C': 0.1, 'kernel': 'linear' 41 Hình 3.13: Huấn luyện kiểm thử gán nhãn dữ liệu Bợ vector gần 2430 câu bình luận chuyên mục pháp luật trang báo điện tử vnexpress sử dụng làm liệu huyến luyện kiểm thử giai đoạn gán nhán phân loại cảm xúc người dùng Chương trình thực nghiệm thực huấn luyện kiểm thử bằng phương pháp xác thực chéo (cross validation) Các câu bình luận sẽ chia làm 10 phần liệu Thực tuần tự mang phần liệu gán nhãn thủ công làm liệu huấn luyện phần lại sử dụng liệu kiểm thử Dữ liệu test gán nhãn dựa vào phương pháp so sánh vector Vector liệu kiểm thử gần với vector gán nhãn nhãn vector sẽ gán cho vector liệu kiểm thử Do có thể xếp liệu test vào phân lớp tương ứng với nhãn gán Giai đoạn kiểm thử dừng lại phần liệu đầu vào kiểm thử mợt lần Tỷ lệ gãn nhãn xác thuật tồn tính bằng cách lấy trung bình tỷ lệ gán nhãn xác lần kiểm thử 42 Hình 3.14: Các bình luận được gán nhãn tiến hành huấn luyện dữ liệu Ngoài phương pháp phân loại cảm xúc người dùng bằng SVM, thực nghiệm chạy thực nghiệm phân loại cảm xúc với thuật toán khác như: MLP Classifier, Decision Tree, Random Forest, KNN Hình 3.15: Mã chương trình gán nhãn cảm xúc bằng các thuật toán khác 43 Tỉ lệ xác nhận sau thực gán nhãn bằng phương pháp khác dựa cùng một tập liệu thu thập được: Bảng 2.4: Tỉ lệ gán nhãn chính xác bằng các thuật toán khác MLP Classifier Decision Tree 74% 65% Random Forest KNN 73% 77% SVM 75% Tuy nhiên, luận định lựa chọn thuật toán SVM để thực thực nghiệm tỉ lệ xác SVM ởn định 3.4 Giao diện người dùng Giao diện người dùng thể chức chính: - Gán nhãn liệu cho cầu bình luận bất kỳ nhập từ người dùng Gán nhãn tính tỉ lệ cầu bình luận mợt báo pháp luật trang vnexpress bằng cách nhập địa chỉ báo điện tử Giao diện người dùng thiết kế bằng ngôn ngữ HTML chạy bằng trình duyệt web Hình 3.16: Các chức ứng dụng được thực bằng các thẻ HTML Giao diện người dùng có hai chức chính: 44 - Chức thứ nhất: Phân loại (gán nhãn) cảm xúc cho câu bình luận nhập trực tiếp ứng dụng Sau nhập câu bình luận, người dùng chọn chức “Lấy kết quả” để xem nhãn cảm xúc gán cho câu bình luận Để đợ xác việc gán nhãn cảm xúc cao, câu bình luận nhập vào nên có đợ dài không 20 từ Hình 3.17: Câu bình luận được gán nhãn cảm xúc Tích cực Hình 3.18: Câu bình luận được gán nhãn cảm xúc Tiêu cực - Chức thứ hai: Nhập địa chỉ báo pháp luật trang báo điện tử vnexpress.net chọn chức “lấy kết quả” để xem kết phân tích Kết thể nhãn cảm xúc gán cho câu bình luận báo tỉ lệ nhãn cảm xúc gán 45 Hình 3.19: Chức gán nhãn các câu bình luận cho mợt báo Người dùng có thể cùng lúc sử dụng hai chức ứng dụng 3.5 Nhận xét đánh giá kết quả Qua trình thực nghiệm, kết ghi nhận tỷ lệ phân loại (gán nhãn) xác ~75% Các nguyên nhân ảnh hưởng tới đợ xác thực nghiệm có thể kể đến như: - Số lượng bình luận gán nhãn ít, khơng phải báo cũng có bình luận, số lượng bình luận có nợi dung trùng nhiều Ví dụ - bình luận “May quá, em đủ 18 t̉i” lặp lại nhiều lần Q trình gán nhãn bình luận thực thủ cơng bởi người nên kết việc gán nhãn bị ảnh hưởng bởi cảm xúc, quan điểm người - gán nhãn thời điểm gán nhãn khác Ngoài ra, điểm hạn chế luận chưa thể áp dụng cho tồn bợ loại văn bản, bước làm (loại bỏ nhiễu liệu), chuẩn hóa từ (chuẩn hóa dạng ký tự viết hoa, khơng viết hoa, khác font, từ khơng có dấu, từ viết tắt, từ nóng, …) Đầu vào thực nghiệm báo chuẩn hóa bởi quan báo chí 46 3.6 Kết luận chương Chương chương quan trọng luận, chương mô tả chi tiết bước giải vấn đề toán xử lý câu bình luận báo pháp luật trang vnexpress.net để phân loại cảm xúc người đọc thành hai lớp: Tiêu cực tích cực Mỗi bước xử lý chương trình thực nghiệm đóng góp mợt phần quan trọng việc làm rõ vấn đề tốn ảnh hưởng đến đợ xác kết thực nghiệm 47 KẾT LUẬN Kết quả đạt được 1.1 Về mặt lý thuyết Luận văn tìm hiểu kiến thức trí tuệ nhân tạo, đặc biệt lĩnh vực máy học với thuật tốn phân lớp SVM Ngồi luận văn tìm hiểu mợt số cơng cụ liên quan đến vấn đề xử lý ngơn ngữ tiếng Việt vnTokenize, công cụ nổi tiếng phổ biến cho vấn đề xử lý ngơn ngữ tiếng Việt Tóm tắt đặc trưng ngôn ngữ tiếng Việt Vấn đề phân tích cảm xúc người bình luận vấn đề trú trọng với tất ngành xã hội, thời đại công nghệ 1.2 Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật xây dựng ứng dụng xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng Việc kết hợp lý thuyết xử lý câu bình luận phân loại cảm xúc người dùng giúp giảm chi phí tài cũng nguồn lực cho chương trình khảo sát Đưa kết đánh giá tương đối xác thời gian ngắn, đáp ứng nhu cầu ngành nghề, đặc biệt ngành nghề kinh doanh, giải trí Hạn chế Giao diện người sử dụng đơn giản Lượng liệu bình luận gán nhãn thủ cơng chưa nhiều, ảnh hưởng đến tỷ lệ xác thực nghiệm Phần xử lý câu bình luận chưa linh hoạt loại văn bản, thực nghiệm chỉ thực xử lý văn tiếng Việt báo điện tử chuẩn hóa bởi quan báo chí Chức phân tích báo chưa áp dụng cho báo điện tử trang báo khác Đợ xác việc phân loại câu bình luận phụ tḥc vào đợ dài câu bình luận Tỷ lệ xác chương trình thực nghiệm cao với câu bình luận có đợ dài 20 từ Với câu có đợ dài 20 từ, vector biểu 48 diễn câu bình luận có thể rơi vào vùng liệu mà SVM chưa huấn luyện nên có thể làm giảm tỷ lệ xác chương trình thực nghiệm Hướng phát triển Xây dựng giao diện thân thiện, trực quan Có thể thực xử lý loại văn tiếng Việt, bao gồm văn chưa chuẩn hóa Thu thập gán nhãn số lượng lớn bình luận làm tăng tỉ lệ xác ứng dụng Mở rợng vấn đề phân loại bình luận ở lĩnh vực khác đời sống Thực phân loại cảm xúc bình luận trực tuyến cho tất báo điện tử bao gồm câu bình luận có đợ dài 20 từ 49 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] PGS.TS Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng nueron nhân tạo” [2] Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “Xử ngơn ngữ tự nhiên tiếng Việt” [3] Hồng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học– Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 [5] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự động với mô hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 [6] IlyaSutskever, OriolVinyals, QuocV Le, “Sequence to Sequence Learning with Neural Networks”, 14/12/2014 [7] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N.Dauphin, “Convolutional Sequence to Sequence Learning” 08/05/2017 [8] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] https://www.linkedin.com/pulse/m%C3%A1y-h%E1%BB%8Dcmachine-learning-v%C3%A0-c%C3%A1c-m%E1%BB%91c-ph%C3%A1ttri%E1%BB%83n-minh-giang-paul-, truy cập ngày 09/10/2017 [10] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguongoc-va-mot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 09/10/2017 [11] https://machinelearningcoban.com/2016/12/26/introduce/, truy cập ngày 20/11/2017 [12] http://www.brandsvietnam.com/congdong/topic/1412-Ven-man-bimat-cong-nghe-phan-tich-sentiment-cam-xuc-cua-cac-Social-Listening-Tool, truy cập ngày 20/12/2017 50 [13] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon- goc-va-mot-so-ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 20/12/2017 [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/nlpla-gi, truy cập ngày 20/12/2017 [15] https://arxiv.org/abs/1409.3215 [16] http://khoahoc.tv/tri-tue-nhan-tao-la-gi-ai-artificial-intelligence-la-gi80106, truy cập ngày 20/12/2017 [17] https://techtalk.vn/tat-tan-tat-moi-kien-thuc-co-ban-ve-machinelearning.html, truy cập ngày 25/12/2017 [18] https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p1GrLZDbXw5k0, truy cập ngày 27/12/2017 [19] https://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng %C3%B4n_ng%E1%BB%AF_t%E1%BB%B1_nhi%C3%AAn, truy cập ngày 27/12/2017 [20] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skipgram-model/ , truy cập ngày 20/1/2018 [21] https://quyv.wordpress.com/2016/08/24/word2vec-the-amazingpower-of-word-vectors/, truy cập ngày 20/1/2018 [22] http://buzzmetrics.com/cac-social-listening-tool-do-luong-sentimentnhu-the-nao-2/, truy cập ngày 25/1/2018 [23] http://vnuf.edu.vn/documents/454250/1803845/17.Oanh.pdf, truy cập ngày 28/1/2018 [24] https://www.slideshare.net/ThmTrn9/support-vector-machines75854390, truy cập ngày 28/1/2018 [25] https://machinelearningcoban.com/2016/12/27/categories/ ... nghiên cứu sâu lĩnh vực Máy học, em chọn đề tài: Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt với hy vọng đóng góp mợt phần cơng sức đưa thuật ngữ Máy học đến gần với người... mợt cách nhanh chóng, rõ ràng, luận thực đề tài Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt Mục tiêu chung luận văn: Đề xuất mơ hình phân loại câu bình luận, nhận... ngữ Anh -Việt Và nhiều cơng trình nghiên cứu khác có liên quan tới vấn đề xử lý ngôn ngữ tự nhiên Tiếng Việt Tập trung vào vấn để xử lý văn Tiếng Việt sử dụng ứng dụng máy học, luận văn trình

Ngày đăng: 24/08/2018, 16:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan