Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (tt)

Thông tin tài liệu

Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (Luận văn thạc sĩ)

i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG LƯU THỊ BÍCH DIỆP NGHIÊN CỨU ỨNG DỤNG MÁY HỌC VÀ ĐỀ XUẤT ỨNG DỤNG XỬ LÝ VĂN BẢN TIẾNG VIỆT Chuyên nghành: Mã số: Hệ thống thơng tin 84.80.104 TĨM TẮT LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH - 2018 ii Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG (Ghi rõ học hàm, học vị) Phản biện 1: …………………………… Phản biện 2: ……………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Có nhiều doanh nghiệp đầu tư chi phí việc khảo sát lấy ý kiến người sử dụng sản phẩm, dịch vụ thông qua phiếu đánh giá phiếu lấy ý kiến Sau phiếu đánh giá mang phân loại cách thủ cơng Việc gây nhiều chi phí nguồn lực công ty, chưa kể đến hạn chế số lượng phiếu đánh giá Để có nhìn nội dung bình luận phản hồi việc phân tích ngữ nghĩa câu văn, đoạn văn quan trọng, việc hiểu sai ảnh hưởng tới kết bước, định, chiến lược Câu văn hay đoạn văn hình thức thể ngơn ngữ tự nhiên văn Vì việc xử lý ngôn ngữ tự nhiên nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ Có nhiều ứng dụng xử lý ngôn ngữ tự nhiên như: Nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động,…Để thực ứng dụng mang tính trí tuệ ưu việt, cơng nghệ Machine Learning, dịch tiếng Việt có nghĩa Máy Học, áp dụng cách linh hoạt Máy học, tập trí tuệ nhân tạo có lịch sử phát triển với bước sơ khai từ năm 1950 nhà bác học Alan Turing khởi sáng, nơi mà thuật tốn máy tính sử dụng để tự học từ liệu thông tin Đến nay, công nghệ Máy học thực lan tỏa rộng khắp đóng vai trò quan trọng phát minh ứng dụng công nghệ đời sống người Máy học áp dụng nhiều ngành công nghiệp làm việc với hàm lượng lớn liệu như: Các dịch vụ tài chính, Chính phủ, chăm sóc sức khỏe, dầu khí, vận tải,…Với mong muốn tiếp cận nghiên cứu sâu lĩnh vực Máy học, em chọn đề tài: “Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt” với hy vọng đóng góp phần công sức đưa thuật ngữ Máy học đến gần với người dùng Tập trung vào vấn để xử lý văn Tiếng Việt sử dụng ứng dụng máy học, luận văn trình bày theo bố cục chương sau: Chương 1: Tổng quan máy học: Chương trình bày tổng quan lịch sử phát triển trí tuệ nhân tạo, tính cấp thiết đề tài chi tiết mục tiêu cần đạt chương trình thực nghiệm Chương 2: Nghiên cứu xử lý ngôn ngữ tự nhiên sử dụng vnTokenizer, word2vec support vector machine: Nội dung chương trình bày khái niệm liên quan đến lĩnh vực máy học, khái niệm thường nhắc đến lĩnh vực xử lý ngôn ngữ tự nhiên phân loại máy học sâu vào nghiên cứu đặc điểm ngơn ngữ tiếng Việt, thuật tốn ứng dụng vnTokenizer, word2vec Support Vevtor Machine 2 Chương 3: Xây dựng ứng dụng xử lý văn tiếng Việt: Thực xây dựng ứng dụng xử lý văn tiếng Việt vào việc phân tích phân loại cảm xúc người dùng Sau chạy thực nghiệm đưa kết luận độ xác thực nghiệm 3 CHƯƠNG 1: GIỚI THIỆU CHUNG Mục tiêu Với phát triển mạnh mẽ mạng xã hội, diễn đàn, báo chí, quan doanh nghiệp tiếp cận với phản hồi khách hàng sản phẩm họ cách nhanh chóng dễ dàng Thay trước đây, quan doanh nghiệp phải thực lấy ý kiến người tiêu dùng khảo sát ý kiến giấy Nhằm giúp quan, doanh nghiệp tổng hợp ý kiến đánh giá cách nhanh chóng, rõ ràng, luận thực đề tài “Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt” Mục tiêu chung luận văn: Đề xuất mô hình phân loại câu bình luận, nhận xét, phản hồi người dùng sản phầm hay dịch vụ Mục tiêu cụ thể phân loại câu bình luận thành nhóm: Tích cực tiêu cực: - Gán nhãn câu bình luận nhập vào từ người dùng - Gán nhãn hiển thị tỉ lệ nhóm bình luận sau báo, diễn đàn Đối tượng nghiên cứu Đề tài luận văn thực dựa thuật toán xử lý ngơn ngữ tự nhiên thuật tốn máy học Phạm vi nghiên cứu Chương trình thực nghiệm luận văn thực phạm vi nghiên cứu ứng dụng xử lý văn tiếng Việt 4 CHƯƠNG 2: NGHIÊN CỨU XỬ LÝ NGÔN NGỮ TỰ NHIÊN SỬ DỤNG vnTOKENIZER, WORD2VEC VÀ SUPPORT VECTOR MACHINE - Các khái niệm Trí tuệ nhân tạo: Trên giới có nhiều định nghĩa khác trí tuệ nhân tạo hay gọi AI (Artificial Intelligence) [10]  Theo Wikipedia, trí tuệ nhân tạo (Artificial Intelligence - viết tắt AI) trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo  Bellman (1978) định nghĩa: Trí tuệ nhân tạo tự động hoá hoạt động phù hợp với suy nghĩ người, chẳng hạn hoạt động định, giải toán,…  Rich Knight (1991) cho rằng: Trí tuệ nhân tạo khoa học nghiên cứu xem làm để máy tính thực cơng việc mà người làm tốt máy tính - Máy học (Machine Learning): Máy học lĩnh vực khoa học máy tính phát triển từ nghiên cứu nhận dạng khuôn mẫu học thuyết tính tốn trí thơng minh nhân tạo Theo Arthur Samuel (1959): Máy học ngành học cung cấp cho máy tính khả học hỏi mà khơng cần lập trình cách rõ ràng - Xử lý ngôn ngữ tự nhiên (NLP): Là nhánh Trí tuệ nhân tạo, tập trung vào việc nghiên cứu tương tác máy tính ngơn ngữ tự nhiên người [14] Mục tiêu lĩnh vực giúp máy tính hiểu thực hiệu nhiệm vụ liên quan đến ngôn ngữ người như: Tương tác người máy, cải thiện hiệu giao tiếp người với người, đơn giản nâng cao hiệu xử lý văn lời nói Phân loại Máy học Có hai cách phổ biến phân nhóm thuật toán Machine learning: Dựa phương thức học dựa chức thuật toán [25]  Phân loại máy học dựa phương thức học: - Học có giám sát (Supervised Learning): Là kĩ thuật học máy để học tập từ tập liệu gán nhãn cho trước Tập liệu cho trước chứa nhiều liệu Mỗi liệu có cấu trúc theo cặp {x, y} với x xem liệu thô (raw data) y nhãn liệu Nhiệm vụ học có giám sát dự đoán đầu mong muốn dựa vào giá trị đầu vào - Học không giám sát (Unsupervised learning): Là kĩ thuật máy học nhằm tìm mơ hình hay cấu trúc bị ẩn tập liệu không gán nhãn cho trước.Học không giám sát khác với Học có giám sát xác định trước đầu từ tập liệu huấn luyện Tùy thuộc vào tập huấn luyện kết đầu khác - Học bán giám sát (semi-supervised learning): Là lớp kỹ thuật máy học, sử dụng liệu gán nhãn chưa gán nhãn để huấn luyện - điển hình lượng nhỏ liệu có gán nhãn với lượng lớn liệu chưa gán nhãn Học nửa giám sát đứng học khơng giám sát (khơng có liệu có nhãn nào) có giám sát (toàn liệu gán nhãn)  Phân loại máy học dựa chức năng: Hướng nghiên cứu Máy học có nhiều thuật tốn chia theo chức thực khác Luận văn xin liệt kê số thuật toán phân loại sau: - Thuật toán hồi quy: Linear Regression, Logistic Regression, Stepwise Regression - Thuật toán phân loại: Linear Classifier, Support Vector Machine (SVM), Kernel SVM, Sparse Representation-based classification (SRC) - Thuật toán dựa cá thể: k-Nearest Neighbor (kNN), Learning Vector Quantization (LVQ) - Thuật tốn chuẩn hóa: Ridge Regression, Least Absolute Shrinkage and Selection Operator (LASSO), Least-Angle Regression (LARS) - Thuật toán Bayesian: Naive Bayes, Gaussian Naive Bayes - Thuật tốn phân nhóm: k-Means clustering, k-Medians, Expectation Maximization (EM) - Thuật toán mạng nơ-ron nhân tạo: Perceptron, Softmax Regression, Multi-layer Perceptron, Back-Propagation - Thuật tốn giảm kích thước: Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) - Thuật toán đồng bộ: Boosting, AdaBoost, Random Forest Tổng quan xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên có dạng chữ viết âm (tiếng nói) Ngơn ngữ dân tộc, quốc gia lại khác bao gồm cách viết cách phát âm Xử lý ngơn ngữ xử lý thơng tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi) gồm có liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá cơng ty Oracle, có đến 80% liệu khơng có cấu trúc lượng liệu lồi người có Xử lý ngơn ngữ kĩ thuật quan trọng nhằm giúp máy tính hiểu ngơn ngữ người, qua hướng dẫn máy tính thực giúp đỡ người cơng việc có liên quan đến ngơn ngữ như: dịch thuật, phân tích liệu văn bản, nhận dạng tiếng nói, tìm kiếm thơng tin, Đặc trưng ngôn ngữ tiếng Việt Trước sâu vào tìm hiểu đặc trưng ngơn ngữ tiếng Việt, luận xin giới thiệu định nghĩa sau làm ví dụ định nghĩa từ: “Từ đơn vị nhỏ có nghĩa, có kết cấu vỏ ngữ âm bền vững, hồn chỉnh, có chức gọi tên, vận dụng độc lập, tái tự lời nói để tạo câu” Theo nghiên cứu tổng hợp Vietnam Lexicography Center, Tiếng Việt có khoảng 40.181 từ, số âm tiết 7.729 âm tiết Trong có 81.55% âm tiết đồng thời từ đơn, 70.72% từ ghép có âm tiết, 13.59% từ ghép có 3, âm tiết, 1.04% từ ghép có từ âm tiết trở lên Tiếng Việt có phương thức cấu tạo sau [4]: Từ đơn: Từ đơn, hay gọi từ có âm tiết, từ cấu tạo từ nhất, ví dụ: Tơi, bạn, hoa, quả, … Từ ghép: Từ ghép từ tạo lên từ hai nhiều hai từ Giữa từ có mối quan hệ nghĩa với nhau, ta có loại từ ghép khác - Từ ghép đẳng lập: Các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau, ví dụ: đứng, ăn nói, - Từ ghép phụ: Các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nghĩa Thành phần phụ có vai trò làm chun biệt hóa, tạo sắc thái cho thành phần chính: Ví dụ: hoa hồng, đường sắt, áo xanh,… Từ láy: Một từ coi từ láy yếu tố cấu tạo nên có thành phần ngữ âm lặp lại, ví dụ: long lanh, lung linh … Độ dài từ láy thay đổi từ tiếng đến tiếng Nhưng tiếng Việt đa số từ láy hai tiếng Ngoài ra, văn có thành phần sau: - Thành ngữ (cao chạy xa bay, tránh vỏ dưa gặp vỏ dừa…) - Quán ngữ (nói tóm lại, đáng ý là, mặt khác thì…) - Tên riêng (người, địa danh, tổ chức) - Các dạng ngày – tháng – năm - Các dạng số – chữ số – kí hiệu - Dấu câu, dấu ngoặc - Từ tiếng nước ngồi - Chữ viết tắt Cơng cụ tách từ vnTokenizer Trong tiếng Việt, dấu cách (khoảng trắng) không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với Để thấy tầm quan trọng việc tách từ, ta xét ví dụ sau: Ví dụ 1: Từ “Đất nước” tạo từ âm tiết “Đất” “Nước”, âm tiết có nghĩa riêng đứng độc lập, ghép lại mang nghĩa khác Ví dụ 2: "Xồi phun thuốc sâu khơng ăn." tách từ sau, với ý nghĩa hoàn toàn khác nhau: Xoài / phun thuốc / sâu / khơng / ăn Xồi / phun / thuốc sâu / không / ăn vnTokenizer công vụ tách từ Tiếng Việt nhóm tác giả Lê Hồng Phương, Nguyễn Thị Minh Huyền, Vũ Xuân Lương phát triển dựa phương pháp so khớp cực đại (Maximum Matching) với tập liệu sử dụng bảng âm tiết tiếng Việt từ điển từ vựng tiếng Việt với giả thiết: Những từ dài thường có độ xác cao từ ngắn Phiên viết từ năm 2001 Quy trình thực tách từ theo phương pháp so khớp cực đại sau: Hình 2.1: Quy trình tách từ theo phương pháp so khớp cực đại Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec Đối với xử lý ngôn ngữ tự nhiên, việc biểu diễn từ dạng vector đóng vai trò quan trọng Giai đoạn giúp ích nhiều việc tìm từ gần nghĩa, trái nghĩa, mơ câu, chí tìm câu có nghĩa tương đồng Word2vec phương pháp đơn giản dễ hiểu 8 Một cách đơn giản để biểu diễn từ vector dùng one-hot vector Trong đó, vector có độ dài với số từ từ điển, vector có phần tử khác 0, 1, vị trí tương ứng với vị trí từ từ điển Ví dụ: Nếu từ điển có số lượng từ, từ “Hoa”, “hồng” có số thứ tự 3, từ diển, vector biểu diễn hai từ theo cách dùng one-hot vecotor là: Hình 2.5: Biểu diễn từ dạng one-hot vector Word2vec giúp biến từ dạng one-hot vector thành vector có số chiều nhỏ nhiều (300 đến 1000) Word2vec biểu diễn từ dạng phân bố quan hệ với từ lại Mỗi từ biểu diễn vector có phần tử mang giá trị phân bố quan hệ từ từ khác từ điển Khi đó, đầu vào one-hot vector đại diện cho từ đầu vào đầu one-hot vector đại diện cho từ đầu ra, vector đầu thực phân bố xác suất (tức là, loạt giá trị cách dấu phẩy, one-hot vector chiều) Cảm xúc người dùng (Sentiment) Sentiment hiểu theo nghĩa tiếng Việt “cảm xúc người dùng” Việc phân tích cảm xúc nói cách dễ hiểu lắng nghe thấu hiểu nói thương hiệu, sản phẩm, chủ đề … phương tiện truyền thơng xã hội nói nào, tốt hay xấu, tốt mặt nào, xấu mặt Như việc phân tích cảm xúc chia thành Tích cực, Tiêu cực Sự tương quan số lượng loại thảo luận nói lên thái độ chung người dùng thương hiệu, sản phẩm… Máy hỗ trợ vector (Support Vector Machine) Các vector đặc trưng câu bình luận gán nhãn tiêu cực tích cực dùng làm liệu huấn luyện cho Support vector machine (SVM), qua thu hai lớp liệu tương ứng với loại nhãn: Tiêu cực, tích cực SVM hiệu để giải toán liệu có số chiều lớn, giải vấn đề overfitting tốt (dữ liệu có nhiễu tách rời nhóm liệu huấn luyện q ít) Ngồi SVM phương pháp phân lớp nhanh 9 Đặt vấn đề toán [24]: Xác định xem điểm liệu thuộc lớp Mỗi điểm liệu biểu diễn dạng vector p-chiều, muốn biết liệu chia tách hai lớp liệu siêu phẳng p−1 chiều Đây gọi phân loại tuyến tính Có nhiều siêu phẳng phân loại liệu Một lựa chọn hợp lý chúng siêu phẳng có lề lớn hai lớp Hình 2.7: Các siêu phẳng phân tách hai lớp liệu Theo hình minh họa, siêu phẳng H3 không chia tách hai lớp liệu, siêu phẳng H1 phân tách hai lớp với lề nhỏ siêu phẳng H2 phân tách hai lớp với lề cực đại (khoảng cách lớn từ siêu phẳng đến điểm lân cận hai lớp), lề lớn sai số tổng quát hóa phân lớp tốt Hình 2.8: Biểu diễn siêu phẳng lề cực đại cho phân lớp SVM lớp 10 CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG GÁN NHÃN CÁC CÂU BÌNH LUẬN TIẾNG VIỆT Phát biểu tốn u cầu hệ thống: Sử dụng thuật toán SVM gán nhãn, phân loại câu bình luận sau báo pháp luật trang báo điện tử vnexpress.vn Kiến trúc hệ thống: chức - Gán nhãn câu bình luận nhập vào từ người dùng - Gán nhãn hiển thị tỉ lệ nhóm bình luận sau báo pháp luật trang báo điện tử vnexpress.vn Tiêu chí đánh giá kết quả: Số lượng câu bình luận gán nhãn liệu test Bài toán phát biểu cụ thể sau: Input (Đầu vào): Nhập vào bình luận có liên quan đến lĩnh vực pháp luật, địa website báo Output (Đầu ra): Đối với bình luận người đọc nhập vào phân loại (gán nhãn): Tích cực, tiêu cực Đối với địa website báo số bình luận có cảm xúc tích cực, số bình luận có cảm xúc tiêu cực 11 Mơ hình ứng dụng xử lý văn tiếng Việt Chi tiết bước thực tốn mơ tả hình bên dưới: 12 Chi tiết bước thực thu thập liệu, xử lý liệu, biểu diễn từ/câu thành vector đặc trưng, gán nhãn trình bày chi tiết phần luận văn Ngoài ra, luận văn lựa chọn trang báo điện tử để thu thập liệu báo chuẩn hóa tiếng Việt trước đăng, trường hợp lỗi xảy như: thiếu dấu, sai tả, từ lóng, … Các giai đoạn xử lý liệu 3.1 Giai đoạn thu thập liệu Gần 130.00 báo điện tử thư thập theo chủ đề sau: Bảng 3.2: Số lượng báo thu thập STT Chủ đề Số lượng lấy Tỷ lệ sử dụng Giáo dục 72918 97% Pháp luật 53291 97% Thế giới 2671 85% Thể thao 955 80% Các viết trang báo lấy dạng file text, cấu trúc file bao gồm tác giả, nội dung, tiêu đề, địa viết định dạng mã JSON Hình 3.3: Cấu trúc báo lấy dạng tập tin liệu 3.2 Giai đoạn tách từ sử dụng công cụ vnTokenizer Giai đoạn tách từ chương trình thực nghiệm tóm tắt sau: - Inphut (đầu vào): Các báo thu thập bước 3.3.1 - Output (đầu ra): Các báo tách từ từ điển thu sau tách từ Giai đoạn tách từ sử dụng công tụ vnTokenizer tác giả Lê Hồng Phương cộng Giai đoạn tách từ, luận văn sử dụng công cụ vnTokenize tác giả Lê Hồng Phương cộng sự, công cụ tách từ có độ xác gần 97%, công cụ tách từ tiếng Việt tốt Đối với việc xử lý văn bản, bước xử lý ngôn ngữ tự nhiên quan trọng nhất, định độ xác thực nghiệm Giai đoạn tách từ thực qua bước sau:  Tách danh từ riêng, cụm từ có quy tắc thông thường: Trong văn bản, danh từ riêng như: Tên người, địa danh,…Các cụm từ có quy tắc thời gian, ngày tháng năm… tách trước 13  So khớp cực đại: Mục đích bước tìm cụm từ dài Đối với câu văn bản, thực so khớp cực đại với từ điển tách trước vnTokenizer để tìm cụm từ có nghĩa dài Ví dụ: Tôi học công nghệ thông tin  Cách tách 1: Tôi_học_công_nghệ_thông_tin  Cách tách 2: Tôi_học_công_nghệ thông_tin  Cách tách 3: Tôi_học_công nghệ thông tin Cách tách thứ ví dụ chọn tạo cụm từ dài Kết thu sau giai đoạn tách từ: Bảng 3.3: Kết thu sau giai đoạn tách từ Tổng số lượng từ Số từ từ điển Thời gian tách từ 107.265.107 138.437 ~ 9600s Mã chương trình sử dụng cơng cụ vnTokenize tách từ thể bên dưới: Hình 3.6: Mã chương trình sử dụng cơng vụ vnTokenize 3.3 Biểu diễn vector sử dụng công cụ Word2vec Giai đoạn biểu diễn vector sử dụng cơng vụ Word2vec có liệu đầu vào đầu sau: - Input (đầu vào): Bộ từ điển thu sau giai đoạn tách từ bước 3.3.2 trình bầy luận văn - Output (đầu ra): Vector đặc trưng từ, vector đặc trưng câu Giai đoạn biểu diễn vevtor đặc trưng chia làm giai đoạn: Biểu diễn từ thành vector đặc trưng biểu diễn câu bình luận thành vector đặc trưng 3.3.1 Biểu diễn từ thành vector đặc trưng Bước thực nghiệm thực biểu diễn từ thành vector Bài thực nghiệm sử dụng thuật toán giới thiệu phần 2.6: “Biểu diễn từ thành Vector đặc trưng sử dụng Word2vec” chương - Input (đầu vào): Bộ từ điển thu giai đoạn tách từ - Output (đầu ra): Bộ vector từ Các bước thực biểu diễn vector đặc trưng từ cụ thể hóa hình bên dưới: 14 Hình 3.7: Quy trình biểu diễn từ thành vector đặc trưng với N=138.437 Bộ từ điển thu giai đoạn tách từ với số lượng từ thu 138.437 từ sử dụng làm liệu đầu vào giai đoạn biểu diễn từ thành vector đặc trưng Gán N=138.437 (với 138.437 số lượng từ từ điển), từ từ điển biểu diễn thành one-hot vector với số chiều [1 x N] Word2vec tiến hành giảm số chiều one-hot vector cách lấy tích phép nhân ma trận one-hot vector với ma trận trọng số có kích thước [N x 200] [1 x N] x [N x 200] = [1 x 200] Kết phép nhân thu ma trận với kích thước: [1 x 200] Trong giá trị ma trận trọng số [N x 200] tìm cách sử dụng mạng nơ-ron có kích thước cửa sổ số node lớp ẩn 200 3.3.2 Biểu diễn câu bình luận thành vector đặc trưng - Input (đầu vào): Các câu bình luận sau báo pháp luật báo điện từ vnexpress.net - Output (đầu ra): Bộ vector biểu diễn câu bình luận Các câu bình luận biểu diễn thành vector đặc trưng cách tính vector trung bình từ có câu bình luận dựa từ điển vector từ thu bước 3.3.4.1 trình bày luận văn 15 Các bước thực giai đoạn biểu diễn câu bình luận thành vector đặc trưng mơ hình hóa hình bên dưới: Hình 3.9: Các bước thực biểu diễn câu thành vector đặc trưng Gần 2430 câu bình luận báo pháp luật trang báo điện tử vnexpress.net thu thập Các câu bình luận gán nhãn thủ cơng vowis loại nhãn: Tích cực tiêu cực Trên sở vector từ, câu bình luận gán nhãn tiền xử lý liệu biểu diễn dạng vector cách tính trung bình cộng vector xuất câu bình luận Vector câu bình luận có số chiều [1 x 200] Ngoài ra, nội dung báo làm liệu đầu vào với từ viết tắt có diễn giải, người dùng nhập bình luận có chứa từ viết tắt chương trình thực nghiệm hiểu nghĩa từ viết tắt Ví dụ: Trong báo đầu vào có từ “THCS” từ viết tắt từ “Trung học sở” Cách viết báo thường là: “trung học sở (THCS)” Khi người dùng nhập bình luận có từ “THCS”, chương trình thực nghiệm tự động hiểu từ “THCS” viết tắt cụm từ “Trung học sở” 3.3.3 Phân loại cảm xúc người dùng sử dụng Máy hỗ trợ vector Thực huấn luyện liệu công tụ SVM với đầu vào vector đặc trưng câu bình luận thu bước 3.3.4.2 trình bầy luận văn - Input (đầu vào): Các câu bình luận chưa gán nhãn - Output (đầu ra): Các câu bình luận gán nhãn Quá trình huấn luyện liệu kiểm thử chương trình mơ hình hóa sau: Bài luận sử dụng SVM tuyến tính để phân loại câu bình luận với tham số : 'C': 0.1, 'kernel': 'linear' 16 Hình 3.13: Huấn luyện kiểm thử gán nhãn liệu Bộ vector gần 2430 câu bình luận chuyên mục pháp luật trang báo điện tử vnexpress sử dụng làm liệu huyến luyện kiểm thử giai đoạn gán nhán phân loại cảm xúc người dùng Chương trình thực nghiệm thực huấn luyện kiểm thử phương pháp xác thực chéo (cross validation) Các câu bình luận chia làm 10 phần liệu Thực mang phần liệu gán nhãn thủ công làm liệu huấn luyện phần lại sử dụng liệu kiểm thử Dữ liệu test gán nhãn dựa vào phương pháp so sánh vector Vector liệu kiểm thử gần với vector gán nhãn nhãn vector gán cho vector liệu kiểm thử Do xếp liệu test vào phân lớp tương ứng với nhãn gán Giai đoạn kiểm thử dừng lại phần liệu đầu vào kiểm thử lần Tỷ lệ gãn nhãn xác thuật tồn tính cách lấy trung bình tỷ lệ gán nhãn xác lần kiểm thử Giao diện người dùng Giao diện người dùng thể chức chính: - Gán nhãn liệu cho cầu bình luận nhập từ người dùng - Gán nhãn tính tỉ lệ cầu bình luận báo pháp luật trang vnexpress cách nhập địa báo điện tử Giao diện người dùng thiết kế ngôn ngữ HTML chạy trình duyệt web 17 Hình 3.16: Các chức ứng dụng thực thẻ HTML Giao diện người dùng có hai chức chính: - Chức thứ nhất: Phân loại (gán nhãn) cảm xúc cho câu bình luận nhập trực tiếp ứng dụng Sau nhập câu bình luận, người dùng chọn chức “Lấy kết quả” để xem nhãn cảm xúc gán cho câu bình luận Để độ xác việc gán nhãn cảm xúc cao, câu bình luận nhập vào nên có độ dài khơng q 20 từ - Hình 3.17: Câu bình luận gán nhãn cảm xúc Tích cực 18 Hình 3.18: Câu bình luận gán nhãn cảm xúc Tiêu cực - Chức thứ hai: Nhập địa báo pháp luật trang báo điện tử vnexpress.net chọn chức “lấy kết quả” để xem kết phân tích Kết thể nhãn cảm xúc gán cho câu bình luận báo tỉ lệ nhãn cảm xúc gán Hình 3.19: Chức gán nhãn câu bình luận cho báo Nhận xét đánh giá kết Qua trình thực nghiệm, kết ghi nhận tỷ lệ phân loại (gán nhãn) xác ~75% Các nguyên nhân ảnh hưởng tới độ xác thực nghiệm kể đến như: - Số lượng bình luận gán nhãn ít, khơng phải báo có bình luận, số lượng bình luận có nội dung trùng nhiều Ví dụ bình luận “May quá, em đủ 18 tuổi” lặp lại nhiều lần - Quá trình gán nhãn bình luận thực thủ cơng người nên kết việc gán nhãn bị ảnh hưởng cảm xúc, quan điểm người gán nhãn thời điểm gán nhãn khác 19 Kết luận chương Chương chương quan trọng luận, chương mô tả chi tiết bước giải vấn đề toán xử lý câu bình luận báo pháp luật trang vnexpress.net để phân loại cảm xúc người đọc thành hai lớp: Tiêu cực tích cực 20 KẾT LUẬN Kết đạt 1.1 Về mặt lý thuyết Luận văn tìm hiểu kiến thức trí tuệ nhân tạo, đặc biệt lĩnh vực máy học với thuật toán phân lớp SVM Ngồi luận văn tìm hiểu số công cụ liên quan đến vấn đề xử lý ngơn ngữ tiếng Việt vnTokenize, cơng cụ tiếng phổ biến cho vấn đề xử lý ngơn ngữ tiếng Việt Tóm tắt đặc trưng ngơn ngữ tiếng Việt Vấn đề phân tích cảm xúc người bình luận vấn đề trú trọng với tất ngành xã hội, thời đại công nghệ 1.2 Về mặt thực tiễn Luận văn nêu giải pháp kỹ thuật xây dựng ứng dụng xử lý câu bình luận nhằm mục đích phân loại cảm xúc câu bình luận người dùng Việc kết hợp lý thuyết xử lý câu bình luận phân loại cảm xúc người dùng giúp giảm chi phí tài nguồn lực cho chương trình khảo sát Đưa kết đánh giá tương đối xác thời gian ngắn, đáp ứng nhu cầu ngành nghề, đặc biệt ngành nghề kinh doanh, giải trí Hạn chế Giao diện người sử dụng đơn giản Lượng liệu bình luận gán nhãn thủ công chưa nhiều, ảnh hưởng đến tỷ lệ xác thực nghiệm Phần xử lý câu bình luận chưa linh hoạt loại văn bản, thực nghiệm thực xử lý văn tiếng Việt báo điện tử chuẩn hóa quan báo chí Chức phân tích báo chưa áp dụng cho báo điện tử trang báo khác Độ xác việc phân loại câu bình luận phụ thuộc vào độ dài câu bình luận Tỷ lệ xác chương trình thực nghiệm cao với câu bình luận có độ dài 20 từ Với câu có độ dài 20 từ, vector biểu diễn câu bình luận rơi vào vùng liệu mà SVM chưa huấn luyện nên làm giảm tỷ lệ xác chương trình thực nghiệm Hướng phát triển Xây dựng giao diện thân thiện, trực quan Có thể thực xử lý loại văn tiếng Việt, bao gồm văn chưa chuẩn hóa Thu thập gán nhãn số lượng lớn bình luận làm tăng tỉ lệ xác ứng dụng Mở rộng vấn đề phân loại bình luận lĩnh vực khác đời sống 21 Thực phân loại cảm xúc bình luận trực tuyến cho tất báo điện tử bao gồm câu bình luận có độ dài 20 từ 22 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] PGS.TS Lê Hoàng Thái, Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP.Hồ Chí Minh, “Mạng nueron nhân tạo” Lưu Tuấn Anh, Đại học khoa học kĩ thuật Nagaoka, “Xử lý ngôn ngữ tự nhiên tiếng [2] Việt” [3] Hoàng Phê chủ biên, “Từ điển tiếng việt”, Nxb Đà Nẵng Trung tâm Từ điển học– Đà Nẵng [4] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương, “Hướng dẫn nhận biết đơn vị từ văn Tiếng Việt”- Báo cáo SP8.2 Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, “Tóm tắt văn tiếng Việt tự động với [5] mơ hình sequence to sequence”, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 20/10/2017 IlyaSutskever, OriolVinyals, QuocV Le, “Sequence to Sequence Learning with Neural [6] Networks”, 14/12/2014 [7] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N.Dauphin, “Convolutional Sequence to Sequence Learning” 08/05/2017 Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A [8] Hybrid Approach to Word Segmentation of Vietnamese Texts”, 27/10/2008 [9] https://www.linkedin.com/pulse/m%C3%A1y-h%E1%BB%8Dc-machine-learningv%C3%A0-c%C3%A1c-m%E1%BB%91c-ph%C3%A1t-tri%E1%BB%83n-minh-giang-paul-, truy cập ngày 09/10/2017 [10] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon-goc-va-mot-so- ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 09/10/2017 [11] https://machinelearningcoban.com/2016/12/26/introduce/, truy cập ngày 20/11/2017 [12] http://www.brandsvietnam.com/congdong/topic/1412-Ven-man-bi-mat-cong-nghe-phan- tich-sentiment-cam-xuc-cua-cac-Social-Listening-Tool, truy cập ngày 20/12/2017 [13] http://startup.vitv.vn/tin-chu/21-09-2016/tri-tue-nhan-tao-la-gi-nguon-goc-va-mot-so- ung-dung-cua-tri-tue-nhan-tao-trong-t/1321, truy cập ngày 20/12/2017 [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/nlp-la-gi, truy cập ngày 20/12/2017 [15] https://arxiv.org/abs/1409.3215 [16] http://khoahoc.tv/tri-tue-nhan-tao-la-gi-ai-artificial-intelligence-la-gi-80106, ngày 20/12/2017 truy cập 23 [17] https://techtalk.vn/tat-tan-tat-moi-kien-thuc-co-ban-ve-machine-learning.html, truy cập ngày 25/12/2017 [18] https://viblo.asia/p/xu-ly-ngon-ngu-tu-nhien-voi-python-p1-GrLZDbXw5k0, truy cập ngày 27/12/2017 [19] https://vi.wikipedia.org/wiki/X%E1%BB%AD_l%C3%BD_ng%C3%B4n_ng%E1%BB %AF_t%E1%BB%B1_nhi%C3%AAn, truy cập ngày 27/12/2017 [20] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/ , truy cập ngày 20/1/2018 [21] https://quyv.wordpress.com/2016/08/24/word2vec-the-amazing-power-of-word-vectors/, truy cập ngày 20/1/2018 [22] http://buzzmetrics.com/cac-social-listening-tool-do-luong-sentiment-nhu-the-nao-2/, truy cập ngày 25/1/2018 [23] http://vnuf.edu.vn/documents/454250/1803845/17.Oanh.pdf, truy cập ngày 28/1/2018 [24] https://www.slideshare.net/ThmTrn9/support-vector-machines-75854390, truy cập ngày 28/1/2018 [25] https://machinelearningcoban.com/2016/12/27/categorie/ ... vực Máy học, em chọn đề tài: Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt với hy vọng đóng góp phần cơng sức đưa thuật ngữ Máy học đến gần với người dùng Tập trung vào... đánh giá cách nhanh chóng, rõ ràng, luận thực đề tài Nghiên cứu ứng dụng máy học đề xuất ứng dụng xử lý văn tiếng Việt Mục tiêu chung luận văn: Đề xuất mơ hình phân loại câu bình luận, nhận xét,... vi nghiên cứu Chương trình thực nghiệm luận văn thực phạm vi nghiên cứu ứng dụng xử lý văn tiếng Việt 4 CHƯƠNG 2: NGHIÊN CỨU XỬ LÝ NGÔN NGỮ TỰ NHIÊN SỬ DỤNG vnTOKENIZER, WORD2VEC VÀ SUPPORT

Ngày đăng: 24/08/2018, 16:11

Xem thêm: Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (tt)

Nghiên cứu ứng dụng máy học và đề xuất ứng dụng xử lý văn bản tiếng Việt (tt)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan