(Luận văn thạc sĩ) Xây dựng hệ thống trả lời tự động chatbot bằng tiếng Việt sử dựng phương pháp học sâu

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN THỊ THANH HƯƠNG XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHATBOT BẰNG TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ GIẢNG VIÊN HƯỚNG DẪN TS Bùi Thanh Hùng BÌNH DƯƠNG - 2019 LỜI CAM ĐOAN Tôi Nguyễn Thị Thanh Hương, học viên lớp CH16HT01, ngành Hệ thống thông tin, trường Đại học Thủ Dầu Một Tôi xin cam đoan luận văn “Xây dựng hệ thống trả lời tự động chatbot tiếng việt sử dựng phương pháp học sâu” tơi nghiên cứu, tìm hiểu phát triển hướng dẫn TS Bùi Thanh Hùng, chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Bình Dương, ngày 31 tháng năm 2019 Tác giả Nguyễn Thị Thanh Hương ii LỜI CẢM ƠN Để hồn thành luận văn này, tơi xin gửi lời cảm ơn đến tất Thầy cô trường Đại học Thủ Dầu Một tận tình giảng dạy truyền đạt cho tơi kiến thức hữu ích suốt q trình học tập trường Tơi xin cảm ơn anh chị, bạn, em lớp cao học chia sẻ, hổ trợ cho để tơi thực tốt luận văn Hơn hết, tơi xin chân thành cảm ơn thầy hướng dẫn TS Bùi Thanh Hùng, người tận tình truyền đạt, dạy cho kiến thức bổ ích máy học học tập sâu, cảm ơn thầy nhiệt tình hướng dẫn, bảo cho tơi suốt q trình tơi nghiên cứu, xây dựng hoàn thiện luận văn Xin gửi lời cảm ơn sâu sắc tới gia đình, anh chị em đồng nghiệp bạn bè động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích cho tơi để tơi thực tốt luận văn iii TÓM TẮT LUẬN VĂN Cùng với phát triển cơng nghệ, người ngồi giao tiếp trực tiếp với ngơn ngữ tự nhiên, cịn thường xuyên liên lạc kết nối với lúc nơi thông qua mạng xã hội Một hệ thống trả lời tự động thơng minh giúp người trò chuyện, nhắc nhở hay làm trợ lý cơng việc theo dõi tình trạng sức khỏe thân,… nhiều nhà nghiên cứu cách sử dụng kỹ thuật học máy để xây dựng phát triển Đối thoại thông minh nhiệm vụ quan trọng toán hiểu xử lý ngôn ngữ tự nhiên Những phương pháp tiếp cận trước giới hạn vài lĩnh vực hiệu đạt chưa cao, khó mở rộng mơ hình ứng dụng rộng rãi Hướng nghiên cứu dựa Deep Learning kết hợp với trí tuệ nhân tạo xu hướng phát triển Đề tài luận văn dựa nghiên cứu trước để đề xuất nghiên cứu phát triển hệ thống trả lời tự động dựa hai hướng tiếp cận theo hướng dịch máy trích xuất thông tin, hai hướng sử dụng mạng học sâu LSTM cách áp dụng phương pháp học chuỗi liên tiếp (sequence-to-sequence) kĩ thuật attention để sinh câu trả lời tự động từ chuỗi đầu vào tương ứng Mơ hình dịch máy mạng Nơ-ron nhân tạo Google (Google’s Neural Machine Translation) mơ hình phân loại câu hỏi theo hướng mạng Nơ-ron sâu áp dụng để huấn luyện liệu chuẩn liệu tiếng Việt thu thập, sau so sánh kết thực nghiệm hai liệu Bộ liệu thu thập phân tách thành hai câu hỏi câu trả lời tương ứng, sau tiến hành tách từ để tiến hành thiết lập biểu diễn từ dạng véc-tơ từ vựng để tiến hành huấn luyện kết hợp với phương pháp đánh giá mơ hình dự đốn đưa câu trả lời tối ưu Luận văn đề xuất xây dựng ứng dụng web hỗ trợ tư vấn trả lời tự động câu hỏi sinh viên liên quan đến chương trình đào tạo, tuyển sinh, thơng tin giảng viên văn thường gặp trường Đại học Thủ Dầu Một iv Kết thực nghiệm cho thấy mơ hình đề xuất đạt kết tốt hai độ đo: Độ xác (Accuracy) đánh giá BLEU dựa liệu sử dụng để huấn luyện đánh giá v MỤC LỤC LỜI CAM ĐOAN II LỜI CẢM ƠN III TÓM TẮT LUẬN VĂN IV MỤC LỤC VI DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT VIII DANH MỤC CÁC BẢNG IX DANH MỤC HÌNH VẼ, ĐỒ THỊ X CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 LÍ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU NGHIÊN CỨU 1.3 ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU .2 1.4 PHƯƠNG PHÁP NGHIÊN CỨU 1.5 BỐ CỤC LUẬN VĂN CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 2.2 WORD2VECTOR 2.3 HỌC SÂU - DEEP LEARNING 2.3.1 Mạng nơ-ron hồi quy RNN (Recurrent Neural Network) 10 2.3.2 Bộ nhớ dài-ngắn LSTM (Long-short term memory) 13 2.3.3 Mô hình sequence to sequence 18 2.3.4 Kỹ thuật attention 19 2.4 HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHATBOT .21 2.4.1 Tổng quan 21 2.4.2 Tình hình sử dụng ứng dụng nhắn tin 21 2.4.3 Các hướng tiếp cận .22 2.4.4 Tình hình nghiên cứu 23 2.4.4.1.Tình hình nghiên cứu ngồi nước 23 2.4.4.2 Tình hình nghiên cứu nước .25 2.4.4.3 Hướng đề xuất nghiên cứu 26 CHƯƠNG 3: MƠ HÌNH ĐỀ XUẤT 27 3.1 TỔNG QUAN MƠ HÌNH ĐỀ XUẤT 27 3.1.1 Mơ hình huấn luyện liệu tổng quát 28 3.1.2 Mơ hình dự đốn kết 29 3.1.3 Mô hình huấn luyện liệu - dự đốn kết 30 3.2 MƠ HÌNH DỊCH MÁY BẰNG MẠNG NƠ-RON NHÂN TẠO CỦA GOOGLE (GNMT) 31 3.2.1 Mơ hình huấn luyện liệu 31 vi 3.2.2 Mô hình đánh giá trình huấn luyện 34 3.2.3 Mơ hình huấn luyện liệu – dự đoán kết 35 3.2.4 Giải thuật sử dụng mạng Nơ-ron nhân tạo Google (GNMT) .36 3.2.4.1 Giải thuật huấn luyện liệu 36 3.2.4.2 Giải thuật dự đoán kết 37 3.3 MƠ HÌNH PHÂN LOẠI CÂU HỎI BẰNG PHƯƠNG PHÁP HỌC SÂU 37 3.3.1 Mơ hình huấn luyện liệu 38 3.3.2 Mơ hình đánh giá q trình huấn luyện dự đốn kết 40 3.3.3 Mơ hình huấn luyện – dự đoán kết 41 3.3.4 Giải thuật sử dụng mạng Nơ-ron sâu (DNN) .43 3.3.4.1 Giải thuật huấn luyện liệu 43 3.3.4.2 Giải thuật dự đoán kết 43 CHƯƠNG 4: THỰC NGHIỆM 44 4.1 THEO HƯỚNG DỊCH MÁY BẰNG MẠNG NƠ-RON NHÂN TẠO .44 4.1.1 Dữ liệu 44 4.1.1.1 Bộ liệu Cornell Movie-Dialogs Corpus .44 4.1.1.2 Bộ liệu thu thập 44 4.1.2 Xử lý liệu .45 4.1.2.1 Xử lý liệu Cornell Movie-Dialogs Corpus 45 4.1.2.2 Xử lý liệu thu thập 46 4.1.3 Huấn luyện liệu: 49 4.1.4 Kết 50 4.1.4.1 Trên Cornell Movie-Dialogs Corpus 50 4.1.4.2 Trên liệu thu thập 51 4.1.5 Đánh giá 52 4.2 THEO HƯỚNG PHÂN LOẠI CÂU HỎI BẰNG PHƯƠNG PHÁP HỌC SÂU .52 4.2.1 Quy trình thực .52 4.2.2 Dữ liệu 53 4.2.3 Xử lí liệu 54 4.2.4 Huấn luyện liệu 54 4.2.5 Đánh giá 54 4.3 MÔ PHỎNG ỨNG DỤNG CHATBOT TRÊN NỀN TẢNG WEB .56 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 5.1 KẾT QUẢ ĐẠT ĐƯỢC 58 5.2 HƯỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 vii DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải Chatbot Chatbot Hệ thống trả lời tự động NLP Natural Languague Processing Xử lý ngôn ngữ tự nhiên RNN Recurrent Neural Network Mạng nơ ron tái phát LSTM Long short-term memory Mạng cải tiến để giải vấn đề phụ thuộc dài Seq2Seq sequence to sequence Phương pháp học chuỗi liên tiếp DeepLearning GNMT Google’s Neural Machine Translation Trình dịch máy Google BiLingual Evaluation Understudy Độ đo BLEU BLEU viii DANH MỤC CÁC BẢNG Bảng 4.1:Bộ liệu cornell movie-dialogs 44 Bảng 4.2: Bộ liệu thu thập thông tin Trường ĐH Thủ Dầu Một 45 Bảng 4.3: Chi tiết mơ hình huấn luyện .49 Bảng 4.4: Tham số mơ hình huấn luyện .50 Bảng 4.5: Một số kết minh họa 51 Bảng 4.6: Kết Bộ liệu thu thập .52 Bảng 4.7: Kết đánh giá Blue cho liệu Cornell movie-dialogs 52 Bảng 4.8: Bộ liệu thu thập theo hướng phân loại câu hỏi 53 Bảng 4.9: Bộ liệu thu thập - JSON 54 ix DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1: Mơ hình xử lý ngơn ngữ tự nhiên Hình 2.2: Biểu diễn véc-tơ one-hot Hình 2.3: Mơ hình Word2vector Hình 2.4: Mơ hình Skip-gram Hình 2.5: Mơ hình Continuous Bag of Words .8 Hình 2.6: Mơ hình huấn luyện dựa word2vector Hình 2.7: Mơ hình Deep Learning .10 Hình 2.8 Quá trình xử lý thông tin mạng RNN 11 Hình 2.9: RNN phụ thuộc short-term 12 Hình 2.10: RNN phụ thuộc long-term 12 Hình 2.11 Bidirectional RNN .13 Hình 2.12 Deep (Bidirectional) RNN 13 Hình 2.13: Các mơ-đun lặp mạng RNN chứa layer 14 Hình 2.14:Các mơ-đun lặp mạng LSTM chứa bốn layer 14 Hình 2.15: Các kí hiệu sử dụng mạng LSTM 15 Hình 2.16: Tế bào trạng thái LSTM giống băng truyền 16 Hình 2.17: Cổng trạng thái LSTM 16 Hình 2.18: LSTM focus f 17 Hình 2.19: LSTM focus i 17 Hình 2.20: LSTM focus c 17 Hình 2.21: Mơ hình sequence-to-sequence sử dụng mạng nơ-ron LSTM [14] 18 Hình 2.22: Mơ hình sequence-to-sequence dùng soft attention dịch máy[14] 20 Hình 2.23: Tổng quan Chatbot 21 Hình 2.24: Đề xuất mơ hình huấn luyện liệu dự đốn kết 23 Hình 2.25: Mơ hình nghiên cứu Shum .24 Hình 2.26: Mơ hình nghiên cứu Beatty .24 Hình 2.27: Mơ hình Tuong Hung Nguyen 25 Hình 2.28 Gán nhãn cú pháp (parse tree) 26 Hình 3.1: Đề xuất mơ hình xây dựng chatbot 27 Hình 3.2 Quy trình huấn luyện liệu - dự đốn kết 31 x + Các câu hỏi câu trả lời phải tương ứng theo mục với theo cấu trúc file excel + Dữ liệu huấn luyện kiểm tra lưu trữ vào file:  Bộ huấn luyện: file chứa câu hỏi, file chứa câu trả lời  Bộ kiểm tra: file chứa câu hỏi, file chứa câu trả lời Hình 4.1: Bộ câu hỏi – training Hình 4.2: Bộ câu trả lời – training - Bước 3: Tách từ (tokenize) lưu từ điển Từ liệu huấn luyện, tiến hành tách từ vựng lưu vào file riêng biệt theo quy tắc sau: + Từ thuộc câu hỏi trả lời lưu vào hai file riêng biệt + Các từ lưu file xếp theo số lượng từ xuất câu hỏi trả lời từ cao đến thấp 47 Hình 4.3: Bộ từ điển Câu hỏi – Câu trả lời - Bước 4: Word2vector: tiến hành mục hóa từ xuất từ điển Chỉ mục hóa file câu hỏi trả lời theo từ xuất từ điển Hình 4.4: Chỉ mục từ 48 4.1.3 Huấn luyện liệu: Thực nghiệm liệu chuẩn liệu thu thập, để huấn luyện sử dụng mô-đun GNMT dựa tế bào LSTM hai chiều Cơ chế Attention áp dụng để cải thiện hiệu suất Beamsearch áp dụng vào đào tạo Chúng sử dụng 3200 lần lặp với 512 đơn vị ẩn mơ hình huấn luyện lớp Chi tiết mơ hình huấn luyện tham số mơ hình huấn luyện trình bày Bảng 4.3 Bảng 4.4 Loại Mơ hình sử dụng Mơ hình áp dụng Google’s Neural Machine Translation (GNMT) Mơ hình Deep Learning Deep Neural Network (DNN), Recurrent Neural Network (RNN) Kỹ thuật Sequence to Sequence (Sequence-to-sequence) modeling with encoder and decoder Các kỹ thuật bổ trợ Long Short Term Memory (LSTM) based RNN cell, Bidirectional LSTM, Neural Attention Model and Beam Search Bảng 4.3: Chi tiết mơ hình huấn luyện Tham số Giá trị Số bước huấn luyện 3200 Số bước lặp cho lần huấn luyện 100 Số đơn vị 512 Số tầng Loại đơn vị LSTM Loại Encoder Bidirectional Kỹ thuật Neutral Attention Scaled luong Tối ưu hóa Adam Tốc độ học 0.0001 Số bước Decay Số bước bắt đầu Decay 49 Chiều rộng Beam 10 Tỉ lệ Dropout 0.2 Đơn vị đánh giá BLEU Bảng 4.4: Tham số mơ hình huấn luyện Chúng tơi sử dụng máy tính với Bộ xử lý Intel Core i5 hệ thứ 7, đồ họa chuyên dụng NVIDIA GTX 1050 8GB Ram cho trình huấn luyện Để huấn luyện mở rộng hơn, dự định sử dụng tảng điện toán đám mây Amazon AWS Quá trình trình huấn luyện thực sau: Hình 4.5: Quá trình huấn luyện 4.1.4 Kết 4.1.4.1 Trên Cornell Movie-Dialogs Corpus Sau số phản hồi có sau huấn luyện tập liệu đầy đủ với dung lượng 34 MB (225000 + 225000) Kết thử nghiệm ban đầu tạo câu phản hồi phù hợp Các câu phản hồi sau tạo sở mơ hình huấn luyện, mơ hình huấn luyện tạo 10-30 câu phản hồi cho ứng viên đầu vào Các ví dụ phù hợp từ 10-30 phản hồi ứng viên trình suy luận trình bày Bảng 4.5 50 Đầu vào (Người 1) Đầu GNMT (Người 2) how are you how am i ? would you like some tea would you like some help ? you got something on your mind Yeah would you like to watch movie ? No where would you like to go for lunch today you know where to go ? where is the library located ? is that where you were ? did you like the new startrek movie sequel i did am i disturbing you ? no , not at all where are you ? i’m heading out how about you ? i got to wait for a call Bảng 4.5: Một số kết minh họa 4.1.4.2 Trên liệu thu thập Với liệu gồm 551 câu hỏi 551 câu trả lời tương ứng Kết cho dự đốn có khả quan Đầu vào (Người 1) Đầu GNMT (Người 2) Đào tạo Chương trình đào tạo thực học kỳ Để tốt nghiệp, sinh viên phải hoàn thành đồ án tốt nghiệp vào học kỳ Theo Quyết định số 1157/QĐ-ĐHTDM ngày 08 tháng 08 năm 2014 bổ sung, sửa đổi theo Quyết định số 890/QĐ-ĐHTDM ngày 04 tháng 08 năm 2016 Hiệu trưởng Trường Đại Thủ Dầu Một Quy chế đào tạo đại học cao đẳng quy theo hệ thống tín Tốt nghiệp đại học ngành Hệ thống Thông tin Theo Quyết định 1862/QĐ-ĐHTDM ngày 21/11/2016 Hiệu trưởng Trường Đại Thủ Dầu Một việc ban hành Quy định Chuẩn đầu cho học viên cao học, sinh viên đại học, cao đẳng hệ quy thương xuyên đào tạo theo học chế tín Mơn thi tốt nghiệp Mơn thi tốt nghiệp bao gồm: trị, lý thuyết tổng hợp nghề nghiệp, thực hành nghề nghiệp Đối với hệ đào tạo mà đối tượng tuyển sinh học sinh tốt nghiệp trung học sở 51 ngồi ba mơn thi tốt nghiệp nêu trên, học sinh phải thi thêm ba mơn văn hóa Hiệu trưởng nhà trường quy định môn thi, thời gian tổ chức thi môn văn hóa thơng báo cơng khai từ đầu khóa học Sinh viên không phép chuyển trường trường hợp sau: Không chuyển trường a) Sinh viên năm thứ năm cuối khóa b) Sinh viên thời gian bị kỷ luật từ cảnh cáo trở lên Thủ tục nhập học cao học khóa https://tdmu.edu.vn/thong-bao/tuyensinh/huong-dan-lam-thu-tuc-nhap-hoc-caohoc-khoa-5-nam-2018 Kết thi tuyển sinh cao học khóa https://tdmu.edu.vn/thong-bao/tuyensinh/ket-qua-thi-tuyen-sinh-cao-hoc-khoa5-2018 Số điện thoại thầy Thanh Hùng 908542521 Bảng 4.6: Kết Bộ liệu thu thập 4.1.5 Đánh giá Để đánh giá kết sử dụng độ đo BLEU [12] Đây độ đo phổ biến sử dụng dịch máy, đề xuất bới IBM hội nghị ACL Philadelphie Độ đo BLEU đánh giá chất lượng văn sở tính tốn mức độ tương tự văn đầu vào với văn đầu Kết thể Bảng 4.7 Dữ liệu BLEU GNMT NMT Eval Dev 10.1 8.9 Eval Test 10.6 9.3 Bảng 4.7: Kết đánh giá Blue cho liệu Cornell movie-dialogs 4.2 Theo hướng phân loại câu hỏi phương pháp học sâu 4.2.1 Quy trình thực Bước 1: Chuẩn bị liệu 52 Với liệu thu thập, câu hỏi chuyển vào JSON theo cấu trúc sau: câu hỏi đưa vào trường patterns, câu trả lời đưa vào trường responses, lớp câu hỏi trả lời đưa vào trường tag Bước 2: Từ file JSON, tiến hành loại bỏ từ dừng tiến hành tokenize liệu tag Pattern cách sử dụng thư viện nltk véc-tơ hóa từ Bước 3: Khởi tạo tham số tiến hành huấn luyện liệu Sau thực lưu mơ hình để thực việc dự đốn sau Bước 4: Tiến hành đánh giá độ xác accuracy, độ xác  95% tiếp tục thực lại bước Ngược lại chuyển sang bước Bước 5: Với câu nhập vào từ người sử dụng, tiến hành loại bỏ từ dừng tách từ Sau tiến hành dự đốn câu trả lời dựa mơ hình lưu bước Kết dự đoán lớp tương ứng với câu hỏi đưa vào, chọn lựa câu trả lời ngẫu nhiên ứng với lớp dự đoán 4.2.2 Dữ liệu Dữ liệu thực nghiệm liệu (Câu hỏi, Câu trả lời) thu thập câu hỏi thường gặp sinh viên liên quan đến chương trình đào tạo, hỗ trợ tuyển sinh, thông tin giảng viên văn thường gặp trường Đại học Thủ Dầu Một Thông tin thu thập thể sau: Bảng 4.8: Bộ liệu thu thập theo hướng phân loại câu hỏi Chuyển liệu thu thập sang file JSON để thực việc chuẩn hóa liệu Đây liệu phục vụ cho việc huấn luyện để trả lời câu hỏi sinh viên, liệu file JSON_1 tổ chức sau: + Tag: lấy từ cột entity_faq_subject file Excel  Phân lớp câu hỏi đưa vào huấn luyện 53 + Pattern: lấy từ cột question cột sample  Dữ liệu dùng để training Response: lấy từ cột answer  Dùng để trả lời câu hỏi tương ứng sinh viên Bảng 4.9: Bộ liệu thu thập - JSON 4.2.3 Xử lí liệu Để thực việc huấn luyện liệu, tiến hành xử lý liệu theo bước sau: - Bước 1: Đọc liệu từ file Json loại bỏ từ dừng - Bước 2: Tách từ Tiến hành tách câu hỏi file json tương ứng với thẻ patterns - Bước 3: Chỉ mục từ Tính số xuất từ câu hỏi sếp theo thứ tự từ cao đến thấp theo số lần xuất từ - Bước 4: Gán nhãn từ theo lớp Phân lớp từ xuất câu hỏi quy định file json 4.2.4 Huấn luyện liệu Thực việc huấn luyện liệu mơ hình với liệu thu thập 4.2.5 Đánh giá Trên liệu thu thập: 54 Độ xác: Accurracy = 96.25% Kết quả:  Câu hỏi: Đào tạo  Trả lời: Các hệ đào tạo trường gồm: Đại học, Liên thông, Thạc sĩ, Tiến sĩ  Câu hỏi: Hồ sơ nhập học  Trả lời: Bản giấy chứng nhận kết thi THPT quốc gia 2018 2.Học phí, lệ phí học kì CMND( photo) Thẻ BHYT (1 photo) có  Câu hỏi: miễn giảm học phí  Trả lời: a) Người có cơng với cách mạng thân nhân người có cơng với cách mạng theo pháp lệnh ưu đãi người có cơng với cách mạng số 26/2005/PL-U BTVQH11 ngày 29/6/2005; b) Trẻ em học … thuộc hộ nghèo hộ có thu nhập tối đa 150% thu nhập hộ nghèo theo tiêu chí tỉnh  Câu hỏi: tín đại học  Trả lời: Tín học tập (gọi tắt tín chỉ) đơn vị dùng để xác định khối lượng học tập sinh viên, qua đánh giá kết học tập sinh viên dựa số lượng tín học tập tích lũy Một tín quy định 15 tiết học lý thuyết (hoặc 30 tiết thực hành, thảo luận; 45 thực tập sở, 60 làm tập lớn, khóa luận tốt nghiệp) Một tiết học tính 50 phút So sánh kết với phương pháp LSTM: Phương pháp Nội dung Accurracy Số câu trả lời xác theo mong đợi Phương pháp học sâu Mạng LSTM 96.25% 95.17% 14/15 12/15 Nhanh Mất thời gian nhiều độ dài vectơ lớn Thời gian huấn luyện 55 4.3 Mô ứng dụng Chatbot tảng web - Người dùng chọn lựa phương pháp huấn luyện liệu để tra cứu câu hỏi: Phương pháp dịch máy phương pháp phân loại câu Hình 4.6: Giao diện Web - Chọn lựa phương pháp thực - Người dùng cỏ thể chọn lựa danh mục để hỏi Chương trình đào tạo, Hồ sơ truyển sinh, văn thông tin giảng viên 56 Hình 4.7: Giao diện Web - Chọn lựa mục để hỏi - Người dùng nhập câu hỏi để nhận câu trả lời Hình 4.8: Giao diện Web - Hỏi trả lời tự động 57 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết đạt Hệ thống trả lời tự động hướng phát triển nhằm hỗ trợ người việc giảm tải nguồn nhân lực để chăm sóc khách hàng tư vấn dịch vụ cụ thể Trong bối cảnh nay, máy học hướng tiếp cận để xây dựng hiệu Do đó, luận văn kế thừa tinh hoa từ nghiên cứu tác giả để xây dựng hệ thống trả lời tự động nhằm giúp trường đại học Thủ Dầu Một trả lời câu hỏi sinh viên thông tin liên quan đến nhà trường Kết đạt luận văn gồm: + Xây dựng hệ thống trả lời tự động theo hướng dịch máy mạng Nơ-ron Google: Bộ liệu đầu vào bao gồm câu hỏi câu trả lời phân tách thành hai tập huấn luyện kiểm tra tiến hành tách từ véc-tơ hóa kỹ thuật word2vector để tiến hành huấn luyện dựa phương pháp học chuỗi liên tiếp (sequence-to-sequence) kĩ thuật attention để sinh câu trả lời tự động với từ vựng tham chiếu từ tập huấn luyện Phương pháp đánh giá BLEU áp dụng để đánh giá kết huấn luyện + Xây dựng hệ thống trả lời tự động dựa mơ hình phân loại câu hỏi theo hướng mạng Nơ-ron sâu: Bộ liệu đầu vào câu hỏi câu trả lời phân lớp sau loại bỏ từ dừng tách từ phương pháp word2vector Quá trình huấn luyện tiến hành dựa kỹ thuật mạng Nơ-ron sâu thông qua hàm softmax để thể xác suất lớp Emtropy chéo định nghĩa để đánh giá mục tiêu đầu để dự đoán câu hỏi đưa vào sinh viên Một phương pháp đánh giá dựa độ đo xác sử dụng mơ hình nhằm đánh giá kết để đưa mơ hình dự đốn tối ưu + Xây dựng ứng dụng dựa nần tảng Web-based: Luận văn xây dựng giao diện dựa tảng Web-based nhằm trực quan kết trả lời tự động câu hỏi sinh viên liên quan đến chương trình đào tạo, tuyển sinh, thông tin giảng viên văn thường gặp trường Đại học Thủ Dầu Một 58 Với đánh giá BLEU độ đo xác (Accuracy) giải mặt hạn chế liệu thu thập đầu vào không phong phú Cả hai mô hình dịch máy trích xuất thơng tin có mặt mạnh hạn chế riêng nhìn chung đưa kết dự đốn xác Mơ hình dịch máy thời gian huấn luyện lâu cho kết tốt mơ hình truy xuất thơng tin 5.2 Hướng phát triển Tiếp tục kế thừa nghiên cứu trước phát triển mơ hình chatbot có khả trả lời sát với ngữ cảnh, nhằm làm cho hệ thống trả lời tự động tơi đạt chất lượng tốt Mở rộng mơ hình chatbot lĩnh vực khác, thu thập liệu tối ưu nhằm gia tăng tốc độ huấn luyện tăng độ xác cho câu trả lời Xây dựng hệ thống tự động thu thập câu hỏi từ người dùng có khả tự động cập nhật thơng tin vào liệu có 59 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, Sep 2014 “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation” https://en.wikipedia.org/wiki/Hopfield_network Ilya Sutskever, Oriol Vinyals, Quoc V Le, “Sequence to Sequence Learning with Neural Networks”, pp 1–9, Dec 2014 S Hochreiter and J Schmidhuber, “Long Short-Term Memory”, Neural Computation, vol 9, pp 1735–1780, 1997 Bahdanau, D., Bengio, Y., & Cho, K., “Neural Machine Translation by Jointly Learning to Align and Translate”, CoRR, abs/1409.0473 https://arxiv.org/abs/1409.0473, 2014 Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al, “Google’s neural machine translation system: Bridging the gap between human and machine translation”, arXiv preprint arXiv:1609.08144, 2016 Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy, “Hierarchical attention networks for document classification”, In Proc ACL, 2016 Sumit Chopra, Michael Auli, Alexander M Rush, and SEAS Harvard, “Abstractive sentence summarization with attentive recurrent neural networks”, Proceedings of NAACL-HLT16 pages 93–98, 2016 Tom Young, Devamanyu Hazarika, Soujanya Poria, Erik Cambria, “Recent Trends in Deep Learning Based Natural Language Processing, IEEE Computational Intelligence Magazine, 2018 Wang P, Qian Y, Soong F K, He L, Zhao H, “Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network”, Cornell University, 2015 Sundermeyer M, Ney H and Schluter R, “From Feedforward to Recurrent LSTM Neural Networks for Language Modelling”, J IEEE/ACM Trans, Audio Speech Lang Process, Issue 3, pp 517–29, 2015 Papineni, K.; Roukos, S.; Ward, T.; Zhu, W J, “BLEU: a method for automatic evaluation of machine translation”, ACL-2002: 40th Annual meeting of the Association for Computational Linguistics, pp 311–318, 2002 Nhữ Bảo Vũ, “Xây dựng mơ hình đối thoại cho tiếng việt miền mở dựa vào phương pháp học chuỗi liên tiếp”, đại học quốc gia Hà Nội, trường Đại học Công Nghệ 2016 Ramamoorthy, S Chatbots with Seq2Seq Retrieved from http://suriyadeepan.github.io/2016-06-28-easy-seq2seq/ https://cs224d.stanford.edu/lecture_notes/notes1.pdf 60 [16] L Vergeest, “Using N-grams and Word Embeddings for Twitter Hashtag Suggestion”, 2014, Tilburg University (School of Humanities) 61

(Luận văn thạc sĩ) Xây dựng hệ thống trả lời tự động chatbot bằng tiếng Việt sử dựng phương pháp học sâu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan