Nghiên cứu mô hình ngôn ngữ n-gram và ứng dụng trong bài toán thêm dấu cho tiếng việt không dấu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT&TT CAO ĐỨC TƯ NGHIÊN CỨU MƠ HÌNH NGƠN NGỮ N-GRAM VÀ ỨNG DỤNG TRONG BÀI TỐN THÊM DẤU CHO TIẾNG VIỆT KHƠNG DẤU CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ : KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT&TT CAO ĐỨC TƯ NGHIÊN CỨU MÔ HÌNH NGƠN NGỮ N-GRAM VÀ ỨNG DỤNG TRONG BÀI TỐN THÊM DẤU CHO TIẾNG VIỆT KHÔNG DẤU CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS VŨ TẤT THẮNG Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tơi xin cam đoan, tồn nội dung liên quan tới đề tài đƣợc trình bày luận văn thân tơi tự tìm hiểu nghiên cứu, dƣới hƣớng dẫn khoa học TS Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa học Công nghệ Việt Nam Các tài liệu, số liệu tham khảo đƣợc trích dẫn đầy đủ nguồn gốc Tôi xin chịu trách nhiệm trƣớc pháp luật lời cam đoan Thái Nguyên, ngày 30 tháng năm 2011 Học viên Cao Đức Tư Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Luận văn hoàn thành nỗ lực thân, giúp đỡ tận tình thầy trường Đại học cơng nghệ thông tin truyền thông thuộc Đại học Thái Nguyên, thầy cô Viện công nghệ thông tin thuộc Viện Khoa học Cơng nghệ Việt Nam.Đã tận tình dạy, giúp đỡ em trình học tập hồn thành luận văn Xin bày tỏ lịng biết ơn sâu sắc đến TS Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa học Công nghệ Việt Nam, người tận tình dẫn tơi suốt q trình xây dựng đề cương hồn thành luận văn Xin cảm ơn anh chị em lớp cao học K8 giúp đỡ, đóng góp ý kiến chia kinh nghiệm học tập, nghiên cứu suốt khóa học Mặc dù cố gắng để hồn thành luận văn , song khơng thể tránh khỏi sai sót Xin kính mong nhận nhận xét đóng góp qu ý Thầy Cơ bạn bè Thái Nguyên, ngày 30 tháng năm 2011 Học viên Cao Đức Tư Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC CHƢƠNG 1: GIỚI THIỆU CHUNG 1.1.Đặt vấn đề: 1.2.Mục tiêu: 1.3.Cấu trúc luận văn: CHƢƠNG 2: MƠ HÌNH NGƠN NGỮ N-GRAM 2.1.Giới thiệu chung 2.2.Cơng thức tính “xác suất thơ” 2.3.Vần đề khó khăn xây dựng mơ hình ngơn ngữ N-gram 10 2.4.Các phƣơng pháp làm mịn 11 2.5.Kỹ thuật làm giảm kích thƣớc liệu: 19 2.6.Độ đo 23 2.7.Tổng kết chƣơng 23 CHƢƠNG 3: XÂY DỰNG N-GRAM CHO TIẾNG VIỆT 27 3.1.Giới thiệu 27 3.2.Công cụ tách từ cho tiếng Việt - vnTokenizer 3427 3.3.Bộ công cụ SRILM 35 3.4.Bộ công cụ trợ giúp xây dựng tập văn huấn luyện 39 3.5.Phƣơng pháp tách câu, tách từ, gán nhãn từ loại phân tích cú pháp 3340 3.6.Dữ liệu huấn luyện 40 3.7.Kết xây dựng mơ hình 40 3.8.Tần số tần số 49 3.9.Cut-off (loại bỏ) 52 3.10.Các phƣơng pháp làm mịn 53 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.11.Tổng kết chƣơng 55 CHƢƠNG 4: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN 56 THÊM DẤU TIẾNG VIỆT 56 4.1 Bài toán thêm dấu tiếng Việt 56 4.2 Các phƣơng pháp đánh giá kết thêm dấu: 57 4.3 Các hệ thống thêm dấu ứng dụng N-gram có: 59 4.4 Đề xuất hệ thống: 63 4.5 Thử nghiệm hệ thống: 66 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 6760 5.1 Các kết đạt đƣợc: 6760 5.2.Hạn chế hƣớng phát triển đề tài: 6760 TÀI LIỆU THAM KHẢO 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Viết tắt Diễn giải ACL Association for Computational Linguistics SMS Short Message Services SRI Stanford Research Institute LM language Model MM Maximum Mactching LRMM Left Right Max Matching WFST Weighted finite-state Transducer Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Ý nghĩa Hiệp hội ngôn ngữ học tính tốn Dịch vụ tin nhắn học viện nghiên cứu sờ ten phc Mơ hình ngơn ngữ Khớp tối đa tìm đoạn tƣơng ứng dài tính từ trái/phải Mạng chuyển dịch trạng thái có trọng số http://www.lrc-tnu.edu.vn DANH MỤC HÌNH Hình 3-1 Quy trình tách từ 34 Hình 3-2 Số lƣợng cụm n-gram với âm tiết tăng kích thƣớc liệu 48 Hình 3-3: số lƣợng cụm N-gram với từ tăng kích thƣớc liệu 49 Hình 3-4: số lƣợng cụm Ngram (âm tiết) có tần số từ đến 10 50 Hình 3-5 Số lƣợng cụm Ngram (từ) có tần số từ đến 10 51 Hình 4-1 Sự trùng khớp dịch máy với dịch mẫu 5158 Hình 4-2 Lƣu đồ thực mơ hình ứng dụng VietPad 60 Hình 4-3 Lƣu đồ thực mơ hình N-gram 55 Hình 4-4 Lƣu đồ thực mơ hình đề xuất 6356 Hình 4.5 Mơ hình test thêm dấu đề xuất 6659 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC BẢNG Bảng -1 Số lƣợng cụm n-gram văn huấn luyện với âm tiết 48 Bảng 3-2: Số lƣợng cụm N-gram văn huấn luyện với từ 4942 Bảng 3-3: Tần số tần số cụm N-gram áp dụng cho âm tiết 5043 Bảng 3-4 Tần số tần số cụm Ngram với từ 51 Bảng 3-5: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết 4552 Bảng 3-6: Bộ nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ 53 Bảng 3-7: Độ hỗn loạn thông tin phƣơng pháp làm mịn cho âm tiết 5447 Bảng 3-8: Độ hỗn loạn thông tin phƣơng pháp làm mịn cho từ 5447 MỞ ĐẦU Lý chọn đề tài: Trong lĩnh vực xử lí ngơn ngữ tự nhiên, sử dụng mơ hình ngơn ngữ giúp giới hạn khơng gian tìm kiếm để có giải pháp tốt có khoảng thời gian ngắn Chúng ta cần ƣớc lƣợng độ hợp lý câu văn đƣợc đƣa ngôn ngữ thực tế Trong thực tế, thực phần, phần chuỗi từ Vì ngơn ngữ thực đƣợc học từ quan sát khơng quan sát hết đƣợc ngơn ngữ tự nhiên để xem xét tất câu xảy Hiện tại, dễ dàng tìm thấy ngày nhiều hệ thống dịch tự động miễn phí mạng nhƣ: Systran, Reverso, WorldLingo, IBM translator… Những hệ thống cho phép dịch tự động văn với cặp ngơn ngữ chọn trƣớc (ví dụ: dịch văn tiếng Anh tiếng Pháp, tiếng Anh tiếng Việt) Tuy nhiên, chất lƣợng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn dịch vấn đề mà ngƣời sử dụng quan tâm đa số hệ thống dịch tự động có chất lƣợng thấp Ví dụ, để dịch văn tiếng Việt tiếng Anh chọn sử dụng hệ thống dịch Google nhƣng chất lƣợng dịch theo chiều Việt-Anh thấp so với chiều dịch Anh-Việt, đặt biệt thấp cho dịch Việt-Anh với văn đầu vào tiếng Việt không dấu Vấn đề đặt là, để chuẩn hóa văn đầu vào cho hệ thống dịch Ở thêm dấu, hay chuẩn hóa dấu văn vấn đề quan trọng Từ vấn đề nhƣ kiến thức đƣợc học tơi lựa chọn đề tài: “Nghiên cứu mơ hình Ngơn ngữ N-gram ứng dụng tốn thêm dấu cho tiếng Việt không dấu”, vấn đề có tính cấp thiết lĩnh vực xử lí ngơn ngữ tự nhiên tiếng Việt nói riêng khoa học cơng nghệ đời sống xã hội nói chung Mục đích nhiệm vụ:  Mục tiêu Về học thuật: Đề tài tập trung vào việc ứng dụng số phƣơng pháp tách từ, tiếng, phƣơng pháp làm mịn mơ hình ngơn ngữ N-gram nhằm tăng hiệu thêm dấu cho tiếng Việt không dấu Về phát triển triển khai ứng dụng: Kết đề tài ứng dụng việc hỗ trợ việcthêm dấu cho tiếng Việt không dấu  Nhiệm vụ - Nghiên cứu vấn đề xây dựng mô hình ngơn ngữ N-gram - Nghiên cứu phƣơng pháp làm mịn mơ hình ngơn ngữ Ngram Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 lớn dùng phƣơng pháp chiết khấu Add-one hiệu nhiều so với phƣơng pháp lại -Phƣơng pháp Kneser-Ney hai cách tiếp cận truy hồi nội suy cho giá trị perplexity thấp Good-Turing Witten-Bell Trong Nội suy Kneser-Ney cho kết tốt Truy hồi Kneser-Ney So sánh kết 2-gram 3-gram thấy N-gram có độ dài lớn cách biệt kết cao Tức N lớn phƣơng pháp Nội suy Kneser-Ney chứng tỏ hiệu 3.11.Tổng kết chƣơng Chƣơng này, tác giả khảo sát cách chi tiết mặt lý thuyết thực nghiệm mơ hình ngơn ngữ tiếng Việt Các kết phản ánh cách trực quan rõ ràng chất lƣợng nhƣ cho phép so sánh cách định lƣợng mơ hình N-gram với phƣơng pháp làm mịn khác Từ kết thực nghiệm chứng tỏ phƣơng pháp Good-Turing ,Witten-Bell Nội suy Kneser-Ney, Truy hồi Kneser-Ney phƣơng pháp Nội suy Kneser-Ney cho ta kết tốt Tuy nhiên lựa chọn khác phƣơng pháp Good-Turing phƣơng pháp chiết khấu với kỹ thuật tính tốn đơn giản phƣơng pháp truy hồi hay nội suy nhƣng cho kết tốt chấp nhận đƣợc cho nhiều ứng dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 CHƢƠNG 4: ỨNG DỤNG N-GRAM TRONG BÀI TOÁN THÊM DẤU TIẾNG VIỆT 4.1 Bài toán thêm dấu tiếng Việt 4.1.1 Phát biểu toán Bài toán phát biểu sau: Cho văn tiếng Việt không dấu Chuyển văn khơng dấu thành có dấu với độ xác cao Yêu cầu khác: Chỉ sử dụng từ điển từ kho liệu thô làm đầu vào Chỉ xử lý văn tiếng Việt có mã Unicode,TCVN3 4.1.2 Đặc điểm Chữ viết tiếng Việt có đặc điểm đặc biệt xuất dấu nhƣ dấu ký tự Tiếng Việt có điệu văn dấu ký tự làm phong phú thêm cho ngôn ngữ tiếng Việt, tăng độ biểu cảm tiếng Việt Dấu thành phần thiếu âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với trở nên khó khăn dễ hiểu nhầm nghĩa tiếng Việt Để thêm dấu, trƣớc tiên ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu vấn đề khó điều khơng có dấu việc nhận ranh giới từ trở nên khó khăn hơn.Trong tiếng Việt, tiếng hay gọi âm tiết đƣợc phân cách khoảng trắng khơng phải từ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Vậy sau nhận đƣợc ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể không dấu nhƣ Việc xác định khơng khó khăn Ví dụ 4.1: Từ khơng dấu “bo” có tới từ có dấu tƣơng ứng nhƣ “bơ”, “bố”, “bỏ”… Do đó, sau giải xong toán tách từ tiếng Việt khơng dấu, ta cần phải giải thêm tốn xác định từ có dấu thích hợp với từ khơng dấu đó.Đây hƣớng giải tốn đặt cho luận văn 4.1.3 Hƣớng giải quyết: Đối với tách từ có dấu, có nhiều mơ hình đƣợc sử dụng đạt kết tốt nhƣ MM (Maximum Mactching: forward/backward hay gọi LRMM:Left Right; mạng chuyển dịch trạng thái hữu hạn có trọng số WFST (Weighted finite-state Transducer); giải thuật dựa nén(compression) Hƣớng giải đƣợc đề xuất sử dụng phƣơng pháp tách từ LRMM kết hợp với mơ hình Bigram giải hiệu vấn đề toán 4.2 Các phƣơng pháp đánh giá kết thêm dấu: Cách đánh giá độ xác hệ thống thêm dấu gần tƣơng tƣ nhƣ đánh giá kết hệ thông dịch máy thông kê, nhiệm vụ vất vả khó khăn Để đánh giá độ xác dịch, ta đánh giá trực tiếp thông qua ngƣời dùng đánh giá tự động máy tính 4.2.1 Đánh giá kết trực tiếp ngƣời: Để đánh giá độ xác hệ thống thêm dấu văn tiếng Việt, ta để ngƣời trực tiếp đánh giá Chúng ta đƣa thƣớc đo cho độ trơi chảy dịch (ví dụ từ đến hay từ đến 10 tùy thuộc vào độ trơi chảy dịch), sau cho ngƣời tham gia đánh giá đánh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 giá câu dịch theo thang điểm Nhƣ vậy, văn có điểm trung bình cao, chất lƣợng dịch tốt Ngồi ra, đánh giá độ trơi chảy, độ xác dịch thơng qua thời gian mà ngƣời đọc đọc hiểu đƣợc dịch Rõ ràng, dịch mà ngƣời đọc đọc hiểu nhanh, dịch xác Phƣơng án đánh giá thêm dấu tiếng Việt ngƣời dễ thực hiện, nhƣng chi phí lớn, văn thêm dấu có kích thƣớc lớn phƣơng pháp hiệu Một phƣơng án khác tƣơng tự nhƣ tốn mơ hình dịch máy, ta áp dụng phƣơng pháp đánh giá tự động, chi phí thấp nhƣng hiệu cao 4.2.2 Đánh giá kết tự động: phƣơng pháp BLEU BLEU (BiLingual Evaluation Understudy) phƣơng pháp dùng để đánh giá chất lƣợng dịch tốn dịch máy thơng kê, đƣợc đề xuất bới IBM hội nghị ACL Philadelphie vào tháng 7-2001 Ý tƣởng phƣơng pháp so sánh kết dịch tự động máy với dịch mẫu ngƣời, dịch máy giống với dịch mẫu ngƣời dịch xác Việc so sánh đƣợc thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phƣơng pháp N-gram theo từ)[12] Hình 4-1 Sự trùng khớp dịch máy với dịch mẫu Với dịch máy dịch mẫu thứ n, phƣơng pháp BLEU trƣớc tiên thống kê số lần tối thiểu cụm n-gram xuất cặp câu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 (câu dịch máy câu dịch mẫu), sau đem tổng chia cho tổng số cụm n-gram toàn dịch máy Tỉ lệ trùng khớp dịch máy dịch mẫu thứ n đƣợc tính theo cơng thức : Pn=   số lƣợng tối thiểu cụm w có mẫu s  dịch máyw  s   số lƣợng cụm n-gram w dịch máy s  dịch máyw  s Trong s câu dịch máy, w cụm ngram có câu s Điểm BLEU đánh giá dịch máy với n dịch mẫu đƣợc tính theo cơng thức : i=N BLEU = BP * (  log pi) Ni = Trong : 1 c>r BP =  (1-r/c) với c độ dài dịch máy, r độ e với c Thanh Hóa hoa -> hịa Do tác giả lƣu ý ngƣời dùng đặc điểm sử dụng chƣơng trình b) Tách câu Căn vào đặc điểm ngôn ngữ tiếng Việt: từ đƣợc cách ký tự nhƣ “.”, “,”, “:”… để tách thành câu Mỗi câu đơn vị xử lý chƣơng trình Việc định câu đơn vị nhiều nghĩa câu đƣợc định lựa chọn dấu câu 4.4 Đề xuất hệ thống: 4.4.1.Mơ hình Căn vào mơ hình Bigram dựa vào ý tƣởng việc thống kê cụm từ tơi đề xuất mơ hình thêm dấu tự động nhƣ sau: Bắt đầu Tiền xử lý Tách câu Tách từ Từ điển chuyển đổi sử dụng N-gram Tập từ khơng dấu Chọn từ thích hợp Xuất hình Hình 4-4 Lưu đồ thực mơ hình đề xuất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 a)Tách câu Sử dụng phƣơng pháp tách câu huristic nêu chƣơng Qua phƣơng pháp tách câu ta phân biệt đƣợc số trƣờng hợp đặc biệt dấu chấm câu “.” nhƣ từ viết tắt (Mr., Mrs…) địa mail(caoductu.hui@gmail.com), số thập phân (1,345.567) Đầu bƣớc cho tập câu đầu vào bƣớc sau b) Tách từ phương pháp LRMM Ta dùng phƣơng pháp tách từ LRMM tách từ không dấu câu Lý chọn phƣơng pháp là: Cài đặt phƣơng pháp đơn giản, sai số tách sai từ chấm nhận đƣợc tách từ khơng dấu Ví dụ 4.5: Ta có cách tách từ câu có dấu câu khơng dấu sau ( từ phân cách dấu /)  “Học sinh / học / sinh học”  “Học sinh / học sinh / học” -> chuyển thành câu có dấu tao đƣợc câu “ Học sinh / học sinh / học” nhƣ -> sai tách từ chấp nhận đƣợc phạm vi Khi tách từ phƣơng pháp LRMM, ta có ý đến việc nhận diện tách từ tên riêng dựa từ điển tên riêng Việc xác định tên riêng dựa chữ viết hoa đầu từ, cụm tên riêng cần viết hoa tiếng đƣợc Vi dụ: 4.6: Thanh Hoa -> Thanh Hóa Thanh hoa -> Thanh Hóa hoa -> Thanh hịa c) Chọn từ thích hợp: Với từ điển chuyển đổi initial.txt, ta có ánh xạ 1-1 để chuyển từ khơng dấu thành có dấu Ngồi để tăng độ linh hoạt xác phƣơng pháp, ta thêm từ điển phụ, gọi từ điển cụm từ Cumtu.txt, lƣu cụm từ thƣờng xuyên xuất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Ví dụ: 4.7 Câu “Nhung van de lien quan toi nguoi dong tinh luyen duoc ban bac soi noi buoi hop nhom toi hom qua” đƣợc chuyển thành câu có dấu qua bƣớc sau:  Tách câu: Tạo câu “Nhung van de lien quan toi nguoi dong tinh luyen duoc ban bac soi noi buoi hop nhom toi hom qua”.1  Tách từ ( Các từ phân cách dấu / ): “Nhung / van de / lien quan / toi / nguoi / dong tinh luyen / duoc / ban bac / soi noi / / buoi / hop / nhom / toi / hom qua” 4.4.2 Mơ hình huấn luyện Nhƣ trình bày trên, cốt lõi vấn đề tập tin từ huấn luyện initial.txt Tập tin chứa xác suất nhóm âm tiết xuất văn tiếng việt Ngồi mơ hình huấn luyện sử dụng phƣơng pháp làm mịn khác mơ hình ngơn ngữ N-gram nhƣ: Addone, Witten-Bell, GoodTuring với phƣơng pháp làm trơn hóa mơ hình giúp việc thêm dấu đƣợc xác Khác với mơ hình thêm dấu tiếng Việt trƣớc đây, tập tin từ điển lƣu từ tiếng Việt mà lƣu dãy âm tiết Tiếng Việt Điều giúp cho mơ hình “vét cạn” thơng tin giúp cho việc thêm dấu xác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 4.5 Thử nghiệm hệ thống: Ví dụ 4.8: Hình 4.5 Mơ hình test thêm dấu đề xuất Mơ hình N-gram cho tiếng Việt giúp việc xây dựng hệ thống thêm dấu cho tiếng Việt không dấu với kết tốt Tuy nhiên kết thêm dấu tốt tăng N để có đánh giá sâu Việc dùng phƣơng pháp làm trơn khác, giúp tăng khả ƣớc lƣợng giá trị xác suất định, làm chất lƣợng hệ thống tăng lên Tuy nhiên, cần lƣợng liệu lớn hơn, đa dạng cho huấn luyện mơ hình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 5.1 Các kết đạt đƣợc: Mục tiêu luận văn, nghiên cứu nắm bắt đƣợc vấn đề cốt lõi mơ hình ngôn ngữ N-gram, đặc biệt làm trơn phân bố xác suất thống kê (Smoothing techniques), nhằm nâng cao chất lƣợng, làm giảm kích thƣớc mơ hình ngơn ngữ dựa vào số kỹ thuậtnhƣ: Pruning (loại bỏ) làm giảm số lƣợng cụm n-gram ,Quantization (lƣợng tử hóa) thay đổi lại cấu trúc thơng tin cụm n-gram,Compression (nén) nén cấu trúc liệu sử dụng việc lƣu trữ cụm n-gram mơ hình ngơn ngữ Ngồi ra, luận văn hƣớng tới việc đƣa ứng dụng cụ thể mơ hình cho tiếng Việt, mà cụ thể toán thêm dấu cho văn tiếng Việt không dấu Trong luận văn mơ hình thống kê tần số xuất từ, kèm theo phƣơng pháp tách từ không dấu LRMM sử dụng thêm từ điển cụm từ, khả xác mơ hình tƣơng đối cao.Tuy nhiên, phải nói mơ hình cịn hạn chế hƣớng mở mà luận văn cần phải tiếp tục nghiên cứu phát triển thời gian nhằm tăng độ xác lên cao Chƣơng trình hồn thiện cần có đầu tƣ nhiều thời gian công sức Đề tài tiếp tục phát triển để đem lại ứng dụng đáp ứng đƣợc yêu cầu tốt thực tế 5.2.Hạn chế hƣớng phát triển đề tài: Bài tốn thêm dấu vào văn khơng dấu bàii tốn mới, cịn hồn thiện dần mơ hình nhƣ cách thực Hiện nay, mơ hình thƣờng dùng cho tốn thống kế tần số xuất từ, đồng thời, tùy theo tác giả mà có thêm biến đổi, thuật giải khác giúp cho việc thêm dấu đƣợc xác Tác giả mong muốn tiếp tục phát triển để đƣa kết nghiên cứu vào ứng dụng thực tế… Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 TÀI LIỆU THAM KHẢO Tiếng việt [1] TS Đinh Điền, Giáo trình xử lý ngơn ngữ tự nhiên, Khoa Cơng nghệ Thông tin, Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh, Tháng 122004 [2] Đồn Xn Kiên, “Bàn chuyện đánh dấu tiếng Việt”, đăng trang http://home.tiscali.be/centre.vietnam/ [3] Đoàn Xuân Kiên, “xem lại số vấn đề ngữ âm tiếng Việt: cấu trúc âm tiết”, đăng trang http://home.tiscali.be/centre.vietnam/ [4] Tài liệu phần mềm VietPad đƣợc công bố trang web http://vietpad.sourceforge.net [5] Tài liệu phần mềm AMPad đƣợc công bố trang web: http://www.echip.com.vn/echiproot/weblh/qcbg/duynghi/automark Tiếng anh [6].Chris Manning and Hinrich Schutze, Foundations of Statistical Natural Language Processing, MIT Press Cambridge, May 1999 [7] Boulos Harb, Ciprian Chelba, Jeffrey Dean, Sanjay Ghemawat, “BackOff Language Model Compression”, Proceedings of Interspeech 2009, pp 325-355 [8].Daniel Jurafsky and James H Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, chapter 6, February 2000 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 [9] R Kneser and H Ney, “Improved backing-off for M-gram language modeling”, Acoustics, Speech, and Signal Processing, 1995 ICASSP-95., 1995 International Conference on [10] Andreas stolcke, “Entropy-based pruning of backoff language models”, Proceedings of the ARPA Workshop on human language technology, 1998 [11] Andreas stolcke, SRILM – an extensible language modeling toolkit, Conference on spoken language processing, 2002 [12] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM T J Watson Research Center, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002 [13] Tô Hồng Thắng, Building language model for vietnamese and its application, graduation thesis, 2008 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... ỨNG DỤNG N-GRAM TRONG BÀI TOÁN 56 THÊM DẤU TIẾNG VIỆT 56 4.1 Bài toán thêm dấu tiếng Việt 56 4.2 Các phƣơng pháp đánh giá kết thêm dấu: 57 4.3 Các hệ thống thêm dấu ứng. .. chƣơng Chƣơng 4 .Ứng dụng N-gram toán thêm dấu tiếng Việt 4.1 .Bài toán thêm dấu tiếng Việt 4.2 Các phƣơng pháp đánh giá kết thêm dấu 4.3 Các hệ thống thêm dấu ứng dụng N-gram có 4.4 Đề xuất hệ thống... Kết đề tài ứng dụng việc hỗ trợ việcthêm dấu cho tiếng Việt không dấu  Nhiệm vụ - Nghiên cứu vấn đề xây dựng mơ hình ngơn ngữ N-gram - Nghiên cứu phƣơng pháp làm mịn mơ hình ngơn ngữ Ngram Số

Nghiên cứu mô hình ngôn ngữ n-gram và ứng dụng trong bài toán thêm dấu cho tiếng việt không dấu

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan