Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)

60 409 0
Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)Nghiên cứu về dịch máy thống kê dựa vào cụm từ và ứng dụng dịch từ tiếng Việt sang tiếng Anh (LV thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG BÙI THANH THUỶ NGHIÊN CỨU VỀ DỊCH MÁY THỐNG DỰA VÀO CỤM TỪ ỨNG DỤNG DỊCH TỪ TIẾNG VIỆT SANG TIẾNG ANH LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Trong luận văn có sử dụng số tài liệu tham khảo nhƣ trình bày phần tài liệu tham khảo Ngƣời viết luận văn Bùi Thanh Thủy Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn chân thành đến TS Nguyễn Văn Vinh tận tình hƣớng dẫn, bảo cho suốt trình làm luận văn Em xin cam ơn anh Trần Hồng Việt, nghiên cứu sinh Trƣờng đại học công nghệ, giảng viên Trƣờng Đại học Kinh tế kỹ thuật công nghiệp giúp đỡ em trình làm luận văn Tôi xin gửi lời cảm ơn đến thầy cô trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ suốt trình học Tôi xin gửi lời cảm ơn tới Ban giám hiệu, Phòng Đào tạo, đồng nghiệp trƣờng Cao đẳng nghề Phú Thọ, gia đình bạn bè ngƣời động viên tạo điều kiện giúp đỡ để hoàn thành luận văn Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỤC LỤC LỜI CAM ĐOAN………………………………………………………………… ….1 LỜI CẢM ƠN………………………………………………………………….………3 MỤC LỤC………………………………………………………………………….….4 MỞ ĐẦU……………………………………………………………………….….… 1.Lý chon đề tài Hƣớng nghiên cứu đề tài Phƣơng pháp nghiên cứu Ý nghĩa khoa học đề tài Cấu trúc luận văn CHƢƠNG – TỔNG QUAN VỀ DỊCH MÁY………………………….…………4 1.1 Khái niệm hệ dịch máy 1.1.1 Định nghĩa 1.1.2 Vai trò dịch máy 1.1.3 Sơ đồ tổng quan hệ dịch máy 1.2 Dịch máy thống gì? 1.2.1 Tổng quan dịch thống 1.2.1.1 Mô hình kênh nguồn 1.2.1.2 Cách tiếp cận Maximum mô hình gióng hàng 1.2.1.3 Nhiệm vụ dịch thống 1.2.1.4.Ƣu điểm phƣơng pháp dịch thống 1.3 Phân loại dịch máy thống 12 1.3.1 Dịch máy thống dựa vào từ (word-based) 12 1.3.2 Dịch máy thống dựa cụm từ (phrase-based) 12 1.3.3 Dịch máy thông dựa cú pháp 13 1.3.4 Một số công cụ nhóm nghiên cứu Internet SMT 13 CHƢƠNG – MÔ HÌNH DỊCH MÁY DỰA TRÊN CỤM TỪ ÁP DỤNG CHO NGÔN NGỮ VIỆT _ ANH………………………………………………… 15 2.1 Giới thiệu mô hình dịch máy dựa cụm từ 15 2.2 Kiến trúc mô hình dịch dựa cụm từ 15 2.2.1 Mô hình log-linenear 16 2.2.2 Mô hình dịch 20 2.2.3 Mô hình ngôn ngữ 24 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2.3 Giải mã 29 2.3.1 Đặt vấn đề 29 2.3.2 Mô tả thuật toán 30 2.4 Đánh giá chất lƣợng dịch 33 2.5 Phần mềm mã nguồn mở Moses 34 2.6 Quá trình giải mã 37 2.6.1 Huấn luyện cực tiểu sai số (MERT) 37 2.7 Áp dụng với cặp ngôn ngữ ViệtAnh 40 2.7.1.Xây dựng ngữ liệu (corpus) 40 2.7.1.1 Tạo corpus thô 40 2.7.1.2 Tạo corpus song ngữ 42 2.7.2 Phân đoạn từ corpus tiếng Việt (Segmentation) 42 2.7.2.1 Phƣơng pháp Maximum Matching 43 2.7.2.2 Phƣơng pháp Transformation-based Learning (TBL) 43 2.7.2.3 Phƣơng pháp dựa thống từ Internet thuật giải di truyền 44 2.7.3 Đánh giá theo liệu huấn luyện 44 2.7.4 Đánh giá theo mô hình gióng hàng từ văn 44 CHƢƠNG3 – THỬ NGHIỆM ĐÁNH GIÁ……………………….………….46 3.1 Công cụ tiền xử lý cho hệ dịch 46 3.1.1 Môi trƣờng triển khai 46 3.1.2 Chuẩn bị liệu đầu vào cho hệ dịch 46 3.1.3 Huấn luyện mô hình dịch 46 3.2 Kết thực nghiệm 47 3.2.1 Dữ liệu đầu vào 47 3.2.2 Quá trình chuẩn bị liệu huấn luyện 48 3.2.2.1 Chuẩn bị liệu 48 KẾT LUẬN……………………………………………………………… …………53 TÀI LIỆU THAM KHẢO 54 Tài liệu tiếng Việt 54 Tài liệu tiếng Anh 54 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn DANH MỤC CÁC HÌNH Hình 1.1: Sơ đồ tổng quan hệ dịch máy……………………… …………… Hình 1.2: Chu kì phát triển hệ thống dịch thống kê………… …… …….10 Hình 2.1 Kiến trúc mô hình dịch dựa cụm từ……………… ……………15 Hình 2.2: Ví dụ mô hình dóng hàng………………………… ……….………20 Hình 2.3: Thuật toán giải mã A* cho dịch máy…………………………… …31 Hình 2.4: Giải thuật tìm kiếm beam sử dụng đa ngăn xếp Pharaoh….32 Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn MỞ ĐẦU 1.Lý chon đề tài Trong trình phát triển hội nhập văn hóa, kinh tế giới Quá trình giao lƣu ngƣời Việt Nam ngƣời nƣớc ngày nhiều dẫn đến khó khăn trình giao tiếp sử dụng văn tài liệu tiếng Anh Hiện có nhiều hệ thống tự động dịch miễn phí mạng nhƣ: google translate, vietgle, vdict, lạc việt,… Những hệ thống cho phép dịch tự động văn với cặp ngôn ngữ chọn trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt) Điều cho thấy phát triển dịch máy ngày tiến gần đến ngôn ngữ tự nhiên ngƣời Vào năm gần đây, dịch máy nói chung, dịch máy thống nói riêng đƣợc phát triển mạnh ứng dụng rộng rãi Kết thực tế hệ thống dịch tốt Ngôn ngữ máy dịch ngày gần với ngôn ngữ ngƣời Ngoài với hệ thống dịch máy thống kê, sản phẩm ứng dụng ngày nhiều giúp ngƣời trao đổi thông tin dễ dàng hơn, tốc độ nhanh với nhiều ngôn ngữ Hiện nay, phƣơng pháp dịch thống dựa cụm từ phƣơng pháp cho kết dịch tốt Điều đƣợc thể qua hệ dịch máy Google, Vietgle Hơn việc dịch tiếng Việt sang tiếng Anh cần thiết khối lƣợng văn tiếng Anh ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Chính lý đó, lựa chọn thực đề tài “Nghiên cứu dịch thống dựa vào cụm từ áp dụng cho dịch từ tiếng Việt sang tiếng Anh” Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Nghiên cứu phƣơng pháp, mô hình dịch máy thống - Thử nghiệm đánh giá kết dịch từ tiếng Việt sang tiếng Anh Phạm vi nghiên cứu: Đề tài tập trung vào nghiên cứu phƣơng pháp dịch thống dựa vào cụm từ ứng dụng dịch tài liệu, văn tiếng Việt, tiếng Anh Hƣớng nghiên cứu đề tài - Nghiên cứu, tìm hiểu, phân tích dịch máy thống sở cụm từ - Cài đặt thử nghiệm tối ƣu hóa cụm từ hệ dịch máy thống kế Moses Phƣơng pháp nghiên cứu - Tìm hiểu hệ dịch tự động có để tìm phƣơng pháp dịch máy mà hệ dịch sử dụng - Nghiên cứu đánh giá phƣơng pháp dịch máy, ƣu điểm hạn chế, sau tìm phƣơng pháp có hiệu đề xuất áp dụng cho toán đề tài đặt - Nghiên cứu phƣơng pháp đánh giá chất lƣợng dịch máy để đánh giá hiệu dịch cho hệ thống đề tài xây dựng Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Ý nghĩa khoa học đề tài Ý nghĩa khoa học: Dịch máy dựa vào cụm từ phƣơng pháp dịch máy hiệu Hơn liệu văn ngày lớn đa dạng nghiên cứu hệ dịch dựa vào cụm từ ứng dụng cho dịch ViệtAnh có ý nghĩa khoa học nhƣ thực tiễn Cấu trúc luận văn + Chƣơng 1: Tổng quan dịch máy + Chƣơng 2: Dịch máy thống dựa vào cụm từ áp dụng cho ngôn ngữ Việt _ Anh + Chƣơng 3: Thực nghiêm, đánh giá + Kết luận Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƢƠNG – TỔNG QUAN VỀ DỊCH MÁY 1.1 Khái niệm hệ dịch máy 1.1.1 Định nghĩa Các hệ dịch máy (machine translation system-MT) hệ thống sử dụng máy tính để dịch từ thứ tiếng (trong ngôn ngữ tự nhiên) sang vài thứ tiếng khác Ngôn ngữ văn cần dịch đƣợc gọi ngôn ngữ nguồn, ngôn ngữ văn dịch đƣợc gọi ngôn ngữ đích 1.1.2 Vai trò dịch máy Hiện giới có khoảng 5000 ngôn ngữ khác nhau, với số lƣợng ngôn ngữ lớn nhƣ gây nhiều khó khăn việc trao đổi thông tin, giao tiếp, đồng thời ngăn cản phát triển thƣơng mại mậu dịch quốc tế Với khó khăn nhƣ ngƣời phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói, ngôn ngữ từ tiếng nƣớc sang tiếng nƣớc khác Những công việc mang tính chất thủ công, tỉ mỉ đòi hỏi ngƣời dịch phải làm nhiều thời gian công sức, khối lƣợng văn cần dịch ngày nhiều Để khắc phục đƣợc nhƣợc điểm ngƣời nghĩ đến việc thiết kế mô hình tự động công việc dịch ngôn ngữ, từ xuất máy tính điện tử ( năm 1946) ngƣời ta tiến hành nghiên cứu dịch máy Việc đƣa mô hình tự động cho việc dịch đƣợc phát triển, chƣa giải đƣợc triệt để lớp ngôn ngữ tự nhiên Nhƣng đời chúng khẳng định đƣợc lợi ích to lớn mặt chiến luợc phát triển kinh tế, đồng thời vấn đề liên quan đến dịch máy Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 40 0.0218868 0.0477119 0.384068 Các tham số # translation model weights ban đầu có giá trị 0.2, nhƣng sau huấn luyện đƣợc thay đổi tối ƣu với giá trị khác 2.7 Áp dụng với cặp ngôn ngữ ViệtAnh 2.7.1.Xây dựng ngữ liệu (corpus) Trong xử lý ngôn ngữ tự nhiên thống kê, corpus tài nguyên thiếu Có nhiều loại corpus khác nhau, tùy thuộc vào toán phƣơng pháp giải mà yêu cầu loại corpus thích hợp Để phát triển hệ thống dịch máy thống kê, cần có liệu để huấn luyện (học) Dữ liệu huấn luyện lớn tốt, nên đƣợc trích lọc từ lĩnh vực dịch mà hệ thống dịch máy đƣợc sử dụng Dữ liệu sử dụng dịch máy liệu thô song ngữ Bộ liệu huấn luyện thực thủ công nhiều công sức (chi phi đắt) Trong phần trình bày corpus phƣơng pháp xây dựng corpus cách tự động 2.7.1.1 Tạo corpus thô Ở cần tạo Corpus thô tiếng Việt, Corpus tiếng Anh sử dụng Corpus Penn Tree Bank Download file HTML: có nhiều chƣơng trình download file siêu văn từ Internet Trong thấy tốt TeleportPro Chƣơng trình download Website ổ cứng Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 41 - Lấy text: không muốn viết phân tích file HTML (HTML parser), ta sử dụng COMPONENT đọc file HTML Microsoft (mshtml) - Chuẩn hoá: công việc chuẩn hoá bao gồm: + Chuyển mã tiếng Việt (nếu cần) + Lọc bỏ file chứa text xấu (trang quảng cáo, tìm việc, v.v.) heuristics + Lọc bỏ text xấu file (tiêu đề, quảng cáo, v.v.) heuristics + Chuẩn hoá bỏ dấu (hòa > hoà, v.v.) Đánh dấu văn bản: Chúng đơn giản thực đánh dấu câu từ Sau cắt câu phân đoạn từ, câu kết đƣợc lƣu file sử dụng nhãn đánh dấu câu () từ (#) Ví dụ: Phần mềm#máy tính#tự#khắc phục#sự cố#của#IBM Tập đoàn#IBM#cho biết#sẽ#tung ra#thị trƣờng#các#phiên bản#mới#của#hai#phần mềm#dựa trên#công nghệ#điện toán#tự động#,#góp phần#thực hiện#mục tiêu#xây dựng#công nghệ#tự#sửa#của#ngành công nghiệp#máy tính#. Hôm qua#,#IBM#bắt đầu#bán#phiên bản#mới#DB2 Version 8#của#phần mềm#cơ sở liệu#. Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 42 2.7.1.2 Tạo corpus song ngữ Một cách tiếp cận hiệu rẻ thu thập văn song ngữ từ Internet Chúng ta thực bƣớc sau để xây dựng Corpus song ngữ AnhViệt từ Internet (cũng áp dụng cho cặp ngôn ngữ khác): - Download liệu văn Internet song ngữ Anh-Việt dƣới dạng file HTML - Thực gióng hàng liệu văn mức file (tƣơng ứng tên file liệu tiếng Việt tƣơng ứng với tên file liệu tiếng Anh) - Trích lọc tất đoạn text từ file HTML tƣơng ứng Anh-Việt Tƣơng tự nhƣ bƣớc việc xây dựng Corpus thô - Thực việc gióng hàng đoạn hai ngôn ngữ Anh-Việt, sau bƣớc này, ta đƣợc đoạn song ngữ tƣơng ứng Anh-Việt - Thực việc gióng hàng câu, sau bƣớc ta thu đƣợc cặp câu song ngữ Anh-Việt - Từ Corpus song ngữ này, loại bỏ câu sai (kiểm tra thủ công) Chỉ giữ lại cặp câu mà chắn - Thực tiền xử lý hai ngôn ngữ Anh-Việt Công việc bao gồm: phân tích từ vựng tiếng Anh, phân đoạn tiếng Việt, phân tích hình thái, … 2.7.2 Phân đoạn từ corpus tiếng Việt (Segmentation) Bài toán phân đoạn từ tiếng Việt cho trƣớc văn tiếng Việt, cần xác định văn ranh giới từ câu Nhƣng khác với số tiếng nƣớc nhƣ tiếng Anh, tiếng Việt ranh giới từ nhiều trƣờng hợp dấu cách trống Ví dụ, câu nói Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 43 “phân_đoạn từ tiếng_Việt bài_toán quan_trọng”, thấy dấu cách trống dấu hiệu để nhận ranh giới từ Hiện có nhiều phƣơng pháp phân đoạn từ tiếng Việt, là: 2.7.2.1 Phƣơng pháp Maximum Matching Phƣơng pháp khớp tối đa (MM-Maximum Matching) hay gọi LRMM-Left Right Maximum Matching Phƣơng pháp duyệt ngữ câu từ trái sang phải chọn từ có nhiều âm tiết có mặt từ điển thực lặp lại nhƣ hết câu Dạng đơn giản phƣơng pháp dùng để giải nhập nhằng từ đơn Giả sử có chuỗi ký tự C1, C2, …, Cn Chúng ta áp dụng phƣơng pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải từ hay không, sau kiểm tra xem C1C2 có phải từ hay không Tiếp tục thực nhƣ tìm đƣợc từ dài Dạng phức tạp: Quy tắc dạng phân đoạn từ Thông thƣờng ngƣời ta chọn phân đoạn ba từ có chiều dài tối đa Thuật toán dạng đơn giản, cụ thể phát cách tách từ gây nhập nhằng, nhƣ ví dụ trên, giả sử C1 từ C1C2 từ, kiểm tra ký tự chuỗi C1, C2, , Cn để tìm tất đoạn ba từ có bắt đầu với C1 C1C2 2.7.2.2 Phƣơng pháp Transformation-based Learning (TBL) Phƣơng pháp học cải biến (TBL) tiếp cận dựa tập ngữ liệu đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính nhận biết ranh giới từ, ta cho máy “học” câu mẫu tập ngữ liệu đƣợc đánh dấu ranh giới từ Rõ ràng thấy phƣơng pháp đơn giản, cần cho máy học tập câu mẫu sau máy tự rút quy Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 44 luật ngôn ngữ để từ áp dụng xác có câu theo luật mà máy rút rõ ràng để tách từ đƣợc hoàn toàn xác trƣờng hợp đòi hỏi phải có tập ngữ liệu tiếng Việt thật đầy đủ phải đƣợc huấn luyện lâu để rút luật đầy đủ 2.7.2.3 Phƣơng pháp dựa thống từ Internet thuật giải di truyền Phƣơng pháp tách tách từ tiếng Việt dựa thống từ Internet thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) hƣớng tiếp cận tách từ với mục đích phân loại văn mà không cần dùng đến từ điển hay tập ngữ liệu học Hƣớng tiếp cận kết hợp thuật toán di truyền (Genetics Algorithm - GA) với liệu thống đƣợc lấy từ Internet 2.7.3 Đánh giá theo liệu huấn luyện Đánh giá theo liệu huấn luyện việc ta thay đổi kích thƣớc tập ngữ liệu đầu vào, việc thay đổi trình làm tăng giảm số câu (số dòng) cặp ngữ liệu đầu vào Việc thay đổi liệu huấn luyện làm ảnh hƣởng đến mô hình dịch, mô hình ngôn ngữ, … từ ảnh hƣởng lớn đến trình đánh giá chất lƣợng dịch máy 2.7.4 Đánh giá theo mô hình gióng hàng từ văn Công cụ dùng để gióng hàng từ phổ biến GIZA++ Ban đầu, ngữ liệu song ngữ AnhViệt đƣợc gióng hàng từ hai phía, từ tiếng Anh sang tiếng Việt từ tiếng Việt sang tiếng Anh Quá trình tạo hai gióng hàng từ Lấy phần giao hai gióng hàng từ có gióng hàng từ với độ xác cao (high-precision) Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 45 Trong dịch máy thống kê, sử dụng GIZA++ để gióng hàng, ngƣời ta sử dụng gióng hàng Cross-EMword Aligner (Berkerly) Cross-EMword Aligner phần mềm gióng mã nguồn mở dựa phƣơng pháp gióng hàng Alignment by Agreement Phƣơng pháp dựa quan sát, dự đoán phần giao mô hình so với mô hình riêng rẽ Sau dự đoán mô hình thống nhất, thêm bƣớc thứ ba “thỏa thuận” mô hình Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 46 CHƢƠNG – THỬ NGHIỆM ĐÁNH GIÁ 3.1 Công cụ tiền xử lý cho hệ dịch 3.1.1 Môi trƣờng triển khai Phần cứng: Bộ xử lý Core i5, RAM 3GB, HDD free 250GB Phần mềm: Hệ điều hành Ubuntu 12.04 64 bit 3.1.2 Chuẩn bị liệu đầu vào cho hệ dịch Dữ liệu đầu vào liệu song ngữ ViệtAnh Sử dụng gần 70.000 cặp câu ViệtAnh 3.1.3 Huấn luyện mô hình dịch - Sử dụng công cụ mã nguồn mở Moses ( đƣợc trình bày chƣơng 3) - Sử dụng mô hình ngôn ngữ SRILM - GIZA++ chƣơng trình dùng để gióng hàng từ trình tự từ corpus song ngữ nhằm mục đích liên kết mô hình phụ thuộc vào lớp từ GIZA++ thực thi mô hình dóng hàng HMM: Baum Welch training, thuật toán Forward-Backward…; GIZA++ biến thể mô hình IBM GIZA đƣợc thiết kế viết Franz Josef Och Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 47 3.2 Kết thực nghiệm 3.2.1 Dữ liệu đầu vào Dữ liệu Độ dài Tên tệp tin trung bình thực nghiệm Ngôn ngữ Câu Từ Tiếng Anh 74642 1096072 14.68 50001b_train.en Tiếng Việt 74642 1140470 15.27 50001b_train.vn Tiếng Anh 54643 614578 11.24 50001b_train.en Tiếng Việt 54643 580754 10.62 50001b_train.vn Tiếng Anh 44638 498041 11.15 50001b_train.en Tiếng Việt 44638 463795 10.39 50001b_train.vn Tiếng Anh 34638 356602 10.29 50001b_train.en Tiếng Việt 34638 334097 9.64 50001b_train.vn Tiếng Anh 24638 253886 10.30 50001b_train.en Tiếng Việt 24638 239951 9.73 50001b_train.vn Dữ liệu điều Tiếng Anh 201 câu 2403 11.95 50001_dev.en Chỉnh tham số Tiếng Việt 201 câu 2221 11.04 50001_dev.en Dữ liệu Tiếng Anh 500 câu 5620 11.24 50001_test.en đánh giá Tiếng Việt 500 câu 5264 10.52 50001_test.vn Dữ liệu huấn luyện Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 48 3.2.2 Quá trình chuẩn bị liệu huấn luyện 3.2.2.1 Chuẩn bị liệu ~/tools/moses/scripts/tokenizer/tokenizer.perl -l ~/tools//Work/50001_utf8/Baseline/data/50001b_train.tok.vn ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001b_train.lower.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001b_train.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001b_train.lower.en 3.2.2.2 Huấn luyện mô hình ngôn ngữ ~/tools/srilm/bin/i686-m64/ngram-count -order -interpolate -kndiscount unk -text ~/tools/Work/50001_utf8/Baseline/lm/50001b_train.lower.en -lm ~/tools/Work/50001_utf8/Baseline/lm/5001b.srilm 3.2.2.3 Sinh bảng cụm từ ~/tools/moses/scripts/trainning/train-model.perl -roor-dir ~/tools/Work/50001_utf8/Baseline -corpus ~/tools/Work/50001_utf8/Baseline /data/50001b_train.lower \-f -e en alignment grow-diag-final-and -reordering msd-bidirectionnal-fe \-lm 0:3:HOME/Work/50001_utf8/Baseline/lm/50001b.srilm:8 -external-bin-dir ~/tools/bin >& ~/tools/Work/50001_utf8/Baseline/tranning.out & Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.en ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en Work/50001_utf8/Baseline/data/50001_dev.tok.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001_dev.lower.vn ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_dev.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001_dev.lower.en ~/tools/moses/scripts/tokenizer/tokenizer.perl -l fr < ~/tools/Work/50001_utf8/Baseline/data/50001_test.vn.1 > ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.vn ~/tools/moses/scripts/tokenizer/tokenizer.perl -l en < ~/tools/Work/50001_utf8/Baseline/data/50001_test.en.1 > ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.en ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.en > ~/tools/Work/50001_utf8/Baseline/data/50001_test.lower.en ~/tools/moses/scripts/tokenizer/lowercase.perl < ~/tools/Work/50001_utf8/Baseline/data/50001_test.tok.vn > ~/tools/Work/50001_utf8/Baseline/data/50001_test.lower.vn Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 3.2.2.4 Training tham số mô hình dịch máy ~/tools/Work/corpus5000 nohup nine ~/tools/moses/scripts/training/mert-moses.pl ~/tools/Work/50001_utf8/Baseline/tuning/50001_dev.lower.vn ~/tools/Work/50001_utf8/Baseline/tuning/50001_dev.lower.en ~/tools/moses/bin/moses ~/tools/Work/50001_utf8/Baseline/moses.ini -mertdir ~/tools/moses/bin/&> ~/tools/Work/50001_utf8/Baseline/tuning/mert.out & ~/tools/moses/scripts/reuse-weights.perl ~/tools/Work/50001_utf8/Baseline/tuning/moses.ini < ~/tools/Work/50001_utf8/Baseline/model/moses.ini > ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini ~/tools/moses/scripts/training/filter-model-given-input.pl ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 3.2.2.5 Dich văn tiếng anh :~/tools/Work/50001_utf8/Baseline$ nohup nice ~/tools/moses/bin/moses config ~/tools/Work/50001_utf8/Baseline/tuning/moses-tuned.ini -input-file ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 1> ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tuned.output 2> ~/tools/Work/50001_utf8/Baseline/evaluation/tuned.decode.out & ~/tools/moses/bin/moses -config ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower/moses.ini input-file ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.lower.vn 1> ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tuned- Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 filtered.output 2> ~/tools/Work/50001_utf8/Baseline/evaluation/tunedfiltered.decode.out & ~/tools/moses/scripts/recaser/recase.perl -model ~/tools/Work/50001_utf8/Baseline/recaser/moses.ini -in ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output -moses ~/tools/moses/bin/moses > ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.recased ~/tools/scripts/detokenizer.perl -l < ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.recased > ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output.detokenized 3.2.2.6 Đánh giá kết ~/tools/Work/50001_utf8/Baseline/plain2sgm -r test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/data/50001_test.vn.1 ~/tools/Work/50001_utf8/Baseline/50001_test.vn.sgm ~/tools/Work/50001_utf8/Baseline/plain2sgm -s test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/data/50001_test.en.1 ~/tools/Work/50001_utf8/Baseline/50001_test.en.sgm ~/tools/Work/50001_utf8/Baseline/plain2sgm -t test ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline ~/tools/Work/50001_utf8/Baseline/evaluation/50001_test.tunedfiltered.output ~/tools/Work/50001_utf8/Baseline/50001_test.tunedfiltered.output.sgm Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 ~/tools/Work/50001_utf8/Baseline/mteval-v11b.pl -r ~/tools/Work/50001_utf8/Baseline/50001_test.vn.sgm -s ~/tools/Work/50001_utf8/Baseline/50001_test.en.sgm -t ~/tools/Work/50001_utf8/Baseline/50001_test.tuned-filtered.output.sgm -c 3.3 Đánh gía phân tích kết theo số tiêu chí nhƣ cỡ liệu huấn luyện, chiều tăng độ dài cụm từ 3.3.1 Đánh giá phân tích keeys theo cỡ liệu huấn luyện Ta thay đổi kích cỡ liệu huấn luyện lần lƣợt 20.000, 30.000,40000, 50.000 , 70000 cặp câu, sau thực đánh giá chất lƣợng dịch dựa vào điểm BLEU Điểm BLEU cao chất lƣợng dịch tốt Câu 20.000 30.000 40.000 50.000 70.000 8.2 9.5 12.6 14.1 17.7 Điểm Bleu Bảng 6: So sánh điểm BLEU bảng cụm từ Một số kết sau dịch từ tiếng Việt sang tiếng Anh xin chào hello yêu em i love you đƣợc đƣa cho đĩa i was taken for the plate kỳ nghỉ mát Ai Cập a holiday er egypt hôm trời mƣa today it rains cửa hàng my shop anh bơi my brother is to go swimming chị giáo viên my sister is teacher Em gái bác sĩ my sister is the teacher Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 53 KẾT LUẬN Luận văn đƣa phƣơng pháp dịch máy thống dựa cụm từ phƣơng pháp dịch đƣợc áp dụng rộng rãi giới ví dụ nhƣ Google, Vietgle, Systran vvv khắc phục đƣợc nhƣợc điểm dịch máy dựa vào từ dựa vào luật.Từ mô hình nghiên cứu ứng dụng vào dịch ngôn ngữ Việt _ Anh Mặc dù chất lƣợng dịch chƣa cao, nhƣng cải tiến mô hình dịch đồng thời đƣa nhiều liệu nguồn nữa, chất lƣợng dịch đƣợc nâng lên Các công việc đạt đƣợc luận văn - Trình bày đƣợc tổng quan hệ dịch máy đặc biệt dịch máy thống dựa vào cụm từ - Giải thích đƣợc công cụ mã nguồn mở Moses - Thử nghiệm mô hình dịch máy cho kết tƣơng đối khả quan Hƣớng phát triển Với kết đạt đƣợc luận văn này, tƣơng lai hi vọng cải thiện đƣợc chất lƣợng dịch thời gian dịch cách cập nhật ngữ liệu đầu vào đủ lớn, giảm kích thƣớc bảng cụm từ, thay đổi vài tham số để trình huấn luyện mô hình đƣợc tốt hơn, cải tiến số mô hình đảo cụm… Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Văn Vinh (2005) “Xây dựng chƣơng trình dịch tự động Anh-Việt phƣơng pháp dịch thống kê” Luận văn Thạc sĩ, Đại học Công nghệ, ĐHQGHN [2] Đào Ngọc (2012) “ Nghiên cứu dịch máy thống dựa vào cụm từ thừ nghiệm với cặp ngôn ngữ Anh _ Việt” Luận văn Thạc sĩ Học viện công nghệ bƣu viễn thông Tài liệu tiếng Anh [3] W Weaver (1955) Translation (1949) In: Machine Translation of Languages, MIT Press, Cambridge, MA [4] F Och and H Ney (2003) A Systematic Comparison of Various Statistical Alignment Models Computational Linguistics, pp 29(1):19-51 [5] P Koehn, F.J Och, and D Marcu (2003) Statistical phrase based translation In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL) [6] Chris Callison-Burch, Miles Osborne and Philipp Koehn (2006), Re-evaluating the Role of Bleuin Machine Translation Research [7] D Chiang (2005) A Hierarchical Phrase-Based Model for Statistical Machine Translation In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05) Số hoá Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... 1.3.2 Dịch máy thống kê dựa cụm từ (phrase-based) Dịch máy thống kê sở cụm từ có mục đích để giảm bớt hạn chế dịch máy thống kê sở từ cách dịch cụm từ, độ dài cụm từ nguồn cụm từ đích khác Các cụm. .. 1.3 Phân loại dịch máy thống kê 1.3.1 Dịch máy thống kê dựa vào từ (word-based) Trong dịch máy thống kê sở từ, đơn vị dịch từ ngôn ngữ tự nhiên Dịch máy thống kê sở từ không sử dụng rộng rãi... kê dựa vào cụm từ ứng dụng dịch tài liệu, văn tiếng Việt, tiếng Anh Hƣớng nghiên cứu đề tài - Nghiên cứu, tìm hiểu, phân tích dịch máy thống kê sở cụm từ - Cài đặt thử nghiệm tối ƣu hóa cụm từ

Ngày đăng: 11/09/2017, 16:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan