TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH VIỆT

46 344 0
TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH  VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH MỤC LỤC TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN MỤC LỤC DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT CHƢƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Hƣớng tiếp cận đề tài 1.3 Nội dung luận văn CHƢƠNG 2: TỔNG QUAN .11 2.1 LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Dịch máy thống kê .11 2.1.1 Dịch máy thống kê dựa từ .11 2.1.2 Mô hình dịch máy thống kê dựa ngữ .19 2.1.3 Mô hình dịch thống kê factored (Factored SMT) 26 2.1.4 Mô hình dịch máy thống kê dựa cú pháp 29 2.2 Các tiêu chuẩn đánh giá chất lƣợng dịch .31 2.2.1 BLEU (Bilingual Evaluation Understudy) 32 2.2.2 NIST 32 2.2.3 TER (Translation Error Rate) .32 CHƢƠNG 3: .33 Thành phố Hồ Chí Minh - 2010 CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ 33 3.1 Sử dụng tri thức ngôn ngữ để tiền xử lý 33 3.1.1 Dùng thông tin cú pháp 34 Trang 3.1.2 Sử dụng thông tin từ loại 36 A Đối chiếu hình thái từ Anh – Việt (biến cách) 82 3.1.3 Sử dụng luật biến đổi hình thái từ .37 B Kết dịch số mô hình 82 3.2 Tích hợp tri thức vào hệ thống dịch máy 39 3.2.1 Tích hợp thông tin hình thái vào mô hình dịch 39 3.2.2 Tích hợp thông tin cú pháp vào mô hình dịch 40 3.2.3 Tích hợp vào mô hình ngôn ngữ 41 CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI 42 4.1 Tích hợp thông tin hình thái từ tiếng Anh 43 4.1.1 Thông tin từ loại 43 4.1.2 Thông tin biến cách từ 44 4.1.3 Sử dụng luật chuyển đổi trật tự .45 4.2 Thêm thông tin hình thái từ tiếng Việt 50 4.2.1 Thông tin ranh giới từ 50 4.2.2 Thông tin từ loại 51 4.3 Thêm thông tin hình thái từ cho tiếng Anh tiếng Việt 52 CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .54 5.1 Ngữ liệu .54 5.2 Các công cụ 55 5.3 Thí nghiệm 55 5.3.1 4.4 Tích hợp thông tin hình thái từ câu tiếng Anh 55 Tóm tắt kết thí nghiệm 74 CHƢƠNG 6: KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 78 PHỤ LỤC 82 Trang Trang DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng 15 Hình 2.1 Mô hình dịch máy thống kê 12 Bảng 5.1 Thông tin ngữ liệu 59 Hình 2.2 Biểu diễn gióng hàng từ dạng liên kết 14 Bảng 5.2 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh Hình 2.3 Hình minh hoạ trình cải tiến gióng hàng từ 19 60 Hình 2.4 Ví dụ dịch thống kê dựa ngữ 20 Bảng 5.3 Kết dịch hệ chuyển đổi trật tự từ 63 Hình 2.5 Mô hình dịch factored SMT 27 Bảng 5.4 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Việt Hình 4.1 Mô hình chung luận văn 43 64 Hình 4.2 Mô hình ngôn ngữ từ vựng 49 Bảng 5.5 Số liên kết gióng hàng từ mô hình 65 Hình 4.3 Mô hình ngôn ngữ từ loại 49 Bảng 5.6 Kết dịch hệ dịch tích hợp từ loại tiếng Việt 68 Hình 4.4 Mô hình factored SMT tích hợp từ loại 50 Bảng 5.7 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh Hình 4.5 Mô hình factored SMT tích hợp nguyên mẫu từ loại 51 tiếng Việt 71 Hình 4.5 Mô hình factored SMT tích hợp thông tin hình thái từ 51 Trang Trang dụng luật đƣợc xây dựng tay để dịch văn từ Anh sang Việt Từ CHƢƠNG 1: GIỚI THIỆU năm 2006, EVTRAN 3.0 (đƣợc gọi Ev-Shuttle) dịch đƣợc văn hai chiều Anh-Việt Việt-Anh Do hệ dịch dựa luật nên kết 1.1 hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với luật Đặt vấn đề đƣợc thiết lập hay không Dịch máy hay gọi dịch tự động đƣợc ngƣời quan tâm Các nhà nghiên cứu đƣa tri thức nhằm khai thác sức mạnh xử lý tính toán - ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt Đoàn Nguyên máy tính tạo ứng dụng phục vụ ngƣời thời đại công nghệ thông tin Hải (http://www.latl.unige.ch/vietnamese/) LATL phát triển Khi việc giao tiếp việc nắm bắt thông tin nhanh chóng tạo nên nhiều hội cho ngƣời đến thành công, chƣơng trình dịch tự động công Nhóm dự án ERIM Đại học Bách Khoa Đà Nẵng kết hợp với GETA – - Google Transle (www.translate.google.com): Hỗ trợ 50 ngôn ngữ bao cụ giúp họ vƣợt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh tiết gồm tiếng Việt Sử dụng phƣơng pháp dịch máy thống kê dựa kho kiệm công sức Dịch máy lĩnh vực thú vị, thu hút quan tâm ngữ liệu song ngữ Tốc độ dịch nhanh có tính tƣơng tác với ngƣời dùng nhằm tăng chất lƣợng dịch cho lần sau nhiều nhóm nghiên cứu giới Tuy nhiên, thân ngôn ngữ phức tạp, thƣờng hay có nhập nhằng Mặc khác, ngôn ngữ có khác - Dịch máy Xalo.vn (www.dich.xalo.vn): đƣa dịch vụ dịch trực tuyến biệt, từ từ vựng đến cấu trúc để tạo thành câu Việc xây dựng hệ dịch máy chiều từ Anh sang Việt, công ty Cổ phần Công nghệ Tinh Vân tự có khả hiểu ngữ cảnh, khử nhập nhằng dịch đƣợc gần với ngƣời phát triển, hỗ trợ dịch theo lĩnh vực, đồng thời cho phép ngƣời dùng thách thức lớn chỉnh sửa, góp ý nội dung dịch nhằm nâng cao chất lƣợng dịch Đối với tiếng Việt, có nhiều nhóm đầu tƣ vào hệ dịch theo nhiều - Lạc Việt (công ty phát triển đƣa từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): hỗ trợ dịch từ Anh sang Việt có hƣớng tiếp cận khác nhau: thêm phần dịch chuyên ngành (tin học, toán học, y học kế toán) hỗ trợ - Nhóm nghiên cứu PGS TS Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu nhóm dựa việc học luật chuyển đổi từ ngữ liệu song ngữ - - Nhóm nghiên cứu PGS TS Phan Thị Tƣơi (Đại học Bách Khoa Thành dịch tốt ngƣời dùng Do xây dựng mô hình khác nhau, hệ thống cho chất lƣợng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào phố Hồ Chí Minh): Nhóm sử dụng phƣơng pháp phân tích cú pháp có xác Các hệ thống dựa luật sử dụng tri thức ngôn ngữ nhƣ thông tin cú pháp, ngữ suất để dịch văn Anh-Việt Việt-Anh nghĩa nên dịch hiệu Tuy nhiên, máy tính khó phân tích cú pháp Nhóm nghiên cứu TS Lê Khánh Hùng Softex (Phòng Công nghệ Phần xác cho câu có ngữ nghĩa phức tạp Mặc khác, việc xây dựng tập luật Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học Công nghệ Việt Nam): cú pháp luật chuyển đổi bao quát đƣợc trƣờng hợp khó khăn, đòi hệ dịch đƣợc đƣa vào sử dụng thực tế thƣơng mại hoá sản phẩm hỏi ngƣời thực phải có kiến thức sâu ngôn ngữ (http://vdict.com) EVTRAN hệ dịch máy hoàn toàn dựa vào luật, sử Ngƣợc lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa kết thống kê từ kho ngữ liệu song ngữ Kết trung gian Trang Trang hệ dịch bảng thống kê từ, ngữ qui luật chuyển đổi mà không ngôn ngữ hoà kết, từ tiếng Anh từ tả phân biệt khoảng cần đến tri thức ngôn ngữ Với phƣơng pháp này, ngữ liệu lớn có chất trắng Từ vựng tiếng Anh có hai đặc điểm biến cách dẫn xuất Biến cách lƣợng tốt hệ dịch hiệu dạng mà có hình vị ràng buộc kết hợp vào từ để thể ý Ƣu điểm hệ dịch tuý thống kê nên độc lập ngôn ngữ, có nghĩa ngữ pháp nhƣ: (tense), số (number), cách (case), v.v… Dẫn xuất dạng từ thể áp dụng đƣợc cặp ngôn ngữ Mặc khác, tiền xử lý đƣợc hình thành sở từ gốc kết hợp với phụ tố nhằm thể liệu đầu vào, miễn thực biến đổi đồng trình huấn ý nghĩa từ vựng, nhƣ: lặp lại (re-), chống (anti-), ngƣời/vật thực (-er/-or), luyện dịch Ngoài ra, ngƣời theo dõi can thiệp vào Phụ tố dẫn xuất bao gồm hậu tố tiền tố trình dịch thông qua bảng thống kê trung gian Chính đặc điểm mà Nhiều nghiên cứu tiếp cận theo hƣớng tập trung vào giải khác biệt mô hình dịch máy thống kê có tiềm lớn ứng dụng dịch máy Rất trật tự từ tiếng Anh tiếng Việt nhƣ nghiên cứu nhóm Nguyễn Phƣơng nhiều nhóm nghiên cứu tập trung khai thác phát triển hệ dịch máy mô Thái [32], nhóm nghiên cứu nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] hình đạt đƣợc số kết khả quan Tuy nhiên, khác hình thái từ Do đó, hƣớng đến phát triển hệ dịch sử dụng đồng thời tri thức thống tiếng Anh tiếng Việt chƣa đƣợc quan tâm kê từ kho ngữ liệu song ngữ tri thức phân tích ngôn ngữ Luận văn tập Do đó, đề tài tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê phát máy thống kê Anh - Việt mức độ hình thái từ Từ tiếng Anh đƣợc đƣa triển hệ thống dịch máy thống kê Anh - Việt sử dụng tri thức ngôn ngữ nguyên mẫu, tách phụ tố gán nhãn từ loại, từ tiếng Việt đƣợc phân đoạn từ 1.2 Hƣớng tiếp cận đề tài gán nhãn từ loại Đề tài phân tích từ loại có ảnh hƣởng tích cực đến chất lƣợng dịch hệ thống Đề tài tập trung vào khảo sát hƣớng tích hợp trực tiếp tri thức ngôn ngữ vào hệ dịch máy thống kê dựa ngữ Khảo sát tri thức ngôn ngữ dịch máy thống kê Anh - Việt Các tri thức đƣợc tập trung khảo sát bao gồm hình thái từ, từ loại cách kết hợp thông tin tìm hiểu ảnh hƣởng thông tin lên hệ dịch 1.3 Nội dung luận văn Phần lại luận văn bao gồm chƣơng sau: Chƣơng – TỔNG QUAN: Chƣơng trình bày hƣớng tiếp cận dịch máy thống kê dựa ngữ, thành phần cấu thành hệ thống dịch máy thống kê Tiếng Anh tiếng Việt khác biệt loại hình ngôn ngữ Tiếng Việt ngôn ngữ Chƣơng – CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH đơn lập, quan hệ ngữ pháp đƣợc diễn đạt trật tự trƣớc sau từ MÁY THỐNG KÊ: Chƣơng khảo sát hƣớng tiếp cận để đƣa tri thức hƣ từ Trong tiếng Việt, từ tƣợng biến hình, đơn vị hình ngôn ngữ vào hệ máy thống kê, phân tích ƣu khuyết điểm hƣớng tiếp tiết: đơn vị có nghĩa, có vỏ ngữ âm thƣờng trùng với âm tiết, có khả cận vừa dùng nhƣ từ vừa dùng nhƣ hình vị Ở loại hình này, ngƣời ta thƣờng hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt yếu tố hƣ với yếu tố thực nhƣ vấn đề mặt cấu tạo từ phát triển Trong tiếng Anh Trang Trang Chƣơng – MÔ HÌNH CỦA ĐỀ TÀI: Chƣơng mô tả mô hình đƣợc sử CHƢƠNG 2: TỔNG QUAN dụng đề tài, tri thức đƣợc đƣa vào hệ thống dịch máy thống kê Anh - Việt dựa ngữ lí lựa chọn tri thức 2.1 Dịch máy thống kê Chƣơng – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chƣơng mô tả chi tiết Dịch máy thống kê (Statistical Machine Translation - SMT) đƣợc nghiên cứu từ thí nghiệm thực để đánh giá hiệu hƣớng tiếp cận đề tài, đồng năm 1980 dự án Candide IBM Phƣơng pháp đƣợc IBM sử dụng thời so sánh tri thức ngôn ngữ khác ảnh hƣởng nhƣ dịch máy dịch máy thống kê dựa từ (word based SMT), phƣơng pháp dịch từ từ thống kê Anh - Việt thuộc ngôn ngữ nguồn sang nhiều từ thuộc ngôn ngữ đích cho phép Chƣơng – KẾT LUẬN: nêu lên kết mà luận văn đạt đƣợc thêm, xoá từ câu đích Sau này, nhiều nhóm nghiên cứu đạt đƣợc kết dịch tốt nhờ phƣơng pháp hƣớng phát triển tƣơng lai TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày thông tin khác có liên dịch máy thông kê dựa ngữ (phrase based SMT) Phƣơng pháp đƣợc đặt móng từ mô hình mẫu gióng hàng (alignment template model) [10], mô quan đƣợc sử dụng đề tài CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê báo khoa học, công trình đƣợc công bố trình thực đề tài hình chuyển đổi thành hệ thống dịch máy thống kê dựa ngữ Nhiều nhóm nghiên cứu sử dụng kết dịch dựa ngữ để tích hợp vào hệ thống mình, chẳng hạn [34] thành công sử dụng cách dịch dựa ngữ mô hình dịch máy dựa cú pháp (syntax-based) Hầu hết hệ thống dịch máy thống kê sử dụng cách dịch dựa ngữ, số hệ thống dịch máy tiếng số CMU, IBM, ISI Google Các hệ thống dịch máy dựa ngữ đạt đƣợc kết vƣợt trội hội nghị đánh giá chất lƣợng dịch máy thời gian gần (DARPA TIDES Machine Translation Evaluation) Ngoài phƣơng pháp thống kê nhiều phƣơng pháp khác đƣợc sử dụng dịch máy Đa số hệ thống dịch thƣơng mại sử dụng luật chuyển đổi từ vựng phong phú Cho tới gần đây, nghiên cứu dịch máy thƣờng tập trung vào hệ thống dựa tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trình dịch 2.1.1 Dịch máy thống kê dựa từ Mô hình dịch máy thống kê dựa từ [25] đƣợc đƣa Brown vào năm 1990 Mô hình giả sử câu 𝑒 ngôn ngữ nguồn có câu dịch câu 𝑣 ngôn ngữ Trang 10 Trang 11 đích Một câu e dịch sang đƣợc nhiều câu v Trong dịch thống kê, ta chọn câu v có khả câu dịch e nhiều Với cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 xác suất mà 𝑒 dịch thành 𝑣 Mục đích dịch máy thống kê tìm câu 𝑣 có Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê xác suất 𝑝 𝑣 𝑒 cao Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi câu đích đƣợc tạo chuỗi từ vựng ngôn ngữ đích, chuỗi câu ngữ pháp Mô hình dịch Do đó, công thức Bayes đƣợc dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 : 𝑝 𝑣𝑒 = 𝑝 𝑣 𝑝 𝑒 𝑣 𝑝 𝑒 Mô hình ngôn ngữ Quá trình giải mã Câu nguồn Câu đích Hình 2.1 Mô hình dịch máy thống kê (2.1) 2.1.1.1 Mô hình ngôn ngữ Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) không ảnh hƣởng đến việc chọn câu 𝑒, ta bỏ qua 𝑝(𝑒) Khi đó, câu dịch 𝑣 đƣợc chọn câu có 𝑝 𝑣 𝑝 𝑒 𝑣 lớn Mô hình ngôn ngữ giúp hệ dịch xác định độ xác trật tự từ (có thể ngữ pháp) câu đƣợc phát sinh Từ chuỗi từ đƣợc phát sinh ra, hệ dịch tính tần suất dãy từ xuất ngôn ngữ đích Thông tin đƣợc dùng trình giải mã để tìm câu dịch hay Các hệ thống thƣờng 𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑝 𝑒 𝑣 (2.2) tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể trigram Mô hình ngôn ngữ n-gram tính xác suất xuất từ dựa 𝑛 − từ Hệ dịch máy thống kê gồm phần: - Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy câu dịch Các câu v ngữ pháp gần với cách nói tự nhiên ngôn ngữ đích có giá trị xác suất 𝑝(𝑣) cao Mô hình đƣợc huấn luyện dựa đứng trƣớc câu Cho câu 𝑠 gồm chuỗi từ 𝑤1 , 𝑤2 , … 𝑤𝑛 , ta tính xác suất mô hình ngôn ngữ nhƣ sau: Xác suất unigram: 𝑝 𝑤1 = ngữ liệu đơn ngữ - Mô hình dịch 𝑝(𝑣) (translation model): Đƣa tƣơng ứng từ, ngữ 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ (2.3) cặp ngôn ngữ Với câu e cho trƣớc, câu dịch v có xác suất 𝑝(𝑣) cao câu dịch hợp lý Mô hình đƣợc huấn luyện dựa 𝑝 𝑤1 |𝑤2 = cặp câu song ngữ - Xác suất bigram: Bộ giải mã (Decoder): Tích hợp mô hình dịch mô hình ngôn ngữ để 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 (2.4) thực trình dịch Trang 12 Trang 13 đƣợc biểu diễn nhƣ sau: Xác suất trigram: 𝑝 𝑤3 |𝑤1 𝑤2 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 𝑤3 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 She takes Cô lấy a small green box (2.5) Xác suất xuất câu 𝑠 đƣợc tính tích tất xác suất xuất hộp nhỏ màu xanh từ có câu 𝑠 Dƣới ví dụ cách tính xác suất xuất câu Hình 2.2 Biểu diễn gióng hàng từ dạng liên kết “I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram 𝑝 𝐼 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 Một cách khác để biểu diễn gióng hàng từ sử dụng bảng nhƣ bảng 2.1 = 𝑝 𝐼 < 𝑠 >< 𝑠 > × 𝑝 𝑙𝑖𝑘𝑒 𝐼 < 𝑠 > × 𝑝 𝑏𝑢𝑛𝑔𝑒𝑒 𝐼 𝑙𝑖𝑘𝑒 Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng × 𝑝 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 × 𝑝 𝑜𝑓𝑓 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 She × 𝑝 𝑕𝑖𝑔𝑕 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 × 𝑝 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 Cô × 𝑝( |𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝( |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 ) lấy takes a small green box Trong thực tế, ngữ liệu thƣờng bị phân tán, từ không tồn ngữ liệu xác suất xuất Điều dẫn đến xác suất chuỗi từ đƣợc tính tích xác suất từ Để tránh xác suất 0, công thức tính xác suất xuất từ đƣợc điều chỉnh nhƣ sau: 0.8 × 𝑝 𝑤3 𝑤1 𝑤2 + 0.15 × 𝑝 𝑤3 𝑤2 + 0.049 × 𝑝 𝑤3 + 0.001 Ngoài mô hình ngôn ngữ n-gram, có số mô hình ngôn ngữ khác nhƣ: mô hộp nhỏ màu xanh hình ngôn ngữ web n-gram mô hình ngôn ngữ cú pháp Mô hình gióng hàng từ IBM (Brown, 1993) đƣợc đƣa từ lâu nhƣng 2.1.1.2 Gióng hàng từ đƣợc xem mô hình tiên tiến Mô hình giả sử Để ƣớc lƣợng tham số mô hình dịch, bảng dịch ngữ đƣợc tạo dựa gióng hàng từ Gióng hàng tạo liên kết cặp từ (ngữ) tƣơng ứng cách đánh dấu vị trí từ câu nguồn vào từ (ngữ) câu đích Ví dụ, gióng hàng từ cặp câu song ngữ: She takes a small green box liên kết từ cặp câu tồn tại, nhƣng chƣa xác định đƣợc vị trí liên kết Giả sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ câu tiếng Việt 𝑣 có 𝑛 từ: 𝑒 = 𝑒1 , 𝑒2 , … 𝑒𝑚 𝑣 = 𝑣1 , 𝑣2 , … 𝑣𝑛 Cô lấy hộp nhỏ màu xanh Trang 14 Trang 15 Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 𝑎 tập liên kết từ tất từ câu e Liên kết “my” “của tôi” đƣợc xác định: … my house … small house … my mobile … 𝑎 = 𝑎1 , 𝑎, … 𝑎𝑚 Từ xác suất gióng hàng từ, ta tính đƣợc xác suất dịch theo công thức: 𝑝 𝑣𝑒 = … 𝑝 𝑎, 𝑒 𝑣 nhà … nhà nhỏ … điện_thoại … Liên kết “house” “nhà” đƣợc xác định: 𝑎 (2.6) … my house … small house … my mobile … Xác suất gióng hàng từ từ cặp câu, 𝑝 𝑎, 𝑒 𝑣 đƣợc tính nhƣ sau: 𝑚 𝑝 𝑎, 𝑒 𝑣 = … 𝑡 𝑒𝑗 𝑣𝑖 𝑗 =1 (2.7) Trong đó, 𝑡 𝑒𝑗 𝑣𝑖 đƣợc tính dựa gióng hàng từ (ngữ) ngữ liệu song nhà … nhà nhỏ … điện_thoại … Các liên kết khác đƣợc xác định: … my house … small house … my mobile … ngữ Tuy nhiên, để tạo ngữ liệu gióng hàng từ (ngữ) đòi hỏi nhiều công sức cho việc gán nhãn Do đó, thật toán Expectation Maximization (EM) đƣợc [24] … nhà … nhà nhỏ … điện_thoại … đề xuất để ƣớc lƣợng gióng hàng từ (ngữ) Kết gióng hàng từ cuối cùng: Ý tƣởng thuật toán EM nhƣ sau: Đầu tiên, với cặp câu song ngữ có ngữ liệu, ta giả định tất từ … my house … small house … my mobile … câu nguồn có gióng hàng từ với tất từ câu đích, xác suất gióng hàng từ đƣợc khởi tạo giá trị ban đầu nhƣ … my house … small house … … my mobile … nhà … nhà nhỏ … điện_thoại … Cuối cùng, xác suất gióng hàng từ hội tụ, giá trị không thay đổi nhiều Khi ta đƣợc hai thông tin thông tin gióng hàng từ giá trị xác suất tƣơng ứng … nhà … nhà nhỏ … điện_thoại … Sử dụng thuật toán EM, Stephan Vogel đề mô hình IBM có tên gọi lần lƣợt IBM1, IBM2, IBM3, IBM4, IBM5 Franz-Joseph Och đề mô hình để tạo Sau đó, qua lần lặp, cặp từ thƣờng gióng hàng với đƣợc xác gióng hàng từ cặp câu song ngữ định Trang 16 Trang 17 Hiện tại, công cụ phổ biến để gióng hàng từ GIZA++ Công cụ đƣợc xây dựng dựa mô hình IBM Tuy nhiên, công cụ có hạn chế cho phép gióng hàng từ thuộc ngôn ngữ nguồn với nhiều từ thuộc ngôn ngữ đích [10] đề xuất cách tiếp cận dựa heuristic để cải tiến kết gióng hàng từ có đƣợc từ GIZA++ Tất điểm nằm vùng giao hai gióng hàng từ đƣợc giữ lại vùng gióng hàng từ đƣợc mở rộng tối đa không vƣợt vùng giao hai gióng hàng từ Đầu tiên, ngữ liệu song ngữ đƣợc gióng hàng từ hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích từ ngôn ngữ đích sang ngôn ngữ nguồn Quá trình tạo hai gióng hàng từ Nếu lấy phần giao hai gióng hàng từ này, có gióng hàng từ với độ xác cao (high-precision) Ngƣợc lại, lấy phần hợp hai gióng hàng từ, có gióng hàng từ với độ bao phủ (high-recall) cao Hình 2.2 minh họa trình Trong hình, điểm nằm vùng giao có màu đen, điểm mở rộng có màu xám Hình 2.3 Hình minh hoạ trình cải tiến gióng hàng từ 2.1.1.3 Quá trình giải mã (decoding) Nhiệm vụ của trình tìm câu dịch thích hợp biết câu nguồn - Chia câu nguồn thành nhiều từ cụm từ - Tra bảng ngữ để tìm ngữ dịch tƣơng ứng - Kết hợp ngữ tìm đƣợc lại thành câu chọn câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn 2.1.2 Mô hình dịch máy thống kê dựa ngữ Hệ dịch thống kê dựa từ có khuyết điểm không lấy đƣợc thông tin ngữ cảnh mà dựa phân tích thống kê từ Mô hình dịch máy thống kê dựa ngữ cải tiến chỗ thay xử lý từ xử lý ngữ Điều cho phép hệ thống dịch cụm từ tránh đƣợc dịch word-by-word Trang 18 Trang 19 Bảng 5.3 hiển thị kết dịch hệ dịch áp dụng luật chuyển đổi trật tự Kết significance cho thấy dùng luật chuyển đổi, hiệu dịch cao so với hệ sở Giáo sƣ Johnson không tham gia vào nghiên cứu , nhƣng viết báo kèm ấn Khoa học , phác thảo ý nghĩa Kết gióng hàng từ cho thấy, sau áp dụng luật chuyển đổi trật tự cho câu nguồn, số lƣợng gióng hàng chéo giảm đáng kể Do câu tiếng Anh đƣợc thay đổi vị trí cho gần giống với tiếng Việt Nhờ vậy, hệ thống dịch hiệu Giáo sƣ Johnson không tham gia vào việc nghiên cứu , nhƣng Our training time is too long and could limit the doctors ' viết kèm viết vấn đề Khoa học , Baseline motivation and waste our medical talent phác thảo có ý nghĩa Ngữ liệu Thời gian đào tạo dài giới hạn Professor Johnson be ed not involve ed in the study but write ed Tách từ tiếng an accompanying article in the same issue of Science , outline Anh thành ing its significance nguyên mẫu Giáo sƣ Johnson không liên quan đến việc nghiên cứu , nhƣng phụ tố viết accompanying viết vấn đề động bác sĩ lãng phí tài y học đào tạo thời gian lâu dài giới hạn Baseline bác sĩ động lực chất thải y tế tài time training Our is too long and could limit the motivation ' doctors and waste talent medical our Khoa học , phác thảo có ý nghĩa Chuyển đổi thời gian đào tạo lâu dài giới hạn trật tự động lực bác sĩ chất thải tài y tế chúng Nhƣ vậy, việc tích hợp thông tin từ loại hình thái tiếng Anh có cải thiện kết dịch số trƣờng hợp Tuy nhiên, kết dịch phụ thuộc nhiều vào hiệu công cụ đánh nhãn từ loại phân tích hình thái Do đó, từ câu tiếng Anh bị phân tích sai dẫn đến nhiều trƣờng hợp câu dịch tệ hệ But his real interest remains in the distant provinces of the sở Mặc khác, ngữ liệu không bao phủ hết nhãn từ loại từ dẫn đến 5.3.1.2 empire Ngữ liệu hệ dịch không hiệu Nhƣng quan tâm thực ông tỉnh xa xôi Chuyển đổi trật tự từ đế quốc Bảng 5.3 Kết dịch hệ chuyển đổi trật tự từ Nhƣng ông thực quan tâm xa xôi tỉnh đế quốc Baseline Hệ sở Chuyển đổi trật tự BLEU NIST TER 43,31 45,88 9,8269 9,9461 37,914 36,429 But interest real his remains in the provinces distant of the Chuyển đổi empire trật tự Nhƣng quan tâm thực ông tỉnh xa xôi Trang 62 Trang 63 đế quốc Bảng 5.4 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Việt BLEU NIST TER Tuy nhiên, trƣờng hợp áp dụng luật cải thiện đƣợc hệ dịch Vì Hệ sở 43,31 9,8269 37,914 luật bao quát đƣợc trƣờng hợp Luật đƣợc áp dụng sai dẫn Tách từ tiếng Việt 44,19 45,88 9,9079 9,9461 37,103 36,429 46,49 10,0107 35,850 đến lƣợng gióng hàng chéo câu lại tăng lên, kéo theo kết dịch tệ so với hệ dịch sở Đổi trật tự từ tiếng Anh Đổi trật tự từ tiếng Anh + Tách từ tiếng Việt In the plan toward the year 2010 , Vietnam National Ngữ liệu Baseline Administration of Tourism declares Van Phong as " the most Kết cho thấy hệ dịch đƣợc cải thiện gán nhãn ranh giới từ cho câu tiếng important region for tourism development " Việt Khi kết hợp chuyển đổi trật tự từ câu tiếng Anh phân đoạn từ tiếng Việt, Trong kế hoạch hƣớng tới năm 2010 , Tổng cục Du lịch Việt kết đƣợc cải tiến đáng kể Nam công bố Văn Phong khu phát triển du lịch quan trọng Hiệu dịch đƣợc nâng cao số liên kết gióng hàng từ − 𝑛 (liên kết token với nhiều token) giảm đáng kể từ ngữ đƣợc rút không bị gián Trong kế hoạch hƣớng đến năm 2010 , Việt Nam Tổng cục đoạn Nhờ vậy, hệ dịch thống kê cặp ngữ xác tìm kiếm câu Du lịch tuyên bố Vân Phong " quan trọng khu vực dịch tốt cho phát triển du lịch " Bảng 5.5 Số liên kết gióng hàng từ mô hình In the plan toward the year 2010 , Vietnam National Tổng số liên kết Administration of Tourism declares Van Phong as " the most Chuyển đổi trật tự region important for tourism development " Trong kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong " hầu hết khu vực quan trọng cho phát triển du lịch " 5.1.1.1 Thông tin hình thái từ tiếng Việt đƣợc khảo sát bao gồm ranh giới từ từ loại i Phân đoạn từ câu tiếng Việt 771.492 37,74 Tách từ tiếng Việt 616.846 30,18 Đổi trật tự tiếng Anh 770.424 37,69 616.589 30,16 Đổi trật tự tiếng Anh + Sau số ví dụ cho kết gióng hàng từ hệ sở hệ dịch có câu tiếng Việt đƣợc tách từ: Ví dụ 1: Kết dịch mô hình tách từ cho tiếng Việt nhƣ sau: Trang 64 bình câu Cơ sở Tách từ tiếng Việt Thêm thông tin hình thái từ câu tiếng Việt Số liên kết trung Trang 65 All industrial and processing zones must have waste treatment On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists systems Tất_cả khu công_nghiệp khu chế_xuất phải có hệ_thống xử_lý chất_thải Trên đƣờng đến tỉnh miền trung tỉnh Bình Thuận Ninh Thuận , du khách can catch a view of deserted sand dunes and peaceful villages Kết gióng hàng từ hệ baseline: 0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17 7-18 10-19 bắt gặp cảnh cồn cát hoang vu làng yên bình Kết gióng hàng từ hệ có tách từ tiếng Việt: All industrial and processing zones must have waste treatment systems 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 1515 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 25-25 24-26 26-27 Tất khu công nghiệp khu chế xuất phải có hệ thống xử lý chất thải On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists Kết gióng hàng từ hệ dịch tách từ: 0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13 Trên đƣờng đến tỉnh miền trung tỉnh Bình_Thuận Ninh_Thuận , du_khách All industrial and processing zones must have waste treatment systems can catch a view of deserted sand dunes and peaceful villages Tất_cả khu công_nghiệp khu chế_xuất phải có hệ_thống xử_lý chất_thải có_thể bắt_gặp cảnh cồn cát hoang_vu làng yên_bình Ví dụ 2: Sau số kết dịch hệ dịch sở hệ dịch có tách từ tiếng Việt: On the way to the central provinces of Binh Thuan and Ninh Each member of the Management Board shall have a single vote Thuan , tourists can catch a view of deserted sand dunes and Ngữ liệu peaceful villages Trên đường đến tỉnh miền trung tỉnh Bình Thuận Mỗi thành viên Hội đồng quản trị có phiếu bầu Ninh Thuận , du khách bắt gặp cảnh cồn cát hoang vu làng yên bình Cơ sở Kết gióng hàng từ hệ sở: 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 14-16 14-17 15-18 15-19 16-20 16-21 18-22 17-23 22-24 21-25 20-26 20-27 Tách từ Mỗi thành viên Hội đồng quản trị có có phiếu biểu Mỗi thành_viên Hội_đồng_quản_trị có phiếu bầu duy_nhất 23-28 22-29 25-30 25-31 24-32 24-33 26-34 Trang 66 Trang 67 Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and Kết cho thấy hệ dịch thêm thông tin từ loại vào phía tiếng Việt làm giảm hiệu so với hệ sở 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists Tiếng Anh Tiếng Việt Từ Từ Ngữ liệu Tasmania từ lâu nơi cho chƣơng trình tạo mƣa nhân Từ loại tạo , sau thành công rực rỡ với chƣơng trình năm Cơ sở 1960 1970 lƣợng mƣa tăng lên đáng kể với 30 phần Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt trăm đƣợc đo báo cáo nhà khoa học CSIRO Sau đó, hệ phát sinh từ loại cho từ tiếng Việt Bộ giải mã chọn câu tiếng Việt Tasmania từ lâu đƣợc địa điểm cho đám mây chƣơng đƣợc gán nhãn từ loại có xác suất cao dựa vào mô hình dịch, mô hình ngôn trình tạo mƣa nhân tạo , sau rõ ràng thành công với ngữ từ mô hình ngôn ngữ từ loại chƣơng trình năm 1960 1970 quan Nhƣ vậy, hệ dịch khác với hệ dịch sở chỗ chịu ảnh hƣởng mô hình trọng lƣợng mƣa tăng 30 phần trăm đƣợc đo báo cáo ngôn ngữ từ loại trồng nhà khoa học Khi khảo sát kết quả, nhận thấy kết phát sinh từ loại cho câu tiếng Tasmania từ lâu đƣợc địa_điểm cho chƣơng_trình tạo mƣa nhân_tạo , sau rõ_ràng thành_công với Tách từ Việt không xác, dẫn đến kết dịch tệ so với hệ sở Ví dụ: chƣơng_trình năm 1960 1970 From Belgium we got to know that : " it might be interesting for đáng_kể lƣợng mƣa tăng 30 phần_trăm đƣợc đo you to know that currently an application for a field trial with báo_cáo CSIRO nhà khoa_học GM poplar trees is [ being ] considered Ngữ liệu Từ Bỉ , chúng_tôi cho_biết : " có_thể thú_vị bạn ii biết hiện_nay ứng_dụng cho thử_nghiệm bên với Tích hợp thông tin từ loại câu tiếng Việt GM dƣơng [ ] đƣợc xem_xét Bảng 5.6 Kết dịch hệ dịch tích hợp từ loại tiếng Việt Từ Bỉ , chúng_tôi nhận đƣợc biết : " có_thể đƣợc thú_vị BLEU NIST TER Hệ sở 43,31 9,8269 37,914 Thêm từ loại tiếng Việt 42,58 9,7837 38,072 Đổi trật tự từ tiếng Anh 45,88 9,9461 36,429 Thêm từ loại Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv đƣợc|M biết|Vv Đổi trật tự từ tiếng Anh + Thêm từ loại tiếng Việt 44,99 9,8972 36,864 tiếng Việt rằng|Cp :|PU "|PU nó|Pp có_thể|Aa đƣợc|Vv thú_vị|Aa cho|Cp Trang 68 Tách từ tiếng Việt cho bạn biết đơn xin cho thử_nghiệm bên với biến_đổi gen dƣơng [ đƣợc coi ] Trang 69 bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq -0.8658289 Vv Nq Nn Nn Aa -0.5041147 Vv Cm Nq Nn Nn thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn cây|Nn dƣơng|Aa là|Vc [|PU đƣợc|Vv ]|PU xem_xét|Vv |PU Rõ ràng xác suất 5-gram chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu dịch tệ Sau ví dụ khác cho thấy ảnh hƣởng mô hình ngôn ngữ từ Mặc khác, kết dịch bị chi phối nhiều mô hình nhãn từ loại Do xác suất loại n-gram từ loại thƣờng lớn xác suất chuỗi từ Under the monoculture plantation approach , the rubber Xét câu dịch sau: farmers must obey and follow the instructions given to them Ngữ liệu Theo phƣơng_pháp đồn_điền độc_canh , nông_dân trồng Earlier , Hung signed a decision to take legal action over the cao_su phải tuân theo hƣớng_dẫn đƣợc giao cho họ illegal transport and purchase of wild animals and handed over Theo đồn_điền độc_canh tiếp_cận , ngƣời nông_dân both of the suspects and the evidence to the Lac Duong district Ngữ liệu police for investigation trồng cao_su phải tuân theo làm theo hƣớng_dẫn đƣợc Cơ sở Trƣớc , Hƣng ký quyết_định để thực_hiện hành_động trao cho họ pháp_lý đối_với việc vận_tải mua_bán bất_hợp_pháp Theo|Vv các|Nq đồn_điền|Nn độc_canh|Vv tiếp_cận|Vv ,|PU động_vật hoang_dã giao_nộp hai nghi_phạm chứng_cứ cho công_an huyện Lạc_Dƣơng để điều_tra Thêm từ loại tiếng Việt Trƣớc , Hƣng ký quyết_định để thực_hiện hành_động Cơ sở |PU bàn_giao nghi_phạm bằng_chứng đến Lạc_Dƣơng Trƣớc|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn tiếng Việt làm|Vv theo|Vv hƣớng_dẫn|Nn đƣợc|Vv trao|Vv cho|Cp họ|Pp pháp_lý việc vận_chuyển mua động_vật hoang_dã huyện cảnh_sát để điều_tra Thêm từ loại cao_su|Nn nông_dân|Nn phải|Vv tuân|Nn theo|Vv và|Cp pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp bằng_chứng|Nn đến|Cm Lạc_Dƣơng|Nr huyện|Nu cảnh_sát|Nn cho|Cp điều_tra|Vv |PU 5.1.1.2 Thêm thông tin hình thái từ cho tiếng Anh tiếng Việt Bảng 5.7 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh tiếng Việt BLEU NIST TER Hệ sở 43,31 9,8269 37,914 Từ loại tiếng Anh, từ loại tiếng Việt 40,08 9,781 38,728 Từ loại, tách nguyên mẫu tiếng Anh, từ loại tiếng Việt 42,12 9,8169 38,254 Xác suất chuỗi nhãn từ loại mô hình ngôn ngữ: Trang 70 Trang 71 Tiếng Anh Tiếng Việt Từ Từ o Mô hình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt không xác Do hai ngôn ngữ khác biệt nhiều đặc điểm hình thái từ Matthew|matthew|NNP Từ loại Từ loại Huber|Huber|NNP assistant|assistant|JJ Trong mô hình này, hệ thống dịch từ sang từ từ loại sang từ loại hai mô earth|earth|NN hình dịch độc lập Hiệu dịch mô hình giảm đáng kể so với hệ sở Nguyên nhân làm giảm hiệu dịch ảnh hƣởng mô hình ngôn ngữ từ Tiếng Anh ,|,|, professor|professor|NN and|and|CC sciences|science|NNS atmospheric|atmospheric|JJ at|at|IN University|university|NNP of|of|IN ,|,|, Purdue|Purdue|NNP says|say|VBZ no|no|DT loại, chuỗi từ loại phát sinh sai dẫn đến kết dịch sai evidence|evidence|NN of|of|IN global|global|JJ cooling|cool|NN Từ loại câu đích sai nguyên nhân: during|during|IN the|the|DT period|period|NN had|have|VBD o Từ loại câu nguồn sai, dẫn đến hệ thống dịch sang câu đích sai been|be|VBN found|find|VBN |.| Ví dụ: Matthew|matthew|NNP|UNK "|"|NN Even|even|RB with|with|IN a|a|DT strong|strong|JJ monsoon|monsoon|NN system|system|NN circulation|circulation|NN enough|enough|RB ,|,|, if|if|IN Tiếng Việt changes|change|NNS to|to|TO giáo_sƣ|Aa của|Cm khoa_học|Nn tại|Cm không|Nq change|change|VB Huber|Nr trái_đất|Nn Đại_học|Nn bằng_chứng|Nn ,|PU và|Cp Purdue|Nr của|Cm trợ_lý|Nn khí_quyển|Nn ,|PU toàn_cầu|Aa nói|Vc mát|Nn trong|Cm thời_kỳ|Nn này|Pd đã|R đƣợc|Vv tìm|Vv thấy|Vv |PU where|where|WRB and|and|CC when|when|WRB rain|rain|NN Tiếng Anh is|be|VBZ delivered|deliver|VBN ,|,|, then|then|RB that|that|WDT could|could|MD have|have|VB an|a|DT that|that|WDT has|have|VBZ not|not|RB evaluations|evaluation|NNS Phu|Phu|NNP been|be|VBN captured|capture|VBN in|in|IN the|the|DT large|large|JJ -|-|: scale|scale|NN Several|several|JJ other|other|JJ areas|area|NNS along|along|IN impact|impact|NN ,|,|, Tiếng Anh "|"|NN Một_số|Aa để|Cm thay_đổi|Vv nơi|Nt và|Cp khi|Nt mƣa|Nn đƣợc|Vv giao|Vv đánh_giá|Nn ,|PU "|Nn Ashfaq|Ashfaq|NNP|UNK nói|Vv |PU Trang 72 Ninh|Ninh|NNP border|border|NN with|with|IN Commune|Commune|NNP hillsides|hillside|NNS |.| hệ_thống|Nn ,|PU nếu|Cm lƣu_thông|Nn thay_đổi|Nn đủ|Aa đã|R không|R đƣợc|Vv giữ|Vv trong|Cm quy_mô|Aa lớn|Nn 's|'s|POS Ham|Ham|NNP cut|cut|NN stumps|stump|NNS and|and|CC cleared|clear|VBD "|Nn Ngay_cả|Aa với|Cm một|Nq mạnh_mẽ|Nn gió_mùa|Nn ,|PU sau|Aa đó|Vc có_thể|R có|Vv một|Nq tác_động|Nn mà|Cp Park|park|NNP National|national|NNP were|be|VBD found|find|VBN with|with|IN newly|newly|RB -|-|: Ashfaq|Ashfaq|NNP said|say|VBD |.| Tiếng Việt Quoc|Quoc|NNP các|Nq khu_vực|Nn khác|Aa dọc|Cm Vƣờn_quốc_gia|Nn Phú_Quốc|Nr của|Cm biên_giới|Nn với|Cm Tiếng Việt xã|Nn Hàm_Ninh|Nr đƣợc|R tìm|Vv thấy|Vv với|Cm vừa|Aa |PU cắt_giảm|Nn gốc|Nn và|Cp khai_hoang|Vv sƣờn|Nq đồi|Nn |PU Trang 73 Once|once|RB the|the|DT team|team|NN identified|identify|VBD the|the|DT Tiếng Anh global|global|JJ cooling|cool|NN ,|,|, sở trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu next|next|JJ step|step|NN was|be|VBD to|to|TO find|find|VB xác Điều dẫn đến hệ thống chọn câu dịch tệ so với what|what|WP caused|cause|VBD it|it|PRP |.| hệ sở ,|PU tiếp_theo|Aa bƣớc|Vv là|Vv để|Cm tìm|Vv những|Nq gì|Nn đã|R gây|Vv ra|R nó|Pp |PU 4.4 o Chất lƣợng dịch mô hình factored SMT giảm đáng kể so với hệ the|the|DT Một_khi|R các|Nq nhóm|Nn xác_định|Vv toàn_cầu|Aa mát|Nn Tiếng Việt Thông tin hình thái từ cho tiếng Anh tiếng Việt: Ngoài ra, khảo sát kết mô hình tích hợp thông tin hình thái từ, mô hình chuyển đổi trật tự cho câu tiếng Anh gán nhãn từ loại cho tiếng Việt đạt kết dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49 Tóm tắt kết thí nghiệm Nhƣ vậy, kết khảo sát ảnh hƣởng thông tin hình thái từ vào hệ dịch thống kê Anh – Việt tóm tắt lại nhƣ sau: - Thông tin hình thái từ tiếng Anh: o Tích hợp trực tiếp từ loại biến đổi hình thái từ: Hệ dịch khử nhập nhằng nhờ thông tin từ loại giảm số từ chƣa gặp biến đổi dạng nguyên mẫu Tuy nhiên, kết phụ thuộc vào độ xác công cụ độ bao phủ ngữ liệu nên kết dịch chƣa cải tiến đƣợc so với hệ sở o Chuyển đổi trật tự từ dựa từ loại: Kết dịch đƣợc cải thiện đáng kể câu nguồn đƣợc chuyển đổi trật tự nhằm tạo tƣơng đƣơng với câu đích - Thông tin hình thái từ tiếng Việt: o Gán nhãn ranh giới từ: Chất lƣợng dịch tăng lên so với hệ sở nối tiếng từ câu tiếng Việt, số liên kết gióng hàng từ – nhiều giảm đáng kể kết thống kê mô hình dịch nhƣ mô hình ngôn ngữ xác từ không bị gián đoạn trình rút trích ngữ o Gán nhãn từ loại: Kết dịch giảm hệ dịch phụ thuộc vào kết gán nhãn mô hình ngôn ngữ từ loại tiếng Việt Trang 74 Trang 75 CHƢƠNG 6: KẾT LUẬN Trong tƣơng lai, đề tài mở rộng theo hƣớng sau nâng cao hiệu hệ dịch cách tích hợp thêm số tri thức khác vào hệ dịch nhƣ thông tin cú pháp để chuyển đổi trật tự từ thông tin ngữ nghĩa để chọn từ dịch xác Trong đề tài tích hợp tri thức ngôn ngữ hình thái từ vào dịch máy thống kê Anh - Việt Hệ thống đạt chất lƣợng dịch tốt áp dụng luật chuyển đổi trật tự dựa thông tin từ loại cho câu tiếng Anh gán nhãn từ loại cho câu tiếng Việt Điểm BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 tỉ lệ lỗi TER giảm từ 37,914 xuống 35,850 Tuy nhiên, tri thức từ loại lại không làm tăng chất lƣợng dịch Điều lí giải chất lƣợng công cụ gán nhãn từ loại Một phần kết hợp với nhãn từ loại, độ phân tán từ tăng, dẫn đến việc hệ thống không dịch đƣợc từ Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn có ảnh hƣởng tốt đến chất lƣợng dịch, nhờ cải thiện kết gióng hàng từ Luật chuyển đổi cải tiến hệ dịch kết hợp với thông tin hình thái từ Nhƣ vậy, không hệ dịch thống kê cặp ngôn ngữ khác, cặp tiếng Anh tiếng Việt, việc biến đổi để tạo tƣơng đồng hai ngôn ngữ phát huy mạnh hệ dịch máy thống kê, vừa học tự động ngữ liệu, vừa xử lý dựa tri thức ngôn ngữ Tóm lại có hai điểm quan trọng đƣợc rút sau thực đề tài: - Các tri thức ngôn ngữ khác đóng góp khác vào chất lƣợng hệ dịch Việc kết hợp tri thức hợp lí làm tăng đáng kể chất lƣợng dịch hệ thống - Cách sử dụng khác tri thức ngôn ngữ để tích hợp vào hệ dịch máy thống kê tạo hiệu khác hệ dịch Trang 76 Trang 77 [9] TÀI LIỆU THAM KHẢO Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003 Syntax-based Language Models for Statistical Machine Translation In Proceedings of the Tiếng Việt [1] Ninth Machine Translation Summit of the International Association for Đinh Điền (2001), So sánh trật tự từ định ngữ tiếng Anh tiếng Việt Tạp chí Khoa học Xã hội Nhân văn, Trƣờng Đại học Khoa học Xã hội Nhân văn Tp Hồ Chí Minh [2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê niệm 30 năm thành lập Viện CNTT, Hà Nội Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, cấu trúc cú pháp bản, Luận án phó tiến sĩ khoa học ngữ văn Denmark, 2007 [13] J Giménez and L Márquez, 2004, SVMTool: A general POS tagger generator A Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, Chao Wang, Michael Collins, and Phillip Koehn, 2007 Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, Collins, M., Koehn, P and Kucerova, I (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of [15] K Rottmann and S Vogel, 2008, Word reordering in statistical machine translation with a POS-based distortion model, In Proceedings of the 11th Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007 [16] K Toutanova, H.T Ilhan, and C.D Manning, 2002, Extensions to HMM- (2002), Automatic Evaluation of Machine Methods for Natural Language Processing, pages 87-94, Philadelphia, PA, July 2002 [17] Koehn, P., Och, F J., and Marcu, D (2003), Statistical phrase-based the Assoc for Computational Linguistics (ACL), pp 531-540 Doddington, G Translation In Proceeding EMNLP-CoNLL based statistical word alignment models, In Proceedings of Conf on Empirical 2007 [8] Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004 International Conference on Theoretical and Methodological Issues in page 9-16 [7] based on Support Vector Machines, In Proceedings of the 4th International [14] J May and K Knight, 2007 Syntactic Re-Alignment Models for Machine September 2002 [6] automatically learned rewrite pat-terns In Proceedings of COLING 2004 Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt số Proceedings of Intl Conf Spoken Language Processing, Denver, Colorado, [5] [11] F Xia and M McCord 2004 Improving a statistical MT system with [12] Habash, Nizar Syntactic Preprocessing for Statistical Machine Translation, In Tiếng Anh [4] [10] F J Och and H Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000 Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt Hội nghị kỷ [3] Machine Translation, New Orleans, Louisiana, September 2003 Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, translation, Proceedings of the HLT-NAACL 2003 conference, pp 127–133 [18] Koehn, P (2003), Lecture of Statistical Machine Translation [19] Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel (2009) Effective Use of Linguistic and Contextual Information for Statistical pp 138 – 145 Trang 78 Trang 79 Machine Translation In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (August 2009), pp 72-80 Annual Meeting of the Association for Computational Linguistics, pp 311– 318 [20] M Popovic, H Ney, 2006, POS-based Word Reorderings for Statistical [29] S NieBen and H Ney, 2001, Morpho-syntactic analysis for reordering in Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May statistical machine translation, In Proceedings of MT Summit VIII, pages 247- 2006 252, Santiago de Compostela, Galicia, Spain, September 2001 [21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007) Getting to know [30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morpho- Moses: initial experiments on German English factored translation In syntactic analysis In Proceedings of the 18th conference on Computational Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 [22] Minnen, G., J Carroll and D Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223 [23] N Ueffing, and H Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, linguistics - Volume (ACL), Saarbrücken, Germany, page 1081-1085 [31] Snover M., Dorr B., Schwartz R., Micciulla L and Makhoul J (2006), A study of translation edit rate with targeted human annotation, Proceedings of Association for Machine Translation in the Americas, pp 223 – 231 In Conference of the [32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based European Chapter of the Association for Computational Linguistics (EACL), SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of pages 347-354, Budapest, Hungary, April 2003 the 7th Conference of the Association for Machine Translation in the [24] Nhung N., Dien D., 2008 A syntactic-based Word Re-ordering for EnglishVietnamese Statistical machine translation system In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008 [25] P F Brown, S A D Pietra, V J D Pietra, and R L Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics 22(1): 39-69 Americas, pages 138-147, Cambridge, 2006 [33] Victoria Fossum, Kevin Knight and Steven Abney, 2008 Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation In Proceedings of ACL MT Workshop, 2008 [34] Yamada,K and Knight, K (2001), A syntax-based statistical machine translation, Proceedings of ACL [26] P Koehn, F J Och, and D Marcu, 2003, Statistical phrase-based translation, In Proceedings of HLT-NAACL 2003 [27] P Koehn, H Hoang, 2007 Factored Translation Models In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language [35] Yuqi Zhang, Richard Zens and Hermann Ney 2007 Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation Processing and Computational Natural Language Learning (ACL), pp 868– 876, Prague, June 2007 [28] Papineni K A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Trang 80 Trang 81 Dust in the air is 113 - 230 - times above the permitted level , the content of PHỤ LỤC some metals in waste water ten times thicker than the acceptable level A Đối chiếu hình thái từ Anh – Việt (biến cách) Stt Ý nghĩa ngữ pháp Biến cách Nghĩa Danh từ số nhiều s Ngôi thứ số s Sở hữu cách „s Hiện phân từ ing Quá khứ Quá phân từ A project to build Ha Long into a smoke - free tourist city started in Ha Long Từ loại city , northern coastal Quang Ninh province on Sept NNS As the driest province in the country with annual rainfall between 700 and VBZ 1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas , POS mountains , rivers , and sand dunes VBG It , however , warned that rising sea - level would cost the habitats of such ed VBD rare , endangered and endemic species like the leopard gecko , which lives en VBN only in the lowland area of the region So sánh er JJR,RBR The Minister for Natural Resources and the Environment , Pham Khoi So sánh est JJS,RBS Nguyen , will then chair a workshop on what Vietnam has been doing to những, cope with the problems brought on by global warming and rising sea levels Sanctuary established for under threat snub - nosed monkeys in Ha Giang B Kết dịch số mô hình Văn tiếng Anh Heavy rain and strong winds pounded Italy on Monday , claiming the lives of four people , ANSA news agency reported In addition , Viet Nam now hosts a great variety of industries and many use A hole with the length of two metres is on the blocked road Phainam - the dirty technology and waste natural resources road nearby Chao Anuvong Stadium An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate Running the club is very difficult for me because we lack money , but with industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI ) supports from members , we still manage the club effectively study shows When not working as an architect he dedicates much of his time to running The quantity of HCFCs , particularly R22 , used in the refrigerating and air - the Viet Nam Amateur Club of Astronomy conditioning industries is on the increase , Thanh said , adding that finding Vietnam has begun an initiative to raise its capacity in coping with A / H1N1 an ideal alterative refrigerant is a major challenge facing the industry flu , a Red Cross official said in Hanoi September 16 It is situated about 20 kilometers from Cao Lanh Town along National According to him , the country has met almost all of its health care targets set Highway 30 for the 2006 - 2010 period " We still had coffee and food and they organised stuff so we could get out , Vietnam has continued to receive messages of sympathy from leaders of " she said other countries over the losses of human life and poverty caused by typhoon Ketsana Trang 82 Trang 83 Russian President Dmitri Medvedev on Oct cabled a message to his Nó , nhiên , cảnh báo gia tăng mực nƣớc biển chi phí môi Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to trƣờng sống nhƣ quý , bị đe dọa đặc hữu loài nhƣ lƣợng help Vietnam overcome the natural disaster ' s consequences " báo hoa mai tắc kè , mà khu vực đất thấp khu vực Các Bộ trƣởng Bộ Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau chủ trì hội thảo mà Việt Nam làm để đối phó với Kết dịch hệ sở In bổ sung , Việt Nam vật chủ nhiều loại ngành công nghiệp vấn đề đƣa vào nóng lên toàn cầu mực nƣớc biển tăng lên nhiều sử dụng bẩn công nghệ chất thải nguồn tài nguyên thiên Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt Hà Giang nhiên Hôm mƣa gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn Ƣớc tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) cần thiết để loại bỏ ô ngƣời , ANSA Hãng tin nhiễm công nghiệp , , công nghiệp sách chiến lƣợc Viện ( Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần IPSI ) nghiên cứu cho thấy Sân vận động Chao Anuvong Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng điện lạnh Hoạt động câu lạc khó khăn cho thiếu tiền , không khí - điều hoà ngành công nghiệp tăng lên , Thành cho biết , nói nhƣng với hỗ trợ từ thành viên , quản lý câu lạc thêm việc tìm kiếm lý tƣởng alterative refrigerant lớn thách có hiệu thức đối mặt với ngành công nghiệp Khi không làm việc nhƣ kiến trúc sƣ ông dedicates nhiều thời gian Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 để chạy Việt Nam Amateur Câu lạc thiên văn học " Chúng có cà phê thực phẩm họ tổ chức thứ nhƣ , Việt Nam bắt đầu sáng kiến để nâng cao có khả thoát khỏi " , Cô nói việc đối phó với bệnh cúm A / H1N1 , Hội chữ thập đỏ chức nói Bụi không khí 113 - 230 - lần mức cho phép , nội dung Hà Nội ngày 16 tháng số kim loại nƣớc thải mƣời lần dày so với mức độ chấp Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe nhận đƣợc mục tiêu thiết lập cho năm 2006 - 2010 kỳ Một dự án để xây dựng Hạ Long vào thuốc tự thành phố du lịch Việt Nam tiếp tục nhận đƣợc thông điệp đồng cảm từ nhà lãnh bắt đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào đạo nƣớc khác thiệt hại sống ngƣời tháng nghèo gây bão Ketsana Do khô tỉnh quốc gia với hàng năm lƣợng mƣa 700 số Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông 1.100 mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , điệp ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để sông , cồn cát giúp Việt Nam khắc phục thảm họa thiên nhiên hậu " Kết dịch sau thêm từ loại vào tiếng Anh Trang 84 Trang 85 In bổ sung , Việt Nam có nhiều loại ngành công nghiệp Hôm mƣa gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn nhiều sử dụng bẩn công nghệ chất thải nguồn tài nguyên thiên nhiên ngƣời , ANSA Hãng tin báo cáo Ƣớc tính đồng 124 nghìn tỷ đồng ( Hoa Kỳ $ 7.4 tỷ đôla ) cần thiết để loại Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần bỏ ô nhiễm công nghiệp , , công nghiệp sách chiến lƣợc Sân vận động Chao Anuvong Viện ( IPSI ) nghiên cứu cho thấy Running câu lạc khó khăn cho thiếu tiền , nhƣng Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng refrigerating với hỗ trợ từ thành viên , quản lý câu lạc có hiệu không khí - điều hoà ngành công nghiệp gia tăng , Thành cho biết , nói thêm việc tìm kiếm lý tƣởng alterative refrigerant lớn Khi không làm việc nhƣ kiến trúc sƣ ông dedicates nhiều thời gian thách thức đối mặt với ngành công nghiệp ông để chạy Việt Nam Amateur câu lạc Thiên văn học Nó nằm khoảng 20 km từ Cao Lãnh thị trấn dọc theo Quốc lộ 30 Việt Nam bắt đầu sáng kiến để nâng cao có khả việc " Chúng có cà phê thực phẩm họ tổ chức thứ để đối phó với bệnh cúm A / H1N1 , Hội Chữ thập đỏ quan chức nói làm " , Cô nói Hà Nội ngày 16 tháng Bụi không khí 113 - 230 - lần mức cho phép , nội dung Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe số kim loại nƣớc thải mƣời lần dày so với mức độ chấp nhận mục tiêu thiết lập cho năm 2006 - 2010 kỳ đƣợc Việt Nam liên tục để nhận thông điệp đồng cảm từ nhà lãnh đạo Một dự án để xây dựng Hạ Long vào không khói thuốc thành phố du lịch nƣớc khác thiệt hại sống ngƣời nghèo gây bắt đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào bão Ketsana tháng Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông Do khô tỉnh nƣớc với hàng năm lƣợng mƣa 700 số 1.100 điệp ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , giúp Việt Nam khắc phục thảm họa thiên nhiên hậu " sông , cồn cát Nó , nhiên , cảnh báo tăng mực nƣớc biển có chi phí môi trƣờng Kết dịch sau áp dụng luật chuyển đổi trật tự sống nhƣ quý , bị đe dọa đặc hữu loài nhƣ báo In bổ sung , Việt Nam chủ nhà loại lớn ngành công hoa mai phục kè , mà sống khu vực đất thấp khu vực nghiệp nhiều sử dụng công nghệ bẩn chất thải nguồn tài nguyên Các Bộ trƣởng cho Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau thiên nhiên chủ trì hội thảo mà Việt Nam làm để đối phó với Ƣớc tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ đôla ) cần thiết để loại bỏ ô vấn đề đƣa tiếp tục nóng lên toàn cầu mực nƣớc biển tăng lên nhiễm công nghiệp , công nghiệp sách chiến lƣợc Viện ( Sanctuary phát cho bị đe dọa khỉ mũi tẹt Hà Giang IPSI ) nghiên cứu cho thấy Trang 86 Trang 87 Các số lƣợng HCFCs , đặc biệt R22 , đƣợc sử dụng điện lạnh Hoạt động câu lạc khó khăn cho thiếu tiền , nhƣng không khí - điều hoà ngành công nghiệp gia tăng , Thành cho biết , nói với hỗ trợ từ thành viên , quản lý câu lạc có hiệu thêm việc tìm kiếm lý tƣởng refrigerant alterative thách thức lớn ngành công nghiệp Khi làm việc kiến trúc ông dedicates nhiều thời gian Nó nằm khoảng 20 km từ Cao Lãnh Town theo Quốc lộ 30 ông để chạy Việt Nam Amateur Câu lạc Thiên văn học " Chúng cà phê thực phẩm họ tổ chức chất liệu để Việt Nam bắt đầu sáng kiến để nâng cao lực việc đối thoát khỏi " , cô nói phó với bệnh cúm A / H1N1 , đồng Hội chữ thập đỏ cho biết Bụi không khí 113 - 230 - lần so với mức cho phép , nội dung Hà Nội ngày 16 tháng số kim loại nƣớc thải mƣời lần dày so với mức độ chấp nhận Theo ông , quốc gia đáp ứng gần nhƣ tất chăm sóc sức khỏe mục đƣợc tiêu đƣợc đặt cho năm 2006 - 2010 thời gian Một dự án để xây dựng Hạ Long vào khói - thành phố du lịch không bắt Việt Nam liên tục để nhận thông điệp cảm thông từ nhà lãnh đạo đầu thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng quốc gia khác thiệt hại sống ngƣời nghèo gây Khi tỉnh khô nƣớc với lƣợng mƣa hàng năm khoảng 700 bão Ketsana 1.100 mm , Ninh Thuận đƣợc ƣu đãi với bờ biển , đồng , núi , Nga , Tổng thống Dmitri Medvedev vào ngày tháng 10 cabled thông sông , cồn cát điệp đến đối tác Việt Nam ông Nguyễn Minh Triet , nói , " Nga sẵn sàng Nó , nhiên , cảnh báo gia tăng mực nƣớc biển chi phí môi để giúp Việt Nam khắc phục thiên tai tự nhiên hậu " trƣờng sống quý , bị đe dọa đặc hữu loài nhƣ nhƣ tắc kè báo hoa mai , mà sống khu vực đất thấp khu Hệ dịch gán nhãn ranh giới từ tiếng Việt vực In bổ_sung , Việt_Nam chủ_nhà nhiều loại ngành Các Bộ trƣởng Bộ Tài nguyên Môi trƣờng Phạm Khôi Nguyên , sau công_nghiệp nhiều sử_dụng công_nghệ chất_thải bẩn nguồn chủ trì hội thảo mà Việt Nam làm để đối phó với tài_nguyên thiên_nhiên vấn đề đƣa vào nóng lên toàn cầu mực nƣớc biển tăng lên Ƣớc_tính 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) cần_thiết để loại_bỏ ô_nhiễm Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt Hà Giang công_nghiệp , công_nghiệp chính_sách Viện Chiến_lƣợc ( IPSI ) mƣa Heavy gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống bốn nghiên_cứu cho_thấy ngƣời , hãng tin ANSA báo cáo Các số_lƣợng HCFCs , đặc_biệt R22 , đƣợc sử_dụng refrigerating Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân điều_hoà không_khí - ngành công_nghiệp gia_tăng , Thành cho_biết vận động Chao Anuvong , nói thêm việc tìm_kiếm lý_tƣởng alterative refrigerant thách_thức lớn phải đối_mặt với ngành công_nghiệp Nó nằm khoảng 20 km từ Cao Lanh Thị_xã dọc theo Quốc_lộ 30 Trang 88 Trang 89 " Chúng_tôi có cà_phê thực_phẩm chúng đƣợc tổ_chức stuff Việt_Nam bắt_đầu sáng_kiến để nâng_cao năng_lực việc vì_vậy chúng_tôi có_thể nhận , cô nói , " đối_phó với bệnh cúm A / H1N1 , Hội Chữ_thập_đỏ quan_chức nói bụi không_khí 113 - 230 - lần mức cho_phép , nội_dung Hà_Nội ngày 16 tháng một_số kim_loại nƣớc_thải mƣời lần dày so với mức_độ Theo ông , quốc_gia đáp_ứng gần nhƣ tất_cả chăm_sóc y_tế đặt chấp_nhận đƣợc mục_tiêu cho năm 2006 - 2010 thời_gian Một dự_án để xây_dựng Hạ_Long thành không khói thuốc thành_phố Việt_Nam tiếp_tục nhận đƣợc thông_điệp cảm_thông từ nhà du_lịch bắt_đầu thành_phố Hạ_Long , ven biển phía bắc tỉnh lãnh_đạo nƣớc khác thiệt_hại cuộc_sống con_ngƣời Quảng_Ninh vào tháng nghèo gây bão Ketsana Do khô tỉnh nƣớc với lƣợng mƣa hàng năm khoảng 700 1.100 Nga Tổng_thống Dmitri Medvedev vào ngày tháng 10 cabled mm , Ninh_Thuận đƣợc ƣu_đãi với bờ biển , đồng_bằng , núi , thông_điệp ông đối_tác Việt_Nam Nguyễn Triet , nói : " Nga sông , cồn cát sẵn_sàng để giúp Việt_Nam khắc_phục thảm_hoạ thiên_nhiên Nó , tuy_nhiên , cảnh_báo việc tăng mực nƣớc biển tốn môi_trƣờng hậu_quả " sống nhƣ quý_hiếm , bị đe_doạ đặc_hữu loài nhƣ leopard tắc_kè , mà sống khu_vực đất thấp khu_vực Các Bộ_trƣởng Bộ Tài_nguyên Môi_trƣờng Phạm_Khôi_Nguyên , sau chủ_trì hội_thảo Việt_Nam đƣợc làm để đối_phó với vấn_đề đƣa vào nóng lên toàn_cầu mực nƣớc biển dâng cao Tam_Nông thành_lập cho bị đe_doạ khỉ mũi tẹt Hà_Giang Giao_thông mƣa gió mạnh pounded Ý vào ngày thứ hai , làm thiệt_mạng cuộc_sống bốn ngƣời , ANSA tin_tức cơ_quan báo_cáo Một lỗ với chiều dài hai mét chặn đƣờng Phainam - đƣờng gần Sân_vận_động Chao_Anuvong Hoạt_động câu_lạc_bộ khó_khăn cho bởi_vì chúng_tôi thiếu tiền , nhƣng với hỗ_trợ từ thành_viên , chúng_tôi quản_lý câu_lạc_bộ có hiệu_quả Khi không làm_việc nhƣ architect ông dedicates nhiều thời_gian ông để chạy Việt_Nam Lễ_hội Carlton thiên_văn_học Trang 90 Trang 91

Ngày đăng: 11/10/2016, 20:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan