Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

13 27 0
Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Dịch máy là lĩnh vực đang rất được quan tâm do nhu cầu chuyển ngữ một số lượng lớn văn bản trong thời gian nhanh nhất. Bài viết trình bày một số khái niệm về mô hình văn phạm liên kết, dạng tuyển có chú giải và giới thiệu hệ thống dịch.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (28), tháng 12/2012 Ứng dụng văn phạm liên kết dịch máy Việt – Anh Application of Link Grammar Formalism in Vietnamese - English Translation Nguyễn Thị Thu Hương Lê Ngọc Minh Abstract: Link grammar is a new model built for Vietnamese This model is able to specify most of grammatical phenomena and lexical features of Vietnamese in an intuitive mode In this paper, we discuss the ability to apply the link grammar model to automatic translation from Vietnamese into English We also present our translation system using Annotated Disjuncts (ADJ) I ĐẶT VẤN ĐỀ Dịch máy lĩnh vực quan tâm nhu cầu chuyển ngữ số lượng lớn văn thời gian nhanh Lịch sử phát triển dịch máy nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp từ, dịch dựa luật, dịch máy đa ngôn ngữ, dịch máy thống kê, dịch máy dựa ví dụ, dịch máy theo ngữ nghĩa đệ quy tối thiểu, dịch dựa ràng buộc Hiện Việt Nam tồn số hệ thống dịch máy như: EVtran - VEtran Nacentech [9], Vietgle Lạc Việt, EVTS Đại học Công nghệ ĐHQG Hà Nội [13], Google Translation Google, hệ thống dịch Đại học Bách khoa - ĐHQG TP Hồ Chí Minh [21], hệ thống dịch dựa việc học luật chuyển đổi Đại học Khoa học Tự nhiên - ĐHQG TP Hồ Chí Minh [8] Các hệ thống kể chủ yếu hệ thống dịch Anh - Việt để tận dụng nguồn tài nguyên ngôn ngữ phong phú Tiếng Anh Số lượng hệ thống dịch Việt - Anh nhiều: có hai hệ thống bật VEtran dựa luật Google Translation theo cách tiếp cận thống kê Do tài nguyên phục vụ cho dịch máy liên quan đến Tiếng Việt không nhiều, cách tiếp cận dựa luật phổ biến Việt Nam, đặc biệt dịch máy Việt - Anh Mơ hình văn phạm liên kết D Sleator D Temperley đưa [19] mơ hình hình thức theo kiểu phụ thuộc Văn phạm không chứa tập ký hiệu không kết thúc nên kết phân tích cú pháp gọn nhẹ ngữ cấu Do đặc điểm hồn tồn từ vựng hóa, văn phạm liên kết không mô tả cú pháp mà cịn mơ tả từ pháp ngơn ngữ Do mơ hình văn phạm liên kết cho phép biểu diễn nhiều tượng đặc biệt có Tiếng Việt Ví dụ: thì, thể động từ, quan hệ sở hữu ẩn, quan hệ chất liệu hai danh từ cạnh nhau, cụm từ dùng đại từ xưng hô Tiếng Việt ("cô ấy", "các bạn") Những thơng tin hữu ích sử dụng hệ thống dịch tự động sang ngơn ngữ khác Mơ hình văn phạm liên kết ứng dụng để xây dựng hệ thống dịch từ Tiếng Anh sang ngôn ngữ châu Âu Tiếng Đức [24], Nga [23], Thổ Nhĩ Kỳ [22] hay Sanskrit - ngôn ngữ Ấn độ [12] dựa việc chuyển đổi tương ứng liên kết hai ngôn ngữ (riêng hệ thống dịch Anh-Nga có kết hợp thống kê) Các hệ thống đáp ứng tốt biến đổi hình thái thì, thể, giống, số, cách Tuy nhiên, ngơn ngữ nguồn ngơn ngữ đích có khác biệt lớn cú pháp từ pháp, khó đưa dịch có chất lượng Đó lý hệ thống nói dừng mức thử nghiệm cho tập câu nhỏ Một hệ thống dịch khác dựa văn phạm liên kết hệ thống dịch đại - 44 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT học Petronas, Malaysia [1], [2], [3], dịch từ Tiếng Anh sang Tiếng Indonesia Hệ thống cho phép tra nghĩa từ, biến đổi cú pháp từ pháp thông qua dạng tuyển có giải (Annotated Disjunct - ADJ) Hệ thống cho kết dịch tốt sang Tiếng Indonesia - ngơn ngữ Đơng Nam Á chưa có nguồn tài nguyên phong phú để xử lý tự động Tiếng Việt Dựa khả biểu diễn nhiều tượng cú pháp từ pháp đặc trưng Tiếng Việt, xây dựng thử nghiệm hệ thống dịch máy Việt Anh dựa dạng tuyển có giải Đây hệ thống dịch máy dựa luật với mục đích minh họa chức biểu diễn Tiếng Việt mơ hình văn phạm liên kết Hệ thống cho phép dịch cụm từ Tiếng Việt cách mềm dẻo hệ thống dịch khác Với tập mẫu thử nghiệm, hiệu đạt hệ thống không thua hệ thống dịch máy khác, tập luật chuyển đổi hệ thống lại nhỏ gọn Trong mục sau đây, chúng tơi trình bày số khái niệm mơ hình văn phạm liên kết, dạng tuyển có giải giới thiệu hệ thống dịch xây dựng II VĂN PHẠM LIÊN KẾT Văn phạm liên kết bao gồm tập từ, từ có yêu cầu liên kết Một câu định nghĩa văn phạm tồn cách để vẽ cung (liên kết) phía từ thoả mãn điều kiện tính phẳng, tính liên thơng, tính thoả mãn, tính thứ tự, tính loại trừ [19] Những yêu cầu liên kết lưu trữ từ điển Từ điển chứa công thức liên kết bảng đây: Bảng Công thức liên kết từ Từ yêu cô, bà, anh ấy, đó, ta Cơng thức SV+ SV- & {O+} SV+ or O- & {NtPd+} {NtPd-} Tập V-1, Số (28), tháng 12/2012 Với việc tra cứu từ điển khử nhập nhằng (nếu cần), phân tích cú pháp cho kêt phân tích câu "tơi u ấy" hình Định nghĩa hình thức văn phạm liên kết nêu [6] Hình Phân tích câu "tơi u ấy” Văn phạm liên kết xếp vào dịng phụ thuộc biểu diễn mối liên hệ trực tiếp từ câu Tuy nhiên văn phạm liên kết có số điểm khác biệt: • Liên kết khơng định hướng, khơng có khái niệm cai trị - phụ thuộc • Liên kết có nhãn Điều khơng bắt buộc văn phạm phụ thuộc • Văn phạm liên kết cho phép chu trình nên biểu diễn đồng thời liên kết cú pháp ngữ nghĩa từ • Tính phẳng liên kết, thực chất tính xạ ảnh văn phạm phụ thuộc, đòi hỏi cung biểu diễn liên kết câu không giao vẽ từ Với yêu cầu tính phẳng, số quan hệ từ khơng lân cận khơng biểu diễn mơ hình văn phạm liên kết Ví dụ, câu “Cái áo này, dù đắt, mua”, sau vẽ liên kết danh từ “áo” với tính từ “đắt” động từ “mua”, vẽ liên kết từ “dù” với dấu phảy mà đảm bảo tính phẳng Tồn văn phạm phụ thuộc khơng có tính xạ ảnh, tính phẳng bắt buộc văn phạm liên kết Rất may, câu ví dụ không thường gặp thực tế Dạng tuyển Để dễ dàng xử lý tự động, công thức từ điển chuyển thành dạng tuyển (disjunct) Một dạng tuyển bao gồm hai danh sách có thứ tự tên liên kết: danh sách liên kết bên trái danh sách - 45 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT liên kết bên phải, ký hiệu ((L1, L2,…, Lm) (Rn, Rn-1,…, R1)), L1, L2,…, Lm kết nối phía trái Rn, Rn-1,…, R1 kết nối phía phải Ví dụ, ((SV) ()) ((O) (NPd)) dạng tuyển từ "cô" từ điển nêu Khi phân tích cú pháp, thay phân tích cơng thức liên kết, phân tích cú pháp liên kết tìm cách tổ hợp dạng tuyển từ câu thỏa mãn yêu cầu liên kết Kết phân tích cú pháp câu chứa dạng tuyển thỏa mãn yêu cầu liên kết câu đó, chẳng hạn, kết phân tích câu "tơi u ấy" sau: (tôi, (()(SV))) Tập V-1, Số (28), tháng 12/2012 gắn với dạng tuyển từ nguồn, kích cỡ từ điển ADJ vơ lớn Để giảm kích cỡ, tử điển ADJ xây dựng từ từ điển văn phạm liên kết, giải thêm nghĩa Tiếng Anh từ bên cạnh công thức Để làm vậy, từ điển văn phạm liên kết xây dựng chỉnh sửa theo hướng công thức thể cách sử dụng từ Từ điển ADJ dùng thay cho từ điển văn phạm liên kết giai đoạn phân tích cú pháp Dưới ví dụ số mục từ từ điển ADJ: bởi_vì,vì because: (GT_DT+ or CL+) & {PH+} & (EVor (CO+ or QHT+)) sở_dĩ ! (yêu, ((SV)(O))) là_do,là_vì because (cơ, ((O)(NtPd))) that: R- & CL+ (ấy,((NtPd)())) III DẠNG TUYỂN CĨ CHÚ GIẢI Dạng tuyển có giải (Annotated Disjunct, viết tắt ADJ) lưu trữ nghĩa từ với dạng tuyển Ví dụ, từ "cơ" với dạng tuyển ((O) (NtPd)) có nghĩa "her", với dạng tuyển(()(NtPd,SV)) có nghĩa "she", cịn với (()(SHA)) từ lại có nghĩa "aunt" Dạng tuyển có giải tổ hợp bao gồm (,,) dạng tuyển thuộc từ nguồn Từ đích nghĩa từ nguồn ngơn ngữ đích với dạng tuyển tương ứng Trong hệ thống dịch Việt Anh, dạng tuyển có giải câu "tôi yêu cô ấy" /verb.transitive.trans: ((({TĐT1-} & {TĐT2_1-} & {RpVt- or RtVt- or RfVt- or RhVt-} & {TĐT4-}) or TT_ĐT- or ({TT_ĐT-} & TĐT5-)) & {DT_ĐT- or ĐT_ĐTor THI_ĐT- or LT_ĐT- or BI-} & {ĐT_XONG+} & {ĐT_DT+} & {ĐT_TT+} & {ĐT_GT+} & {ĐT_LT+} & {THTor THS+} & ({EV+} & {SDT5- or CL-} & {CO-})) or ({DT_ĐT-} & BI-) Chú ý từ điển trên, mục /verb.transitive.trans mục chứa công thức liên kết động từ ngoại động (trừ số ngoại lệ có cơng thức liên kết riêng) nên liên kết với từ điển song ngữ chứa nghĩa động từ với cơng thức liên kết nêu Ví dụ: a_tịng act_as_an_accomplice_to a_tịng imitate am_hiểu know_well am_hiểu realize (tơi, I,(()(SV))) an_bài predestine (yêu, love, ((SV)(O))) an_bài preordain… (cô, her, ((O)(NtPd))) (ấy,!,((NtPd)())) IV SO SÁNH HAI NGÔN NGỮ VIỆT - ANH (Dấu ! đại diện cho xâu rỗng, từ bị xóa dịch) Từ điển ADJ tập hợp tất ADJ ngôn ngữ Về nguyên tắc, từ điển ADJ phải bao gồm ba: từ, dạng tuyển nghĩa từ Tiếng Anh sử dụng với dạng tuyển tương ứng Tuy nhiên, số dạng tuyển từ lớn Khi từ điển song ngữ gồm gần 100.000 mục từ, mục từ lại Sự khác biệt Tiếng Việt Tiếng Anh khơng nhỏ Đó khác biệt ngôn ngữ phương Đông ngôn ngữ phương Tây Theo Đinh Điền [7], bị ảnh hưởng văn hố phương Đơng – văn hố thiên âm tính, nên ngơn ngữ, ngữ pháp Tiếng Việt có tính linh động cao, khơng chặt chẽ (chia thì, thể, phù hợp giống, số, cách ) - 46 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT ngữ pháp phương Tây Tiếng Anh không chặt chẽ ngữ pháp Tiếng Nga, yêu cầu biến đổi nhiều hình thái Theo Nguyễn Phương Thái Shimazu [20], hai khác biệt quan trọng Tiếng Việt Tiếng Anh mà hệ thống dịch máy cần giải là: khác biệt hình thái khác biệt trật tự từ Khác biệt hình thái Theo phân loại ngôn ngữ Stankevich nhắc đến [18], Tiếng Việt xếp vào loại ngôn ngữ phân tích (đơn) hay cịn gọi loại hình phi hình thái với đặc điểm: Trong hoạt động ngôn ngữ, từ khơng biến đổi hình thái, ý nghĩa ngữ pháp nằm ngồi từ [7] Tiếng Anh ngơn ngữ thuộc loại hình phân tích mức độ vừa phải, thiên loại hình tổng hợp nhiều hơn, biến đổi hình thái theo thể, giống, số Tập V-1, Số (28), tháng 12/2012 Do đặc điểm từ vựng hóa hoàn toàn văn phạm liên kết, dấu hiệu liên quan đến tượng nói nhận biết qua công thức liên kết Điều cho phép xây dựng luật chuyển đổi mục V Khác biệt trật tự từ Theo [7], Tiếng Anh Tiếng Việt loại hình S – V – O, giống trật tự từ phần định từ (determiner), mạo từ (article) giới ngữ (prepositional phrase) sau danh từ Tuy nhiên, khác biệt bật trật tự từ Tiếng Việt Tiếng Anh liệt kê Trật tự cụm danh từ-tính từ Trong Tiếng Anh, tính từ ln đứng trước danh từ Tiếng Việt danh từ lại đứng trước tính từ Hình minh họa việc xếp lại trật tự tự từ trường hợp này: Những khác biệt hình thái chủ yếu Tiếng Việt Tiếng Anh thể ở: số danh từ, chia động từ, quan hệ sở hữu, tính từ so sánh, tính từ làm vị ngữ, danh từ loại Ngồi ra, cịn số vấn đề cần xử lý đặc biệt, ví dụ: Đại từ xưng hơ: Có thể nói việc xưng hơ Tiếng Việt thuộc loại phức tạp giới, số lượng đại từ xưng hô Tiếng Anh nhỏ, liên hệ chặt chẽ với cấu trúc ngữ pháp Do đại từ xưng hơ Tiếng Anh tương ứng với nhiều đại từ xưng hô cụm từ có vai trị đại từ xưng hơ Tiếng Việt Ví dụ, đại từ “they” Tiếng Anh dịch “các anh ấy”, “các ấy”, “chúng nó”, “bọn chúng”, “chúng”, “bọn nó”, “họ” Không phải tất từ xuất từ điển Tiếng Việt mục từ riêng biệt mà chúng coi cụm từ Động từ “đi”: Trong Tiếng Việt, động từ dùng với động từ khác “đi học”, “đi chơi”, “đi bơi” Khi dịch sang Tiếng Anh, để dịch sát với thực tế sử dụng, cần có cách thức chuyển đổi riêng cho trường hợp đặc biệt Hình Sắp xếp lại trật tự từ Khi câu “tơi mua ví đỏ” áp dụng luật dịch, kết trả “I buy a red wallet” Ở câu đích, tính từ “red” đứng trước danh từ "wallet" Điều kết việc từ “ví” vị trí thứ câu nguồn ánh xạ thành từ “wallet” vị trí thứ câu đích, từ “đỏ” vị trí thứ câu nguồn ánh xạ thành từ “red” vị trí thứ Việc thay đổi trật tự cho cụm hai, ba tính từ sau danh từ tương tự Chú ý vị trí nói đến vị trí tương đối từ nhắc đến luật Giữa chúng tồn từ khác Xét ví dụ "cơ gái nhỏ xinh", hệ thống dịch cần thay đổi vị trí từ "cơ gái", "nhỏ", "xinh", từ "rất" ln phải giữ vị trí đứng trước từ "xinh" Bản dịch Tiếng Anh câu cần phải "very pretty little girl" Văn phạm liên kết cho phép kết nối hai từ không liền - 47 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT kề nên việc thể luật chuyển đổi trật tự từ thuận tiện Trật tự câu nghi vấn, câu nghi vấn – phủ định Dạng câu hỏi thường dùng Tiếng Việt liên quan đến từ (cụm từ) để hỏi, ví dụ “tại sao”, “ai”, “như nào” Các từ thường đầu cuối câu Trong dạng câu hỏi “wh” Tiếng Anh, từ để hỏi luôn đứng trước Do cần biến đổi trật tự từ với số biến đổi khác Ngồi có số trường hợp cần thay đổi trật tự từ câu chứa phụ từ tần suất, câu dùng sở hữu cách Trật tự từ không lân cận: phụ thuộc xác lập từ cách khoảng định Phụ thuộc dạng “khoảng trống” (gap) tạo nên thay đổi vị trí từ đó, ví dụ “Q cưới cho cô dâu, gửi rồi”, hay câu ghép, câu phức với nhiều mệnh đề “Cái áo mua hôm qua đẹp” Khi dịch sang Tiếng Anh, để đảm bảo nghĩa câu, thường phải thay đổi vị trí từ, thay đổi vị trí cho loại câu khó biểu diễn cách đơn giản luật dịch Việc phân tích dịch loại câu địi hỏi phương pháp thống kê, học máy với ngữ liệu lớn mà chúng tơi chưa có điều kiện xây dựng Một số dạng câu khơng biểu diễn văn phạm liên kết trình bày mục Tập V-1, Số (28), tháng 12/2012 pháp gán nhãn từ theo liên kết tìm Để tách từ, chúng tơi sử dụng vnTokenizer TS Lê Hồng Phương [16] • Phần phân tích thực phân tích cú pháp phân tích cú pháp liên kết Đầu trình phân tích cú pháp phân tích liên kết với cấu trúc trình bày mục Trong khuôn khổ báo, chưa đề cập vấn đề dịch câu ghép câu phức nên kết nhận từ phân tích cú pháp phân tích liên kết câu đơn câu ghép hai mệnh đề phân tích dựa liên kết từ nối Qua phân tích liên kết tìm được, hệ thống xác định thuộc tính liên quan đến ngơi, số, thì, thể, vv • Phần tổng hợp cho phép tạo dịch bao gồm công việc sau : - Dịch số cụm từ đặc biệt : "đi học", "bọn chúng nó" - Tra nghĩa từ theo dạng tuyển từ điển ADJ - Thay đổi hình thái từ dựa thuộc tính tìm (hiện thực hóa) - Tìm phương án dịch tổng thể tốt V HỆ THỐNG DỊCH VIỆT ANH SỬ DỤNG ADJ Như vậy, để xây dựng dịch dựa dạng tuyển có giải, ba vấn đề quan trọng phải giải Tìm nghĩa từ Chuyển đổi cấu trúc câu Hồn thiện dịch Hình mô tả kiến trúc hệ dịch Việt Anh dựa dạng tuyển có giải Sơ đồ kiến trúc cho thấy hệ thống gồm phần chính: • Phần tiền xử lý thực tách từ cho câu đưa vào Giai đoạn khơng gán nhãn từ phân tích cú - 48 - Hình Kiến trúc hệ thống dịch dựa dạng tuyển có giải Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT VI XÂY DỰNG BỘ LUẬT DỊCH Như mô tả trên, hệ thống dịch cần sử dụng ba tập luật liên quan đến công việc khác nhau: phát thuộc tính, dịch cụm từ, chuyển đổi cấu trúc Trong phần mô tả chi tiết luật điển hình văn phạm phi ngữ cảnh sinh luật Trong luật điển hình hệ thống, ký hiệu W1, W2, W3 đại diện cho từ, D1, D2, D3 dãy tên kết nối thuộc danh sách trái hay phải dạng tuyển Luật phát thuộc tính Thuộc tính thơng tin cần lưu trữ lại cho từ để biến đổi hình thái thích hợp, ví dụ số nhiều danh từ, thì, thể động từ, ngơi đại từ, loại cấu trúc so sánh (so sánh ngang bằng, so sánh kém, so sánh bậc nhất) Dưới số ví dụ luật phát thuộc tính: Luật phát thuộc tính số nhiều danh từ: Căn vào kết nối DpNt định từ số nhiều “những”, “các”,”số đông” với danh từ, đưa giá trị PLURAL vào thuộc tính danh từ liên kết với chúng: W1(D1)(DpNt) W2(DpNt)(D2) → W1’W2’(number = PLURAL) Luật phát thuộc tính động từ: Thì động từ thể liên kết với phụ từ Thì khứ thể qua liên kết RpVt, RpVs, tương lai RfVt, RfVs, tiếp diễn RcVt, RcVc, hoàn thành RhVt, RhVc Các liên kết thời khứ hay tương lai xuất phân tích xử lý theo luật nhằm xác định thuộc tính tense cho động từ Với phức tạp tiếp diễn hay hồn thành, khơng biến đổi hình thái động từ mà cịn thêm từ khác "to be", "to have", thuộc tính xác định giá trị thuộc tính form Ví dụ, W1(D1)(RpVt) W2(RpVt)(D2)→ W1’W2’(tense = PAST) W1(D1)(RfVt) *(RfVt)(D2) → W1’W2’(tense = FUTURE) Tập V-1, Số (28), tháng 12/2012 Luật xác định đại từ xưng hô: đại từ xưng hơ khơng cần vào liên kết Tiếng Việt số lượng đại từ xưng hô nhỏ, luật vào giá trị từ loại từ để xác định ngơi: tơi[p]→ I(person = FIRST) nó[p] → he (person = THIRD) Ký hiệu [p] luật thể loại từ đứng bên trái Thông tin có từ điển liên kết Sau xác định ngơi đại từ xưng hơ, thuộc tính phải lan truyền cho động từ để chia ngơi, đặc biệt động từ “là” động từ “to be” tương ứng chia khác tất thể qua luật sau: W1(D1)(SV) W2(SV)(D2) → W1’W2’(person = W1’.person) Động từ “là” W1(D1)(DT_LA) W2(DT_LA)(D2) → W1’W2’(person = W1’.person) Luật dịch cụm từ Dịch cụm từ sang đại từ xưng hô Tiếng Anh Cách xưng hô Tiếng Việt vô phức tạp trình bày mục IV Do cần tập luật để dịch xác nghĩa đại từ xưng hơ sang Tiếng Anh Ví dụ, mối liên hệ từ “cô” thông qua liên kết NtPd+ SV+ cho phép dịch “cơ ấy” thành “she” cịn NtPd+ O- hay EpNt cho phép dịch “cô ấy” thành “her” thể luật: cô(D1)(NtPd,SV) W2(NtPd)(D2) → she W2’ W1(D1)(EpNt) cơ(EpNt)(NtPd) W2(NtPd)(D2) → W1’ her Sau đó, tất nhiên cần luật để gán thông tin cho động từ tương ứng Cụm từ thành ngữ: sử dụng từ điển thành ngữ Cụm từ với từ “đi” Từ “đi” đóng vai trị đặc biệt dịch Việt Anh Trong Tiếng Việt, từ “đi “ kết hợp với số động từ thường, “đi bơi”, “đi mua sắm”, “đi học”, “đi chơi” Hiện tượng thể từ điển liên kết với liên kết DI cho động từ “đi” - 49 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT số động từ khác Trong nhiều trường hợp, công thức dịch go + verb + ing (go swimming, go fishing ) Tập V-1, Số (28), tháng 12/2012 “girl” với “little” "pretty" Việc đổi chỗ không ảnh hưởng tới tính phẳng phân tích nên ta nhận kết cuối “very pretty little girl” đi(D1)(DI) W2(DI)(D2) → go W2’(form = PRESENT_PARTICIPLE) Một số ngoại lệ : “đi học” > “go to school”, “đi chơi” >”go out”, “đi ngủ” > “go to bed” thể qua luật dịch riêng Luật dịch quan hệ sở hữu Quan hệ sở hữu Tiếng Việt dạng thơng qua giới từ “của” (đơi danh từ “nhà”, ví dụ "lợn nhà tôi") Các luật dịch chuyển đại từ xưng hô danh từ sau giới từ “của” sang tính từ sở hữu, danh từ sang sở hữu cách Hình Thay đổi trật tự từ cho dịch cụm từ “cơ gái nhỏ xinh” Ví dụ, luật của()(EoPp) tơi(EoPp)() → my Trong Tiếng Việt cịn có quan hệ sở hữu ẩn (khơng có từ "của") Khi phân tích câu có quan hệ sở hữu ẩn, cần luật dịch thể quan hệ đó, ví dụ W1(D1)(SHA) tơi(SHA)(D2)→ my W1’ Luật thay đổi trật tự từ Việc hoán đổi vị trí từ cụm từ cần ý tới tính cú pháp câu đích Chúng tơi nhận thấy hai từ có liên kết câu nguồn liên kết cần bảo tồn câu đích,trừ trường hợp có từ bị loại bỏ Sau thực hốn đổi vị trí, từ câu đích cần phải tạo thành câu cú pháp liên kết, đặc biệt tính phẳng Khi hai từ đổi vị trí cho nhau, liên kết chúng câu đích đổi chiều, kết nối dạng tuyển tương ứng chuyển từ danh sách bên trái dạng tuyển sang danh sách bên phải ngược lại Để liên kết câu đích khơng cắt nhau, từ nằm khoảng hai từ cần di chuyển thích hợp Ví dụ, xét bước dịch hình cụm từ “cơ gái nhỏ xinh” Nếu từ “girl”, "little" “pretty” đổi vị trí, liên kết chúng đổi chiều, dạng tuyển thay đổi Do khơng có hai từ đổi vị trí mà phải đổi vị trí hai cụm từ “very pretty" với từ "little” "girl" có liên kết RlAp “very” “pretty”, liên kết SA Luật đổi vị trí danh từ - tính từ Sau số luật cho phép thay đổi vị trí tính từ bổ nghĩa cho danh từ tính từ bổ nghĩa cho tính từ khác Trong Tiếng Việt thường có đến tính từ bổ nghĩa cho danh từ (không phân cách dấu phảy) W1(D1)(ApAp) W2(ApAp)(D2) → W2’ W1’ W1(D1)(SA SA) W2(SA)(D2) W3(SA)() → W3’ W2’ W1’ W1(D1)(SA) W2(SA)(D2) → W2’ W1’ Luật dịch cấu trúc phủ định Các từ cấu trúc phủ định phụ từ phủ định "không", "chẳng", "chưa" (loại từ Rn) Kết nối loại từ với động từ RnV Khi dịch cấu trúc cần ý đến việc chia động từ phù hợp với động từ câu nguồn (từ "chưa" tương ứng hoàn thành, từ khác dịch sang thời tại: W1(D1)(SV) chưa(D2)(RnV) W3(RnV SV)(D3) -> W1’(D1’)(D2’) have(number = W3 number, person = W3 person)[v](D2’)(N _PP_) not(N)(D3’) W3’(negative = FALSE)(_PP_)(D4’) Luật dịch cấu trúc nghi vấn Trong Tiếng Việt có số từ (cụm từ) để hỏi “tại sao”, “khi nào” Từ để hỏi đứng đầu cuối câu Nhận biêt cấu trúc thông qua kết nối THT (từ hỏi đứng đầu câu) THS (từ hỏi đứng cuối câu) Khi dịch sang Tiếng Anh với động từ - 50 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thông thường (không phải động từ “to be”) cần thêm trợ động từ vào từ để hỏi chủ ngữ Ví dụ luật cho phép dịch câu hỏi với từ để hỏi đứng đầu câu phủ định từ W1()(THT) W2(D2)(SV) W3()(RnV) W4(RnV SV THT)() → W1’ do(number = W4.number,person = W4.person,tense = W4.tense,contracted-negation = TRUE)[v]()(_I_) W2 W4(_I_)() Cú pháp luật mô tả EBNF sau: ::= ::= " :" ::= + ::= " >" | " >" ::= * ::= ::= "*" | ::= "("")" "(" ")" ::= ()* ::= [][:][] ::= "(" ()+")" ::= "$" [] ::= [] Tập V-1, Số (28), tháng 12/2012 • Thuộc tính excludes ngăn cản việc thực luật xét luật danh sách sau từ khóa excludes thực Luật đọc từ tệp XML phân tích xử lý tự động theo văn phạm Với cú pháp đơn giản, người sử dụng dễ dàng thêm luật VII HOÀN THIỆN BẢN DỊCH Sau phát thuộc tính, di chuyển vị trí, biến đổi hình thái thích hợp, cịn số vấn đề cần thực để tạo dịch có chất lượng tốt Đó là: • Các đối tượng sau tiền xử lý coi ký hiệu kết thúc: (tên tự đặt cho luật hay hàm), (từ), (số tự nhiên) Tập luật lưu dạng XML với cấu trúc sau: < !−− luat nhom −−> Trong đó: • Ký hiệu nội dung luật, viết nhiều dịng • Thuộc tính requires chứa tập luật cần thực trước luật xét Hiện tượng chuyển loại từ: - Danh từ có vai trị tính từ Khi dịch sang Tiếng Anh cần chuyển thành tính từ, ví dụ “huy chương vàng”, vàng từ chất liệu với liên kết CH, cần chuyển sang tính từ tương ứng - Tính từ hay động từ sau “sự”, “việc” làm chuyển loại cụm từ thành danh từ • Tính từ bổ nghĩa cho động từ : Tiếng Việt khơng có phó từ, sang Tiếng Anh cần dịch thành phó từ • Loại bỏ danh từ loại Chúng xây dựng tập luật bao trùm tượng Lựa chọn nghĩa từ Dù qua nhiều công đoạn khử nhập nhằng q trình phân tích cú pháp, đến ta gặp tượng nhập nhằng nghĩa từ, từ Tiếng Việt tương ứng với nhiều nghĩa Tiếng Anh khác Chẳng hạn từ “làm” mang nghĩa “make” hay “manufacture” (ở loại trừ trường hợp từ "làm" với nghĩa tương ứng “work” gắn với công thức khác so với từ “làm” mang hai nghĩa trên) Như vậy, dù có phân tích liên kết chọn, có nhiều dịch tương ứng với nhiều tổ hợp nghĩa khác từ Vấn đề chọn tổ hợp “trôi chảy” nhất, tức cách thức hay người ngữ sử dụng Chúng giải cách dùng ngữ liệu Tiếng Anh tính xác suất để chọn dịch tốt Bộ ngữ liệu - 51 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT chọn COCA rút gọn (chỉ chứa n gram xuất ba lần trở lên) Câu chọn dựa theo tiêu chí sau (đã làm trơn) Tập V-1, Số (28), tháng 12/2012 Bản dịch hệ thống hệ thống Google đưa ra: My mother is a good doctor Kết dịch với VEtran: ( , , ) ( )= ( , , ) ( ( )+ ( | ) VIII KẾT QUẢ THỬ NGHIỆM Như giới hạn phạm vi quan tâm từ đầu, việc thử nghiệm hệ thống dịch với ADJ để minh họa khả biểu diễn văn phạm liên kết Tiếng Việt, phải hồn thiện nhiều để trở thành cơng cụ dịch phổ biến Tuy nhiên, đề xây dựng ngữ liệu thử nghiệm khó khăn Hiện chưa có ngữ liệu chuẩn cho dịch Việt - Anh nên tự xây dựng ngữ liệu riêng cho Bộ ngữ liệu chúng tơi thu thập gồm 336 câu lấy từ sách dạy Tiếng Việt cho người nước ngồi trình độ nâng cao [15] Ưu điểm tập mẫu chúng viết giáo sư Tiếng Việt dịch Tiếng Anh hiệu đính cẩn thận Dưới ví dụ minh họa hoạt động hệ thống dich xử lý số mẫu câu: 1.”Mẹ bác_sĩ giỏi” My mother is a jurisprudent physician Kết dịch ba hệ thống khơng có khác biệt lớn Hệ thống chúng tơi Google có đối chiếu với ngữ liệu mẫu chọn từ nên đưa dịch “good doctor” VEtran dùng cụm từ “jurisprudent physician” nghĩa từ điển Việt Anh không khác biệt không sát nghĩa thực tế “Báo_săn loài động_vật nhanh thế_giới” Kết phân tích cú pháp # + -LA_DT -+ # +-DT_LA-+ + -ĐV + DT_TT-+-TT_SS+ -NHAT_DTv + # | | | | | | | # Báo_săn.n là.v loài động_vật.n nhanh.a thế_giới.n Các dạng tuyển nhận được: báo săn: ()(DT_LA) là: (DT_LA)(LA_DT) loài: ()(ĐV) động vật: (ĐV LA_DT)(DT_TT) nhanh: (DT_TT)(TT_SS) nhất: (TT_SS)(NHAT_DT) giới: (NHAT_DTv)() Kết phân tích cú pháp: # + DT_LA + LA_DT + # + SHA + | + McN -+-DT_TT-+ # | | | | | | # Mẹ.n tôi.p là.v bác_sĩ.n giỏi.a Quá trình dịch thơng qua nhiều luật mơ tả Hình Các dạng tuyển tìm cho từ là: mẹ: ()(SHA DT_LA) tôi: (SHA)() là: (DT_LA)(LA_DT) một: ()(McN) bác sĩ: (McN LA_DT)(DT_TT) giỏi: (DT_TT)() Để dịch câu này, luật sau áp dụng • Luật xác định ngơi cho danh từ “mẹ” • Luật dịch quan hệ sở hữu ẩn • Luật chuyển đổi thứ tự nghĩa danh từ “bác sĩ” tính từ “giỏi” Hình Quá trình dịch câu “Báo săn loại động vật nhanh giới” - 52 - Các cơng trình nghiên cứu, phát triểnn ứng dụng CNTT-TT Tập V-1, 1, Số (28), tháng 12/2012 hạn chế số phân tích đưa Câu đưa vào chỉnh kết tách từ Độ xác c phân tích cú pháp cho ADJ1 80.2%, độ phủ 81.4%, F-score F 0.81 Kết thực hệ thống dịch ch ADJ Cheetah is the quickest animal world Kết thu với VEtran: ADJ2: Không hông cho phép ràng buộc bu tách từ Cheetah is world' s fast animal the kind Kết Google đưa ra: Alert hunt is the world's fastest animal Cả ba dịch có hạnn chế ch Bản dịch ADJ không phát đượcc quan hệ h sở hữu từ “thế giới” dịch củaa VEtrans dịch d quan hệ lại khơng dịch đượ ợc tính từ so sánh cấp cao dịch sai từ “loài” Bản dịch Google dịch tốt cụm từ “nhanh nh giới” lại gặp lỗi từ “báo săn” Dù ngữ liệuu cịn nhỏ, nh chúng tơi sử dụng phương pháp BLEU [17] vớ ới tham số n = 2, 3, 4, để so sánh với kết đạt đượ ợc VETran Google Kết nhận thể hiệnn Bảng Bảng So sánh kết hệ h thống dịch Google VEtran ADJ1 ADJ2 0.169816 0.209987 0.263627 0.157450 0.133085 0.140612 0.181787 0.091807 0.109895 0.096798 0.127502 0.056950 0.090472 0.069292 0.091302 0.036461 u, th thấy với So sánh toàn thể ngữ liệu, cụm từ thường ng dùng, Google cho kết k giống ngôn ngữ thực Tuy nhiên kếtt qu hệ thống dịch VEtran thường ng đ cú pháp hình thái, hệ thống dịch ch c chúng tơi có phần “trơi chảy” hơn, mốii liên kết k xác lập đến từ cá biệt.Rõ ràng việc kếtt hợp h phương pháp khác nâng chất lượng ng c dịch lên cao Biểu đồ hình cho phép so sánh điểm BLEU hệ thống dịch ch nói c chúng tơi với hai hệ thống dịch Việt-Anh phổ biến bi Google Translation VEtrans Hiện chúng tơi chưa có bộộ ngữ liệu đủ lớn để giải triệt để vấn đề nhậpp nhằng nh phân tích cú pháp, độ xác củaa b phân tích cú pháp cịn chưa cao Đối với ngữ liệu 336 câu hội thoại, nhiều cụm dạng văn ăn nói, ch chưa có ngữ liệu tồn câu văn viết, t, nên kết k trả phân tích cú pháp cịn thấp th (độ xác(precision): 22.7%, độ phủ (recall): 28.8%, độ đo F-score: 0.28) Nếu dùng nguyên dạng ng kết k phân tích cú pháp, khơng đánh giá xác chất lượng hệ thống dịch Để nghiên cứu c cách tổng thể ảnh hưởng củaa thành phần ph hệ thống đến chất lượng dịch, ch, đ thử nghiệm hệ thống sau: Hình So sánh điểm ểm BLEU c hệ thống ADJ1: Cho phép loại bỏ bớt ng sai sót th có q trình phân tích cú pháp ng cách xác định số ràng buộc để chọnn xác phân tích c câu, cụ thể báo trước số cặp từ chắắc chắn xuất liên kết Đây kỹ thuật đượcc dùng [14] để IX KẾT LUẬN Hệ thống dịch sử dụng dạạng tuyển có giải chúng tơi xây dựng với mụcc đích đ minh họa cho khả biểu diễn Tiếng Việt củủa văn phạm liên kết Tuy vậy, đánh mộtt hệ h thống dịch, kết nhận đáng ý: vvới kết tốt tách từ phân tích cú pháp, hệ thống th đạt kết nhỉnh mộtt chút so với v Google VEtran Chú ý rằng, để đạt kết này, b luật dịch chúng tơi chưa có tới 300 luật, ơn rrất nhiều so với VEtran - 53 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT không cần sử dụng ngữ liệu song ngữ Dù thử nghiệm ngữ liệu nhỏ, thấy khả sử dụng mơ hình văn phạm liên kết cho tốn dịch máy có triển vọng Tập luật dịch bao gồm ba tập Thứ tự áp dụng luật sơ đồ hình 4: xác định thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc Sự nhập nhằng áp dụng luật( có) xảy tập Tuy nhiên, với văn phạm liên kết, luật sử dụng thỏa mãn hai yếu tố: • • Từ xét xuất luật Tất mối liên kết từ nêu luât phải thỏa mãn Ngồi ra, thuộc tính exclude số luật (đã mơ tả trên) góp phần khử nhập nhằng Do vậy, phân tích cú pháp câu xác định, khó xảy việc nhập nhằng áp dụng luật Trong ba tập luật chúng tơi, chưa có luật gây nhập nhằng lúc lựa chọn Sự nhập nhằng chủ yếu xảy phân tích, chẳng hạn với hai câu “tơi bán hoa nhanh” “tôi bán hoa tươi” dẫn đến nhầm lẫn khơng có dấu hiệu cho thấy tính từ tính chất bổ nghĩa cho từ “hoa” hay từ “bán” Tuy nhiên xác định phân tích, là: # + SV + + SA + # + + O -+ + -RlAp + # | | | | | # Tôi.p bán.v hoa.n rất.r tươi.a luật thay đổi trật tự từ áp dụng Nếu phân tích chọn là: # + -VtAp + # + SV -+ O -+ + -RlAp + # | | | | | # Tơi.p bán.v hoa.n rất.r nhanh.a luật chuyển loại nghĩa từ “nhanh” sang phó từ Tiếng Anh lại áp dụng Tuy đạt kết định dịch máy Việt – Anh, hệ thống chúng tơi cịn vấn đề chưa giải trọn vẹn: • Dịch câu có cấu trúc liên hợp (coordination) sử dụng kết nối lớn, ví dụ, cụm từ Tiếng Việt [7] "một sinh viên khoẻ mạnh, cao tử tế" Việc dịch loại câu đòi hỏi phân tích cú pháp xác, Tập V-1, Số (28), tháng 12/2012 có khử nhập nhằng liên hợp câu chứa từ “và “ dấu phảy • Dịch câu ghép câu phức: Câu ghép câu phức chứa từ hai nòng cốt trở lên, câu phức có chứa nịng cốt bao nòng cốt lại [5].Trong tập ngữ liệu mẫu , có số câu ghép mệnh đề, nhiên chất lượng dịch câu chưa tốt Có thể thấy việc xử lý loại câu ghép khả thi chúng tơi xây dựng phân tích cú pháp xử lý tốt trường hợp nhập nhằng liên hợp phân tích câu ghép với nhiều mệnh đề Việc nhận biết giới hạn mệnh đề câu phức, thành phần cụm chủ vị đơi địi hỏi thiết lập liên kết từ không liền kề Các xử lý để phân tách mệnh đề hay giải quyến vấn đề nhập nhằng cụm trạng từ theo hướng tiếp cận học máy tập ngữ liệu lớn Chúng tiếp tục phát triển hệ thống theo hướng xây dựng ngữ liệu mẫu đủ lớn Một vấn đề khác gây khó khăn cho chúng tơi: dịch cụm từ dạng n - (n từ Tiếng Việt sang từ Tiếng Anh) Ngoài cụm từ phổ biến mà xử lý, cần đến hỗ trợ từ điển thành ngữ ngữ liệu mẫu song ngữ Với đặc điểm hoàn toàn từ vựng hóa văn phạm liên kết, luật dịch hệ thống thể đặc điểm riêng cá biệt ngôn ngữ nguồn ngơn ngữ đích.Cơng việc chắn cần hiểu biết sâu cú pháp, từ pháp hai ngơn ngữ Bộ luật dịch thay đổi hồn tồn thay đổi cặp ngơn ngữ nguồn – đích, nghĩa khó sử dụng cho cặp ngơn ngữ khác Tuy nhiên, để mở rộng hệ thống dịch, quan tâm đến cơng cụ cho phép nhà ngôn ngữ định nghĩa quy tắc cú pháp [4] Nếu theo hướng tiếp cận này, việc phân tích cú pháp theo biểu đồ (chart parsing) từ văn phạm liên kết dễ so với mơ hình khác phân tích liên kết thực chất có dạng biểu đồ Như tính đến khả mở rộng hệ thống dịch cho cặp ngôn ngữ khác - 54 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Như trình bày đầu bài, chưa đủ tài nguyên để xây dựng hệ thống dịch máy thật hoàn thiện, hệ thống dịch máy chúng tơi nhằm mục đích minh họa khả biểu diễn Tiếng Việt văn phạm liên kết Tuy nhiên, với chất lượng dịch thuyết phục, việc kết hợp mơ hình dịch với hệ thống dịch theo cách tiếp cận thống kê chắn nâng cao chất lượng dịch kết hợp trôi chảy phương pháp thống kê với xác biến đổi hình thái cú pháp Một minh chứng cho điều kết hợp phân tích liên kết để hoàn chỉnh dịch hệ dịch máy ví dụ Tỷ lệ câu dịch hồn tồn với câu mẫu tăng nhiều Kết hợp cách tiếp cận thống kê văn phạm liên kết hướng phát triển hệ thống thời gian tới PHỤ LỤC Chú thích ý nghĩa kết nối SV: Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ SA: Kết nối danh từ, đại từ xưng hơ với tính từ DT_LA: Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là” LA_DT: Kết nối động từ “là” với danh từ O: Kết nối động từ bổ ngữ trực tiếp DI: Kết nối động từ “đi” với động từ khác NtPd: Kết nối danh từ cụ thể với đại từ định DpNt: Kết nối định từ số nhiều với danh từ cụ thể RpVt: Kết nối định từ khứ động từ RfVt: Kết nối định từ tương lai động từ EpNt: Kết nối giới từ vị trí danh từ cụ thể VtEp : Kết nối ngoại động từ giới từ vị trí VtAp: Kết nối ngoại động từ tính từ tính chất VmVt: Kết nối động từ tình thái động từ cụ thể EoPp: Kết nối giới từ “của” với đại từ xưng hô SHA: Kết nối hai danh từ quan hệ sở hữu ẩn RnV: Kết nối phủ định từ động từ THT: kêt nối từ để hỏi động từ SS_NHAT: Kết nối tính từ với từ “nhất” NHAT_DT: Kết nối từ “nhất” với danh từ đứng sau Các kết nối có tên bắt đầu kết thúc “_” kết nối Tiếng Anh (theo [19]) Tập V-1, Số (28), tháng 12/2012 TÀI LIỆU THAM KHẢO [1] Adji, T.B Applying Link Grammar Formalism in the Development of English-Indonesian Machine Translation System Proceedings of the 9th AISC International Conference, Intelligent Computer Mathematics , Springer, 2008, p17-23 [2] T.B Adji, B Baharudin, N Zamin Annotated Disjunct in Link Grammar for Machine Translation International Conference on Intelligent and Advanced Systems ,Kuala Lumpur, 2007, p 205-208 [3] T.B Adji, Baharudin B., N Zamin, Building Transfer Rules using Annotated Disjunct: An Approach for Machine Translation, The th Student Conference on Research and Development, December 2007, Malaysia [4] Amtrup J.W.,Mergerdoomian K, Zajac R Rapid Development of Translation Tool Proceedings of Machine Translation Summit,1999, p 385-389 [5] DiÖp Quang Ban Ngữ pháp Tiếng Việt NXB Giáo dục, 1989 [6] D BÐchet k-Valued Link Grammars are Learnable from Strings Proceedings of Formal Grammar, Vienna, Austria, 2003, pp 9-18 [7] ®inh ®iỊn So-sánh trật-tự từ định-ngữ Tiếng Anh Tiếng Việt Tập san Khoa học xã hội nhân văn- Đại học KHXHNV Thành phố Hồ Chí Minh, 2011,tr 69-80 [8] ®inh ®iÒn Dịch tự động Anh Việt dựa việc học luật chuyển đổi từ ngữ liệu song ngữ Luận án Tiến sĩ, ĐHKHTN- ĐHQG TP Hồ Chí Minh, 2002 [9] Lê Khánh Hùng Nghiờn cu xõy dng th nghim phn mềm dịch tự động Việt-Anh Báo cáo tổng kết đề tài nhánh cấp nhà nước KC-01-03, 2004 [10] Nguyen Thi Thu Huong, Pham Nguyen Quang Anh A link Grammar for Vietnamese Journal on Information and Communicationn Technology, 8/2011 p 27-38 [11] Iyer R., Ostendorf Modelling Long Distance Dependency in Language: topic mixture and Dynamic Case Model, Speech and Audio Processing, IEEE Transactions on, Jan.1999, p30-39 [12] Kadambini K, Rama Sree R.J., Rama Krishnamacharyulu K.V An English-Sanskrit Machine Translation Using Link Parser In Proceedings of National Seminar, Tirupati, 2008 - 55 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT [13] N L Minh, N P Thai, L A Cuong, N V Vinh, P.H Nguyen, H S Dam LVT: An EnglishVietnamese Machine Translation System Hội nghị quốc gia FAIR’03, Hanoi, 10.2003 [14] D Molla, B Hutchinson Intrinsic versus Extrinsic Evaluations of Parsing Systems Proceedings of EACL Workshop on Evaluation Initiatives in Natural Language Processing, 2003, p 15-21 [15] Ngun thiƯn nam.Tiếng Việt nâng cao cho người nước ngồi NXB Giáo dục, 1998 [16] L H Phuong , N T M Huyen, A Roussanaly , H T Vinh A hybrid approach to word segmentation of Vietnamese texts Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196 [17] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation Proceedings of the 40th Annual Meeting of the ACL, Philadelphia, July 2002, p 311-318 [18] Stankevich N.V Các loại hình ngơn ngữ NXB Đại học Trung học chuyên nghiệp, Hà Nội,1982 [19] Daniel K Sleator, Davy Temperley Parsing English with Link Grammar CMU-CS-91-96, October 1991 [20] Nguyen Phuong Thai, Akira Shimazu Improving Phrase-Based SMTwith Morpho-Syntactic Analysis and Transformation Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, p 138-147, Cambridge, 8/ 2006 [21] Tran Ngoc Tuan, Phan Thi Tuoi Syntaxbased SMT Model in Adaption to Vietnamese-English Translation Poster of the 4th Conference RIVF, 2006 [22] http://www.fen.bilkent.edu.tr/~aykutlu/ceviri [23] http://statmt.ru [24] http://www.link.cs.cmu.edu/link/trans-explanation.html Tập V-1, Số (28), tháng 12/2012 SƠ LƯỢC VỀ TÁC GIẢ NGUYỄN THỊ THU HƯƠNG Sinh năm 1964 Tốt nghiệp Đại học Bách khoa Hà Nội năm 1986 Bảo vệ luận án Thạc sỹ ngành CNTT Đại học Bách khoa Hà Nội năm 1998 Hiện giảng viên mơn Khoa học Máy tính, Viện Cơng nghệ Thông tin truyền thông, Đại học Bách khoa Hà Nội Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, Lý thuyết ngôn ngữ phương pháp dịch Email: huongnt@soict.hut.edu.vn LÊ NGỌC MINH Sinh năm 1989 Tốt nghiệp ngành Khoa học Máy tính, Đại học Bách khoa Hà Nội năm 2012 Hiện học Cao học khoa Khoa học Nhận thức, Đại học Trento, Trento, Italia Lĩnh vực nghiên cứu: Dịch máy, Ngữ nghĩa phân phối, Ngôn ngữ học nhận thức Email: ngocminh.oss@gmail.com http://corpus.byu.edu/coca/ Nhận ngày: 31/07/2012 - 56 - ... mơ hình văn phạm liên kết, dạng tuyển có giải giới thiệu hệ thống dịch xây dựng II VĂN PHẠM LIÊN KẾT Văn phạm liên kết bao gồm tập từ, từ có yêu cầu liên kết Một câu định nghĩa văn phạm tồn cách... thức văn phạm liên kết nêu [6] Hình Phân tích câu "tơi u ấy” Văn phạm liên kết xếp vào dịng phụ thuộc biểu diễn mối liên hệ trực tiếp từ câu Tuy nhiên văn phạm liên kết có số điểm khác biệt: • Liên. .. thống dịch máy Việt Anh dựa dạng tuyển có giải Đây hệ thống dịch máy dựa luật với mục đích minh họa chức biểu diễn Tiếng Việt mơ hình văn phạm liên kết Hệ thống cho phép dịch cụm từ Tiếng Việt

Ngày đăng: 25/10/2020, 22:47

Hình ảnh liên quan

Bảng 1. Công thức liên kết của các từ - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Bảng 1..

Công thức liên kết của các từ Xem tại trang 2 của tài liệu.
Khác biệt hình thái - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

h.

ác biệt hình thái Xem tại trang 4 của tài liệu.
Hình 3 dưới đây mô tả kiến trúc của hệ dịch Việt Anh dựa trên dạng tuyển có chú giải.   - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Hình 3.

dưới đây mô tả kiến trúc của hệ dịch Việt Anh dựa trên dạng tuyển có chú giải. Xem tại trang 5 của tài liệu.
Hình 4. Thay đổi trật tự từ cho bản dịch cụm từ “cô gái nhỏ rất xinh”  - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Hình 4..

Thay đổi trật tự từ cho bản dịch cụm từ “cô gái nhỏ rất xinh” Xem tại trang 7 của tài liệu.
Hình 5. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới”  - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Hình 5..

Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” Xem tại trang 9 của tài liệu.
Biểu đồ trong hình 6 cho phép so sánh của các hệ thống dịch nói trên c - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

i.

ểu đồ trong hình 6 cho phép so sánh của các hệ thống dịch nói trên c Xem tại trang 10 của tài liệu.
Bảng 2. So sánh kết quả cách - Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Bảng 2..

So sánh kết quả cách Xem tại trang 10 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan