Tóm tắt: Luận án Tiến sĩ Kỹ thuật Mô hình xử lý khoảng trống từ vựng trong dịch máy Anh Việt

26 269 0
Tóm tắt: Luận án Tiến sĩ Kỹ thuật Mô hình xử lý khoảng trống từ vựng trong dịch máy Anh Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH LÊ MẠNH HẢI MƠ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG TRONG DỊCH MÁY ANH VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Chuyên ngành : Khoa học Máy tính Mã số : 62.48.01.01 TP.HCM - Năm 2010 Công trình hoàn thành tại: Đại học Bách khoa TP HCM Người hướng dẫn khoa học: PGS TS Phan Thị Tươi Phản biện 1: Phản biện 2: Phaûn bieän 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp nhà nước họp vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện: Đại học Bách khoa TP.HCM MỞ ĐẦU Mục đích, ý nghĩa luận án Luận án nghiên cứu giải vấn đề khoảng trống từ vựng (lexical gap) - nguyên nhân sai lệch từ vựng cấu trúc- dịch máy Anh – Việt Khoảng trống từ vựng tượng thiếu từ vựng tương ứng ngơn ngữ đích (tiếng Việt) so với ngơn ngữ nguồn (tiếng Anh) Chẳng hạn từ tiếng Anh “abeyant” có nghĩa “tạm thời đình chỉ” Luận án đề xuất phương pháp giải vấn đề khoảng trống từ vựng dịch máy tự động Anh - Việt mơ hình dịch từ sang ngữ - gọi tắt mơ hình XLKTTV Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu Đối tượng nghiên cứu luận án tượng khoảng trống từ vựng dịch máy Anh – Việt giải pháp giải tượng Bài toán 1: Tạo từ điển song ngữ Anh – Việt với cấu trúc nét cho phép lưu trữ thông tin ngữ pháp, đặc biệt cụm từ thay từ Bài tốn thứ lại chia làm hai toán nhỏ: Bài toán 1A: Xây dựng văn phạm chức từ vựng tiếng Việt với cấu trúc tồn song song cấu trúc thành tố cấu trúc chức làm sở xây dựng từ điển Anh – Việt hỗ trợ mơ hình xử lý khoảng trống từ vựng Bài toán 1B: Xây dựng từ điển song ngữ Anh – Việt với cấu trúc nét Từ điển song ngữ gồm phần tiếng Anh tiếng Việt Bài toán 2: Xây dựng mơ hình XLKTTV với giải thuật chèn, lược bớt, chuyển vị cấu trúc thành tố cấu trúc câu tiếng Việt dựa mẫu cấu trúc tìm từ điển Mơ hình xây dựng phải giải công việc sau đây: Bài toán 2A: Xác định khoảng trống từ vựng câu cần dịch Bài tốn 2B: Tìm từ điển cấu trúc tương ứng khoảng trống từ vựng áp dụng thuật toán xử lý khoảng trống từ vựng tạo câu tiếng Việt phù hợp ngữ pháp tiếng Việt Các đóng góp luận án: Đóng góp thứ nhất: Xây dựng khung văn phạm chức từ vựng tiếng Việt văn phạm chức từ vựng Đóng góp thứ hai: Xây dựng từ điển cung cấp từ vựng dạng mẫu cấu trúc cụm từ phức tạp với nét văn phạm chức từ vựng tiếng Việt sử dụng mơ hình nói Đóng góp thứ ba: Đề xuất mơ hình dịch với giải thuật cho phép biến đổi cấu trúc câu tiếng Việt trường hợp có khoảng trống từ vựng cách sử dụng cụm từ theo mẫu Phạm vi nghiên cứu Luận án nghiên cứu phương pháp xử lý khoảng trống từ vựng dịch máy Anh - Việt Mô hình dịch máy mà luận án xây dựng khơng nhằm tạo tập luật hồn chỉnh để phân tích câu nguồn tạo câu đích Luận án giả định có mơ hình dịch chuyển đổi sử dụng tập luật ánh xạ từ tiếng Anh sang tiếng Việt trường hợp từ tiếng Anh có từ Việt tương ứng Phạm vi luận án tập trung vào giải toán khoảng trống từ vựng nhằm nâng cao chất lượng dịch gặp từ tiếng Anh khơng có từ tiếng Việt tương đương Nhiệm vụ luận án Luận án nhằm thực công việc sau: - Nghiên cứu tượng khoảng trống từ vựng dịch máy Anh -Việt tác động tượng lên dịch máy - Xây dựng từ điển song ngữ Anh Việt hỗ trợ mơ hình XLKTTV - Đề xuất giải pháp mơ hình XLKTTV giải thuật xử lý khoảng trống từ vựng với ngữ pháp hướng tâm cho câu tiếng Anh Phương pháp nghiên cứu Phương pháp nghiên cứu luận án chủ yếu dựa việc xây dựng cấu trúc nét cho từ vựng, cụm từ câu để truyền tải thông tin từ văn nguồn sang văn đích áp dụng cấu trúc vào xây dựng từ điển song ngữ Cấu trúc luận án Luận án bao gồm chương TỔNG QUAN VỀ KHOẢNG TRỐNG TỪ VỰNG Khoảng trống từ vựng Các nghiên cứu khoảng trống từ vựng Các tài liệu giáo khoa có đề cập đến khoảng trống từ vựng bao gồm “lý thuyết dịch” Huỳnh Trung Tín cộng (năm 2005), “Machine Translation: an Introductory Guide” (năm 1994) Douglas Arnold cộng Các nghiên cứu chuyên sâu khoảng trống từ vựng tương đối rộng Barnett (năm 1994) nghiên cứu tượng máy dịch không sát tiếng Anh tiếng Pháp ngược lại Dorr (năm 1994) nghiên cứu khoảng trống từ vựng mơ hình máy dịch thơng qua ngôn ngữ trung gian tiếng Anh ngôn ngữ châu Âu khác tiếng Đức, Pháp Ý Các kết nghiên cứu Janssen cho thấy khoảng trống từ vựng tiếng Anh Ý chiếm khoảng 7,8% tổng số 60.901 từ xem xét Phân loại hướng tiếp cận Có trường hợp Dorr là: a) từ nguồn rộng nghĩa từ đích b) từ nguồn hẹp nghĩa c) từ nguồn từ đích có số nghĩa trùng, số nghĩa khơng trùng (hình 2.1) Từ nguồn Từ đích Từ đích Từ nguồn a) b) Từ nguồn Từ đích c) Hình 2.1 Các trường hợp gây khoảng trống từ vựng Hướng tiếp cận luận án việc xử lý khoảng trống từ vựng Luận án chọn phương pháp sử dụng cụm từ bổ sung (thường ngữ) gặp khoảng trống từ vựng dịch máy Anh Việt Khảo sát khoảng trống từ vựng hai ngôn ngữ Anh - Việt Để làm rõ ảnh hưởng khoảng trống từ vựng tới dịch máy Anh Việt, luận án tiếp cận từ hai góc độ: góc độ từ điển góc độ ngữ dụng Bảng 2.2 Xác suất từ khoảng trống từ vựng P >0,9 >0,8 >0,7 >0,6 >0,5 >0,4 >0,3 >0,2 >0,1 Số từ 16.435 16.443 16.642 17.533 19.037 19.674 22.905 24.188 24.889 24.895 Tỷ lệ 28% 28% 29% 30% 33% 34% 39% 42% 43% 43% Bảng 2.3 Ví dụ từ khoảng trống từ vựng (xác suất P=1) Từ abase abasement abatable abatis Các khoảng trống từ vựng với P=1 Nghĩa làm hạ phẩm giá làm hạ phẩm giá làm dịu đống chướng ngại Bảng 2.4 Khoảng trống từ vựng theo từ loại có P=1 Từ loại danh từ tính từ ngoại động từ nội động từ phó từ động từ thán từ đại từ Không rõ đại từ sở hữu đại từ phản thân Số lượng 11.916 3.297 817 163 120 87 17 7 Các phương pháp dịch máy khoảng trống từ vựng Cách xử lý khoảng trống từ vựng phụ thuộc nhiều vào phương pháp dịch, cụ thể – phụ thuộc vào cách ánh xạ từ ngơn ngữ nguồn sang ngơn ngữ đích Trong lịch sử phát triển dịch máy, hai mơ hình chuẩn công nhận nghiên cứu trước dịch máy theo luật (Rule-Based Machine Translation - RBMT) dịch máy theo xác xuất (Statistical Machine Translation - SMT) Luận án tập trung nghiên cứu cách tiếp cận mơ hình với vấn đề khoảng trống từ vựng [ CƠ SỞ LÝ THUYẾT Văn phạm cấu trúc ngữ hướng tâm (HPSG) HPSG (ngữ pháp cấu trúc hướng tâm) ngơn ngữ hình thức cho phép mơ hình hóa thực thể ngơn ngữ Mỗi thực thể ngôn ngữ miêu tả miền đơn với cấu trúc đặc trưng bao gồm thuộc tính giá trị Mỗi thành tố cấu trúc miêu tả cấu trúc đặc trưng mang tên gọi sign Nó chứa thuộc tính (cịn gọi nét): phonology, syntax, semantics Ngữ pháp tích hợp cú pháp ngữ nghĩa thành nét SYNSEM (SYNTAX – cú pháp, SEMATICS – ngữ nghĩa) Nền tảng cho giá trị lí thuyết tình ngữ nghĩa (situation semantics) lưu trữ thuộc tính CONTEXT Văn phạm chức từ vựng (Lexical Functional Grammar LFG) LFG xuất lần năm 1982, cơng trình “Lexical-functional Grammar: A formal system for grammatical represetation”, đứng tên hai tác giả Kaplan R.M & Bresnan J LFG cấp độ cấu trúc nổi, thành phần từ vựng làm phong phú thêm nhờ ánh xạ đối vào cấu trúc cú pháp LFG xây dựng cấp độ biểu (Levels of Representation) có quan hệ với nhau: cấu trúc từ vựng (lexical structure) cấu trúc chức (functional structure) cấu trúc thành tố(constituent structure) NGỮ PHÁP CHỨC NĂNG TỪ VỰNG TIẾNG VIỆT Văn phạm tiếng Việt Các xu hướng nghiên cứu ngữ pháp tiếng Việt Có ba quan điểm cấu trúc câu Quan điểm thứ nhất: câu từ tổ trọn vẹn (lấy từ tổ làm sở câu [8]) Quan điểm có ưu điểm thừa hưởng tính liên tục định nghĩa từ từ tổ (cụm từ) Quan điểm thứ hai: xây dựng cấu trúc ngữ pháp câu dựa quan hệ ngữ pháp [10] với thành phần gọi vị ngữ mà thành phần trung tâm gọi vị từ (trong tiếng Anh vị từ động từ đảm nhiệm) Quan điểm thứ ba: ngữ pháp chức Dik khởi xướng năm 1978 xem xét thành phần câu việc thực chức truyền tải thông tin, bao gồm phần đề (topic) phần thuyết (comment) Luận án sử dụng phần kết nghiên cứu [4] để xây dựng cấu trúc nét cho từ vựng cụm từ từ điển Anh - Việt Ngữ pháp chức tiếng Việt Theo kết nghiên cứu Cao Xuân Hạo [4], câu trần thuật có hai thành phần đề thuyết Đề “là thành tố trực tiếp câu nêu rõ phạm vi ứng dụng điều nói thành tố trực tiếp thứ hai: phần thuyết Văn phạm chức từ vựng tiếng Việt Dựa kết nghiên cứu văn phạm chức tiếng Việt, luận án xây dựng văn phạm hình thức cho tiếng Việt dựa LFG, gọi VLFG Các bước tổ chức VLFG thực sau: 10 Giải thuật 4.1 Đếm chiều cao cấu trúc thành phần (cây cú pháp) Nhập: Cho cú pháp X câu/ cụm từ Xuất: Chiều cao Y X Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog %Function tree_level (X, Y) % X rỗng Y tree_level([],Y):-Y is %X đơn tố Y=1 tree_level(X,Y):-atom(X),X\=[],Y is 1,! % X danh sách tree_level([Head|Tail],Y):tree_level(Head,Y1), tree_level(Tail,Y2), (Y1>=Y2 -> Y is Y1+1; Y is Y2),! % X cấu trúc tree_level(Structure,Y):Structure = [_|Arg], tree_level(Arg,Y1),Y is Y1 Hàm tree_level() sử dụng giải thuật xử lý cấu trúc chương Cấu trúc chức VLFG Trước hết luận án xây dựng hệ thống ma trận chức Ma trận chức cho để lưu trữ từ có tên gọi “word” có hai nét: nét chứa giá trị đề, ký hiệu TOPIC nét chứa giá trị thuyết, ký hiệu COMMENT Ngoài ma trận từ cịn có nét POS để xác định từ loại từ 11 Bảng 4.2 Các từ loại thực từ dùng VLFG Từ loại Danh từ (NN) Tiểu từ loại Danh từ chung Tiết loại Tổng hợp Không tổng hợp Chỉ tên người Chỉ vật Chỉ quan hệ Chỉ tình thái Nội động từ Ngoại động từ Chỉ quan hệ Chỉ phẩm chất Chỉ cường độ Chỉ hình thể Chỉ mầu sắc Chỉ âm Chỉ mùi vị Chỉ định lượng Tuyệt đối Tương đối, không đối lập Mô Danh từ riêng Động từ (VB) Động từ khơng độc lập Động từ độc lập Tính từ (ADJ) Tính từ khơng thang độ Tính từ thang độ Số từ (NB) Định từ (MT) Phó từ (ADV) Số từ xác định Số từ không xác định Đại từ xưng hô Đại từ định Xác định Phiếm Quán từ Số từ dạng hư từ Chỉ thời gian Tiếp diễn Chỉ mức độ Khẳng định, phủ định Sai khiến Ví dụ học sinh, quần áo bàn, ghế Nam cao Hà nội Ngồi, Cần, nên Nói, cười Đánh trống Xa, gần Đẹp, xấu Mạnh, yếu Béo, gầy Xanh, nhạt Ồn, náo nhiệt Thơm, Ít, nhiều Riêng, chung Đỏ lòm, trắng phau Lè tè, ào Hai, Vài, đôi ba Chúng Bây giờ, tất Gì, đâu Những, các, Mỗi, Đã, đang, Cũng , lại, Rất, Khơng, chẳng có Hãy, đừng word TOPIC COMMENT POS Hình 4.3 Ma trận word 12 phrase TOPIC COMMENT RELATION Hình 4.4 Ma trận phrase Một ma trận chức cụm từ gồm ba nét Nét đề (TOPIC), nét thuyết (COMMENT) nét quan hệ đề thuyết (RELATION) Chẳng hạn câu “nó ăn nhiều kẹo chanh” có ma trận chức hình 4.5 TOPIC TOPIC TOPIC ăn COMMENT COMMENT RELATION TOPIC COMMENT TOPIC nhiều COMMENT direct kẹo chanh COMMENT RELATION RELATION “là” Hình 4.5 Ma trận chức Ánh xạ cấu trúc chức vào cấu trúc thành tố VLFG Xây dựng ánh xạ cấu trúc cú pháp cấu trúc chức Việc mô tả quan hệ mô tả hình 4.6 Các 13 nét TOPIC, COMMENT, RELATION coi ánh xạ chức năng, riêng hàm M có nghĩa cấu trúc cấp (cấu trúc cha) S TOPIC TOPIC TOPIC ăn COMMENT I TOPIC nhiều COMMENT COMMENT RELATION direct V TOPIC COMMENT AP N P V AD TT n ă nhiều K N kẹo TOPIC chanh COMMENT RELATION N RELATION l COMMENT kẹo “là” chanh Hình 4.6 Ánh xạ f cấu trúc thành tố cấu trúc chức Bảng 4.3 Biểu diễn ánh xạ cấu trúc quan hệ hàm ánh xạ 10 11 12 13 14 15 16 17 18 THIS(TOPIC ) = Q //ứng với IP THIS(COMMENT) = P //ứng với NP THIS(RELATION) =“là” // ứng với KT TOPIC(Q) = Q1 //ứng với PR COMMENT(Q) = P1 // ứng với VP RELATION(Q) = direct //quan hệ trực tiếp TOPIC(Q1)= “nó” //nút COMMENT(Q1) = null POS(Q1)=noun TOPIC(P1) = Q2 COMMENT(P1) =P2 TOPIC(P2)= “nhiều nhất” COMMENT(P2) =null POS(P2) = adj TOPIC(P) = “kẹo” COMMENT(P) = “chanh” M(Q1) = Q M(Q2) = P1 14 TỪ ĐIỂN NÉT CHO MƠ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG Từ điển song ngữ Anh – Việt Nhiệm vụ từ điển Anh - Việt Nhiệm vụ từ điển song ngữ Anh Việt là: Ánh xạ từ vựng tiếng Anh sang hay nhiều nghĩa tiếng Việt Cung cấp thông tin ngữ nghĩa để giảm thiểu nhập nhằng ngữ nghĩa Hỗ trợ mơ hình XLKTTV xử lý khoảng trống từ vựng Hệ thống từ loại tiếng Anh Các tiêu chí xây dựng từ điển tiếng Anh bao gồm xác định giới hạn mục từ, xây dựng tập từ loại định dạng loại từ theo văn phạm nét HPSG Hệ thống cấu trúc nét dùng lưu trữ từ tiếng Anh Để khai báo từ loại từ điển, thay sử dụng kiểu từ loại đơn giản “danh từ”, “động từ”… luận án xây dựng cấu trúc phức tạp với nét lồng theo văn phạm HPSG nghiên cứu chương Các phần mềm ngữ liệu tiếng Anh Toàn mục từ lấy kho ngữ liệu Englex [36] Luận án không kiểm tra tính đủ tập từ vựng tiếng Anh Englex Để tìm kiếm mục từ từ điển tiếng Anh, phần mềm PC-PATR dựa giải thuật PC-KIMMO [36] thực ánh xạ từ biến hình vào từ gốc từ điển Các từ điển điện tử dùng dịch máy Anh Việt Phần trình bày khn dạng từ điển điện tử từ điển điện tử Anh - Việt phục vụ hệ thống dịch máy Anh - Việt Từ điển điện tử áp dụng nét – hình thức cung cấp thơng tin 15 cấp độ từ vựng cho phép hệ thống RBMT giảm bớt tập luật phân tích câu nguồn tạo câu đích Hệ thống từ tương đương tiếng Việt Trong từ điển song ngữ Anh Việt, mục từ tiếng Anh trình bày mục 5.2 có hay nhiều mục từ tương đương tiếng Việt Từ book nn PHONOLOGY book HEAD ENG CAT SYNSEM NN SUBJ COMPS SPR DT | [ ] CONTENT [ ] ARG-ST word TOPIC sách COMMENT VIE POS nn Hình 5.6 Danh từ “book” từ điển song ngữ Anh - Việt Ví dụ mục từ “book” từ điển song ngữ Anh Việt mô tả hình 5.6 Trong nét ENG VIE hai phần tiếng Anh tiếng Việt tương ứng mục từ Cấu trúc mẫu cho ngữ từ điển song ngữ Anh - Việt Phần liệt kê mẫu cụm từ tiếng Việt xuất từ điển Anh Việt 16 MƠ HÌNH XỬ LÝ KHOẢNG TRỐNG TỪ VỰNG Chương trình bày mơ hình dịch máy sử dụng ngữ (hay cụm từ) - gọi tắt mơ hình XLKTTV - để giải tượng thiếu từ vựng tương đương Mô hình xử lý khoảng trống từ vựng Mơ hình XLKTTV đóng góp luận án Mơ hình XLKTTV luận án đề xuất (hình 6.1) dựa mơ hình chuẩn Transfer-based model [46] Tập luật chuyển cấu trúc Chuyển đổi cấu trúc câu Cấu trúc câu tiếng Anh cú pháp Cấu trúc câu tiếng Việt Chuyển đổi từ Phân tích câu Từ điển Anh Việt Tổng hợp câu Đường liệu Từ điển tiếng Anh Câu tiếng Anh Từ điển tiếng Việt Tập luật ngữ pháp tiếng Anh Tập luật ngữ pháp tiếng Việt Dữ liệu hỗ trợ Câu tiếng Việt Quy trình xử lý đề xuất luận án Hìn h 6.1 Mơ hình XLKTTV 17 Tập luật chuyển cấu trúc Cấu trúc câu tiếng Việt Câu tiếng Anh sau phân tích cú pháp Cây cú pháp câu tiếng Anh Chuyển đổi cấu trúc câu Chỉnh cấu trúc cụm từ Chuyển đổi cấu trúc câu nguồn sang câu đích Cấu trúc câu tiếng Anh Từ tiếng Anh Chuyển đổi từ Cây cú pháp câu tiếng Việt Cấu trúc câu tiếng Việt Từ tiếng Việt Tập liệu xử lý Tập liệu hỗ trợ Từ điển Anh Việt Các xử lý bổ sung Hình 6.4 Mơ hình XLKTTV: Các thành phần bổ sung Hoạt động mơ hình XLKTTV Hoạt động mơ hình theo trình tự sau: Câu nguồn phân tích thành cấu trúc để làm rõ chức ngữ pháp ngữ nghĩa Cấu trúc câu nguồn chuyển đổi tập luật sang cấu trúc tương đương ngơn ngữ đích Đồng thời từ nguồn dịch qua từ đích dựa từ điển song ngữ Từ đích cấu trúc phức hợp với nét lưu trữ thông tin ngữ nghĩa ngữ pháp tương đương, từ cụm từ tiếng Việt - Các từ đích gán vào cấu trúc câu đích, chỉnh lý lại cấu trúc nhận Do phần tiếng Việt từ điển song ngữ xây dựng VLFG, nên sau trình chuyển đổi từ, mơ hình nhận hai cấu trúc cây: cấu trúc thành tố cấu trúc chức Các cấu trúc nhận sau chỉnh lý cần kiểm tra ánh xạ với để đảm bảo tính đắn văn phạm tiếng Việt 18 Cấu trúc câu/ cụm từ tiếng Anh Tìm từ vựng Khoảng trống từ vựng? Kh o Có âng Có Có Không Cấu trúc có từ vựng? Chuyển đổi theo luật Tìm mẫu cụm từ Chỉnh sửa cấu trúc cụm từ Không Còøn cấu trúc ? Kết thúc Hình 6.7 Hoạt động mơ hình XLKTTV Các giải thuật xử lý khoảng trống từ vựng mơ hình XLKTTV Giải thuật bổ trợ 6.1 mô tả bước xác nhận khoảng trống từ vựng Giải thuật 6.1: Xác định khoảng trống từ vựng 19 Nhập: Từ tiếng Anh X Xuất: Trả lại Y A khoảng trống từ vựng, ngược lại trả lại Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog % Function is_lex_gap (X, Y) %X rỗng Y=0 is_lex_gap([],Y):- Y is %X thành phần đơn tố, Y=0 is_lex_gap(X,Y):-atom(X), Y is %Phần tiếng Việt thành phần đơn tố, Y=0 is_lex_gap(X,Y):-X=[_|VIE], atom(VIE), Y is 0,! %Phần tiếng Việt có POS thành phần đơn tố, Y=0 is_lex_gap(X,Y):-X=[_|VIE], VIE=[ |POS], atom(POS), Y is 0,! %X khoảng trống từ vựng, Y=1 is_lex_gap(X,Y):-X=[_|VIE], VIE=[_|POS], member(POS , [vp,np,adp]) , Y is 1,! Thực giải thuật 6.1 việc xác định 12.304 từ tiếng Anh, có 2.980 từ khơng có từ điển Anh –Việt Trong 7.455 từ cịn lại có 1109 giải thuật 6.1 coi khoảng trống từ vựng Trong số có 933 từ khoảng trống từ vựng thật sự, 176 trường hợp khác chọn nghĩa từ không tốt nhập nhằng ngữ nghĩa xác định khoảng trống từ vựng khơng tốt Độ xác giải thuật 6.1 933/1109 = 84,1% Tỷ lệ khoảng trống từ vựng tiếng Anh tiếng Việt 12,5% cao kết tương ứng tiếng Anh –Ý 7,8% (4,738 khoảng trống từ vựng 60,901 từ, [48]) Giải thuật 6.2 Xử lý khoảng trống từ vựng trở nên tầm thường cụm từ thay khơng có sai biệt cú pháp, chức khuyết thành phần Khi xử lý 200 câu chứa khoảng trống từ vựng, 20 trường hợp đơn giản chiếm 82 câu, tương ứng 41% rơi vào câu đơn giản (câu đơn hai thành phần) Giải thuật 6.2: Xử lý khoảng trống từ vựng (giải thuật tổng quát) Nhập: Cấu trúc cụm từ câu tiếng Việt G cú pháp, có chứa từ tiếng Anh khoảng trống từ vựng Xuất: Cấu trúc cụm từ câu tiếng Việt F cú pháp không chứa khoảng trống từ vựng Phương pháp: % Giải thuật sử dụng ngôn ngữ đặc tả Prolog %Hàm lex_gap_proc(G,F) xử lý khoảng trống từ vựng lex_gap_proc(G,F):lex_search (G,V), is_lex_gap(V,Z), Z=1, lex_gap_proc_aux(V,F) % Các hàm hỗ trợ sử dụng hàm lex_gap_proc(G,F) % Function lex_search(X,Y) %Kiểm tra cấu trúc X có chứa từ vựng chuyển từ vựng qua hàm lex_search_aux xử lý lex_search([],[]) lex_search(X,Y):-atom(X), lex_search_aux(X,Y) lex_search(Stru,Result):Stru= [Functor|Arg],!,lex_search_aux(Arg,NewArg), Result= [Functor|NewArg] % Hàm lex_search_aux (X,Y) tìm mục từ X từ điển song ngữ, trả Y lex_search_aux([T|Term],[NewT|NewTerm]):lex_search(T,NewT), lex_search_aux(Term,NewTerm) lex_search_aux(X,Y):- XY,! lex_search_aux(X,X) lex_search_aux([],[]) % hàm lex_gap_proc_aux(V,Y) xử lý cấu trúc khoảng trống từ vựng tạo phép chèn, xóa, chuyển vị sửa sai lệch cấu trúc lex_gap_proc_aux([],[]) 10 lex_gap_proc_aux(X,X):- atom(X) 11 lex_gapproc_aux(X,Y):- lex_search(X,E), is_lex_gap(E,Temp), Temp=1, lex_search_aux(E,V), lex_insert(X,E,V, Z), lex_move(Z,W), tree_level(W,Temp1), Temp1 >=5, lex_prune (W,T) ), lex_corr(T,Y) 21 Phép thay nút cấu trúc Giải thuật 6.3 Thay nút cấu trúc cho trước cấu trúc Phép rút gọn cấu trúc Phép rút gọn cấu trúc khoảng trống từ vựng tạo phép lược bỏ số nhánh, ngược với phép thêm mục 6.2.1 Giải thuật 6.4 Rút gọn cấu trúc Phép chuyển vị cấu trúc Phép chuyển vị cấu trúc phép hốn đổi vị trí thành phần cấu trúc câu Xử lý sai lệch cú pháp Giải thuật 6.6 Xử lý sai lệch cú pháp Xử lý khuyết cấu trúc thành phần Giải thuật 6.7 Xử lý khuyết cấu trúc thành phần Đánh giá hiệu hoạt động mơ hình XLKTTV Phương pháp chọn ngữ liệu: Luận án chọn câu kho ngữ liệu, cụ thể câu mẫu sở liệu Wordnet [63] Luận án tìm 1.657 câu có chứa từ khoảng trống từ vựng Trong giai đoạn đầu, luận án chọn 200 câu 1.657 câu để thử nghiệm Việc phân tích cấu trúc tiếng Anh Phân tích câu tiếng Anh thực chương trình “LFG Parser” [64] 22 KẾT LUẬN Các kết đạt Luận án nghiên cứu tượng khoảng trống từ vựng dịch máy Anh -Việt đề xuất giải pháp chuyển đổi từ tiếng Anh sang ngữ tiếng Việt nhằm đảm bảo thông tin văn nguồn Giải pháp bao gồm việc xây dựng mô hình XLKTTV, dựa mơ hình dịch máy dùng tập luật cấu trúc ngữ theo văn phạm chức từ vựng tiếng Việt Các vấn đề liên quan xây dựng từ điển song ngữ với phần từ vựng tiếng Anh theo văn phạm cấu trúc ngữ hướng tâm phần tiếng Việt với văn phạm chức từ vựng tiếng Việt Ý tưởng giải pháp sử dụng tri thức ngôn ngữ để giải vấn đề khoảng trống từ vựng Để từ vựng hóa luật tiếng Việt, văn phạm chức từ vựng VLFG xây dựng Luận án trình bày mơ hình giải thuật xử lý câu tiếng Việt trường hợp có khoảng trống từ vựng Luận án có ý nghĩa thực khoa học thực tiễn với kết sau: a) Khảo sát trường hợp xuất khoảng trống từ vựng dịch máy Anh-Việt b) Đưa mơ hình cho dịch máy Anh Việt sử dụng luật mơ hình XLKTTV, cho phép sử dụng ngữ ngơn ngữ đích (cụm từ) để thay từ ngôn ngữ nguồn c) Xây dựng khung văn phạm tiếng Việt văn phạm chức từ vựng phục vụ mơ hình đề xuất 23 d) Xây dựng chương trình thực hiệc giải thuật mơ hình XLKTTV, xử lý trường hợp khoảng trống từ vựng dịch máy Anh – Việt Ba đóng góp luận án Đóng góp thứ nhất: Luận án xây dựng khung văn phạm chức từ vựng tiếng Việt văn phạm chức từ vựng hỗ trợ xử lý khoảng trống từ vựng Đóng góp thứ hai: Luận án xây dựng từ điển cung cấp từ vựng dạng mẫu cấu trúc cụm từ phức tạp với nét văn phạm chức từ vựng tiếng Việt sử dụng mơ hình nói Đóng góp thứ ba: Luận án đề xuất mơ hình dịch xây dựng giải thuật cho phép biến đổi cấu trúc câu tiếng Việt trường hợp có khoảng trống từ vựng, sử dụng cụm từ theo mẫu Các khó khăn hướng phát triển Luận án thực văn phạm chức từ vựng cho tiếng Việt cho trường hợp khoảng trống từ vựng tập trung vào ba từ loại danh từ, động từ tính từ Kết luận Luận án thực đóng góp khoa học cho vấn đề thiếu từ vựng dịch từ tiếng Anh sang tiếng Việt Giải pháp mà luận án đề xuất cho phép xử lý khoảng trống từ vựng, giúp cải thiện chất lượng dịch dựa mức độ xác cụm từ thay Giải pháp áp dụng cho nhiều hệ thống dịch máy cặp ngơn ngữ khác ngồi tiếng Anh – Việt 24 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [1] Le Manh Hai, Phan Thi Tuoi, Nguyen Chi Hieu 2005 English Vietnamese dictionary with lexical conceptual structure for machine translation FAIR 05, Ho Chi Minh City, 22-25 September, 2005 [2] Le Manh Hai, Phan Thi Tuoi, Nguyen Chi Hieu 2006 Dictionaries for English-Vietnamese Machine Translation, in proceedings of the 21st International Conference on the Computer Processing of Oriental Languages Singapore 17-19 December, 2006 [3] Le Manh Hai, Phan Thi Tuoi 2009 Word-to-phrase translation: A solution for lexical gap in English-Vietnamese machine translation In Proc of the 7th Internationnal IEEE Conference on the Computer Science- RIVF’09, Danang 13-17 July, [4] Le Manh Hai, Phan Thi Tuoi 2009 Vietnamese Lexical Functional Grammar, In Proc of the first International Conference on Knowledge and Systems Engineering (KSE 2009) Hanoi, 12 15 Octorber, 2009 [5] Le Manh Hai, Phan Thi Tuoi 2009 Three algorithms for wordto-phrase machine translation., In Proc of International Conference on Asian Language Processing 2009 IALP 2009 Singapore, 7-9 Dec, 2009 [6] Le Manh Hai, Phan Thi Tuoi 2010 Lexical gap in English- Vietnamese machine translation: what to do?, In Proc of International Conference on Asian Language Processing 2010 IALP 2010 China, 28-30 Dec, 2010 [7] Hieu, N.C & Tuoi, T.P & Dung, N.X & Hai, L.M 2006 Phrase-based English-Vietnamese Machine Translation, In Proceedings of the International Conference on Speech Databases and Assessment – Oriental-COCOSDA’06, Malaysia, 12-2006 ... từ bổ sung (thường ngữ) gặp khoảng trống từ vựng dịch máy Anh Việt Khảo sát khoảng trống từ vựng hai ngôn ngữ Anh - Việt Để làm rõ ảnh hưởng khoảng trống từ vựng tới dịch máy Anh Việt, luận án. .. đề khoảng trống từ vựng Để từ vựng hóa luật tiếng Việt, văn phạm chức từ vựng VLFG xây dựng Luận án trình bày mơ hình giải thuật xử lý câu tiếng Việt trường hợp có khoảng trống từ vựng Luận án. .. từ tiếng Anh có từ Việt tương ứng Phạm vi luận án tập trung vào giải toán khoảng trống từ vựng nhằm nâng cao chất lượng dịch gặp từ tiếng Anh từ tiếng Việt tương đương Nhiệm vụ luận án Luận án

Ngày đăng: 02/02/2015, 05:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan