NGHIÊN cứu xây DỰNG từ điển CHO hệ THỐNG DỊCH tự ĐỘNG UNL – TIẾNG VIỆT

9 423 0
NGHIÊN cứu xây DỰNG từ điển  CHO hệ THỐNG DỊCH tự ĐỘNG UNL – TIẾNG VIỆT

Đang tải... (xem toàn văn)

Thông tin tài liệu

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 208 NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN CHO HỆ THỐNG DỊCH TỰ ĐỘNG UNL – TIẾNG VIỆT A CASE STUDY ON THE BUILDING OF A DICTIONARY FOR MACHINE TRANSLATION USING UNL - VIETNAMESE Nguyễn Hữu Siêu Trường THPT chuyên Lê Quý Đôn – Đà Nẵng Lâm Tùng Giang Trung tâm Tin học – Văn phòng UBND Thành phố Đà Nẵng Võ Trung Hùng Trường Đại học Bách khoa, Đại học Đà Nẵng TÓM TẮT Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về hệ thống UNL và đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt phục vụ cho hệ thống dịch đa ngữ UNL. UNL (Universal Networking Language) là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và tri thức mà không bị cản trở bởi rào cản ngôn ngữ. Đây là ngôn ngữ nhân tạo cho phép đặc tả ngôn ngữ tự nhiên theo cách truyền thông của con người. Mục đích cu ối cùng là cho phép con người diễn đạt ngôn ngữ tự nhiên thông qua ngôn ngữ này. Nó cũng cho phép các máy tính liên lạc được với nhau nhờ các tính năng gửi, nhận và hiểu được thông tin đa ngữ. Chúng tôi sẽ tập trung trình bày những nghiên cứu về cấu trúc từ điển UNL, từ điển UNL- Tiếng Pháp, từ điển Anh - Việt và trên cơ sở đó đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt. ABSTRACT In this paper, we introduce general information about Universal Networking Language (UNL) and propose solution to build the UNL – Vietnamese dictionary for the UNL multilingual translation system. UNL is a computer language that enables computers to process information and knowledge across language barriers. It is an artificial language that replicates, in the cyber world, the functions of natural languages in human communication. As a result, it enables people to express their ideas through natural languages. It also enables computers to intercommunicate; thus, providing people with a linguistic infrastructure for distributing, receiving and understanding multilingual information. Here, we focus on our research on structure of the UNL dictionary, the UNL-French dictionary, English – Vietnamese dictionary and our suggestion towards building the UNL – Vietnamese dictionary. 1. Giới thiệu Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội Cùng với sự phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin trên mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và một trong những lý do quan trọng nhất là rào cản về ngôn ngữ. Giải pháp quan trọng nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động. Đến nay, nhiều hệ thống dịch tự động đã được phát triển và đưa vào sử dụng rộng rãi như Systran, IBM Translator, Reverso,… TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 209 Tuy nhiên, những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc vào ngữ cảnh và sự khác biệt về giải thích các khái niệm. UNL đề xuất một cách tiếp cận mới về dịch tự động thông qua ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta dịch từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp). Ngôn ngữ trung gian này được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một nội dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ. UNL có ý nghĩa quan trọng trong việc đơn giản hóa việc phát triển các hệ thống dịch tự động. Ví dụ cho trường hợp tiếng Việt, thay vì phải phát triển các hệ thống dịch tự động cho các cặp tiếng Việt – Nga, Việt – Anh, Việt – Pháp,… ta chỉ cần phát triển một cặp Việt – UNL để có thể dịch sang tất cả các ngôn ngữ khác đã được hỗ trợ bởi UNL (Nga, Anh, Pháp,…). Trong bài báo này, chúng tôi sẽ giới thiệu kiến trúc hệ thống và cấu trúc từ điển của UNL, sau đó đề xuất giải pháp tự động xây dựng từ điển UNL – tiếng Việt dựa trên từ điển UNL – Pháp và từ điển Anh – Việt theo Dict Format (tiêu chuẩn định dạng từ điển đề xuất bởi DICT Development Group và được sử dụng rộng rãi cho các từ điển mã nguồn mở). 2. Giới thiệu về hệ thống UNL UNL là ngôn ngữ nhân tạo nhằm mục đích mô tả ý nghĩa của các câu thông qua khái niệm lược đồ của mạng ngữ nghĩa. Nó cho phép biểu diễn tất cả các câu viết trong các ngôn ngữ tự nhiên theo cùng cách thức thông qua việc sử dụng một đồ thị ngữ nghĩa đơn. Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một ngôn ngữ nào khác. Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác. Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ. UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ này. Nó là một ngôn ngữ trung gian dành cho dịch tự động [8]. Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting at his residence” sẽ được viết trong ngôn ngữ UNL như sau: [S] mod(chairman(icl>post).@present.@def,company(icl>institution).@def) aoj(chairman(icl>post).@present.@def, John(icl>person)) agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person)) pos(residence(icl>shelter), John(icl>person)) obj(arrange(icl>do).@entry.@present.@complete.@pred,meeting(icl>conference).@i ndef) plc(arrange(icl>do).@entry.@present.@complete.@pred,residence(icl>shelter)) [/S] Hoặc được biểu diễn lại dưới dạng đồ thị : TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 210 Hình 1. Biễu diễn một câu dưới dạng đồ thị theo UNL Kiến trúc hệ thống UNL dựa trên hai tiến trình chính là chuyển văn bản từ ngôn ngữ tự nhiên sang ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ tự nhiên (DeConverter) như sau: Hình 2. Qui trình dịch tự động trong UNL Ngoài ra, cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc ngữ pháp và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động như hình sau : Hình 3. Qui trình chi tiết dịch tự động trong UNL TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 211 3. Cấu trúc từ vựng UNL Một từ vựng UNL không chỉ là một đơn vị của cú pháp và ngữ nghĩa của UNL để diễn tả khái niệm mà còn là yếu tố cơ bản của UNL để diễn tả một câu hoặc một khái niệm phức tạp. Về mặt cấu trúc, mỗi UW (Universal Word) là một chuỗi các ký tự với các ràng buộc: <UW> ::= <headword> [<constraint list>] <headword> ::= <character>… <constraint list> ::= “(“ <constraint> [ “,” <constraint>]… “)” <constraint> ::= <relation label> { “>” | “<” } <UW> [<constraint list>] | <relation label> { “>” | “<” } <UW> [<constraint list>] [ { “>” | “<” } <UW> [<constraint list>] ] … <relation label> ::= “agt” | and” | “aoj” | “obj” | “icl” | <character> ::= “A” | | “Z” | “a” | | “z” | 0 | 1 | 2 | | 9 | “_” | ” “ | “#” | “!” | “$” | “%” | “=” | “^” | “~” | “|” | “@” | “+” | “-“ | “<” | “>” | “?” Trong đó, headword (từ mục) là một từ đơn/từ ghép/câu/cụm từ tiếng Anh mà nó được xem như là nhãn của một tập các khái niệm, là tập được tạo nên các khái niệm tương tự với nhau trong tiếng Anh. Từ vựng mở rộng chỉ các khái niệm mới mà nó không có trong tiếng Anh. Vì thế từ mục giúp tổ chức các khái niệm một cách có hệ thống và dễ nhớ hơn. Các constraint (ràng buộc) là sự giải nghĩa của từ vựng thành các tập con hoặc là các khái niệm đặc biệt chứa trong từ vựng cơ bản tạo thành “từ vựng ràng buộc”. Ví dụ : từ vựng cơ bản “drink” không có ràng buộc bao gồm các khái niệm “cho chất lỏng vào miệng”, “chất lỏng được cho vào miệng”, “chất lỏng với cồn”, “hút”,… Từ vựng ràng buộc “drink (agt>thing, obj>liquid)” chỉ tập con của các khái niệm “cho chất lỏng vào miệng” và nó phù hợp với động từ “uống (drink)”, “nuốt (gulp)”, “slurp”, “chug” trong tiếng Anh. Ràng buộc của từ vựng được tạo nên bởi cặp các quan hệ và từ vựng được định nghĩa (còn gọi là thành phần biểu diễn của từ vựng). Nếu có nhiều ràng buộc thì các ràng buộc phân cách nhau bởi dấu phẩy. Một từ vựng ràng buộc được định nghĩa thông qua Master Definition. Trong Master Definition, nghĩa đầy đủ của từ vựng được định nghĩa phải được miêu tả trong ràng buộc. Các relation label (nhãn quan hệ) sử dụng trong danh sách ràng buộc phải được định nghĩa trong UNL specifition và nên được sắp xếp theo thứ tự ABC nếu có nhiều hơn một ràng buộc được định nghĩa. Để định nghĩa nghĩa của từ vựng một cách chính xác hơn chẳng hạn, tập con khái niệm của từ vựng luôn được định nghĩa ở bên trong của từ vựng cấp cao hơn và có nghĩa tổng quát hơn. Việc định nghĩa liên kết của từ vựng thông qua quan hệ “icl”. 4. Từ điển UNL – FR Hiện nay đã có nhiều nghiên cứu về hệ thống UNL, trong phần minh họa của bài báo chúng tôi sử dụng từ điển UNL-FR (hơn 39.000 từ) do nhóm GETA (Groupe TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 212 d’Etudes pour la Traduction Automatique) xây dựng. Cấu trúc chung một mục từ trong từ điển UNL-FR như sau: [mục từ tiếng Pháp] {các thuộc tính } "headword_tiếng Anh(các giới hạn ngữ nghĩa)"; Do từ điển UNL-FR được xây dựng từ từ điển UNL-English nên mục từ tiếng Anh của từ điển UNL-English được thay bằng mục từ tiếng Pháp, tất cả những thông tin còn lại được giữ nguyên theo từ điển UNL – English. Ví dụ: Cấu trúc một mục từ “avoir” trong từ điển UNL-FR: Hình 4. Mục từ “avoir”trong từ điển UNL-FR Nội dung nằm trong dấu ngoặc vuông [] chứa mục từ tiếng Pháp và sau đó headword tương ứng tiếng Anh (ở đây avoir = have). Chúng tôi sử dụng trường headword_tiếng Anh này để liên kết với headword mục từ tương ứng trong từ điển Anh – Việt . Nằm giữa dấu ngoặc kép {} là các thuộc tính của từ tiếng Pháp như CATV = động từ, CATN = danh từ, CATADV= phó từ, CATADJ = tính từ,… Chúng ta sử dụng các thuộc tính này để liên kết với từ loại trong từ điển Anh – Việt. 5. Từ điển Anh – Việt Hiện nay, www.dict.org đã xây dựng một định dạng từ điển rất dễ sử dụng, định dạng này đã được một số cá nhân sử dụng để xây dựng những bộ từ điển khá lớn. Có nhiều bộ từ điển thông dụng đã được cộng đồng phát triển. Trong các nghiên cứu của mình, chúng tôi sử dụng bộ từ điển Anh – Việt của tác giả Hồ Ngọc Đức (http://www.informatik.uni-leipzig.de/~duc/Dict/) để trích phần nội dung tiếng Việt. Về chuẩn chính tả tiếng Việt, tác giả vẫn tuân theo chuẩn chính tả như trong từ điển Hoàng Phê. Về mã tiếng Việt, tác giả sử dụng bộ mã Unicode. Định dạng Dict được mô tả như sau: toàn bộ cơ sở dữ liệu được chứa trong 2 tập tin, một tập tin chứa nghĩa của từ và một tập tin index (chỉ mục). Tập tin index bao gồm tên từ, vị trí nghĩa của từ bắt đầu trong tập tin chứa nghĩa và độ dài của nghĩa. Cấu trúc tổng quát của file chứa nghĩa gồm các phần như sau: @headword * tu loai (noun, verb ) - dinh nghia 1 = cau vi du cho dinh nghia 1 + nghia cua cau do - dinh nghia 2 = cau vi du cho dinh nghia 2 + nghia cua cau do TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 213 * tu loai - dinh nghia 3 Ví dụ cấu trúc mục từ “abalone” như sau: Hình 5. Chi tiết mục từ “abalone” trong từ điển Anh – Việt Chúng tôi sử dụng trường headword nằm sau ký tự @ để so sánh với headword_tiếng Anh của mục từ tiếng Pháp trong từ điển UNL-FR. 6. Giải pháp đề xuất Qua nghiên cứu cấu trúc từ điển UNL-FR và từ điển Anh-Việt theo chuẩn Dict, chúng tôi đề xuất các bước xây dựng tự động dữ liệu từ vựng UNL - tiếng Việt như sau: Bước 1 : Trích một mục từ tiếng Pháp trong từ điển UNL-FR Bước 2 : Trích headword_tiếng Anh và các thuộc tính đi cùng như CATV,CATN, CATADJ… Bước 3 : Trích một mục từ trong từ điển Anh – Việt Bước 4 : Trích headword và các thông tin từ loại như động từ, danh từ,… Bước 5 : So sánh 2 headword vừa lấy từ 2 từ điển (bước 2 và bước 4) Nếu giống nhau thì tùy theo từ loại là danh từ, động từ, tính từ,… sẽ gán nghĩa tiếng Việt vào nội dung mục từ tiếng Pháp tương ứng Æ được 1 mục từ UNL – tiếng Việt Æ lưu mục từ vừa tạo vào cơ sở dữ liệu từ điển UNL - tiếng Việt. Bước 6 : Quá trình sẽ lặp lại cho đến khi hết các mục từ trong từ điển UNL-FR. Minh họa cách tạo một mục từ UNL – tiếng Việt dựa vào mục từ tiếng Pháp là “affecter” của UNL-FR kết hợp với từ điển Anh-Việt như sau: • Trích nội dung mục từ “affecter” trong từ điển UNL-FR ta được: [affecter]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; • Trích headword_tiếng Anh là động từ “assign” (vì CATV = động từ) • Trích headword là “assign” trong từ điển Anh – Việt @assign * danh từ - (pháp lý) người được quyền thừa hưởng (tài sản, quyền lợi) * động từ - phân việc, phân công =to be assigned to do something+ được giao việc gì TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 214 - ấn định, định =to assign the day for a journey+ ấn định ngày cho cuộc hành trình =to assign a limit+ định giới hạn - chia phần (cái gì, cho ai) - cho là, quy cho =to assign reason to (for) something+ cho cái gì là có lý do; đưa ra lý do để giải thích cái gì - (pháp lý) nhượng lại =to assign one's property to somebody+ nhượng lại tài sản cho ai • Vì CATV tương ứng với động từ nên hệ thống tự động trích lấy nội dung các động từ tiếng Việt tương ứng là: phân việc, phân công, ấn định, định, chia phần, cho là, quy cho, nhượng lại. • Kết quả các mục từ UNL – tiếng Việt do hệ thống tự động tạo ra: [phân_việc]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [phân_công]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [ấn_định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [định]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [chia_phần]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [cho_là]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [quy_cho]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; [nhượng_lại]{AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)} "assign(icl>do,obj>human)"; Với các bước tiến hành như trên, chúng tôi đề nghị mô hình hệ thống tự động xây dựng từ điển UNL – Việt như sau: Hình 6. Mô hình hệ thống ( 2 ) TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 215 (1) Cơ sở dữ liệu từ điển UNL – tiếng Việt đã được cập nhật, bổ sung nhờ các chuyên gia ngôn ngữ hoặc các thành viên tham gia. (2) Cơ sở dữ liệu cần bổ sung bao gồm nhưng mục từ trong UNL-FR không tìm thấy trong từ điển Anh – Việt. Đây là nhiệm vụ cần nghiên cứu trong tương lai để hoàn chỉnh hơn nữa từ điển UNL – tiếng Việt 7. Thử nghiệm Với mô hình hệ thống như trên, chúng tôi đã xây dựng một hệ thống tự động tạo từ điển UNL – tiếng Việt. Hệ thống đã được thử nghiệm với từ điển UNL – FR (khoảng 39.000 từ) và từ điển Anh – Việt của Hồ Ngọc Đức (khoảng 110.000 từ). Một số thông tin thống kê: Headword của UNL-FR không tìm được trong từ điển Anh – Việt 14.517 36.85% Headword của UNL-FR tìm thấy trong từ điển Anh – Việt 24.872 63.14% Bảng 1. Kết quả so sánh headword từ điển UNL-FR và Anh – Việt Kết quả tạo ra được từ điển UNL-Việt như sau: Danh từ Tính từ Trạng từ Động từ UNL-Việt 95.921 33.304 23.871 94.667 Tổng cộng 247.763 từ Bảng 2. Kết quả các từ loại trong từ điển UNL - tiếngViệt Từ kết quả ở hai bảng trên, ta dễ dàng nhận thấy việc xây dựng từ điển UNL – tiếng Việt bằng phương pháp so sánh các headword dựa vào từ điển UNL-FR và Anh – Việt đã tạo được một số lượng khá lớn từ vựng (247.763 từ). Những headword trong từ điển UNL-FR không tìm thấy trong từ điển Anh – Việt (bảng 1) là 36.85% có thể giải thích bởi các nguyên nhân như sau: - Hệ th ống chưa xử lý hết cấu trúc chi tiết bên trong của mỗi mục từ trong từ điển Anh – Việt. Ví dụ trong từ điển UNL-FR có headword là “hurry_up”, nhưng trong từ điển Anh – Việt headword chỉ có “@hurry”, còn “hurry_up” là các chi tiết bên trong của động từ “hurry”. - Từ trong Anh – Việt chưa đầy đủ hoặc chưa khai thác hết các thuộc tính nằm trong các CAT của UNL-FR. 8. Kết luận Những kết quả đạt được mặc dù vẫn còn một số hạn chế nhưng đã đạt được một số thành công nhất định. Kết quả lớn nhất mà chúng tôi đạt được là nghiên cứu có hệ thống về UNL và tính khả thi của giải pháp xây dựng từ điển tự động cho UNL – tiếng Việt dựa vào những nguồn dữ liệu đã có. Đây chính là tiền đề quan trọng cho việc nghiên cứu xây dựng các môđun tiếp theo trong quá trình ứng dụng UNL cho dịch tự TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 216 động tiếng Việt. Do UNL hiện nay chưa được phổ biến ở Việt Nam nhưng chúng tôi may mắn kế thừa những kết quả tốt nhất có được từ nguồn dữ liệu của UNL-FR và từ điển Anh – Việt của tác giả Hồ Ngọc Đức. Chúng tôi chỉ tập trung xây dựng một hệ thống minh họa về giải pháp của mình và tiến hành trên các từ loại phổ biến như động từ (Verb), danh từ (Noun), tính từ (Adjective) và phó từ (Adverb). Kết quả đạt được khoảng 247.763 mục từ UNL – tiếng Việt ở dạng thô, công việc hoàn thiện từ điển cần có sự đầu tư và nghiên cứu nghiêm túc để thực hiện. Bên cạnh đó, dữ liệu từ điển rất lớn, nên vấn đề xây dựng từ điển là lựa chọn số một và khâu chỉnh sửa sai sót vẫn còn đặt ra nhiều vấn đề cần được tiếp tục giải quyết. Trên cơ sở nghiên cứu một cách đầy đủ và có hệ thống về UNL, cũng như giải pháp xây dựng hệ thống tự động tạo từ điển UNL - tiếng Việt sẽ tạo tiền đề cho việc nhanh chóng xây dựng thành công hệ thống dịch tự động đa ngữ cho tiếng Việt trong tương lai. TÀI LIỆU THAM KHẢO [1] Võ Trung Hùng, “Nghiên cứu và ứng dụng UNL cho xử lý tiếng Việt“, Tạp chí khoa học và công nghệ, Đại học Đà Nẵng, số 2 (31), 2009. [2] Phan Huy Khánh, “Hợp tác xây dựng từ điển đa ngữ Papillon: Vấn đề cập nhật dữ liệu tiếng Việt“, Kỷ yếu Hội thảo ICT.rda’04 tại Hà Nội 17-18/9/2004. [3] Đào Hồng Thu, “Bài báo Xây dựng hệ thống dịch tự động tiếng Việt“, Tạp chí Ngôn ngữ và Đời sống, số 11, 2008, trang 17-19. [4] Võ Thị Thùy Vi, Tìm hiểu UNL – Universal Networking Language và khả năng ứng dụng cho Tiếng Việt, Luận văn Thạc sĩ, GVHD: PGS.TS Võ Trung Hùng [5] Luis Iraola (2003), “Using WordNet for linking UWs to the UNL UW System”, Egypt [6] Abu Mohammad Nurannabi (2008), “Morphological Analysis of Bangla Words for Universal Networking Language”, Dhaka, Bangladesh. [7] Jesús Cardeñosa, Alexander Gelbukh, Edmundo Tovar (2005), “Universal Networking Language : Advances in Theory and Applications”, México. [8] H. Uchida, M. Zhu, T. Senta: “Universal Networking Language”, ISBN-10 2- 8399- 0128-5, Edition II, Published 2006. . giới thiệu kiến trúc hệ thống và cấu trúc từ điển của UNL, sau đó đề xuất giải pháp tự động xây dựng từ điển UNL – tiếng Việt dựa trên từ điển UNL – Pháp và từ điển Anh – Việt theo Dict Format. sở nghiên cứu một cách đầy đủ và có hệ thống về UNL, cũng như giải pháp xây dựng hệ thống tự động tạo từ điển UNL - tiếng Việt sẽ tạo tiền đề cho việc nhanh chóng xây dựng thành công hệ thống. tập trung trình bày những nghiên cứu về cấu trúc từ điển UNL, từ điển UNL- Tiếng Pháp, từ điển Anh - Việt và trên cơ sở đó đề xuất giải pháp xây dựng từ điển UNL – tiếng Việt. ABSTRACT In this

Ngày đăng: 11/07/2014, 10:09

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan