Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt nghiên cứu phát triển phần mềm dịch máy việt anh

120 598 0
Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt   nghiên cứu phát triển phần mềm dịch máy việt anh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh nghiên cứu phát triển phần mềm dịch máy việt-anh thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt MÃ số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-3 07/8/2007 Hµ Néi- 2004 CHƯƠNG TRÌNH KH.01 ĐỀ TÀI MÃ SỐ KH01-03 NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT NĂM 2001-2003 CẤP QUẢN LÝ: Nhà nước CƠ QUAN CHỦ TRÌ: Viện Cơng nghệ thơng tin CƠ QUAN THỰC HIỆN: - Viện Công nghệ thông tin - Trung tâm Ngữ âm học thực nghiệm – Viện Ngôn ngữ học - Trung tâm kỹ thuật – Thông xã Việt Nam - Trung tâm Công nghệ Vi điện tử Tin học – Viện Ứng dụng Công nghệ - CSLU – Center of spoken language understanding, Viện sau đại học Oregon, Hoa kỳ - Khoa Toán – Cơ – Tin học, Đại học Tự nhiên Hà nội CHỦ NHIỆM ĐỀ TÀI: GS TSKH Bạch Hưng Khang NHÁNH ĐỀ TÀI : NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM DỊCH MÁY VIỆT–ANH HÀ NỘI 2003 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Tên Đề tài nhánh : Nghiên cứu phát triển Phần mềm Dịch máy Việt–Anh Nơi thực : Trung tâm CN Vi điện tử Tin học, Viện Ứng dụng Công nghệ Thời gian thực : 2001 – 2003 Yêu cầu: Bộ phân tích cho phép xử lý tình phi ngữ cảnh phụ thuộc ngữ cảnh (trong phạm vi hạn định - scope dependent) Tốc độ biên dịch tự động đạt không 5.000 từ / phút (tương đương với 10 trang A4) Chất lượng dich thuật xem hiểu văn tiếng Việt văn phạm (đối với người hiểu tiếng Anh tiếng Việt) Hệ văn phạm hình thức tiếng Việt bao gồm yếu tố luật hành văn tiếngViệt Kho mẫu câu tiếng Việt từ nhiều nguồn khác bao gồm đặc trưng mẫu câu tiếng Việt thông thường Cơ sở tri thức bao gồm: - 5.000 qui tắc văn phạm tiếng Việt dịch Việt - Anh - 150.000 đơn vị từ vựng Việt – Anh - 300.000 - 1.000.000 mẫu câu tiếng Việt thông dụng Các kết thực hiện: I LÝ THUYẾT VÀ CÔNG NGHỆ: Đề xuất văn phạm định biên (bound controlled grammar) – dạng mở rộng mơ hình văn phạm phi ngữ cảnh, số tính chất văn phạm, chứng minh lớp ngôn ngữ định biên bao đóng lớp ngơn ngữ phi ngữ cảnh phép giao Điều có nghĩa văn phạm định biên mở rộng đủ tối thiểu cho lớp ngôn ngữ phi ngữ cảnh để thành tập hợp đóng kín phép hợp phép giao Ý nghĩa văn phạm định biên chỗ kết lý thuyết giải thuật lớp ngơn ngữ phi ngữ cảnh áp dụng cho ngơn ngữ định biên Nói riêng, giải thuật phân tích văn phạm phi ngữ cảnh độ phức tạp chúng giữ nguyên gần hoàn toàn văn phạm định biên -2- Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Đề xuất văn phạm cảm ngữ đoạn (phrase sensitive grammar) – phát triển tiếp tục văn phạm định biên cho phép mô tả nhiều tính chất phụ thuộc ngữ cảnh ngôn ngữ tự nhiên, đặc biệt, đề xuất khái niệm ngữ đoạn yếu tố ràng buộc trọng tâm định nghĩa cấu trúc ngôn ngữ Một số tính chất văn phạm: - Các phần tử từ vựng, cú pháp, ngữ nghĩa tập quy tắc tổ chức thành hệ phân cấp (dàn đại số) - Đưa vào khái niệm “phần tử đánh dấu” để thể ràng buộc ngữ nghĩa quy tắc văn phạm, đặc biệt, để biểu diễn nút có số nhánh biến thiên phân cấp ngữ nghĩa Bộ phân tích khơng dựng cú pháp mà dựng mơ hình biểu diễn bên (cây phân cấp ngữ nghĩa) câu văn sở áp dụng quy tắc cảm ngữ đoạn Đề xuất phương pháp giải nhập nhằng ứng dụng xử lý ngôn ngữ tự nhiên dựa phân cấp hệ luật sinh sử dụng mơ hình logic mới, miền giá trị khơng phải nhị phân (true, false – logic cổ điển) hay đoạn liên tục (các số thực từ đến – logic mờ) mà dàn đại số Giải pháp đề xuất mơ hình hình thức cho “lập luận theo lẽ thường” (common-sense reasoning) tri thức ngơn ngữ Mơ hình phân cấp ngữ nghĩa áp dụng văn phạm cảm ngữ đoạn cho ta công cụ để mô tả quy tắc ngơn ngữ, vốn khó diễn đạt tốn học Với cách tiếp cận đề xuất, luật sinh có phạm vi tác dụng khn khổ hệ phân cấp miền tác dụng tập luật Tập miền tác dụng luật tạo nên phủ tồn ngơn ngữ Những kết nghiên cứu tạo thành tảng để xây dựng giải pháp dịch máy liên ngữ khả thi (hiện phát triển Viện Ứng dụng Công nghệ) Cách tiếp cận có đặc trưng sau: - Bộ phân tích khơng dựng cú pháp mà dựng mơ hình biểu diễn bên (cây phân cấp ngữ nghĩa) câu văn - Bước Tổng hợp q trình đơn ngữ, thực hồn tồn độc lập với q trình Phân tích Vì vậy, mơ hình dịch máy đề xuất, cơng đoạn tổng hợp văn khó nhiều so với khâu phân tích, văn sản sinh tự nhiên, ngữ hơn, không phụ thuộc vào cách đặt câu văn gốc Phát triển giải thuật phân tích văn phạm cảm ngữ đoạn Xây dựng mơ hình xử lý nhập nhằng cho kho ngữ liệu tổ chức theo mơ hình phân cấp dựa vào logic dàn văn phạm cảm ngữ đoạn Thuật toán phân tích theo sơ đồ lên từ phải sang trái (bottom-up -3- Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 right-most analysis) dựng phân tích ngữ nghĩa khơng phụ thuộc ngôn ngữ họ giá trị trạng thái liên ngôn ngữ Phát triển giải thuật tổng hợp văn phạm cảm ngữ đoạn Xây dựng sơ đồ tổng hợp văn Cơng trình Một số kết nghiên cứu đề tài trình bày hội nghị khoa học đăng tải tạp chí chuyên ngành: - Một báo cáo khoa học Hội thảo quốc gia Nghiên cứu Phát triển ICT-RDA, Hà Nội, 3, 2003 - Hai báo cáo khoa học Hội nghị tốn học tồn quốc lần thứ 6, Huế, 09, 2002 - Hai báo đăng Tạp chí Bưu Viễn thơng, Chun san số 10, 2002 - Một báo cáo khoa học Hội thảo Quốc gia Lần thứ – Một số Vấn đề chọn lọc Công nghệ Thông tin Truyền thông, Chủ đề : Xử lý Ngôn ngữ Đa phương tiện, (Languague Processing and Multimedia), Thái Nguyên, 8, 2003 - Một báo cáo khoa học Hội thảo quốc gia Nghiên cứu Phát triển Khoa học bản, Hà Nội, 10, 2003 II THỰC HÀNH: Ứng dụng phần kết lý thuyết công nghệ phát triển vào phần mềm dịch máy Ứng dụng số heuristics nhằm cải thiện tốc độ cho giải thuật phân tích văn phạm biên dịch văn Xây dựng hệ phân cấp từ loại tiếng Việt để đưa vào sở tri thức tiếng Việt sở mơ hình ngữ nghĩa chung cho Hệ thống từ loại tiếng Việt, áp dụng lý thuyết dàn (lattice) làm mơ hình ngữ nghĩa cho hệ thống từ loại tiếng Việt Khảo sát 400.000 mẫu câu song ngữ Việt-Anh thông dụng Xây dựng sở tri thức dịch máy Anh Việt – Việt Anh bao gồm: - Trên 7.600 quy tắc văn phạm biên dịch Anh-Việt Việt-Anh - Trên 230.000 đơn vị từ vựng dịch Anh-Việt - Trên 260.000 đơn vị từ vựng dịch Việt-Anh III ỨNG DỤNG THỰC TIỄN Đang thử nghiệm tiếp tục hoàn thiện sở tri thức để đưa sử dụng rộng rãi nửa đầu năm 2004 (EVTRAN 2.5 dịch hai chiều Anh-Việt, Việt-Anh) Một số đặc điểm phần mềm: -4- Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 - Dịch hai chiều Anh-Việt Việt-Anh - Chương trình tự động đốn nhận ngơn ngữ nguồn - Có tính đa ngữ, dễ dàng đưa cặp ngôn ngữ vào hệ thống để biên dịch qua lại hai ngôn ngữ mà không cần phải lập trình - Có khả vận dụng tri thức ngơn ngữ phân tích : kho ngữ liệu lớn tốc độ phân tích câu – tương ứng – tốc độ biên dịch văn cao, trái với giải thuật phân tích đơn định (chẳng hạn giải thuật Early thời gian phân tích tỷ lệ nghịch với bình phương kích thước quy tắc văn phạm) - Có cơng cụ cập nhật tri thức ngôn ngữ biểu diễn trực quan cú pháp để hỗ trợ việc hiệu chỉnh sở tri thức - Có kèm theo số từ điển tra cứu thông dụng (Computing Dictionary, Thesaurus, Từ điển Anh-Việt Việt-Anh, Oxford Advanced Learner’s Encyclopedic Dictionary, Webster’s Dictionary, ) để tiện việc cập nhật liệu ngôn ngữ Tiếp tục tích hợp kết lý thuyết công nghệ đạt (trong khuôn khổ nghiên cứu đề tài) bổ sung hiệu chỉnh sở tri thức ngôn ngữ vào sản phẩm để nâng cao chất lượng phiên (dự kiến hoàn tất năm 2005) tiến tới bổ sung ngôn ngữ khác vào hệ thống Báo cáo khoa học gồm phần Phần I tổng quan cách tiếp cận dịch máy giới Phần II giới thiệu kết nghiên cứu nhánh đề tài mơ hình văn phạm mới, sử dụng công cụ để mô tả tri thức ngôn ngữ giải số kiểu nhập nhằng Văn phạm đặt sở cho giải pháp dịch máy liên ngữ mới, nội dung chi tiết trình bày phần III Các phần IV V báo cáo giới thiệu kỹ thuật triển khai thực hành đề tài -5- I DỊCH MÁY: MỘT SỐ TRÀO LƯU HIỆN NAY I DỊCH MÁY: MỘT SỐ TRÀO LƯU HIỆN NAY I-1 I.1 VĂN PHẠM VÀ PHÂN TÍCH CÚ PHÁP I-2 I.1.1 NGƠN NGỮ HÌNH THỨC VÀ VĂN PHẠM SINH I-3 I.1.2 MƠ HÌNH VĂN PHẠM DỰA TRÊN SỰ THỐNG NHẤT I-6 I.2 ÁP DỤNG VĂN PHẠM VÀ NHỮNG TRỞ NGẠI I-6 I.2.1 I.2.2 I.2.3 I.2.4 I.2.5 SỰ PHÂN CẤP KHÁI NIỆM I-7 MỐI LIÊN HỆ GIỮA CÁC BỘ PHẬN TRONG CÂU I-7 MỐI LIÊN HỆ GIỮA CÁC TẦNG CẤU TRÚC TRONG CÂU I-8 RÀNG BUỘC VĂN PHẠM VÀ THÔNG TIN DẪN XUẤT I-11 VĂN PHẠM CẢM NGỮ CẢNH YẾU I-11 I.3 CÁC KHUYNH HƯỚNG TRONG DỊCH MÁY I-15 I.3.1 CÁCH TIẾP CẬN DỰA THEO LUẬT I-15 I.3.2 PHƯƠNG PHÁP DỰA VÀO KHO NGỮ LIỆU I-18 I.3.3 MỘT SỐ HỆ DỊCH MÁY LIÊN NGỮ I-19 I.3.3.1 I.3.3.2 I.3.3.3 Dự án UNITRAN MIT I-19 Dự án Dịch máy đa ngữ CICC I-21 Dự án KANT Trường đại học Carnegie Mellon I-21 I.3.4 CÁC PHƯƠNG HƯỚNG MỚI I-23 I.4 KẾT LUẬN I-23 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Phần trình bày số khía cạnh xử lý ngơn ngữ tự nhiên, khía cạnh ngữ pháp, ngữ nghĩa học ngôn ngữ; phương hướng nghiên cứu trạng lĩnh vực dịch máy phận quan trọng xử lý ngôn ngữ tự nhiên I.1 VĂN PHẠM VÀ PHÂN TÍCH CÚ PHÁP Hệ thống xử lý ngôn ngữ tự nhiên giữ vai trò cốt yếu giao tiếp người với hay với máy móc Xử lý ngơn ngữ tự nhiên bao gồm nhận dạng tiếng nói, hiểu sản sinh ngôn ngữ Các hệ thống xử lý văn biên dịch thơng báo hữu ích việc trích lọc thơng tin từ kho ngữ liệu văn tổ chức chúng thành liệu theo nhiều khuôn dạng khác để sử dụng sau Xử lý đa ngơn ngữ địi hỏi phải sâu vào vấn đề đa ngôn ngữ cung cấp thiết bị hỗ trợ biên dịch văn phiên dịch (dịch nói) số lĩnh vực định Nghiên cứu xử lý ngôn ngữ tự nhiên nghiên cứu mơ hình tốn học cấu trúc chức ngôn ngữ, sử dụng tiếp nhận ngôn ngữ : cú pháp, ngữ nghĩa học, ngữ dụng học (nghĩa số khía cạnh định mối quan hệ người nói người nghe, hay người sử dụng hệ thống hệ thống xử lý ngôn ngữ tự nhiên), khía cạnh mặt văn ngơn ngữ Đây nghiên cứu liên mơn có liên quan đến số chuyên ngành khoa học máy tính bao gồm trí tuệ nhân tạo, ngơn ngữ học, logic học tâm lý học Ngơn ngữ có cấu trúc tôn ti theo nhiều cấp độ khác nhau, đặc biệt cấp độ câu Hầu hết hệ thống xử lý ngơn ngữ tự nhiên có hệ văn phạm phân tích cú pháp tương ứng Văn phạm đúc kết hữu hạn số lượng câu vơ hạn, cịn phân tích cú pháp thuật toán để đưa hay nhiều miêu tả cấu trúc cho câu theo văn phạm câu phân tích theo đăc điểm ngữ pháp Mô tả cấu trúc ghi lại lịch sử nguồn gốc hình thành câu theo văn phạm Mơ tả cấu trúc xem có vai trò quan trọng cho nghiên cứu sâu hiểu văn hay dịch ngữ nghĩa1 Tuy nhiên, thấy lịch sử áp dụng quy tắc văn phạm sinh lại cản trở việc nhận thức cấu trúc ngữ nghĩa (chi tiết phần II III) I-2 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 I.1.1 NGƠN NGỮ HÌNH THỨC VÀ VĂN PHẠM SINH Vào cuối năm 50, kết nghiên cứu nhà ngôn ngữ học Noam Chomsky [1] có ảnh hưởng sâu rộng đến tồn lĩnh vực nghiên cứu cú pháp Nền tảng kết Lý thuyết ngơn ngữ hình thức, đặt móng cho khoa học máy tính lý thuyết khởi đầu cho việc xử lý ngôn ngữ tự nhiên Ơng xây dựng mơ hình hình thức miêu tả văn phạm phân tích phận đáng kể tiếng Anh cơng cụ mơ hình Nội dung quan trọng lý thuyết Chomsky mô hình văn phạm sinh, luận điểm bao gồm: - Giả thuyết cấu trúc ngôn ngữ phải đủ nhỏ để dễ dàng kiểm tra - Đối tượng nghiên cứu hệ tri thức ẩn chứa đằng sau việc sử dụng ngơn ngữ - Có tảng sinh học khả tiếp thụ tri thức ngôn ngữ người Chomsky cho ngôn ngữ, đặc biệt tổ chức văn phạm soi sáng cho cấu trúc tư người Theo ông, “thực tế đáng ý ngơn ngữ lồi người tương phản kỳ lạ phức tạp hiển nhiên với dễ dàng mà trẻ em học tiếng” Cấu trúc ngôn ngữ tự nhiên phức tạp nhiều so với ngôn ngữ nhân tạo hay hệ thống toán học cao siêu Nhưng lạ thay, học ngơn ngữ lập trình hay học tốn địi hỏi phải kinh qua khóa đào tạo căng thẳng (mà khơng người rốt khơng tiếp thu được) Trong đứa trẻ lên ba gần thành thạo thứ tiếng Để giải thích nghịch lý này, Chomsky cho phần lớn phức tạp ngơn ngữ khơng cần phải học, người sinh biết chúng; nghĩa não người sẵn có khả học loại ngôn ngữ định Khái quát hơn, ông cho tư bẩm sinh người mơđun hóa cao độ Nghĩa có quan tư chuyên dụng thiết kế để thực loại toán đặc biệt theo cách thức đặc biệt Cơ quan ngôn ngữ (theo quan điểm Chomsky, chứa số môđun tương đối độc lập) đặc trưng riêng lồi người Mọi người có tư ngơn ngữ, khơng lồi động vật có khả học thứ tựa tiếng người Một hệ từ giả thuyết tri thức ngôn ngữ bẩm sinh loài người “hầu hết cấu trúc chung cho ngôn ngữ” Thực tế trẻ em nhanh chóng học nói thứ tiếng mà chúng tiếp xúc, không phụ thuộc vào nguồn gốc bố mẹ chúng Vì tri thức ngơn ngữ bẩm sinh, có, I-3 Nghiên cứu phát triển cơng nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 chung cho ngôn ngữ Nếu tri thức bao gồm nguyên lý cấu trúc văn phạm (theo Chomsky quan niệm), “mọi ngơn ngữ tương tự nhau” Ơng chí sử dụng thuật ngữ Văn phạm phổ quát (Universal Grammar) để tri thức ngôn ngữ bẩm sinh người.1 Chomsky đưa hệ phân cấp văn phạm nghiên cứu tương ứng ngơn ngữ chúng, đặc biệt quan trọng văn phạm phi ngữ cảnh (Context-Free Grammar) Văn phạm phi ngữ cảnh theo Chomsky bao gồm : - Một tập hữu hạn biến trung gian (ví dụ: C: câu, DN: danh ngữ, ĐT: động từ, TrT: trạng từ), - Một tập hữu hạn từ cuối (ví dụ: Bích Thủy - tên riêng; mai – danh từ; thích – động từ; - trạng từ), - Một tập quy tắc phân tích cấu trúc A thành ω, A biến trung gian ω chuỗi từ cuối biến trung gian - S biến trung gian đặc biệt gọi ký hiệu xuất phát Trên Hình đưa ví dụ đơn giản văn phạm phi ngữ cảnh Các quy tắc phân tích gọi quy tắc cú pháp Khởi đầu bắt nguồn từ S - ký hiệu xuất phát Bằng việc áp dụng quy tắc lên S, S phân tích thành chuỗi biến trung gian từ cuối Các biến trung gian lại phân tích lại theo quy tắc chúng khơng thể phân tích thêm Dễ dàng nhận thấy câu: "Bích Thủy thích mai cực kỳ" sản sinh từ văn phạm Trên hình vẽ 1, sơ đồ thể mơ tả cấu trúc văn phạm câu hình thành thành tố từ theo sơ đồ Bắt đầu từ ký hiệu S Ký hiệu phân tích thành chuỗi DN (danh ngữ) ĐN (động ngữ) Hai ký hiệu lại phân tích lại theo thứ tự thành chuỗi Bích Thủy ĐN (động ngữ) TrT (trạng từ) Ký hiệu ĐN (động ngữ) lại phân tích thành chuỗi ĐT (động từ) DN (danh ngữ); TrT (trạng từ) phân tích thành Cuối cùng, ĐT (động từ) phân tích thành thích DN (danh ngữ) phân tích thành mai Sơ đồ hình kết phân tích Quy tắc Cú pháp: S → DN ĐN ĐN → ĐN TrT DT → Bích Thủy DT → mai Cũng có người khơng chấp nhận quan điểm Chẳng hạn, “Một số biểu cách nhìn Âu châu cấu trúc tiếng Việt” [40], có câu : “Vả lại đến năm 90 kỷ khơng cịn có mơ hồ đến mức tưởng có phạm trù ngữ pháp phổ qt cho ngơn ngữ tồn nhân loại”.? Chúng cho tất ý tưởng Chomsky giữ nguyên giá trị ngày Nội dung phần hồn tồn khơng nhằm phản bác giả thuyết tri thức ngôn ngữ bẩm sinh khái niệm Văn phạm phổ quát Chomsky Ở đưa nghi vấn cách mà vận dụng mơ hình thực tế Giải pháp cụ thể cho số vấn đề đặt trình bày phần sau I-4 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Cách xếp cố gắng tạm thời nên nhiều khiếm khuyết thay đổi tương lai Hệ phân loại khái niệm giàn đại số (lattice) Sự phân cấp đối tượng dựa tính khái quát khái niệm Chẳng hạn khái niệm vật có khái niệm thấp cấp đồ vật, sinh vật Trong khái niệm sinh vật có động vật, thực vật (Hình 1) Phân loại theo khái niệm tương đồng với việc sử dụng danh từ tiếng Việt đặc trưng danh từ đếm đơn vị (như nói trên) Phân loại tính từ thực dựa theo tính chất ngữ pháp chúng Theo nhà ngơn ngữ học, tiếng Việt, tính từ chiếm vị trí quan trọng khó phân biệt tính từ vị ngữ Ví dụ 1: Trong hai câu sau: - Đó ngơi nhà đẹp - Ngôi nhà đẹp Từ đẹp câu thứ tính từ cịn từ đẹp câu thứ hai lại xem vị ngữ? Cũng vậy, người ta đưa thêm vào khái niệm vị từ Coi từ đẹp hai ví dụ thuộc loại từ : vị từ Khi tiếng Việt khơng tồn tính từ Vị từ sử dụng động từ tính từ tiếng nước ngồi Quan điểm đáng tranh cãi dường dựa việc từ đẹp dịch sang tiếng Anh thành hai cách khác : “beautiful” “to be beautiful” tùy theo việc câu có động từ hay khơng; chưa có động từ tính từ xem có vai trị động từ Từ coi tính từ tiếng Việt vừa động từ vừa tính từ Mà ln ln có cặp từ giống thuộc hai loại từ khác Vì nên người ta nghĩ loại “vị từ” Có thể phân tích tình sử dụng tính từ đến cách kiến giải tính từ cách sử dụng tính từ câu tiếng Việt Phần lớn ví dụ thường gặp câu tiếng Việt giải thích (và phân tích câu) sở phương pháp đề cập Theo cách phân loại hai ví dụ trên, chữ đẹp coi tính từ Và vậy, cách giải thích đứng vững tính chất tính từ tiếng Việt (gần như) tương đồng với cách mà chúng hiểu ngôn ngữ Ấn Âu Điểm trung tâm phương pháp giả thiết : “Người ta thường có xu hướng loại bỏ phần tử câu (vốn xem chuẩn mực) không ảnh hưởng đến việc hiểu nghĩa câu” Nói cách khác, số từ bổ trợ thường bỏ hẳn cách đặt câu tiếng Việt V-4 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 (như giới từ ở, trong, đối với, , động từ thì, là, có, liên từ mà, rằng, cho, ) Ví dụ 2: - Ta viết “Ngơi nhà đẹp” khơng viết “Ngơi nhà đẹp” - Ta viết “Nước ta nhiều núi đồi” không viết “Ở nước ta có nhiều núi đồi” - Ta viết “Tơi đau chân” không viết “Tôi bị đau chân” - Với giả định từ đẹp tiếng Việt hai câu Ví dụ coi tính từ, chẳng khác ngơn ngữ khác Đại từ loại từ phức tạp tiếng Việt Hầu danh từ người sử dụng đại từ : “anh, chị, ơng, bà, cơ, dì, chú, bác, bạn, ” Có đại từ dùng thay cho hấu hết loại từ khác, danh từ, tính từ, động từ, đại từ, đại từ “ấy, chi, gì” mà khơng thấy tiếng Anh hay số ngôn ngữ khác Trong hệ phân cấp từ vựng, chúng tơi chia nhóm đại từ thành loại danh đại từ, tính đại từ, động đại từ, nhận thấy cách phân loại cho phép phân tích hình thức lớp đại từ tiếng Việt cách tương đối chi tiết Trạng từ coi lớp từ loại khơng định nghĩa rõ ràng: bổ nghĩa cho tính từ, động từ, danh ngữ, câu, hay trạng từ khác Để dễ hình thức hóa, chúng tơi phân loại trạng từ theo loại từ mà bổ nghĩa Như vậy, trạng từ mà đồng thời bổ nghĩa cho tính từ động từ xem hai từ khác (chẳng hạn trạng từ “rất, ” “rất đẹp”, “cũng cao” “rất muốn nói ”, “cũng đi” , “hơi, ” bổ nghĩa cho tính từ, ) Việc phân biệt từ loại theo khía cạnh sử dụng chúng cho phép mô tả văn phạm cách quán V.1.2 BỘ QUI TẮC TỪ VỰNG TIẾNG VIỆT Về chất, tiếng Việt không cần hệ quy tắc từ vựng Bộ quy tắc từ vụng tiếng Việt chủ yếu để phục vụ dịch máy Chúng chọn cách tiếp cận xuất phát từ hệ thống quy tắc từ vựng tiếng Anh để xây dựng quy tắc từ vựng tiếng Việt Hệ quy tắc soạn thảo tuân thủ tính nghịch đảo toàn phần (phục vụ dịch hai chiều Anh-Việt Việt-Anh) Nhiều vấn đề từ vựng tiếng Anh, tiếng Việt coi vấn đề cú pháp Trong thực tế, quy tắc từ vựng tiếng Anh có tương đương với V-5 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 quy tắc văn phạm (quy tắc tạo từ – từ ghép) tiếng Việt tương đương với dạng cú pháp định (bổ sung đơn vị văn phạm (thường gọi hư từ) vào đơn vị từ vựng (thường gọi thực từ) Tiếng Việt ngôn ngữ đơn lập Trong tiếng Việt, khái niệm với nghĩa xác định, ngun thủy khơng phải ln ln có từ (từ rời, bao gồm tiếng nhất) dành riêng cho Theo nguyên tắc tạo tiếng tiếng Việt (phụ âm đầu, âm phụ, âm chính, âm cuối dấu) có tối đa khơng tới 16.000 tiếng (có nghĩa vơ nghĩa), cịn thực tế sử dụng không tới 7.000 tiếng Vốn từ vựng thông thường ngôn ngữ dao động khoảng 30.000 – 60.000 tùy thuộc ngôn ngữ Từ suy vốn từ vựng (từ gốc) tiếng Việt chủ yếu từ bao gồm hai âm tiết trở lên Trong tiếng Việt khơng có từ dẫn xuất theo cách thay đổi đầu đuôi từ cho trước Vì từ gốc từ dẫn xuất thành lập theo cách : - Tổ hợp từ với nghĩa xác định gán cho nghĩa bền vững - Vài tiếng ghép với để có từ với nghĩa cụ thể (không vào nghĩa thành phần) - Ghép từ với một vài từ phụ để hình thành từ với nghĩa khác Trong trường hợp thứ ta nhận từ ghép với ngữ nghĩa ổn định Ví dụ: - Bến đị, xe đạp, bất công Trong trường hợp thứ hai ta nhận từ ghép với ngữ nghĩa khác với từ thành phần Chúng ta gọi trường hợp tổng hợp từ Ví dụ: Cộng hòa, sư tử, đồng hồ Trong trường hợp thứ ba, từ kế thừa ngữ nghĩa từ gốc đóng vai trị ngữ pháp khác với từ gốc Ví dụ: thành lập, thực được, tính hay thay đổi, cách thức, V-6 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Bằng cách đối chiếu hình thành từ nghữ tiếng Anh tiếng Việt ta xây dựng hệ thống từ tiếng Việt có ý nghĩa từ vựng tương đương với từ đơn lẻ tổ hợp từ bền vững tiếng Anh Mặc dù ta thấy tương quan rõ ràng cách thức tạo từ ghép tiếng Việt với chế hình thành từ từ dẫn xuất tiếng Anh, hai ngơn ngữ khơng hồn tồn tương đồng Cụm từ tiếng Việt diễn giải theo vài cách tiếng Anh, chẳng hạn cụm từ “có thể chấp nhận được” tiếng Anh diển đạt theo hai cách : “acceptable” “can be accepted” Trong đó, chẳng hạn “tính chấp nhận được” tiếng Anh “acceptability” Hệ dịch máy Việt Anh cần phải cung cấp lựa chọn để tùy theo tình ngữ cảnh, cụm từ tiếng Việt diễn giải từ cụm từ tiếng Anh Cụm từ tiếng Việt sử dụng để phản ánh tượng từ dẫn xuất (derivation) tượng biến đổi từ (inflection) tiếng Anh Tuy nhiên, văn phạm quy định, tượng từ dẫn xuất biến đổi từ tiếng Anh diễn đạt theo cách khác Chẳng hạn Ing-Clause tiếng Anh tương đương với việc thêm từ phụ (khơng hiểu thường gọi hư từ) “việc” “mà” vào động ngữ tiếng Việt tùy theo văn cảnh sử dụng cụm từ Từ ghép tiếng Anh tương ứng với cụm từ tiếng Việt sở ghép yếu tố rời rạc (ví dụ “có thể phân hủy được” - decomposable) hay tổ hợp từ bền vững (thường từ gốc Hán, ví dụ “khả chuyển” transferable) hay từ ổn định (ví dụ “đáng kể” – considerable) Để giải nhập nhằng tạo từ ghép tiếng Việt xây dựng văn phạm cụm từ để phân tích sơ cụm từ bước tiền xử lý cho phân tích văn phạm Do tính chất cụm từ (thành ngữ) thường có độ dài khống chế nên ta áp dụng mơ hình văn phạm phức tạp để mơ tả mà khơng lo lắng nhiều độ phức tạp tính tốn giải thuật phân tích câu Một quan sát thực nghiệm : Trong thực hành ngôn ngữ, độ phức tạp văn phạm nghịch biến với độ dài câu Kết luận mang tính chất tiên nghiệm giống với cách tư ngôn ngữ Khi đặt câu, thường có xu hướng chọn cấu trúc phức tạp, hàm ẩn đoạn văn ngắn (cụm từ) có xu hướng diễn đạt rõ ràng với cấu trúc câu đơn giản cho câu dài Vì vậy, phân tích ta sử dụng mơ hình văn phạm tổng quát hơn, phức tạp phạm vi hẹp văn phạm đơn giản (chẳng hạn phi ngữ cảnh) câu dài Rộng hơn, phạm vi đoạn văn hay toàn văn, mối quan hệ cú pháp (giữa câu) lại tuân thủ quy tắc nghiêm ngặt V-7 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 đơn giản hơn, áp dụng mơ hình văn phạm cịn chặt chẽ (và vậy, hiệu hơn) Quan sát lý giải việc dịch câu dài tỏ không phức tạp cách bùng nổ so với dịch câu ngắn – nghĩa tìm giải pháp phân tích cho độ phức tạp tính tốn tiến dần đến tuyến tính có đủ tri thức ngơn ngữ V.1.3 QUI TẮC PHÂN TÍCH TIẾNG VIỆT Như nói trên, từ tiếng Việt tạo thành thơng qua việc ghép từ khác với Mỗi câu tiếng Việt ngắt từ theo số cách khác Sau vài ví dụ: - Cụm từ “trọng tài trọng tài” ngắt “trọng | tài | trọng tài” “trọng tài | trọng | tài” - Mệnh đề “Trưởng phòng phòng phòng cháy chữa cháy” ngắt thành danh ngữ “Trưởng phịng (của) phịng (có tên là)| phịng cháy chữa cháy” thành câu “Trưởng phòng (của) phịng (có tên là)| phịng cháy (đang)|chữa cháy” Bộ phân tích từ vợng thực việc phân tích nơng (shallow analysis để phân tích cụm từ) đa số hệ dịch máy làm để đưa mộc phương án ngắt từ cho câu tiếng Việt Có cách tiếp cận khác tổ chức tất kiểu ngắt từ cho toàn mệnh đề cần phân tích thành dàn (với nút bé nút nằm trước từ với nút lớn nút nằm sau từ cuối cùng) mà chưa bận tâm đến việc ngắt từ theo cách có làm cho câu trở nên vô nghĩa sai văn phạm hay không Sau phân tích cú pháp khơng phải thực chuỗi kí hiệu mà dàn từ Cách tiếp cận có tính khái qt cao: xây dựng phân tích từ vựng chung cho ngôn ngữ – ngôn ngữ biến tiếng Anh, tiếng Nga, tiếng Pháp ngôn ngữ đơn lập tiếng Việt, tiếng Hoa, có mơ hình xử lý giống V.1.4 QUI TẮC TỔNG HỢP TỪ VỰNG TIẾNG ANH Bộ quy tắc tổng hợp tiếng Anh nghịch đảo quy tắc phân tích từ vựng tiếng Anh Nội dung mục thực tích hợp chặt chẽ với nội dung Từ vựng Tiếng Anh bao gồm từ gốc (root words), từ biến đổi (inflection) từ dẫn xuất (derivation) từ ghép (compound words) Để tổng hợp từ vựng tiếng Anh, có hai cách tiếp cận: - Sử dụng văn phạm quy mạng chuyển trạng thái V-8 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 - Sử dụng văn phạm tích hợp vào phân tích văn phạm tiền xử lý vạn Với phương pháp thứ nhất, việc phân tích (và tổng hợp) từ vựng phải tách khỏi q trình phân tích (hay tổng hợp) cú pháp Cách tiếp cận thứ hai làm phức tạp hóa phân tích văn phạm cho phép xử lý thống cho ngơn ngữ Độ phức tạp tính tốn tùy thuộc vào giải thuật phân tích (và tống hợp) áp dụng Về mặt tính tốn, khơng có khác biệt từ dẫn xuất (derivation) biến đổi từ (inflection) tiếng Anh, khác hình thức nằm vị trí biến đổi từ: tiếp đầu (prefixes), tiếp đuôi (suffixes) hay tiếp (infixes) Quy tắc biến đổi từ vựng gồm có thành phần: - Từ_dẫn_xuất - Gốc_trái - tiếp_tố_dẫn_xuất - tiếp_tố_gốc - Gốc_phải Trong Gốc_trái, Gốc_phải, Từ_dẫn_xuất biến trung gian (khái niệm ngữ pháp) tiếp_tố_dẫn_xuất, tiếp_tố_gốc tổ hợp chữ từ Có tình áp dụng quy tắc: - Quy tắc cho tiếp đầu : vắng mặt Gốc_trái - Quy tắc cho tiếp đuôi : vắng mặt Gốc_phải - Quy tắc cho tiếp : có đủ tất thành phần - Quy tắc cho từ bất quy tắc :vắng mặt Gốc_phải, đồng thời tiếp_tố_gốc từ nguyên.1 Heuristics chung để xử lý cho ba loại tiếp tố : cực đại tổng độ dài tiếp_tố_dẫn_xuất, tiếp_tố_gốc cực tiểu tổng số lần áp dụng quy tắc từ vựng Heuristics đơn giản tỏ hữu hiệu để giải nhập nhằng tổng hợp từ vựng tiếng Anh có từ tổng hợp theo nhiều luật khác Để minh họa quy tắc từ vựng ứng dụng thực tiễn, ta xét vài ví dụ Khái niệm từ hiểu chuỗi ký tự (chữ cái) mà mục từ điển định nghĩa (chẳng hạn tiếng Anh, lay dạng khứ lie – nằm khơng phải lie – nói dối) V-9 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Các quy tắc: Plural→ Noun _s _ Plural→ Noun _es _ Plural→ Noun _es _e Plural→ Noun _ies _y Quy tắc áp dụng cho từ, kết thúc es ưu tiên áp dụng quy tắc Khi từ gốc có e áp dụng quy tắc trước hết Nếu quy tắc áp dụng quy tắc ưu tiên V.2 CÁC KỸ THUẬT TĂNG TỐC ĐỘ PHÂN TÍCH V.2.1 ỨNG DỤNG VĂN PHẠM CẢM NGỮ ĐOẠN Xây dựng giới thiệu mơ hình Văn phạm định biên, nêu đặc tính hữu ích xử lý ngơn ngữ tự nhiên Nhóm thực đề tài phát triển mơ hình văn phạm định biên theo hướng mở rộng hiệu mô tả Mô hình văn phạm cảm ngữ đoạn phát triển định hình sở văn phạm định biên Lớp văn phạm tỏ hữu hiệu để mô tả tính chất đặc biệt ngơn ngữ tự nhiên như: phụ thuộc phần tử khoảng cách, mối liên hệ ngôn ngữ không lồng nhau, phụ thuộc tầng phân tích khác Để đảm bảo hiệu tính tốn phân tích văn phạm, giải thuật duyệt theo chiều rộng, phân tích sâu cục phát triển Giải thuật áp dụng cho nhiều loại văn phạm, kể loại văn phạm phức tạp phân cấp Chomsky Đối với văn phạm cảm ngữ đoạn, giải thuật có đặc tính quan trọng : tri thức ngơn ngữ nhiều, tốc độ phân tích cải thiện Nội dung nghiên cứu khuôn khổ đề tài giới thiệu báo cáo khoa học: - Lê Khánh Hùng (2003) Văn phạm cảm ngữ đoạn, Báo cáo khoa học hội thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc CNTT TT”, Thái nguyên, 8-2003 - Lê Khánh Hùng, Trần Cảnh (2003) Về số hạn chế mơ hình văn phạm Chomsky, Tạp chí Bưu Viễn thông, , Chuyên san 10, 2003 - Lê Khánh Hùng (2003) Một Phương pháp Dịch máy Liên ngữ Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ Nghiên cứu, Phát triển Ứng dụng CNTT&TT, Hà nội, 2003 V-10 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 - Lê Khánh Hùng (2003) Văn phạm phụ thuộc phạm vi, tính chất ứng dụng, Báo cáo khoa học hội nghị ICT 2003, Hà Nội, 03-2003 - Lê Khánh Hùng (2002) Văn phạm định biên số tính chất, Tạp chí Bưu Viễn thơng, Chuyên san 8, 11-2002 - Báo cáo khoa học Hội thảo quốc gia Nghiên cứu Phát triển Khoa học bản, Hà Nội, 10, 2003 Bên cạnh nghiên cứu khuôn khổ nội dung đăng ký đề tài, tập trung thử nghiệm cơng nghệ hồn tồn dịch máy, Dịch máy theo mơ hình Liên ngữ Chính kết nghiên cứu mơ hình Văn phạm đề tài mở triển vọng xa việc phát triển công nghệ dịch máy tiên tiến Nếu kết nghiên cứu khả quan, chúng tơi có đề nghị hiệu chỉnh nội dung nghiên cứu đề tài để sớm có sản phẩm dịch máy với chất lượng cao bậc Đã xây dựng hệ phân cấp khái niệm ngôn ngữ tự nhiên dựa mô hình tốn học giàn đại số (lattice) Hệ phân cấp cho phép mơ tả đặc tính ngữ nghĩa cấu trúc ngôn ngữ chuyên biệt sở xây dựng giải thuật phân tích tiên nghiệm Kết tiền đề để xây dựng hệ dịch không phụ thuộc cặp ngôn ngữ với chất lượng hứa hẹn cao Đây mô hình hình thức cho hệ ngữ vựng ngơn ngữ tự nhiên cho phép tìm ứng dụng bên ngồi dịch máy (các hệ hiểu ngơn ngữ tự nhiên, kiểm tra sửa chữa lỗi văn phạm ngữ nghĩa tiếng Việt, tìm kiếm tồn văn theo nội dung, nhận dạng tổng hợp văn ) Về nội dung này, tổng hợp lại công bố thành báo cáo khoa học gửi đăng tạp chí chun khảo ngơn ngữ học Ngồi ra, q trình thực đề tài, đưa vào nhiều từ điển song ngữ lớn để chuẩn bị cho phần mềm dịch máy hai chiều AnhViệt / Việt-Anh, có từ điển kỹ thuật tổng hợp Anh-Việt (95.000 mục từ), từ điển toán học (75.000 mục từ), từ điển y, sinh học (65.000 mục từ), từ điển kinh tế thương mại (40.000 mục từ) tổng cộng 230.000 mục từ Anh-Việt 260.000 mục từ Việt-Anh Ngoài ra, cập nhật từ điển Việt-Anh với 200.000 cụn từ thông dụng thành ngữ tiếng Việt Với cách tiếp cận mở rộng mơ hình hình thức văn phạm giải thuật phân tích quen thuộc, hiệu cho văn phạm phi ngữ cảnh (giải thuật Early, Cock-Young-Casami, ) khơng thể sử dụng được, dạng nguyên thủy Trong EVTRAN 2.0, để xử lý ràng buộc ngữ cảnh bên khung văn phạm phi ngữ cảnh, giải thuật khơng cịn giữ độ phức tạp đa thức tình định, (hàm mũ V-11 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 cho trường hợp xấu nhất) Một điều đáng ngại độ phức tạp tính tốn đồng biến với dung lượng sở tri thức, nghĩa có nhiều tri thức ngơn ngữ hệ thống trở nên chậm chạp Điều trái ngược với cách thức người: có nhiều tri thức, người phiên dịch thực công việc dịch thuật nhanh chóng đắn Tư ngơn ngữ người : Thay làm giảm tốc độ phải đối chiếu với nhiều tình lựa chọn hơn, người thường nhanh chóng chọn tình riêng (chuyên biệt) mà bỏ qua, khơng xem xét đến tình chung (phổ quát) Cách phân tích người làm cho người dịch có nhiều tri thức chun biệt (tri thức riêng) nhanh chóng xử lý toán Phỏng theo cách tư người, ta xây dựng giải thuật phân tích dựa sở ưu tiên áp dụng quy tắc riêng trước áp dụng quy tắc chung Khái niệm trực giác quy tắc riêng quy tắc chung cần định nghĩa để phân loại sở đó, có xếp tập quy tắc văn phạm Mơ hình văn phạm Chomsky khơng đề xuất tiêu chí để so sánh hai quy tắc với Để so sánh quy tắc văn phạm với nhau, ta vào tính phổ quát chúng Quy tắc coi chung so với quy tắc khác có thành phần chung thành phần tương ứng quy tắc khác Mơ hình văn phạm cảm ngữ đoạn đưa phương thức để thứ tự hệ quy tắc Bộ quy tắc thứ tự hình thành dàn (bằng cách bổ sung thêm phần tử cực đại cực tiểu – hai khái niệm trừu tượng để thể quy tắc quy tắc rỗng tương ứng) Cần có giải thuật phân tích đủ nhanh để ứng dụng văn phạm cảm ngữ đoạn thực tế Giải thuật phân tích theo chiều rộng với ưu tiên quy tắc riêng (phép tính nhỏ quan hệ dàn đại số phần tử cú pháp văn phạm cảm ngữ đoạn) cho phép phân tích nhiều lần duyệt với heuristics sau: - Ưu tiên quy tắc nhỏ - Dừng gặp đích Với chiến lược phân tích theo chiều rộng ưu tiên quy tắc chi tiết; Giải thuật phân tích thực cành nhanh có nhiều quy tắc riêng áp dụng Trong trường hợp suy biến, quy tắc riêng bao gồm tồn câu nguồn q trình phân tích dừng lập tức, giải thuật dạng “dịch theo nhớ” (translation memory) V-12 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Nhờ việc áp dụng giải thuật tiên nghiệm theo việc phân tích thực tùy theo mức độ ưu tiên quy tắc, kết thúc thành công thuộc lớp phân tích tốt câu nguồn Do tính chất văn phạm cảm ngữ đoạn, độ sâu cú pháp không vượt n-1 (với n độ sâu tối đa dàn từ vựng câu nguồn) độ sâu trung bình cú pháp log2n (Phương pháp phân tích sử dụng thơng tin kế thừa Nonterminal để giảm độ sâu cú pháp) Mơ hình văn phạm cảm ngữ đoạn cho phép đảm bảo giải thuật phân tích xuống ln ln dừng tính chất đệ quy trái quy tắc văn phạm (chỉ cần đếm đánh dấu độ sâu nút tạo thành cú pháp khơng tiếp tục phát triển nhánh có độ sâu k-1 với k độ dài phần đuôi câu nguồn kể từ nút thời) Mơ hình văn phạm cảm ngữ đoạn đồng thời đảm bảo giải thuật phân tích lên ln ln dừng theo cách mà mơ hình đảm bảo tính dừng cho giải thuật phân tích xuống V.2.2 CÁC YÊU CẦU ĐỐI VỚI GIẢI THUẬT PHÂN TÍCH Thời gian phân tích văn phạm tùy thuộc vào giải thuật áp dụng Lý thuyết phân tích văn phạm phát triển tương đôi sâu rộng từ năm 60 – 70 kỷ trước chủ yếu cho lớp ngôn ngữ phi ngữ cảnh Một số kết bao gồm: - Độ phức tạp giải thuật phân tích (dựng cú pháp) trường hợp xấu en với n độ dài câu - Có thể đạt độ phức tạp n3 (dừng sau dựng cú pháp đầu tiên) Tuy nhiên độ phức tạp giải thuật Early tỷ lệ với bình phương k (với k số lượng quy tắc văn phạm) Điều có nghĩa tri thức ngơn ngữ có nhiều phân tích hoạt động chậm - Giải thuật với độ phức tạp n đạt cho tập hạn chế lớp ngôn ngữ phi ngữ cảnh Văn phạm cảm ngữ đoạn mở rộng văn phạm phi ngữ cảnh nên khái quát hóa giải thuật để thích nghi với mơ hình khơng thể cải thiện tốc độ phân tích, mà ngược lại, làm cho tình trạng trở nên tồi tệ Do văn phạm cảm ngữ đoạn sử dụng để giải nhập nhằng nên số lượng quy tắc lớn (hàng chục nghìn, chí hàng trăm nghìn đơn vị cho hệ dịch máy quy mô đủ lớn) Mặt khác, ta khơng thể thỏa mãn với việc dừng phân tích sau dựng cú pháp Thêm vào đó, ngơn ngữ phi ngữ cảnh V-13 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngơn ngữ tiếng Việt, 2001-2003 mơ hình giản lược với nhiều hạn chế đem so sánh với ngôn ngữ thực Với lý nêu trên, ta chờ đợi độ phức tạp khả quan giá trị en thực giải thuật phân tích ngôn ngữ tự nhiên Mặc dù vậy, giá trị độ phức tạp en lớn để ứng dụng thực tế Như vậy, rõ ràng cần phải xây dựng heuristics để tăng tốc độ xử lý Yêu cầu giải thuật tiên nghiệm là: - Có xu hướng chọn cú pháp có giá trị hàm định giá tối thiểu (đối với phép tính so sánh dàn đại số hệ phân cấp khái niệm) - Dừng dựng cú pháp (nếu không heuristics đưa đến độ phức tạp tương đương hàm mũ độ dài câu) - Có độ phức tạp đa thức - Độ phức tạp giải thuật không tăng lên tăng số lượng quy tắc văn phạm Đối với văn phạm cảm ngữ đoạn, yêu cầu cuội quan trọng văn phạm khơng mơ tả cú pháp ngơn ngữ mà cịn đưa luật hành văn bao gồm hệ phân cấp ngữ nghĩa, quy tắc thành ngữ dẫn giải nhập nhằng số lượng quy tắc phải lớn V.2.3 PHÂN TÍCH QUAY LUI, SÂU DẦN Các giải thuật phân tích quen thuộc có tính chất chung độ phức tạp tính toán tăng sở tri thức lớn : với việc bổ sung tập quy tắc văn phạm từ tập “trị chơi” cùa ngơn ngữ lên thành văn phạm quy mơ lớn, chương trình trở nên chậm chạp cách chấp nhận Càng học, phân tích đứng trước nhiều lựa chọn khó tìm lời giải Đây nghịch lý giải thuật tất định Con người phiên dịch ứng xử hồn tồn khác: tích lũy kinh nghiệm, người dịch nhanh chóng tìm dịch đắn Ta lý giải nghịch lý sau: Khi biên dịch văn bản, khơng phân tích sâu văn mà thường dựa vào mẫu câu (những cấu trúc cụm từ, thành ngữ) tương tự gặp cố gắng thử ghép chúng lại với Nếu thành cơng câu văn coi dịch xong, lại thường dịch tốt Trong trường hợp lần thử không dựng cú pháp, ta xem lại câu văn kỹ (thử phân tích sâu V-14 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 hơn) để nhận cách phân tích Q trình dịch chu trình thử sai lặp lại với lần phân tích đào sâu thêm số bước Điều đáng lưu ý cách ghép thành ngữ vậy, ta chọn cấu trúc có giá trị hàm định giá tối thiểu văn phạm cảm ngữ đoạn sử dụng để mô tả ngôn ngữ, nghĩa ta ln có xu hướng chọn dịch tốt lần thử (nếu có thể) Lược đồ phân tích mơ tả gợi ý cho giải thuật tiên nghiệm vận dụng hệ dịch máy Lần thứ duyệt văn dựng cú pháp với độ sâu giá trị n1 đủ nhỏ Nếu dựng cú pháp cho tồn câu kết thúc q trình phân tích Duyệt lần hai với độ sâu n2 > n1 Quá trình lặp lại dựng cú pháp đầy đủ với ni đủ lớn Việc lựa chọn giá trị n1, n2 , ni có ảnh hưởng đến tốc độ phân tích trung bình giải thuật Nếu giá trị q nhỏ việc tính toán phải quay lui nhiều lần trước tới đích Mặt khác, với sở tri thức ngơn ngữ phong phú chi tiết chọn n1, n2 , ni với giá trị nhỏ (vì lúc có nhiều khả sớm dựng cú pháp đầy đủ cho câu văn) Khó khăn giải thuật nằm việc tổ chức tri thức ngôn ngữ Hệ luật cần tổ chức theo mơ hình phân cấp ngữ nghĩa với việc xếp độ ưu tiên sở hệ phân cấp khái niệm (dàn đại số khái niệm dàn đại số luật sinh) V.2.4 HẠN ĐỊNH ĐỘ SÂU CÂY CÚ PHÁP Một đặc tính quan trọng văn phạm cảm ngữ đoạn quy tắc sinh có tính chất vế phải có độ dài lớn vế trái Nhờ tính chất độ phức tạp giải thuật phân tích đạt giá trị khơng q en Vì vấn đề đệ quy trái khơng tồn phân tích xuống văn phạm cảm ngữ đoạn: cần khống chế độ sâu phân tích khơng q k-1 (với k độ dài phần đuôi dạng câu (sentential form) kể từ điểm phân tích) Mặt khác, độ dài vế phải quy tắc phi ngữ cảnh (trong quy tắc cảm ngữ đoạn) lớn nên độ sâu phổ biến cú pháp chờ đợi khoảng giá trị ≈ log2n Giá trị dẫn tốt cho việc chọn giá trị độ sâu quay lui phân tích (bộ giá trị chọn 1, 2, 4, , log2n, 2log2n, 4log2n) V.2.5 KẾT QUẢ Việc áp dụng đồng thời hai giải thuật tiên nghiệm nêu cho kết khả quan Tốc độ biên dịch tăng đột biến Điều đặc biệt V-15 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 có nhiều tri thức, giải thuật phân tích khơng có xu hướng chậm lại (thời gian phân tích từ vựng tăng lên thời gian phân tích cú pháp giảm giảm độ sâu phân tích, kết tổng thời gian xử lý giảm đáng kể) Tất nhiên tính tốn độ phức tạp khơng cho kết khả quan (nói chung hàm mũ), thực tế đạt tốc độ tuyến tính cách bổ sung đủ sở tri thức ngôn ngữ Hiện tiến hành khảo sát thống kê hiệu tính tốn phương pháp tùy thuộc vào kích thước sở tri thức V-16 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 VI TÀI LIỆU THAM KHẢO [1] Noam Chomsky, On certain formal properties of grammars, Inform Control, vol 2, p.137-167, 1959 [2] Christian Boitet (2002) A rationale for using UNL as an Interlingua and more in various domains, Geta, Clips, Imag, 385, av de la bibliothèque, BP 53, F-38041 Grenoble cedex 9, France, Christian.Boitet@ imag.fr, LREC-02 First International Workshop on UNL, other Interlinguas and their Applications, June 2002 [3] Bonnie Dorr and Nizar Habash (2002) Interlingua Approximation: A GenerationHeavy Approach, University of Maryland, Institute for Advanced Computer Studies, {bonnie,habash} @umiacs.umd.edu (UNITRAN) [4] John Hutchins W (2003) Machine translation: half a century of research and use, UNED summer school at Ávila, Spain, July 2003], http://ourworld.compuserve.com/ homepages/ [5] Stephen D Richardson (2002) Achieving commercial-quality translation with example-based methods, Stephen D Richardson, William B Dolan, Arul Menezes, Jessie Pinkham, Microsoft Research, One Microsoft Way, Redmond, WA 98052, {steveri, billdol, arulm, jessiep}@ microsoft com [6] Arturo Trujillo (1999) Translation Engines: techniques for Machine Translation Springer-Verlag, Berlin, 1999 [7] Kevin Knight (1995) Integrating Knowledge Bases and Statistics in MT, Kevin Knight, Ishwar Chander, Matthew Haines, Vasileios Hatzivassiloglou, Eduard Hovy, Masayo Iida, Steve K Luk, Akitoshi Okumura, Richard Whitney, Kenji Yamada, USC Information Science Institute, 4676 Admiralty Way, Marina del Rey, CA 90292 [8] DeryleW Lonsdale, Alexander M Franz, and John R R Leavitt (1994) Large-Scale Machine Translation: An Interlingua Approach, Center for Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA, 15213, Email: lonz@cs.cmu.edu, amf@cs.cmu.edu, jrrl@cs.cmu edu (KANT) [9] Michele Banko and Eric Brill (2002) Scaling to Very Very Large Corpora for Natural Language Disambiguation, Microsoft Research, Microsoft Way, Redmond, WA 98052 USA, {mbanko, brill}@ microsoft.com [10] Unification and Some New Grammatical Formalisms, Aravind K Joshi, Department of Computer and Information Science, University of Pennsylvania (Nguồn : Internet) [11] ISHIZAKI Shun, UCHIDA Hiroshi, (1998) On Interlingua for Multilingual Machine Translation, 1998, IPSJ SIGNotes Natural Language Abstract No.070 – 003 [12] Lê Khánh Hùng (2003) Văn phạm cảm ngữ đoạn, Báo cáo khoa học hội thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc CNTT TT”, Thái nguyên, 8-2003 [13] Lê Khánh Hùng, Trần Cảnh (2003) Về số hạn chế mơ hình văn phạm Chomsky, Tạp chí Bưu Viễn thơng, Chun san, 10, 2003 [14] Lê Khánh Hùng (2003) Một Phương pháp Dịch máy Liên ngữ Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ Nghiên cứu, Phát triển Ứng dụng CNTT&TT, Hà nội, 2003 VI-1 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 - Thiếu Công cụ hình thức đủ mạnh tổng qt để mơ tả tri thức ngơn ngữ - Chưa có giải pháp hình thức hữu hiệu cho vấn đề xử lý nhập nhằng - Chưa tồn (và chưa rõ liệu có tồn tại) liên ngữ đủ phong phú thuận tiện làm trung gian cho ngôn ngữ I-24 ... TÀI : NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM DỊCH MÁY VIỆT? ?ANH HÀ NỘI 2003 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 Tên Đề tài nhánh : Nghiên cứu phát triển. .. hai chiều Anh -Việt, Việt- Anh) Một số đặc điểm phần mềm: -4- Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 - Dịch hai chiều Anh -Việt Việt -Anh - Chương... tự khác tiếng Việt tiếng Anh việc hình thành cụm danh từ : tiếng Anh danh I-8 Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, 2001-2003 từ thường đứng sau danh từ

Ngày đăng: 15/05/2014, 10:30

Từ khóa liên quan

Mục lục

  • Dich may-mot so trao luu hien nay

    • 1. Van pham va phan tich cu phap

    • 2. Ap dung van pham va nhung tro ngai

    • 3. Cac khuynh huong trong dich may

    • Mo rong mo hinh van pham

      • 1. Nhu cau

      • 2. Van pham dinh bien. Van pham cam ngu doan

      • Giai phap dich may

        • 1. Bieu dien tri thuc ngon ngu. Yeu cau doi voi lien ngu

        • 2. Kiem chung lien ngu. To chuc tri thuc da ngon ngu

        • 3. Phuong phap dich may

        • Cong cu cap nhat du lieu

          • 1. Co so tri thuc

          • 2. Tro ly ngon ngu

          • 3. Bo sung file van ban vao du lieu

          • Cac ky thuat

            • 1. Tu vung

            • 2. Ky thuat tang toc do phan tich

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan