Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt dóng hàng văn bản song ngữ pháp việt

95 740 0
Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt   dóng hàng văn bản song ngữ pháp việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh dóng hàng văn song ngữ pháp-việt thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt MÃ số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-5 07/8/2007 Hµ Néi- 2004 BÁO CÁO KẾT QUẢ THỰC HIỆN CỦA NHÁNH ĐỀ TÀI DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT thuộc đề tài cấp nhà nước "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lí ngơn ngữ tiếng Việt" KC01-03 Hà Nội, 2004 MỤC LỤC MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH VẼ GIỚI THIỆU Chương TÀI LIỆU KĨ THUẬT DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT 1.1 Giới thiệu 1.2 Dóng hàng mức câu 1.2.1 Phương pháp luận 1.2.2 Kết 11 1.3 Dóng hàng mức từ/ngữ 11 1.3.1 Phương pháp luận 11 1.3.2 Kết 12 1.4 Hướng dẫn sử dụng phần mềm 13 1.4.1 Phần mềm dóng hàng mức câu 13 1.4.2 Phần mềm dóng hàng mức đơn vị từ vựng 15 1.4.3 Phần mềm hiển thị/soạn thảo kết dóng hàng 15 1.5 Tài liệu tham khảo 17 Chương CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH VĂN BẢN 19 Chương SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 20 3.1 Giới thiệu 20 3.2 Bài toán gán nhãn từ loại 21 3.3 Xây dựng từ điển từ vựng, xác định thích từ loại tiếng việt 22 3.3.1 Từ điển từ vựng 22 3.3.2 Xây dựng thích từ loại 23 3.4 Phân tách từ văn tiếng Việt 23 3.4.1 Đặt toán 23 3.4.2 Các bước giải 24 3.4.3 Đánh giá kết 26 3.5 Thử nghiệm gắn nhãn QTAG cho tiếng Việt 27 3.5.1 Phương pháp gán nhãn xác suất 27 3.5.2 Bộ gán nhãn QTAG 28 3.5.3 Sử dụng QTAG cho tiếng Việt 29 3.6 Kết luận 31 3.7 Tài liệu tham khảo 31 Chương Xây dựng kho từ vựng ngữ pháp tiếng Việt 33 4.1 Giới thiệu chung 33 4.1.1 Đặc điểm từ tiếng Việt 33 4.1.2 Vấn đề phân loại từ 34 4.1.3 Chuẩn hố sơ đồ mơ tả đặc điểm từ loại 34 4.2 Lớp trung tâm: phân chia từ loại mức 35 4.2.1 Danh từ (Nouns): 36 4.2.2 Động từ (Verbs): 36 4.2.3 Tính từ (Adjectives): 36 4.2.4 Đại từ (Pronouns): 37 4.2.5 Định từ (Determiners/Articles): 37 4.2.6 Phụ từ (còn gọi: phó từ) (Adverbs): 37 4.2.7 Giới từ (Adpositions): 37 4.2.8 Liên từ (Conjunctions): 37 4.2.9 Số từ (Numerals): 37 4.2.10 Thán từ (cảm từ) (Interjection): 37 4.2.11 Tình thái từ (Modal particle): 37 4.2.12 Tổ hợp cố định: 38 4.2.13 Từ đơn lẻ (Unique): 38 4.2.14 Từ viết tắt (Abbreviation): 38 4.2.15 Các từ ngữ lại : 38 4.3 Lớp ngồi: mơ tả từ loại chi tiết 38 4.3.1 Danh từ (Nouns - N) 38 4.3.2 Động từ (Verbs - V) 40 4.3.3 Tính từ (Adjectives - A) 41 4.3.4 Đại từ (Pronouns - P) 41 4.3.5 Định từ (Determiners/Articles - D) 42 4.3.6 Số từ (Numerals - M) 42 4.3.7 Phụ từ (Adverbs - R) 42 4.3.8 Giới từ (Adpositions - S) 44 4.3.9 Liên từ (Conjunctions - C) 44 4.3.10 Thán từ (Interjections - I) 44 4.3.11 Trợ từ - tiểu từ - từ tình thái (Particles -T) 45 4.3.12 Tổ hợp từ cố định 45 4.3.13 Từ đơn lẻ (Unique - U) 45 4.3.14 Từ viết tắt (Abbreviations - Y) 45 4.3.15 Các từ cịn lại khơng phân loại (Residual - X) 45 4.4 Biểu diễn liệu từ vựng 46 Chương TỔ CHỨC CƠ SỞ NGỮ LIỆU 49 5.1 Giới thiệu 49 5.2 Xác địng đơn vị ngữ pháp tiếng Việt 50 5.2.1 Từ pháp học 50 1.1.1 Từ từ vựng 50 1.1.2 Từ loại 52 5.2.2 Cú pháp học 53 1.1.3 Khái lược ngữ 53 1.1.4 Khái lược câu 57 1.1.5 Các thành phần câu 57 1.1.6 Các thành phần phụ câu 58 1.1.7 Phân loại câu 59 5.3 Phân tích – miêu tả – mơ hình hóa đơn vị câu ngữ tiếng Việt 61 5.3.1 Tổ chức ngữ liệu mẫu 61 5.3.2 Phân tích – Miêu tả đơn vị câu ngữ 64 5.3.3 Mơ hình hóa đơn vị câu ngữ 66 5.4 Kết luận 68 5.5 Tài liệu tham khảo 68 Chương VĂN PHẠM PHI NGỮ CẢNH VÀ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 70 6.1 Văn phạm phi ngữ cảnh 70 6.1.1 Văn phạm ngôn ngữ sinh văn phạm 70 6.1.2 Văn phạm phi ngữ cảnh 70 6.1.3 Biểu diễn cấu trúc câu 71 6.1.4 Đánh giá hai phương pháp phân tích 74 6.1.5 Phương pháp phân tích tổng hợp 74 6.2 Giới thiệu chương trình vnParser 75 6.2.1 Module tách từ vựng 75 6.2.2 Module phân tích cú pháp 76 6.2.3 Cài đặt chương trình 76 6.2.4 Chương trình nguồn 77 6.3 Tài liệu tham khảo 77 Chương VẤN ĐỀ PHÂN TÍCH CÚ PHÁP VÀ LTAG 79 7.1 Phân tích cú pháp 79 7.2 Văn phạm kết nối từ vựng hoá (Lexicalized Tree Adjoining Grammar - LTAG) 80 7.2.1 Định nghĩa hình thức văn phạm TAG 80 7.3 TAGML - định dạng XML cho tài nguyên dùng cho LTAG 83 7.3.1 Mô tả mục từ vựng 83 7.3.2 Mô tả sở từ vựng hoá 84 7.4 Các công cụ triển khai LORIA 85 7.5 Mơ hình TAG ngữ pháp tiếng Việt 86 7.6 Kết hướng nghiên cứu 93 7.7 Tài liệu tham khảo 94 DANH MỤC BẢNG Bảng 1-1 Các phép dịch Bảng 3-1 Kết gán nhãn từ loại mức 31 Bảng 5-1 Danh sách từ loại 61 Bảng 6-1 Một văn phạm phi ngữ cảnh đơn giản 74 DANH MỤC HÌNH VẼ Hình 1-1 Cấu trúc logic dạng văn biểu diễn dạng XML 10 Hình 1-2 Giao diện xem liên kết dóng hàng 16 Hình 1-3 Giao diện soạn thảo liên kết dóng hàng .17 Hình 3-1 Xây dựng ơtơmát âm tiết .24 Hình 3-2 Xây dựng ơtơmát từ vựng 25 Hình 3-3 Một tình nhập nhằng 26 Hình 4-1 Sơ đồ tổ chức kho liệu từ vựng theo TC 37 / SC 46 Hình 4-2 Sơ đồ tổng quát từ vựng hình thái cú pháp 47 Hình 6-1 Phân loại văn phạm Chomsky .71 Hình 6-2 Cây biểu diễn câu John ate the cat 73 Hình 6-3 Đặc tả lớp module phân tích từ vựng 75 Hình 6-4 Đặc tả lớp module phân tích cú pháp 76 Hình 7-1 Cây cú pháp 79 Hình7-2 Cây sở 81 Hình 7-3 Sơ đồ phép nối 81 Hình 7-4 Sơ đồ phép .81 Hình 7-5 Sơ đồ phép với cấu trúc đặc trưng 82 Hình 7-6 Sơ đồ phép nối với cấu trúc đặc trưng 83 Hình 7-7 Cấu trúc danh ngữ 86 Hình 7-8 Quan hệ phụ thuộc thành phần định ngữ 87 GIỚI THIỆU Tên sản phẩm chính: Phần mềm dóng hàng văn song ngữ Pháp - Việt Tồn sản phẩm: - Dóng hàng: o Cơng cụ phần mềm: hệ thống có khả xác định tương đương dịch mức từ/ngữ đoạn văn song ngữ Pháp - Việt, nhằm hỗ trợ cho việc dịch tự động hay dịch tay, phục vụ cho nghiên cứu ngôn ngữ từ vựng, thuật ngữ hay nhiều ngơn ngữ hỗ trợ cho việc học tiếng o Kho ngữ liệu: kho văn song ngữ Pháp - Việt Anh - Việt thu thập mã hoá theo sơ đồ biểu diễn xem xét đưa vào chuẩn quốc tế biểu diễn quản lí tài nguyên ngôn ngữ quốc tế - Sản phẩm kèm theo: o Cơng cụ phần mềm: Bộ cơng cụ xử lí tự động văn tiếng Việt phần mềm tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger), phần mềm đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp câu tiếng Việt (parser) o Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm từ vựng có mơ tả thơng tin ngữ pháp, từ vựng; kho văn tiếng Việt có gán nhãn từ loại, tập quy tắc ngữ pháp Cũng kho ngữ liệu song ngữ trên, kho ngữ liệu tiếng Việt mã hoá theo sơ đồ biểu diễn xem xét đưa vào chuẩn quốc tể biểu diễn quản lí tài ngun ngơn ngữ Những người tham gia đề tài: - - Chịu trách nhiệm trực tiếp: Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Cộng tác viên chuyên ngành Tin học: o Lê Hồng Phương, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà Nội, cán Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội o Nguyễn Thành Bôn, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà Nội Cộng tác viên chuyên ngành Ngôn ngữ học: o Vũ Xuân Lương, biên tập viên, Trung tâm Từ điển o Các chuyên viên ngôn ngữ khác thuộc Trung tâm Từ điển Chương TÀI LIỆU KĨ THUẬT DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT Biên soạn: Nguyễn Thành Bôn, Viện Tin học Pháp ngữ (IFI), Hà Nội Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự nhiên, Hà Nội 1.1 Giới thiệu Do xu hướng tồn cầu hố kèm với địa phương hoá, nhu cầu dịch tất lĩnh vực không ngừng tăng lên Trong đó, lĩnh vực dịch tự động đời từ 50 năm trước, kết hạn chế Một xu hướng đời năm gần nhằm tận dụng khai thác kho tàng khổng lồ văn dịch nhiều thứ tiếng, thuộc đủ thể loại văn học, báo chí, hàn lâm hay luật học Việc sử dụng kho tài nguyên gồm dịch đa phần có chất lượng tốt để xây dựng nhớ dịch hay từ vựng đa ngữ hệ thống dịch máy giải pháp hợp lí Cách khai thác kho văn dịch đa ngữ hay gọi văn song song (parallel texts) thực việc dóng hàng (alignment) Những hệ thống dóng hàng bắt nguồn từ cơng trình khoa học lĩnh vực nghiên cứu ngôn ngữ học dựa vào kho văn Dóng hàng văn song song (Alignment of parallel texts) cơng việc tìm kiếm tự động tương ứng dịch văn vốn dịch từ văn gốc Các tương ứng dịch mức độ chi tiết khác nhau: có địi hỏi chi tiết mức đoạn, phổ biến mức câu, chi tiết, lí tưởng mức ngữ đoạn từ Cho đến hệ thống dóng hàng mức câu kết tốt, với độ xác xấp xỉ 95% mà sử dụng thông tin thống kê độc lập với ngôn ngữ, trừ trường hợp văn dịch không thật "song song" (chẳng hạn dịch lược bớt nhiều) Trong hệ thống dóng hàng mức từ, ngữ đoạn kết xác hiển nhiên phụ thuộc vào cặp ngôn ngữ cụ thể Trong khuôn khổ dự án này, chúng tơi tập trung nghiên cứu dóng hàng mức câu mức từ/ngữ cho văn song ngữ Pháp - Việt Sự lựa chọn cặp ngôn ngữ đơn giản xuất phát từ hợp tác nghiên cứu nhóm chúng tơi với nhóm nghiên cứu thuộc trung tâm nghiên cứu Tin học Tự động hoá vùng Lorraine Pháp (LORIA1) Đối với việc dóng hàng mức câu, chúng tơi áp dụng phương pháp nhóm triển khai giai đoạn trước cho cặp ngôn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt đánh giá kết nhằm điều chỉnh tham số hệ thống cách phù hợp Đối với việc dóng hàng mức từ ngữ, nghiên cứu tập trung vào việc cải tiến kĩ thuật dóng hàng mức từ sử dụng phương pháp vectơ khoảng cách DVec cách kết hợp với kĩ thuật http:// www.loria.fr dóng hàng có cấu trúc Việc dóng hàng văn song ngữ mức từ đòi hỏi bước tiền xử lí phân tích từ ngữ văn xét Điều địi hỏi cơng cụ phân tích văn ngơn ngữ, tiếng Pháp tiếng Việt Trong công cụ tài ngun ngơn ngữ cho phân tích ngơn ngữ Ấn Âu nói chung tiếng Pháp nói riêng phát triển đa dạng từ nhiều năm công cụ đặc biệt tài nguyên ngôn ngữ cho việc phân tích tiếng Việt nói khơng có Các nghiên cứu khn khổ đề tài tập trung đa phần thời gian nhân lực để xây dựng phát triển tài nguyên ngôn ngữ công cụ chuẩn mực cho việc phân tích văn tiếng Việt (xem chương 2) Phần triển khai hệ thống dóng hàng mức từ ngữ thực bước đầu, thời gian có hạn nên sở ngữ liệu xây dựng chưa đủ lớn để có khả đưa mơ hình dịch Pháp - Việt đầy đủ Trong chương chúng tơi trình bày phần Phần thứ tập trung vào kĩ thuật dóng hàng mức câu kết thu kho ngữ liệu Pháp - Việt Phần thứ hai tập trung vào kĩ thuật dóng hàng mức từ ngữ Các nghiên cứu phân tích văn tiếng Việt trình bày chương sau 1.2 Dóng hàng mức câu 1.2.1 Phương pháp luận 1.2.1.1 Dóng hàng động Tư tưởng kĩ thuật dóng hàng động mức câu dựa mơ hình thống kê theo độ dài văn (số kí tự) Một phép dóng câu văn nguồn tới câu văn đích phụ thuộc nhiều vào cách dịch Người ta thống kê phần lớn phép dịch câu thuộc kiểu sau : Bảng 1-1 Các phép dịch Số câu văn nguồn 2 Nhiều câu Số câu văn đích 1 2 Nhiều câu Phép dịch Thay Rút gọn Phát triển Hỗn hợp Lược bỏ yếu Chèn yếu Lược bỏ mạnh Chèn mạnh Kĩ thuật dóng hàng động dựa giả thiết văn song ngữ chứa kiểu dịch cách "tuyến tính", tức không xét đến trường hợp dịch chéo nhiều câu văn Để tiến hành dóng hàng mức câu, ta thực bước sau : 7.2 Văn phạm kết nối từ vựng hoá (Lexicalized Tree Adjoining Grammar - LTAG) TAG hệ hình thức viết lại dạng cây, đưa vào nửa cuối thập kỉ 80 LTAG hệ hình thức tương đương, có thêm ràng buộc từ vựng hố LTAG nghiên cứu kĩ cho tiếng Pháp tiếng Anh (XTAG, 2001; Abeillé, 2002) Việc lựa chọn LTAG khuôn khổ dự án xuất phát từ yếu tố lí thuyết thực hành Về mặt lí thuyết, giao diễn cú pháp/ngữ nghĩa TAG thể đơn giản văn phạm phi ngữ cảnh, nhờ miền địa phương mở rộng TAG; độ phức tạp thời gian phân tích cú pháp TAG thời gian đa thức (O(n6)) Về mặt thực hành, công cụ tổng quát cho hệ thống phân tích cú pháp dựa vào hệ hình thức LTAG nhiều (XTAG, Daylog) triển khai LORIA từ lâu (Crabbé et al., 2003) Ngồi ra, có chuẩn định dạng cho liệu TAGML (Bonhomme & Lopez, 2000) Như vậy, khn khổ đề tài này, nhiệm vụ thực mô tả ngữ pháp tiếng Việt theo mơ hình TAG Trong phần chúng tơi tóm tắt đặc điểm mơ hình LTAG LTAG thao tác với đối tượng có cấu trúc (cây) xâu Việc sử dụng đối tượng có cấu trúc cho phép xây dựng hệ hình thức có khả sinh mạnh, tức cho phép sinh mô tả cấu trúc không sinh tập xâu 7.2.1 Định nghĩa hình thức văn phạm TAG Mơ hình lí thuyết văn phạm TAG năm (Σ, N, I, A, S), đó: o o o o o Σ: tập kí hiệu kết thúc (bảng chữ chính) N: tập kí hiệu khơng kết thúc (bảng chữ phụ) I: tập sở khởi đầu (initial) A: tập sở phụ trợ (auxiliary) S: tiên đề (S ∈ N) Các sở văn phạm mà nút đánh dấu (đặt tên) kí hiệu kết thúc khơng kết thúc Các nút đánh dấu kí hiệu kết thúc nút Hai thao tác văn phạm TAG phép nối (adjoining) phép (substitution) Đối với khởi đầu, nút có kí hiệu khơng kết thúc có đánh dấu ↓ thể khả thực phép nút Đối với phụ trợ, có chứa nút trùng tên với nút gốc (mang kí hiệu khơng kết thúc) Ở nút đánh dấu kí hiệu * gọi nút chân phụ trợ Mỗi phụ trợ có nút chân Sơ đồ mơ tả : 80 sở khởi đầu với nút thay sở phụ trợ với nút chân X X* X↓ Hình7-2 Cây sở Phép nối thực nút X khởi đầu với phụ trợ có nút gốc X Sơ đồ mô tả phép nối sau: X X X X* Hình 7-3 Sơ đồ phép nối Phép thực nút X khởi đầu với khởi đầu khác có nút gốc X Sơ đồ mơ tả phép sau: X X↓ Hình 7-4 Sơ đồ phép 81 Ở nút muốn ràng buộc cấm thực phép nối, quy ước viết thêm kí hiệu NA Khi phân tích câu với hệ hình thức TAG, kết thu gồm có cây: cú pháp biểu diễn phụ thuộc ngữ pháp thành phần, dẫn xuất biểu thị phụ thuộc ngữ nghĩa Ở cần ý khác với văn phạm phi ngữ cảnh cho cú pháp ta suy dẫn xuất thực hiện, TAG cho cú pháp khơng suy dẫn xuất - mà phải cần đến dẫn xuất để làm điều Cây dẫn xuất có cấu tạo sau: nút đánh dấu tên sở tham gia vào dẫn xuất, cung nối nút đánh dấu thao tác thực tương ứng với nút (phép nối hay phép thế) vị trí thực thao tác sở Các vị trí sở đánh số sau: nút gốc đánh số 0; nút thuộc tầng có độ sâu đánh số từ trở đi; nút thuộc tầng n+1 (n>=1) đánh số n.1, n.2 v.v Có nguyên tắc xây dựng sở mô hình TAG (Abeillé, 1993): Ngun tắc từ vựng hố hay "neo" từ vựng: tất sở có trung tâm từ vựng khác rỗng Nguyên tắc đồng xuất vị từ đối hay chia phạm trù: vị từ chứa cấu trúc sở nút cho đối mà chia phạm trù Nguyên tắc ngữ nghĩa quán: ngữ pháp sở có ngữ nghĩa tương ứng khác rỗng Nguyên tắc phi hỗn hợp: sở tương ứng với đơn vị ngữ nghĩa Các tính chất ngữ pháp ràng buộc khả thực thao tác kết nối hay thay thể qua cấu trúc đặc trưng (feature structure) gắn với nút ngữ pháp Cấu trúc đặc trưng đối tượng tập hợp cặp thuộc tính giá trị thuộc tính gắn với đối tượng Mỗi thực phép hay phép nối, người ta thực phép hợp (unification) cấu trúc đặc trưng (tức hợp giá trị cho thuộc tính cấu trúc đặc trưng xét) nút nối hay nút Nếu phép hợp khơng thành cơng (sinh thuộc tính có giá trị khơng qn) thao tác khơng phép Trong mơ hình TAG, thuộc tính cấu trúc phân loại: thuộc tính thuộc tính Việc phân loại có ý nghĩa phép phép nối Khi thực phép nối nút đó, thuộc tính nút hợp với thuộc tính nút gốc phụ trợ, cịn thuộc tính nút hợp với thuộc tính nút chân phụ trợ Hình 7-5 Hình 7-6 minh hoạ nguyên tắc kết hợp thuộc tính cho phép phép nối X tr br X t t U tr br X↓ Hình 7-5 Sơ đồ phép với cấu trúc đặc trưng 82 tr br X t b X X t U tr br X* tf bf X tf b U bf Hình 7-6 Sơ đồ phép nối với cấu trúc đặc trưng Một khái niệm khác cho mơ hình TAG mở rộng "họ" sở Họ sở tập hữu hạn sở có quan hệ cải biến (transformation) với 7.3 TAGML - định dạng XML cho tài nguyên dùng cho LTAG TAGML (http://www.loria.fr/~azim/LLP2/help/fr/tagml2/) chuẩn mô tả XML tài nguyên cần thiết cho phân tích cú pháp LTAG Có hai dạng thông tin cần mô tả: o danh sách mục từ vựng: từ vựng hình thái o danh sách từ vựng hoá: kết hợp từ vựng sở 7.3.1 Mô tả mục từ vựng Mỗi mục từ vựng tương ứng với hình vị với thẻ Trong mục từ gắn thơng tin sau: o dạng tả (thuộc tính lex) thẻ morph o ngữ đề tương ứng (thẻ ) với phạm trù ngữ pháp (thuộc tính cat) giá trị (thuộc tính name) o thơng tin hình thái khác dạng cấu trúc đặc trưng (thẻ ) Một ví dụ tiếng Pháp sau: 83 7.3.2 Mô tả sở từ vựng hoá Việc từ vựng hoá bao gồm định nghĩa sở chưa từ vựng hoá, kèm theo danh sách từ vựng gắn vào nút neo (nút "kim cương") Thẻ chứa danh sách () họ neo (trung tâm) () Trong có mơ tả nút () cây, mơ tả lồng Thẻ có thuộc tính: cat chừa phạm trù ngữ pháp nút, type chứa kiểu nút có giá trị thuộc tập sau: {std, anchor, lex, subst, foot}, name (không bắt buộc) chứa tên địa phương nút cây, dùng cho việc tham khảo đến neo từ Thẻ có thuộc tính noderef tham khảo tới tên (name) nút neo Trong thẻ chứa danh sách từ nguyên thể gắn vào nút neo Các thuộc tính/đặc trưng chia sẻ nút mơ tả thẻ có thuộc tính type thuộc tập {top, bot} tuỳ thuộc đặc trưng hay chứa thẻ , thẻ đặc trưng khai báo thẻ Thẻ có thuộc tính name chứa tên thuộc tính/đặc trưng, thuộc tính varname cho phép đặt tên biến để chia sẻ giá trị đặc trưng với nút khác Biến có phạm vi tồn mô tả 84 Các đẳng thức thuộc tính = giá trị cấu trúc đặc trưng mô tả thẻ Thẻ có thuộc tính noderef tham khảo tới nút liên quan thuộc tính type xác định đặc trưng mô tả hay {top, bottom} = f > Trường hợp mơ tả họ người ta dùng thẻ , có khai báo họ với thẻ TAGML cho phép định nghĩa thư viện (lib) , hình vị , từ vựng hố , đẳng thức đặc trưng , họ cấu trúc đặc trưng Phần khai báo thư viện nằm đầu tệp Khi thành phần thư viện khai báo tên thuộc tính id thẻ tương ứng Các mơ tả dùng đến thành phần thư viện sau tham khảo tới thành phần tương ứng qua thuộc tính copyof Ngồi ra, TAGML cho phép mơ tả với ràng buộc giá trị thuộc tính/đặc trưng cho trước Sau từ vựng hố khai báo gộp mà từ làm neo/trung tâm 7.4 Các công cụ triển khai LORIA Nhóm Langue et Dialogue LORIA cung cấp công cụ LLP2 : Loria LTAG Parser Bộ cơng cụ viết Java gồm có thành phần sau: - parser: Chương trình phân tích cú pháp LTAG - tagviewer: Giao diện hiển thị cú pháp LTAG - graphtag: quản lí việc hiển thị TAG 85 - tagml2: API quản lí vào/ra theo khuôn dạng TAGML2 cho tài nguyên từ vựng/cú pháp segment: API quản lí vào khn dạng XML cho việc tiền xử lí văn FeatureStructure: API quản lí cấu trúc đặc trưng số API khác quản lí loại (cây bản, ngữ pháp dẫn, dẫn xuất) 7.5 Mơ hình TAG ngữ pháp tiếng Việt Mô tả ngữ pháp tiếng Việt theo mơ hình TAG bao gồm bước sau: - Định nghĩa sở có nút neo động, tính từ cho phép sinh dạng câu tương ứng với dạng động, tính từ khác - Định nghĩa sở phụ trợ cho phép sinh danh ngữ - Định nghĩa phụ trợ cho phép sinh thành phần phụ câu Trong phần chúng tơi trình bày minh hoạ mô tả danh ngữ tiếng Việt theo mơ hình TAG Hình 7-7 minh hoạ cấu trúc sâu tổng quát danh ngữ tiếng Việt QP0 Q0 DP0 P0 DP1 P1 D1/M1 NP0 N0 NP1 N1 NComp Hình 7-7 Cấu trúc danh ngữ Trong đó: - NP kí hiệu cho danh ngữ, - Q0 lượng từ tồn thể, đại từ tất cả, - DP0 kí hiệu cho danh ngữ có phụ tố định đại từ khơng gian, thời gian đảm nhiệm (P1) 86 DP1 kí hiệu danh ngữ có phụ tố số lượng quán từ số lượng hay số từ đảm nhiệm (D1/M1) - NP0 danh ngữ có từ đơn vị (loại từ, danh từ đơn vị khác) làm trung tâm (N0) - NP1 danh ngữ có danh từ khơng đếm được/khơng đếm tuyệt đối làm trung tâm - NComp chứa định ngữ hạn định khác N1 danh từ, động từ, tính từ, số từ, đại từ, v.v Hình 7-8 minh hoạ quan hệ phụ thuộc định ngữ hạn định danh ngữ - nhà bạn Nam (mà) mèo đen N A N N N (Prep) Prep N NP NP NP PP xin hơm qua P S Hình 7-8 Quan hệ phụ thuộc thành phần định ngữ Đi theo phân tích thành phần danh ngữ chặt chẽ Nguyễn Tài Cẩn, định nghĩa dạng cho phép sinh danh ngữ tương ứng với kiểu trung tâm: - Cây sinh danh ngữ có danh từ đơn vị làm trung tâm - Cây sinh danh ngữ có danh từ không đếm (tuyệt đối) làm trung tâm - Cây sinh danh ngữ cụm danh từ đơn vị + danh từ không đếm làm trung tâm, nút gắn danh từ đơn vị nút neo (trung tâm chính) Ở chúng tơi phân biệt tương ứng với loại danh từ đơn vị khác nhau: loại từ, danh từ đơn vị quy ước, danh từ đơn vị tập hợp hành chính, ngồi cịn có loại danh từ xếp vào loại khơng đếm tuyệt đối có ý nghĩa đồ đựng (recipient): làm danh từ đơn vị theo nghĩa đơn vị đo lường Ngồi cịn có danh ngữ đại từ xưng hô làm trung tâm, danh ngữ danh từ riêng làm trung tâm Xuất phát từ này, tiếp tục xây dựng cho phép bổ sung thành phần phụ danh ngữ: danh từ + danh từ, danh từ + tính từ, danh từ + số từ, danh từ + đại từ, danh từ + động từ, danh từ + mệnh đề Dưới trích số mơ tả nói 87 88 89 90 91 92 7.6 Kết hướng nghiên cứu Cho đến nay, bên cạnh danh ngữ, thực việc thiết lập sinh câu có trung tâm tính từ số động từ (như động từ nội động, ngoại động có bổ ngữ, động từ chuyển động, v.v) Còn lớp lớn động từ tiếp tục mô tả Tất cấu trúc xây dựng kiểm nghiệm với hỗ trợ phần mềm phân tích cú pháp LLP2 (Loria) Có thể tóm tắt lại tồn q trình xử lí phân tích tự động ngữ pháp văn sau: - Bước 1: Phân tách văn thành đơn vị từ vựng với danh sách từ loại kèm - Bước 2: Thực gán nhãn từ loại, loại bỏ nhập nhằng để xác định từ loại cho đơn vị từ vựng - Bước 3: Thực chương trình phân tích cú pháp văn gán nhãn Các công việc nhóm bao gồm: - Hồn thành việc xây dựng cú pháp theo mơ hình TAG - Hiệu chỉnh từ vựng có thơng tin ngữ pháp - Cải tiến, nâng cao hiệu cơng cụ thực nhiệm vụ tiền xử lí bước bước 93 7.7 Tài liệu tham khảo Anne Abeillé 1993 Les nouvelles syntaxes Armand Colin Editeur, Paris, FR Anne Abeillé 2002 Une grammaire d'arbres adjoints pour le franỗais Editions du CNRS, Paris, FR Patrice Bonhomme et Patrice Lopez 2000 TAGML: codage XML et ressources pour les grammaires d'arbres adjoints lexicalisés LREC 2000, Athènes, GR Cao Xuân Hạo 2000 Tiếng Việt - vấn đề ngữ âm, ngữ pháp, ngữ nghĩa (Vietnamese - Some Questions on Phonetics, Syntax and Semantics) NXB Giáo dục, Hanoi, VN Bent Crabbé, Bertrand Gaiffe et Azim Roussanaly 2003 Une plate-forme de conception et d'exploitation d'une grammaire d'arbres adjoints lexicalisés The TALN Conference, Batz-sur-mer, FR Hoàng Phê 2002 Từ điển tiếng Việt (Vietnamese Dictionary) Vietnam Lexicography Centre, NXB Đà Nẵng, VN Nancy Ide, Laurent Romary 2001 Standards for Language Resources Proceedings of the IRCS Workshop on Linguistic Databases, Philapdelphia, US Charles N Li, Sandra A Thompson 1976 Subject and Topic: A new Typology of Language In Charles N Li (ed.) Subject and Topic, London/New York: Academic Press, pp 457489 Nguyễn Tài Cẩn 1998 Ngữ pháp tiếng Việt (Vietnamese Grammar), NXB Đại học Quốc gia, Hanoi, VN Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu 2003 Une étude de cas pour l'étiquetage morpho-syntaxique de textes vietnamiens The TALN Conference, Batzsur-mer, FR Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu 2004 Lexical descriptions for Vietnamese language processing Proceedings of the Asian Language Resources Workshop, IJC-NLP 2004, Hainan, CN Nguyen Thi Minh Huyen, Le Hong Phuong, Vu Xuan Luong 2003 A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Proceedings of ICT.rda'03 (The First National Symposium on Research, Development and Application of Information and Communication Technology), Hanoi, VN Uỷ ban Khoa học Xã hội Việt Nam 1983 Ngữ pháp tiếng Việt (Vietnamese Grammar) NXB Khoa học Xã hội, Hanoi, VN XTAG Research Group 2001 A Lexicalized Tree Adjoining Grammar for English IRCS, University of Pennsylvania, num IRCS-01-03 94 ... THỰC HIỆN CỦA NHÁNH ĐỀ TÀI DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT thuộc đề tài cấp nhà nước "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lí ngơn ngữ tiếng Việt" KC01-03 Hà Nội, 2004... KC01 "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lí ngơn ngữ tiếng Việt" , nhóm nghiên cứu triển khai công việc xây dựng kho ngữ liệu tiếng Việt bao gồm từ điển từ vựng kho văn có... bước tiền xử lí phân tích từ ngữ văn xét Điều đòi hỏi cơng cụ phân tích văn ngôn ngữ, tiếng Pháp tiếng Việt Trong công cụ tài nguyên ngôn ngữ cho phân tích ngơn ngữ Ấn Âu nói chung tiếng Pháp nói

Ngày đăng: 15/05/2014, 10:28

Từ khóa liên quan

Mục lục

  • Gioi thieu

  • Tai lieu ky thuat dong hang van ban song ngu Phap-Viet

  • Cong cu va tai nguyen ngon ngu cho phan tich van ban

  • Su dung bo gan nhan tu xac suat QTAG cho van ban tieng Viet

  • Xay dung kho tu vung ngu phap tieng Viet

  • To chuc co so ngu lieu cho viec phan tich cu phap tieng Viet tren may tinh

  • Van pham phi ngu canh va phan tich cu phap tieng Viet

  • Van de phan tich cu phap va LTAG

Tài liệu cùng người dùng

Tài liệu liên quan