Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

9 59 0
Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đã trình bày mô hình chuyển đổi trật tự từ cụm danh từ cơ sở tiếng Anh theo tiếng Việt, để xác định điểm neo trong cụm danh từ tiếng Anh. Điểm neo trong bài toán này được định nghĩa là từ tận cùng bên trái và từ tận cùng bên phải của cụm danh từ tiếng Anh sau khi đã chuyển đổi trật tự từ theo tiếng Việt.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 Chuyển đổi cú pháp cụm danh từ tiếng Anh theo tiếng Việt Transferring Syntax Trees of English Noun Phrases via Vietnamese Syntax Nguyễn Chí Hiếu Abstract: Transferring syntax trees is one of the key tasks of machine translation systems To transfer syntax trees, they can be performed by different models of the statistical translation method, rulebased translation method, or a hybrid of statistics and rule-based translation method [9] In this paper we present a combination of bilingual corpus and knowledge-based method, which transfers syntax trees of English Base Noun Phrases via the Vietnamese syntax from a pair of bilingual sentences to identify anchor points Our combination technique can help to invert word order in noun phrases of the source language to suit those of target language and improve the performance of miss-alignment, null-alignment, overlap and conflict projection of the existing methods The proposed technique can be easily applied to other language pairs Experiment on pairs of sentences in the English-Vietnamese bilingual corpus showed that our proposed method is satisfactory song ngữ cịn tốn mở [4] Bài báo đề xuất mơ hình chuyển đổi phân tích cụm danh từ sở tiếng Anh theo tiếng Việt nhằm giải số hạn chế mơ hình chiếu sở đối sánh từ Yarowsky [15] (sau gọi “phương pháp Yarowsky”) để nhận biết cụm danh từ tiếng Việt [5] Phương pháp Yarowsky cho phép nước thiếu nguồn tài nguyên xử lý ngơn ngữ tự nhiên (NLP) thu nhanh kết nghiên cứu thông qua ngôn ngữ giàu tài nguyên nghiên cứu khác tiếng Anh Tuy nhiên hạn chế phương pháp Yarowsky chưa giải vấn đề đối sánh rỗng, vấn đề chồng chéo xung đột ví dụ Hình (a) n-1 đối sánh a buffalo calf nghé (b) 1-n đối sánh rỗng the plane máy bay (c) 1-1 đối sánh rỗngapples the Keywords: Npbase, đối sánh từ, NLP táo I GIỚI THIỆU Rút trích cụm danh từ (NPbase) từ ngữ liệu song ngữ nhiều nhà nghiên cứu xử lý ngôn ngữ tự nhiên đề xuất phương pháp khác nhiều thập kỷ qua J.Kupiec [7], H.Wantanabe [14], Yarowsky [15], W.Wang [13], Y.S.Hwang [6], Đ.Điền [2] N.P.Thai [12] Tuy nhiên việc nghiên cứu ngôn ngữ tự nhiên để giúp máy tính hiểu ngơn ngữ người cịn thách thức tốn nhận biết cụm danh từ tiếng Việt cặp câu Hình Ví dụ số loại đối sánh Hình 1(a) cho thấy, hai từ tiếng Anh đối sánh với từ tiếng Việt người ta gọi đối sánh nhiều-một (n-1) Hình 1(b) ví dụ từ tiếng Anh đối sánh với hai từ tiếng Việt người ta gọi đối sánh một-nhiều (1-n) Hình 1(c) đối sánh một-một (1-1) - 48 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (29), tháng 6/2013 Bảng Cấu trúc cụm danh từ tiếng Việt [11] [DT PRP$ JJ NN NNS] VBP VBN IN [DT JJ NN] All my green3 sport shirts are made from the green9 silk Thành tố phụ trước Tất Những [DT PL Chiếc CL Sơ mi NN Thể Màu Của làm thao xanh6 NN JJ POS PRP] VB Từ Lụa Xanh12 BA [NN JJ] Hình Ví dụ chồng chéo xung đột Hình ví dụ cho cặp câu Anh–Việt có chồng chéo Trong ví dụ này, từ “green” xuất nhiều lần câu vị trí thứ vị trí thứ Do từ “green” đối sánh với hai vị trí tương ứng câu tiếng Việt “màu xanh” vị trí thứ “xanh” vị trí thứ 12, nên gây lên vấn đề chồng chéo xung đột (a) [I1] like2 [her3 first4 tổng lượng số tiểu lượng Cả X1 sáu X2 [Tơi1] thích2 [sáu3 áo dài4 Việt Nam5 đầu tiên6 cô ta7] dresses4 Vietnamese5 first6 her7 ] Hình Ví dụ chuyển đổi trật tự từ để khắc phục vấn đề chồng chéo đối sánh Giải pháp giải cho vấn đề chồng chéo xung đột chuyển đổi trật tự từ tiếng Anh theo tiếng Việt trước đối sánh ví dụ mơ hình Trên Hình 3(c) câu tiếng Anh Hình 3(a) chuyển đổi trật tự từ cụm danh từ sở tiếng Anh theo tiếng Việt Bằng trực quan dễ dàng nhận thấy rằng: Nếu chiếu theo câu Hình 3(c) với câu Hình 3(b), khắc phục vấn đề chồng chéo xung đột Vậy làm giúp máy tính tự động thực chuyển đổi chúng tơi trình bày mục III Trước tiên mục phân rã cấu trúc cụm danh từ II CẤU TRÚC CỤM DANH TỪ Bảng Cấu trúc cụm danh từ tiếng Anh [10] định tố định trước tố all the Y1 Y2 định tố sau three Y3 bổ ngữ good Y4 từ trung bổ ngữ sau tâm books on sale Y5 Y6 từ phân lớp X4 danh từ cụm định tính từ / sở hữu gà X5 đen X6 X7 (a) NPe →Y1 Y2 Y3 Y4 Y5 Y6 (b) NPv →X1 X2 X3 X4 X5 X6 X7 Trong đó: NPe: ký hiệu cụm danh từ tiếng Anh NPv: ký hiệu cụm danh từ tiếng Việt Yj: từ loại từ vị trí j , j = đến Xi: loại vị trí thứ i, i = đến (b) [I1] like2 [six3 từ Thành tố phụ sau Theo V.N.Tú [10], cụm danh từ tiếng Anh phân tích thành thành phần luật (a) Theo T.H.Nguyen [11], cụm danh từ tiếng Việt phân tích thành thành phần luật (b) six5 Vietnamese6 dresses7] (c) X3 Trung tâm Cụm danh từ tiếng Anh bao gồm sáu thành phần (bốn thành phần phụ trước, thành phần trung tâm thành phần phụ sau) cụm danh từ tiếng Việt bao gồm bảy thành phần (bốn thành phần phụ trước, thành phần trung tâm hai thành phần phụ sau), xét khả thành phần xuất Trong thực tế khơng xuất đầy đủ thành phần vậy, ngoại trừ thành phần thứ bắt buộc (Y5 tiếng Anh X5 tiếng Việt) Bảng Cấu trúc cụm danh từ Anh - Việt Ngôn ngữ Anh Việt Thành tố phụ trước Y1 Y2 Y3 Y4 X1 X2 X3 X4 Cấu trúc chung Danh từ Thành tố phụ trung tâm sau Y5 Y6 X5 X6 X7 Cấu trúc cụm danh từ tiếng Anh tiếng Việt giống chỗ có ba thành phần lớn thành tố phụ trước, thành phần trung tâm, thành tố phụ sau (Bảng 3) Tuy nhiên, yếu tố tạo nên thành tố cụm danh từ tiếng Anh tiếng Việt lại khác biệt phức tạp, cụm danh từ tiếng Việt Vì thế, cần có bước hợp lý để phân tích thành tố cụm danh từ vào thành phần tương - 49 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT ứng Các bước đề xuất để phân tích cụm danh từ sở tiếng Anh thành thành phần từ Y1 đến Y6 thông qua giải thuật 1, 2, mục Để phân rã cụm danh từ sở tiếng Anh thành thành phần, thực theo trình tự sau Trước tiên, chúng tơi phải phân tích cụm danh từ sở tiếng Anh thành ba thành phần phụ trước (Y1 Y2 Y3 Y4), trung tâm (Y5), phụ sau (Y6) Trong thành phần Y5 ưu tiên xác định đầu tiên, Nếu xác định thành phần Y5, thành phần phía bên phải Y5 thành phần Y6 thành phần phía bên trái Y5 thành phần Y1, Y2, Y3, Y4 Cách làm loại bỏ xung đột từ loại Y4, Y5 Y6 Tiếp theo, chúng tơi phân tích tiếp thành tố phụ truớc thành thành phần từ Y1 đến Y4 Sự xung đột Y1 Y2 từ loại DT (Phụ lục A) xét thêm từ đứng đầu cụm danh từ sở (Y1 vị trí từ tổng lượng) Thành phần Y2 lại phân tích thành tiểu thành phần Y2a Y2b Y2a vị trí mạo từ “a”, “an”, “the” Y2b vị trí tính từ sở hữu “my”, “his”, “our”,…, từ thị “this”, “these”, “that”, “those”, từ “some”, “any”, “many”, “much”, “enough” Thành phần Y3 phân tích thành tiểu thành phần Y3a Y3b Y3a vị trí từ số thứ tự Y3b vị trí từ số đếm Thành phần Y6 phân tích thành hai tiểu thành phần Y6a Y6b Y6a vị trí từ có từ loại CD mà liền kề trước từ loại tiền tệ ví dụ $ CD, # CD Y6b từ loại lại Ở vị trí X2, X3, X4 từ đặc trưng tiếng Việt (X2: “những”, “các”, X3: “cái”, X4: từ phân lớp) X2 tương đương chức với tiểu thành phần Y2a trường hợp từ mạo từ “a”, “an” “the” Ngoài ra, X2 tương đương chức với tiểu thành phần Y3 Y3b, vị trí Y3 từ thứ tự từ số đếm xuất hiện, X2 tương đương chức với tiểu thành phần Y6a X1 tương đương chức với Y1 X6 tương đương chức với Y4 Ngoài ra, X6 tương đương chức với tiểu thành phần Tập V-1, Số (29), tháng 6/2013 Y3 Y3a, X6 tương đương chức với Y6b Cuối X7 tương đương chức với tiểu thành phần Y2 Y2b Bảng Bảng So sánh thành phần cụm danh từ Sự tương đương chức thành phần cụm danh từ tiếng Việt với cụm danh từ tiếng Anh Việt Anh X1 Y1 Y2a (a, an, the), X2 (một|φ) Y3b, Y6a X3 (cái) φ X4 (từ phân lớp) φ X5 Y5 X6 Y3a, Y4, Y6b X7 Y2b Cấu trúc chi tiết cụm danh từ tiếng Anh tiếng Việt có nhiều điểm khác trình bày Phần trình bày chi tiết mơ hình đề xuất III MƠ HÌNH CHUYỂN ĐỔI TRẬT TỰ TỪ Trên cở sở nghiên cứu đối sánh ngôn ngữ T.H.Nguyen [11] V.N.Tú [10] cụm danh từ song ngữ Anh-Việt, chúng tơi phân tích cụm danh từ tiếng Anh, cụm danh từ tiếng Việt thành thành phần theo vị trí chức chúng bảng Với vị trí chức thành phần phân tích cho phép thiết kế giải thuật hiệu để chuyển đổi trật tự từ cụm danh từ sở tiếng Anh theo tiếng Việt Bài toán chuyển đổi trật tự từ cụm danh từ sở tiếng Anh theo tiếng Việt bao gồm toán sau: - Xác định từ trung tâm (Y5) cụm danh từ sở tiếng Anh; - Phân tích thành phần (Y3 đến Y6) có liên từ xuất chúng; - Chuyển đổi trật tự từ cụm danh từ sở tiếng Anh theo tiếng Việt (i) Bài toán xác định từ trung tâm Từ trung tâm từ quan trọng cụm từ nói chung cụm danh từ nói riêng Xét lý - 50 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thuyết, từ trung tâm cụm danh từ danh từ, thực tế ngôn ngữ từ trung tâm cịn bao hàm loại từ khác, ví dụ câu: this book costs $ 100 Tập V-1, Số (29), tháng 6/2013 (S (NP this/DT book/NN) (VP costs/VBP (NP $/$ 100/CD))) loại thuộc tập {DT, PRP$}) khơng có xuất liên từ, bốn vị trí cịn lại có xuất liên từ Chi tiết giải tốn trình bày (a) $/$ 100/CD Y5 Giải thuật 2: Xác định từ trung tâm có liên từ tách cụm danh từ sở trăm/CD đô la Mỹ/$ (b) #/# 13/CD Y5 mười ba/CD bảng Anh/# Nhập: Cụm danh từ sở tiếng Anh gán nhãn từ loại Xuất: phần phụ trước (Y1Y2Y3Y4), trung tâm (Y5) phần phụ sau (Y6a, Y6b) Phương pháp: Bước 1: Chạy giải thuật để xác định từ trung tâm (Y5) vị trí h cụm danh từ sở gồm n từ (h ≤ n) Bước 2: Mở rộng từ trung tâm tách cụm danh từ sở sau: begin foundCC = true; Y5= từ vị trí h; h2 = h; while ((h>2) and (foundCC)) begin /*nhiều liên từ thành phần Y5*/ if (h-1 vị trí từ có từ loại CC) then begin Y5 = hai từ vị trí ( h-1, h) + Y5; h = h-2; end else foundCC = false; end if (h>1) then tách vị trí từ đến h-1 vào thành tố phụ trước(Y1Y2Y3Y4); if (h2

Ngày đăng: 25/10/2020, 22:52

Hình ảnh liên quan

Bảng 1. Cấu trúc cụm danh từ tiếng Anh [10] định tố - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Bảng 1..

Cấu trúc cụm danh từ tiếng Anh [10] định tố Xem tại trang 2 của tài liệu.
Hình 2. Ví dụ về chồng chéo và xung đột - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Hình 2..

Ví dụ về chồng chéo và xung đột Xem tại trang 2 của tài liệu.
Bảng 4. So sánh các thành phần trong cụm danh từ - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Bảng 4..

So sánh các thành phần trong cụm danh từ Xem tại trang 3 của tài liệu.
Để đảm bảo tính bao phủ của mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo tiếng  Việt, chúng tôi đã chuẩn bị bộ ngữ liệu mẫu - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

m.

bảo tính bao phủ của mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo tiếng Việt, chúng tôi đã chuẩn bị bộ ngữ liệu mẫu Xem tại trang 6 của tài liệu.
Hình 4. Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt  - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Hình 4..

Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt Xem tại trang 6 của tài liệu.
Bảng 5. Kết quả phân tích cụm danh từ tiếng Anh - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Bảng 5..

Kết quả phân tích cụm danh từ tiếng Anh Xem tại trang 7 của tài liệu.
Bảng 6. Kết quả chuyển đổi trật tự từ và xác định điểm neo  - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Bảng 6..

Kết quả chuyển đổi trật tự từ và xác định điểm neo Xem tại trang 8 của tài liệu.
BẢNG KÝ HIỆU MÃ TỪ LOẠI - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt
BẢNG KÝ HIỆU MÃ TỪ LOẠI Xem tại trang 9 của tài liệu.
PHỤ LỤ CA - Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt
PHỤ LỤ CA Xem tại trang 9 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan