Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản

10 4 0
Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản

Đang tải... (xem toàn văn)

Thông tin tài liệu

Tạp chí Tin học và Điều khiển học, T 30, S 1 (2014), 39–48 CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ DỰA TRÊN CÚ PHÁP GIẢI BÀI TOÁN TỰ ĐỘNG KHÔI PHỤC DẤU CHO VĂN BẢN NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Học viện C.

Tạp chí Tin học Điều khiển học, T.30, S.1 (2014), 39–48 CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ DỰA TRÊN CÚ PHÁP GIẢI BÀI TỐN TỰ ĐỘNG KHƠI PHỤC DẤU CHO VĂN BẢN NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Học viện Cơng nghệ Bưu - Viễn thơng; haihth2004; nmtuan@yahoo.com Tóm tắt Trong báo việc tự động hóa khơi phục dấu cho văn mơ hình hóa tốn dịch máy thơng kê dựa cú pháp với đầu vào văn khơng dấu đầu văn có dấu ngôn ngữ Kỹ thuật suy diễn văn phạm ABL [2] mở rộng để xây dựng văn phạm phi ngữ cảnh đồng xác suất từ ngữ liệu chứa câu phẳng (plain text) có dấu Việc khơi phục dấu cho văn việc phân tích cú pháp cho câu văn phiên xác suất thuật toán phân tích cú pháp CKY văn phạm nhận Phương pháp thử nghiệm tiếng Việt cho kết tốt Do tính độc lập ngơn ngữ cao nên hệ thống áp dụng cho ngơn ngữ khác Từ khóa Khơi phục dấu tự động, dịch máy dựa cú pháp, suy diễn văn phạm, văn phạm phi ngữ cảnh đồng bộ, thuật tốn phân tích cú pháp CKY Abstract In this paper, the automatic diacritization of a language is modeled as a statistical syntaxbased machine translation problem with the source undiacritized text and the target diacritized text of the same languaget The grammatical inference technique ABL proposed in [2] is extended for learning a probabilistic synchronous context-free grammar from training corpus containing plain diacritized sentences only The diacritization is to parse input sentences by the probabilistic CKY parsing algorithm for received grammar This method is applied to Vietnamese with high quality result As language independent building way, it can be applied to the other languages Key words Automatic diacritization, syntax-based machine translation, grammatical inference, synchronous context-free grammar, CKY parsing algorithm GIỚI THIỆU Trên giới có nhiều ngơn ngữ có sử dụng dấu hệ thống tả [9] Đối với số ngơn ngữ, nhiều ngun nhân (lịch sử, mã hóa, công cụ soạn thảo, hiệu công việc ) nên nhiều tài liệu thường lưu trữ dạng không dấu Các văn không dấu không gây nên nhầm lẫn cho người (phát âm, ngữ nghĩa, chức ) mà việc loại bỏ dấu làm mát nhiều thơng tin từ vựng, hình thái, ngữ âm cần thiết nhiều lĩnh vực ứng dụng công nghệ ngôn ngữ Bởi vậy, việc khôi phục dấu cho văn không dấu mang lại nhiều giá trị việc xây dựng ngữ liệu ngơn ngữ nói riêng cơng nghệ ngơn ngữ nói chung Đã có nhiều đề xuất phương pháp tự động khôi phục dấu cho văn không dấu ngơn ngữ khác có sử dụng dấu hệ thống tả [3–9] Nhưng 40 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN phương pháp đề xuất có nhược điểm chung sử dụng thông tin cục mà bỏ qua mối phụ thuộc mang tính tồn cục ràng buộc đồng xuất từ từ loại chúng câu khoảng cách xa Ví dụ, ta xét đoạn văn khơng dấu tiếng Việt “Cho me cho cho canh cong cho” (1) Trong câu có âm tiết khơng dấu “cho” xuất vị trí khác Âm tiết khơng dấu ứng với nhiều âm tiết/từ có dấu tiếng Việt Ta liệt kê số biến thể khác như: “cho” (động từ), “chó” danh từ động vật, động từ “chờ”, danh từ “chợ” Quay trở lại với câu (1), ta có câu tiếng Việt có dấu tương ứng sau “Chó mẹ chờ chó cạnh cổng chợ” (2) Nếu biết câu (1) có cấu trúc ngữ pháp: subj chờ obj adv với subj =“Chó mẹ”, obj =“chó con” adv =“cạnh cổng chợ” “Chó mẹ cho chó canh cổng chợ” (3) biết câu (1) có cấu trúc ngữ pháp: subj cho obj verb phrase với subj =“Chó mẹ”, obj = chó verb phrase =“canh cổng chợ” Các câu (2) (3) cho thấy việc thêm dấu cho âm tiết (“cho”) (“canh”) ngữ nghĩa câu phụ thuộc vào cấu trúc cú pháp áp vào câu (1) Đây vấn đề đặt để giải Phần báo cấu trúc sau: Mục trình bày số khái niệm văn phạm phi ngữ cảnh xác suất, văn phạm phi ngữ cảnh đồng xác suất mô hình sở hệ dịch máy thống kê dựa cú pháp; Mục trình bày tốn tự động khôi phục dấu văn cho ngôn ngữ có sử dụng dấu hệ thống tả đề xuất mơ hình hệ thống tự động khơi phục dấu tổng quát cách tiếp cận dịch máy thống kê dựa cú pháp; Mục trình bày vấn đề cài đặt thử nghiệm hệ thống văn tiêng Việt Mục vài kết luận MƠ HÌNH HỆ DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP Trong mục đưa số khái niệm sử dụng lý thuyết dịch máy thống kê dựa cú pháp mơ hình sở dịch 2.1 Một số khái niệm Định nghĩa (PCFG) Văn phạm phi ngữ cảnh xác suất G = (N, S, T, R) N tập ký hiệu không kết thúc văn phạm, S ∈ N ký hiệu khới đầu, T tập từ vựng (hay ký hiệu kết thúc), R tập quy tắc sản xuất văm phạm Mỗi quy tắc sản xuất R có dạng X → α, ω X ∈ N ký hiệu không kết thúc, α ∈ (N tắc thỏa mãn với X ω = α:X→ α,ω ∈R (4) ∪ T )∗ , ω xác suất áp dụng quy CÁCH TIẾP CẬN DỊCH MÁY THÔNG KÊ 41 Vế phải (4) gọi dạng câu Định nghĩa Giả sử r quy tắc sản xuất Xr → αr , ωr Khi kết việc áp dụng quy tắc r vào dạng câu αXr β, ω dạng câu ααr β, ωωr ta viết r αXr β, ω −→ ααr β, ωωr Một cách tổng quát ta áp dụng liên tiếp số hữu hạn đếm quy tắc vào dạng câu α, ω để dạng câu α1 , ω1 , ta viết ∗ α, ω −→ α1 , ω1 Định nghĩa Một dạng câu dẫn xuất từ dạng câu ban đầu S, không chứa ký hiệu kết thúc gọi câu sinh bới văn phạm Ngôn ngữ văn phạm phi ngữ cảnh xác suất G, ký hiệu L(G), tập tất câu sinh văn phạm G ∗ L(G) = { ξ, w ∈ T ∗ × [0, 1]| S, −→ ξ, w } Định nghĩa Bậc văn phạm phi ngữ xác suất số cực đại ký kiệu khơng kết thúc có α quy tắc sản suất X → α, ω Định nghĩa (PSCFG) Văn phạm phi ngữ cảnh đồng xác suất G = (N, S, Tσ , Tτ , R) N tập ký hiệu khơng kết thúc văn phạm, S ∈ N ký hiệu khởi đầu, Tσ Tτ tập từ vựng (hay ký hiệu kết thúc) ngôn ngữ nguồn ngơn ngữ đích tương ứng, R tập quy tắc sản xuất văm phạm Mỗi quy tắc sản xuất R có dạng: X → α, β, ∼ ω (5) X ∈ N ký hiệu không kết thúc, α ∈ (N ∪ Tσ )∗ , β ∈ (N ∪ Tτ )∗ , ∼ tương ứng 1-1 ký hiệu không kết thúc α β (quy ước sử dụng ký hiệu không kết thúc cho cặp ký hiệu không kết thúc tương ứng ∼ tập ký hiệu không kết thúc xuất đồng thời α β ), ω xác suất áp dụng quy tắc thỏa mãn với X ω = α,β:X→ α,β,∼ω ∈R Các biểu diễn vế phải (5) gọi dạng câu Định nghĩa Giả sử r quy tắc sản xuất Xr → αr , δr , ∼r ωr Xr ∈∼ Khi kết việc áp dụng quy tắc r vào dạng câu αXr β, δXr ϕ, ∼, ω dạng câu ααr β, δδr ϕ, ∼ ∪ ∼r −{X}, ωωr ta viết r αXr β, δXr ϕ, ∼, ω −→ ααr β, δδr ϕ, ∼ ∪ ∼r −{X}, ωωr Một cách tổng quát ta áp dụng liên tiếp số hữu hạn đếm quy tắc vào dạng câu α, β, ∼, ω để dạng câu α1 , β1 , ∼1 , ω1 , ta viết ∗ α, β, ∼, ω −→ α1 , β1 , ∼1 , ω1 42 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Định nghĩa Một dạng câu dẫn xuất từ dạng câu ban đầu S, S, {S}, không chứa ký hiệu không kết thúc (tương đương với ∼= φ) gọi câu sinh văn phạm Ngôn ngữ văn phạm phi ngữ cảnh đồng xác suất G, ký hiệu L(G), tập tất câu sinh văn phạm G ∗ L(G) = { ξ, ξ, φ, w ∈ Tσ∗ × Tτ∗ × φ × [0, 1] : S, S, {S}, −→ ξ, ξ, φ, w } Định nghĩa Bậc quy tắc sản suất lực lượng ánh xạ quy tắc | ∼ | Bậc văn phạm phi ngữ cảnh đồng xác suất bậc cực đại quy tắc Nói cách khác bậc ngơn ngữ PSCFG k = max{| ∼ | : X −→ α, β, ∼, ω } | ∼ | lực lượng tập ∼ Định nghĩa Hai ngôn ngữ G G gọi tương đương L(G) = L(G ) 2.2 Mô hình sở hệ dịch máy thống kê dựa cú pháp Giả sử ta có văn phạm phi ngữ cảnh đồng xác suất G với ngôn ngữ L(G) Định nghĩa 2.1 Khi đó, với xâu kết thúc f Tσ , dịch theo văn phạm ∗ G xâu ký tự kết thúc e∗ Tτ cho S, S, {S}, −→ f, e∗ , φ, w w đạt cực đại Nói cách khác, tốn dịch máy hình thức hóa sau e∗ = arg max ∗ w (6) e: S,S,{S},1 −→ f,e∗ ,φ,w Như để có hệ thống dịch máy thống kê dựa cú pháp (hay để giải tốn (6)), cần có mơ hình ngôn ngữ phi ngữ cảnh đồng xác suất G phân tích cú pháp PG tương ứng với văn phạm cho phép tính xác suất sinh câu ngơn ngữ L(G) MƠ HÌNH HỆ THỐNG KHÔI PHỤC DẤU VĂN BẢN BẰNG CÁCH TIẾP CẬN DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP Ví dụ đưa phần giới thiệu cho thấy, việc khôi phục dấu cho câu văn không dấu phụ thuộc nhiều vào cấu trúc cú pháp câu Nếu ta xác định cấu trúc cú pháp câu phù hợp với cấu trúc cú pháp câu ngun thủy, việc khơi phục dấu cho trở nên hiệu xác Trước hết ta có nhận xét x ∈ T ∗ câu có dấu ngơn ngữ x biến thể khơng dấu x thứ tự tuyệt đối âm tiết/từ x trùng với thứ tự tuyệt đối biến thể không dấu x Thứ hai, ta khẳng định việc hình thành văn khơng dấu hoàn toàn tuân theo ràng buộc cú pháp ẩn tư người soạn thảo – ràng buộc người dùng soạn văn có dấu để diễn đạt nội dung cần trình bày Từ quan sát đó, ta đến đề xuất cách sử dụng thông tin cú pháp chứa văn có dấu để xác định cấu trúc cú pháp ẩn văn không dấu phục vụ việc giải toán đặt CÁCH TIẾP CẬN DỊCH MÁY THƠNG KÊ 3.1 43 Mơ hình hệ thống Như phân tích mục 2.2, việc xây dựng mơ hình dịch máy thống kê dựa cú pháp để giải tốn tự động khơi phục dấu cho văn đồng nghĩa với việc xây dựng văn phạm PSCFG cho ngôn ngữ quan tâm phân tích cú pháp tương ứng với Sau đưa giải pháp cho vấn đề 3.1.1 Mơ hình văn phạm ngữ phi ngữ cảnh đồng xác suất Giả sử ta có văn phạm phi ngữ cảnh xác suất G = (N, S, T, R) sinh câu ngơn ngữ có sử dụng dấu hệ thống tả quan tâm L(G) Ta xây dựng văn phạm PSCFG G = (N, S, T , T, R) dựa văn phạm G sau: - Tập ký hiệu không kết thúc G tập ký hiệu khơng kết thúc N G - Ký hiệu khởi đầu G ký hiệu khởi đầu S G - T tập nhận từ tập từ vựng T G cách bỏ dấu âm tiết/từ T - Tập quy tắc sản xuất R hình thành sau: Với quy tắc X −→ x1 A1 x2 A2 An xn+1 , ω ∈ R xi ∈ T, i = 1, n + 1, xi xâu rỗng ε, Ai ∈ N, i = 1, n ta đưa vào R quy tắc sản xuất sau X −→ x1 A1 x2 A2 An xn+1 , A1 x2 A2 An xn+1 , I, ω (7) ∗ với xi ∈ T biến thể không dấu tương ứng xi I = {A1 , , An } ánh xạ đơn điệu theo thứ tự cặp ký hiệu không kết thúc Do quy tắc chứa ánh xạ đơn điệu ký hiệu kết thúc nên ta bỏ qua mà khơng sợ bị lầm lẫn từ sau ta viết gọn quy tắc R thành X −→ x1 A1 x2 A2 An xn+1 , A1 x2 A2 An xn+1 , ω (8) Định lý G văn phạm phi ngữ cảnh đồng xác suất Hơn thứ tự tuyệt đối âm tiết/từ biến thể không dấu chúng dạng câu (và câu ngôn ngữ L(G)) bảo tồn Chứng minh: Với cách xây dựng tập quy tắc sản xuất (7), dễ thấy quy tắc X → α, β, ω ∈ R, số ký hiệu không kết thúc α β chúng tương ứng với ánh xạ đơn điệu tăng theo vị trí tuyệt đối chúng α β Do văn phạm G PSCFG Đối với khẳng đinh thứ 2, ta chứng minh quy nạp theo số lượng quy tắc dùng để sinh dạng câu câu Xuất phát từ dạng câu S, S, khơng áp dụng quy tắc nào, φ ta có S, S, −→ S, S, khẳng định Giả sử khẳng định với tất dãy suy diễn với độ dài m dạng câu nhận có biểu diễn αXβ, αXβ, ω tức âm tiết/từ biến thể không dấu chúng cặp (α, α), (β, β) có thứ tự tuyệt đối dạng câu trùng 44 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN Nếu áp dụng quy tắc sản suất X −→ x1 A1 An xn+1 , x1 A1 x2 A2 An xn+1 , ω vào dạng câu trên, ta nhận dạng câu αx1 A1 An xn+1 β, αx1 A1 x2 A2 An xn+1 β, ω, ω Trong dạng câu này, thứ tự tuyệt đối âm tiết/từ biến thể không dấu cặp (α, α) không thay đổi, thứ tự tuyệt đối âm tiết/từ cặp (β, β) tịnh tiến khoảng độ dài l(x1 A1 An xn+1 ) = l(x1 A1 x2 A2 An xn+1 ), thứ tự tuyết đối âm tiết/từ cặp (xi , xi ) thứ tự tuyết đối chúng quy tắc sản xuất tịnh tiến khoảng l(α) + l(x1 A1 xi−1 Ai ) với quy định l(x0 A0 ) = Từ ta suy tính đắn khẳng định Định nghĩa 10 Văn phạm phi ngữ cảnh xác suất trái văn phạm phi ngữ cảnh đồng xác suất G = (N, S, T , T, R), ký hiệu Gt văn phạm Gt = (N, S, T , Rt ) Rt tập quy tắc sản xuất xây dựng sau X −→ α, β, ∼, ω ∈ R X −→ α, ω ∈ Rt (9) Nếu ta gán nhãn cho quy tắc sản xuất liên quan đến (7), (8), (9) r chuỗi có thứ tự nhãn, ta có định lý sau ∗ r Định lý Cho xâu x ∈ T ∗ x ∈ T biến thể khơng dấu x Khi S, −→ G x, ω r r G Gt S, S, −→ x, x, ω ; S, −→ x, ω Hay nói cách khác x có cấu trúc cú pháp với x (các ký hiệu G, G Gt bên dấu dẫn xuất dùng để chuỗi dẫn xuất thực quy tắc sản xuất văn phạm tương ứng) Chứng minh: dễ ràng suy trực tiếp từ mối liên quan quy tắc sản xuất xây dựng cho văn phạm G, G Gt Từ tốn khơi phuc dấu cho ngơn ngữ L(G) phát biểu lại sau: ∗ Giả sử x ∈ T biến thể không dấu câu chưa biết x ∈ T ∗ thuộc ngôn ngữ L(G) Khi gốc có dấu với độ tin cậy lớn x coi nghiệm cua toán: x∗ = arg max ∗ w (10) x: S,S,1 −→ x,x,w G 3.1.2 Bộ phân tích cú pháp Để làm phân tích cú pháp cho văn phạm PSCFG, người ta sử dụng biến thể mở rộng thuật tốn CKY – thuật tốn phân tích cú pháp bottom-up sử dụng phương pháp quy hoạch động với độ phức tập tính tốn thuật tốn hàm mũ theo bậc văn phạm lực lượng tập quy tắc sản xuất [1] Để tăng hiệu cho thuật CÁCH TIẾP CẬN DỊCH MÁY THƠNG KÊ 45 tốn, người ta thường tìm cách biến đổi văn phạm ban đầu thành văn phạm tương đương dạng chuẩn Chomsky – dạng chuẩn mà xâu vế phải quy tắc sản xuất chứa tối đa ký hiệu không kết thúc (dạng nhị phân) Tuy nhiên, văn phạm PSCFG đưa dạng chuẩn Chomsky Định lý Văn phạm G với quy tắc sản xuất có dạng (8) đưa dạng chuẩn Chomsky tương đương thủ tục có thời gian tuyến tính Chứng minh: Q trình nhị phân hóa q trình tách quy tắc sản xuất thành tập quy tắc sản xuất tương đương, quy tắc nhận có không ký hiệu không kết thúc Giả sử ta có quy tắc: X −→ x1 A1 Am xm+1 , x1 A1 x2 A2 Am xm+1 , ω ta biến đổi quy tắc thành quy tắc: X −→ Y x3 A3 Am xm+1 , Y x3 A3 Am xm+1 , (11) Y −→ x1 A1 x2 A2 , x1 A1 x2 A2 , ω (12) với Y ký hiệu không kết thúc bổ xung Áp dụng phương pháp cách đệ quy vào quy tắc sản xuất G để nhận tập quy tắc sản xuất dạng nhị phân Thay tập quy tắc sản xuất G tập quy tắc để tạo văn phạm G Do cách xây G nên trình thực sau nhiều k − bước, ta biến đổi quy tắc quy tắc dạng nhị phân với k bậc văn phạm Và vây thời gian biến đổi G dạng chuẩn Chomsky G tuyến tính với số lượng quy tắc ban đầu văn phạm Để chứng minh L(G) = L(G) ta quy nạp theo bậc k văn phạm G Với k = 2, ta có G ≡ G Do khẳng định Giả sử khẳng định với văn phạm Γ có bậc k m với quy tắc sản xuất dạng (8) Ta chứng minh khẳng định với văn phạm có bậc m Giả sử G văn phạm bậc m có quy tắc dạng (8) Ta thực xây dựng văn phạm Γ bậc m − có quy tắc dạng (8) sau: - Đưa tất quy tắc có bậc nhỏ m từ G sang văn phạm Γ - Với quy tắc có bậc m G X −→ x1 A1 Am xm+1 , x1 A1 x2 A2 Am xm+1 , ω ta đưa vào văn phạm quy tắc: X −→ Y x3 A3 Am xm+1 , Y x3 A3 Am xm+1 , Y −→ x1 A1 x2 A2 , x1 A1 x2 A2 , ω với Y ký hiệu kết thúc văn phạm Γ Như Γ có bậc m − Giả sử r = (r1 , , rt ) dãy quy tắc sản xuất G để sinh câu thuộc L(G) Khi có trường hợp xảy ra: - Tất quy tắc r có bậc nhỏ m Trong trương hợp dãy quy tắc sản xuất tương ứng Γ sinh câu L(Γ) 46 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN - Trong dãy r có quy tắc sản xuất có bậc m Trong trường hợp ta lập dãy quy tắc sản xuất Γ cách vị trí r chứa quy tắc sản xuất bậc m ta thay quy tắc quy tắc tương ứng theo (11) (12) Rõ ràng dãy quy tắc sản xuất nhận chứa quy tắc Γ đồng thời dãy quy tắc sinh câu xét L(Γ) Từ ta có L(Γ) ⊆ L(Γ) Ngược lại giả sử r dãy quy tắc sản xuất (Γ) sinh câu L(Γ) Cũng có trường hợp xảy ra: - Trong quy tắc r khơng có quy tắc chứa ký hiệu không kết thúc so với G Khi dãy quy tắc tương ứng G sinh câu xét G - Trong quy tắc r có quy tắc chứa ký hiệu khơng kết thúc Y Do tạo quy tắc sản xuất (Γ), ký hiệu không kết thúc xuất cặp quy tắc dạng (11) (12) Vì dãy quy tắc sản xuất sinh ta câu ngôn ngữ nên cặp phải đồng thời nằm dãy r Thay cặp quy tắc quy tắc sinh chúng từ G để nhận dãy quy tắc Dễ ràng dãy quy tắc sinh câu xét G Nói cách khác L(Γ) ⊆ L(Γ) Từ ta có L(Γ) = L(Γ) Định lý chứng minh Định lý cho thấy ta dùng biến thể CKY cho PSCFG làm phân tích cú pháp mơ hình sau nhị phân hóa G để nhận văn phạm G Khi độ phức tạp thuật tốn CKY O(n3 ) với n độ dài xâu đầu vào x 3.2 Phương pháp huấn luyện mô hình Trong Mục 3.1, giả sử có văn phạm phi ngữ cảnh xác suất G = (N, S, T, R) sinh câu ngôn ngữ L(G) Để hồn thiện mơ hình, ta sử dụng phương pháp học khơng giám sát dựa gióng hàng (Alignment-based learning - ABL) Menno M van Zaanen [2] để xây dựng văn phạm phi ngữ cảnh xác suất G từ thông tin đầu vào tập câu phẳng (plain sentences) ngơn ngữ có sử dụng dấu hệ thống tả mà ta quan tâm Do khn khổ hạn chế báo, nên khơng trình bày chi tiết phương pháp ABL Độc giả quan tâm tham khảo [2] Dựa văn phạm phi ngữ cảnh xác suất nhận G, tiến hành thủ tục xây dựng văn phạm phi ngữ cảnh đồng xác suất bậc G đề xuất Mục 3.1 4.1 CÀI ĐẶT VÀ THỬ NGHIỆM Cài đặt Để cài đặt hệ thống, ta mở rộng gói phần mềm nguồn mở ABL4J tác giả [2] việc bổ xung thủ tục sinh văn phạm phi ngữ cảnh đồng xác suất mục 3.1.1 thủ tục biến đổi dạng chuẩn Chomsky mục 3.1.2 Modul sinh văn phạm phi ngữ cảnh đồng xác suất bậc G cho mô hình từ tập ngữ liệu đầu vào gồm câu có dấu ngơn ngữ quan tâm Modul hoạt động độc lập áp dụng cho ngơn ngữ khác để có văn phạm PSCFG dạng chuẩn Chomsky tương ứng Phiên xác suất phân tích cú pháp CKY nhận G làm tham số Thơng qua phân tích cú pháp này, văn không dấu đầu vào ngôn ngữ quan tâm tự CÁCH TIẾP CẬN DỊCH MÁY THƠNG KÊ 47 động khơi phục dấu 4.2 Thu thập liệu thử nghiệm Để đánh giá hiệu phương pháp, ta lựa chọn khôi phục dấu cho tiếng Việt, ngơn ngữ sử dụng tập dấu tả phong phú Ngữ liệu thu thập gồm 450 báo thuộc chủ đề khác trang báo điện tử Dân trí, Vietnamnet, Vnexpress Ngữ liệu tiền xử lý biến chữ viết hoa thành chữ viết thường, tách câu theo dấu chấm câu, loại bỏ câu trùng để nhận tập ngữ liệu chứa 14558 câu tiếng Việt đưa vào để huấn luyện mơ hình Với mơ hình nhận được, ta tiến hành việc thử nghiệm sau: Thu thập số văn tiếng Việt dùng tool Unikey để loại bỏ dấu Sau đưa văn không dấu vào hệ thống để thực việc khôi phục dấu theo câu (tự động tách câu theo dấu chấm câu) Văn khôi phục dấu đối sánh với văn gốc để đánh giá mức độ xác phương pháp tỷ lệ số âm tiết/từ giống hai văn chia cho số lượng âm tiết/từ có văn Kết cho thấy độ xác phương pháp giao động quanh tỷ lệ 98% KẾT LUẬN Trong này, việc khơi phục dấu cho văn hình thức hóa tốn học cách chặt chẽ mơ hình dich máy thơng kê dưa cú pháp Kết thử nghiệm cho thấy việc sử dụng thông tin cú pháp tốn tự động khơi phục dấu cho văn giúp nâng cao đáng kể độ xác kết Tuy nhiên trình thử nghiệm xuất số trường hợp xâu đầu vào nhận biết văn phạm hệ thống sinh từ tập ngữ liệu huấn luyện xâu xuất âm tiết/từ (OOV) Trước mắt trường hợp chọn giải pháp chép lại toàn xâu vào văn kết Trong tương lai khắc phục tượng kết hợp với phương pháp khơi phục dấu mức ký tự Hệ thống có tính độc lập ngơn ngữ cao nên hồn tồn áp dụng cho ngơn ngữ có sử dụng dấu khác TÀI LIỆU THAM KHẢO [1] Philipp Koehn, “Statistical Machine Translation,” University of Edinburgh, 2007 [2] Menno M van Zaanen, “Boostrapping Structure into Language: Alignment-Based Learning,” Ph.D thesis, University of Leeds, 2001 [3] Kiem-Hieu Nguyen et al., Diacritics restoration in vietnamese: letter based vs syllable based model PRICAI’10 Proceedings of the 11th Pacific Rim International Conference on Trends in Artificial Intelligence, Springer-Verlag Berlin, Heidenberg, 2010 (631–636) [4] Guy De Pauw et al., Automatic Diacritic Restoration for Resource-Scarce Languages, In V Matousek and P Mautner (Eds.): TSD 2007, LNAI 4629, Springer Verlag Berlin, Heidenberg, 2007 (170–179) [5] J A Mahar, G Q Memon, and H Shaikh, Sindhi diacritics restoration by letter level learning approach, Sindh Univ Res Jour (Sci Ser.) 43 (2) (2011) 119–126 48 NGUYỄN MINH HẢI, NGUYỄN MINH TUẤN [6] John Cocks and Te Taka Keegan, A word-based approach for diacritic restoration in Maori, Proceedings of Australasian Language Technology Association Workshop, Canberra, Australia, 2011 (126–130) [7] Tuan Anh Luu et al., A pointwise approach for Vietnamese diacritics restoration, International Conference on Asian Language Processing (IALP), Hanoi, Vietnam, 2012 [8] Tim Schlippe et al., Diacritization as a machine translation problem and as a sequence labeling problem, 2007 www.amtaweb.org/papers/3.05_Schlippe.pdf [9] Rada F Mihalcea, Diacritics Restoration: Learning from Letters versus Learning from Words CICLing, volume 2276 of Lecture Notes in Computer Science, Springer, 2002 ( 339–348) Ngày nhận 30 - - 2013 Nhận lại sau sửa ngày 28 - 02 - 2014 ... hệ dịch máy thống kê dựa cú pháp; Mục trình bày tốn tự động khôi phục dấu văn cho ngôn ngữ có sử dụng dấu hệ thống tả đề xuất mơ hình hệ thống tự động khơi phục dấu tổng quát cách tiếp cận dịch. .. PHỤC DẤU VĂN BẢN BẰNG CÁCH TIẾP CẬN DỊCH MÁY THỐNG KÊ DỰA TRÊN CÚ PHÁP Ví dụ đưa phần giới thiệu cho thấy, việc khôi phục dấu cho câu văn không dấu phụ thuộc nhiều vào cấu trúc cú pháp câu Nếu... hình dịch máy thống kê dựa cú pháp để giải tốn tự động khơi phục dấu cho văn đồng nghĩa với việc xây dựng văn phạm PSCFG cho ngôn ngữ quan tâm phân tích cú pháp tương ứng với Sau đưa giải pháp cho

Ngày đăng: 04/08/2022, 01:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan