Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

25 1.3K 7
Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế (tóm tắt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN - TRẦN LÊ TÂM LINH NHỮNG LỖI NGÔN NGỮ CỦA PHẦN MỀM GOOGLE TRANSLATE KHI DỊCH TỰ ĐỘNG ANH-VIỆT CÁC HỢP ĐỒNG KINH TẾ Chuyên ngành: Ngôn ngữ học so sánh đối chiếu Mã số: 62 22 01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ NGỮ VĂN Thành phố Hồ Chí Minh - năm 2017 Công trình hoàn thành tại: Người hướng dẫn khoa học: Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp sở đào tạo họp tại Vào hồi ngày tháng năm Phản biện độc lập Phản biện độc lập Có thể tìm hiểu luận án tại thư viện: (ghi tên các thư viện nộp luận án) MỞ ĐẦU Lý mục đích nghiên cứu Lỗi ngôn ngữ dịch tự động Anh – Việt một đề tài quan tâm Hiện nay, số lượng các văn hợp đồng kinh tế Anh-Việt ngày nhiều việc dịch tự động để đáp ứng cho nhu cầu rất hạn chế Vì vậy, việc khảo sát lỗi cần có kết hợp ngôn ngữ học tin học để các phần mềm xử lý lỗi thực phát triển Mục đích luận án khảo sát các loại lỗi ngôn ngữ, chủ yếu lỗi tả, lỗi từ vựng lỗi ngữ pháp dịch tự động hợp đồng kinh tế Anh-Việt, để tìm nguyên nhân dẫn đến lỗi tìm cách khắc phục Lịch sử vấn đề a) Lịch sử nghiên cứu lỗi Vào thập niên 70 kỉ XX, hàng loạt công trình nghiên cứu miêu tả lỗi như: Richards (1971), công bố hai công trình liên quan đến cách tiếp cận không tương phản việc phân tích lỗi chiến lược cho ngôn ngữ thứ hai Schachter (1974), nhận xét lỗi trình phân tích lỗi Steel (1976) công bố nghiên cứu biến đổi trật tự từ: nghiên cứu loại hình ngôn ngữ Nhóm các tác giả Schachter Murcia (1977) phân tích trở ngại việc phân tích lỗi Cuối thập niên này, Kroll Schafer (1978) có công trình phân tích lỗi giảng dạy phép ghép từ Trong năm 80 kỉ XX, việc nghiên cứu lỗi bắt đầu có tính lý thuyết nhiều: Williams (1981) công bố tượng học lỗi, Corder (1981) phân tích lỗi tính liên ngành ngôn ngữ học Sau đó, Selinker (1984) công bố công trình phân tích lỗi ngôn ngữ trung gian Taylor (1986) viết lỗi cách giải thích lỗi Ở Việt Nam, đề tài trật tự từ nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm như: Lý thuyết trật tự từ cú pháp (Lý Toàn Thắng, 2002) công trình hữu ích giúp cho việc khảo sát lỗi trật tự từ tiếng Việt thuận lợi Nguyễn Thị Quỳnh Hoa (2004) khảo sát cấu trúc - ngữ nghĩa tượng đảo ngữ tiếng Anh tiếng Việt Trần Thị Minh Phượng (2005) khảo sát lỗi thường gặp trật tự từ người Việt học tiếng Anh Đinh Điền (2006) so sánh trật tự từ định ngữ tiếng Anh tiếng Việt Đỗ Minh Hùng (2007) viết lỗi ngữ pháp tiếng Anh thường gặp người Việt Nam Phạm Thị Tuyết Hương (2009) nghiên cứu trật tự từ câu đơn tiếng Anh bình diện kết học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt) Năm 2009, có các công trình lỗi như: lỗi ngữ pháp cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009), lỗi từ vựng cách khắc phục (Hồ Lê, Trần Thị Ngọc Lang Tô Đình Nghĩa, 2009) lỗi tả cách khắc phục (Lê Trung Hoa, 2009) Ngoài có lỗi ngôn ngữ người nước học tiếng Việt (Nguyễn Linh Chi, 2009) b) Lịch sử nghiên cứu lỗi dịch thuật Khi bàn lỗi thường gặp quá trình dịch thuật vào thập niên 1960, công trình Nida (1964) có giá trị nhất định nghiên cứu ông hướng tới khoa học dịch thuật, tác phẩm ông đặc biệt quan tâm đến nguyên tắc tiến trình liên quan đến dịch kinh thánh Catford (1965) có công trình lý thuyết ngôn ngữ dịch thuật Newmark (1979) cho thấy nhiều vấn đề xảy lý thuyết phương pháp dịch thuật Trong năm 80 kỉ XX, lỗi dịch thuật nhìn nhận qua lăng kính khoa học như: khoa học hóa vấn đề dịch thuật phương pháp dịch thuật (Wilss, 1982), vấn đề đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay cách tiếp cận dịch thuật (Newman, 1988 Newmark, 1988) Đến năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương pháp dịch thuật Julian Edge (1990) có công trình nêu nguyên nhân mắc lỗi cách sửa lỗi Bell (1991) ứng dụng lý thuyết dịch Nord (1992) Neubert & Shreve (1995) phân tích văn huấn luyện dịch thuật Jakobson (1998) bàn khía cạnh ngôn ngữ dịch thuật Từ đầu kỉ XXI nay, lỗi dịch thuật nghiên cứu đa dạng phong phú các công trình Harry Aveling (2002), Na (2005) hay Gyse Hansen (2010) nhằm khắc phục khả dịch thuật người máy c) Lịch sử nghiên cứu dịch tự động Dịch tự động nghĩ đến từ thời Leibtniz Descartes đầu kỷ XVII, ứng dụng thực tế Tuy nhiên, quá trình nghiên cứu vẫn tiếp diễn qua các thời kỳ Petr Smirnov-Troyanskii (1937), Weaver (1949),v.v gần nhất Popovic Burchardt (2007) cho cải tiến dịch tự động thống kê cách sử dụng việc khử nhập nhằng ngữ nghĩa từ Tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ yếu dịch tự động Anh-Việt, với các phương pháp khác như: phương pháp dịch tự động dựa theo luật,dịch tự động dựa thống kê đến năm 2010, EVTRAN 4.0 đời, phần mềm dịch tự động một đoạn văn từ Anh sang Việt ngược lại d) Lịch sử nghiên cứu lỗi dịch tự động Từ thập niên 90 kỉ XX nay, có nhiều công trình kinh điển giúp cho các nhà ngôn ngữ học nghiên cứu sâu lỗi, hiểu rõ nét tương đồng dị biệt các loại hình ngôn ngữ Nổi bật nhất công trình phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994), phân tích lỗi tiếng quốc tế (Ellis, 1997) Khi nghiên cứu lỗi dịch tự động, đầu kỉ 21 có công trình giá trị phân tích lỗi dịch tự động thống kê tiêu chuẩn đánh giá xác định lỗi dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro Ney, 2006, 2010) Những nghiên cứu tảng cho nghiên cứu lỗi dịch tự động Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu luận án lỗi dịch tự động Anh – Việt phần mềm Google Translate (dịch tự động thống kê ) dịch các hợp đồng kinh tế - Phạm vi nghiên cứu các lỗi tả, lỗi từ vựng, lỗi ngữ pháp lỗi cấu trúc câu Trong phạm vi nghiên cứu luận án không khảo sát lỗi liên kết văn phần mềm Google Translate dịch câu, chưa xét đến liên kết văn Phương pháp nghiên cứu nguồn ngữ liệu a) Phương pháp nghiên cứu Những phương pháp nghiên cứu chủ yếu sử dụng luận án: phương pháp miêu tả, phương pháp so sánh đối chiếu Bên cạnh đó, sử dụng một thủ pháp xử lý ngữ liệu Trong phương pháp nghiên cứu này, xử lý ngữ liệu, dùng hai công cụ hỗ trợ phân tích lỗi phần mềm BLAST phần mềm BLAST-VCL Luận án sử dụng phần mềm BLAST BLAST-VCL nhằm xây dựng, kiểm định tiêu chí phân loại lỗi tiến hành qua các bước: thu thập, chuẩn hóa xử lý ngữ liệu Ở giai đoạn tiền xử lý, ngữ liệu tách ra: ngôn ngữ nguồn tiếng Anh (src file), ngôn ngữ đích tiếng Việt (ref file) dịch thủ công ngôn ngữ đích tiếng Việt dịch tự động thực Google Translate Sau chọn lọc, phân tích xử lý các tập tin các công cụ tự động thống kê kết (xem Hình 1) ` Hình Mô hình phân tích lỗi BLAST-VCL b) Nguồn ngữ liệu Năm nguồn ngữ liệu làm làm sở cho việc nghiên cứu Cung Kim Tiến (CKT), Trần Lê Tâm Linh (TLTL), Nguyễn Thành Yến (NTY), Xuân Huy- Minh Khiết (XH-MK) nhóm LEGAL bao gồm các hợp đồng kinh tế Anh-Việt để giao dịch tại Việt Nam Ý nghĩa khoa học ý nghĩa thực tiễn Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) loại hình đơn lập (tiếng Việt) dịch tự động nguồn tư liệu tham khảo các tiêu chí phân loại lỗi tả, lỗi từ vựng lỗi ngữ pháp đối với thể loại văn hợp đồng kinh tế dịch tự động tiền đề nâng cấp chương trình dịch tự động Anh-Việt Việt-Anh Về thực tiễn, kết khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung dịch sát với nội dung văn gốc Hiện nay, các công trình dịch tự động có ứng dụng rất tốt việc giảng dạy ngôn ngữ Một các phương pháp đào tạo cử nhân biên phiên dịch cho sinh viên phân tích các lỗi dịch máy từ rút kinh nghiệm cho dịch thuật Phương pháp gọi “Học lỗi từ dịch máy” (Machine translation as a bad model), từ lỗi phân loại giáo viên hướng dẫn người học cách giải thích chỉnh sửa Do đó, kết nghiên cứu có giá trị nhất định việc học dạy biên phiên dịch Bố cục luận án Ngoài phần mở đầu phần kết luận, nội dung luận án bao gồm ba chương: Chương 1: Cơ sở lý thuyết, khái quát một số vấn đề chung khái niệm lỗi, sở lý luận việc phân tích lỗi lý thuyết vấn đề liên quan lỗi ngôn ngữ Google Translate dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm dịch tự động - trình bày thuận lợi khó khăn dịch tự động, khái niệm hợp đồng kinh tế; đặc điểm loại hình tiếng Anh tiếng Việt; nhận diện phân loại lỗi ngôn ngữ dịch tự động - nêu sở lý luận việc phân tích lỗi chuyển dịch, giới thiệu các bước phân tích ngữ liệu đưa vào phần mềm BLAST thu thập, chuẩn hóa xử lý ngữ liệu; cuối cùng, lập tiêu chí phân loại lỗi ngôn ngữ dịch tự động bao gồm: lỗi tả, lỗi từ vựng, lỗi ngữ pháp, lỗi hệ thống lỗi ngẫu nhiên Chương 2: Phân tích lỗi tả lỗi từ vựng, liệt kê toàn bộ kết lỗi tả (lỗi sai thành phần cấu trúc âm tiết, lỗi viết hoa, lỗi dấu câu,…) lỗi từ vựng (lỗi nhập nhằng, lỗi thành ngữ lỗi thuật ngữ) phân tích các loại lỗi tả từ vựng thuộc lỗi hệ thống ngẫu nhiên Chương 3: Phân tích lỗi ngữ pháp, liệt kê kết lỗi ngữ pháp dịch tự động hợp đồng kinh tế từ tiếng Anh sang tiếng Việt (như lỗi trật tự từ, lỗi dịch sai từ công cụ, lỗi dịch sai có hòa hợp chủ từ động từ, lỗi thừa từ lỗi thiếu từ) Lỗi trật tự từ phân tích dựa theo tiêu chí BLAST BLAST-VCL phân tích các loại lỗi ngữ pháp thuộc lỗi hệ thống thuộc lỗi ngẫu nhiên CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Khái niệm lỗi Nghiên cứu vấn đề lý thuyết lỗi ngôn ngữ phần mềm Google Translate dịch tự động hợp đồng kinh tế Anh-Việt, luận án tập trung vào ba loại lỗi ngôn ngữ: tả, từ vựng ngữ pháp Tuy nhiên, có hai loại lỗi đặc trưng cho dịch tự động bỏ qua lỗi hệ thống lỗi ngẫu nhiên.Vì vậy, mục nêu khái niệm các lỗi Phần nhận diện phân loại lỗi trình bày cuối chương 1.1.1 Khái niệm lỗi tả Chính tả cách viết chữ xem chuẩn, tức viết âm đầu, vần, dấu (thanh), quy định viết hoa, viết tắt, viết thuật ngữ Theo Nguyễn Đức Dân (2015): “ Sai tả câu viết không quy định tả, không quy tắc dấu câu, không quy tắc viết tắt” 1.1.2 Khái niệm lỗi từ vựng “Sai từ vựng câu mà các từ không tương hợp nghĩa.” (Nguyễn Đức Dân, 2015) “Lỗi từ vựng viết sai âm, hiểu sai nghĩa, dùng sai chức ngữ pháp, lỗi ý, tu từ” (Nguyễn Thiện Nam, 2001) 1.1.3 Khái niệm lỗi ngữ pháp Theo Nguyễn Đức Dân (2015): “Sai ngữ pháp câu viết không nguyên tắc ngữ pháp, nghĩa viết không cấu trúc câu Thường câu cụt, thiếu chủ ngữ hay vị ngữ, thậm chí thiếu hai.” 1.1.4 Lỗi hệ thống - Lỗi hệ thống lỗi mang tính khách quan bất biến theo thời gian (tạm thời xét vào thời điểm nghiên cứu từ tháng 8/2012 đến tháng 2/2014, vì đặc trưng dịch tự động thống kê khối ngữ liệu lớn thì dịch tốt Vì vậy, qui ước thay đổi tương lai điều tất yếu) - Phân loại lỗi hệ thống thông qua khoảng cách Levenshtein Để cho dễ quan sát, qui ước khoảng cách Levenshtein dịch tự động sau: năm 2012 năm 2014 L1, năm 2012 câu tham chiếu (dịch thủ công) L2 năm 2014 câu tham chiếu L3 Ví dụ: Other documents as and when necessary Câu tham chiếu: Các tài liệu khác thấy cần thiết Dịch tự động T.8/2012: Các tài liệu khác cần thiết Dịch tự động T.02/2014: Các tài liệu khác cần thiết Kết nhận theo khoảng cách Levenshtein: L1=0, L2=7 L3=7 độ lệch L3L2=0 Như vậy, hai lần dịch tự động với thời gian khác cho kết Vậy lỗi hệ thống 1.1.5 Lỗi ngẫu nhiên - Lỗi ngẫu nhiên mang yếu tố chủ quan vì bất cẩn từ khâu nhập ngữ liệu cho ngôn ngữ nguồn hay khâu tách các cặp câu Anh-Việt giai đoạn tiền xử lý ngữ liệu - Phân loại lỗi ngẫu nhiên thông qua khoảng cách Levenshtein Độ lệch Levenshtein L2 L3 lớn 4, cho kết lỗi ngẫu nhiên có hai trường hợp xảy dịch tự động năm 2014 tốt dịch tự động năm 2012 ngược lại 1.2 Cơ sở lý luận việc phân tích lỗi dịch thuật Phân tích lỗi dịch thuật việc nghiên cứu phân tích các lỗi tác nhân dịch (người dịch / máy dịch) gây Việc thu thập các mẫu ngôn ngữ nguồn ngôn ngữ đích bao gồm việc xác định lỗi các mẫu, miêu tả lỗi, phân loại lỗi giải thích nguyên nhân mắc lỗi 1.2.1 Định nghĩa lỗi dịch thuật lỗi dịch tự động a) Định nghĩa lỗi dịch thuật Lỗi dịch thuật sai sót dịch, không thực quy tắc nghiên cứu từ vựng, cấu trúc ngữ pháp, hoàn cảnh giao tiếp hay ngữ cảnh văn hóa văn ngôn ngữ nguồn (hình thành nên lỗi từ vựng, lỗi tả, lỗi ngữ pháp, lỗi ngữ dụng…) b) Định nghĩa lỗi dịch tự động Theo Hutchins Somers (1992), các loại lỗi dịch tự động nhập nhằng (ambiguity) từ vựng, cấu trúc từ định lượng Nhập nhằng từ vựng nhấn mạnh phạm vi từ loại, từ đồng tự, từ đa nghĩa nhập nhằng chuyển di / giao thoa Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity) 1.2.2 Các bước xử lý ngữ liệu trước phân tích lỗi Để hệ thống hóa các loại lỗi ngôn ngữ cho dịch tự động hợp đồng kinh tế Anh-Việt, sử dụng phần mềm BLAST nhằm xây dựng kiểm định hệ tiêu chí phân loại lỗi Sau các bước xử lý ngữ liệu: thu thập ngữ liệu, chuẩn hóa ngữ liệu, xử lý ngữ liệu a) Nhận dạng lỗi dịch tự động Có hai cách phân biệt lỗi dịch tự động Anh-Việt: Cách 1: Kiểm tra mức độ mắc lỗi thường xuyên lặp lại sau lần dịch (lỗi hệ thống) Cách 2: Những lỗi cho kết dịch khác thời điểm khác xuất phát từ nguyên nhân chủ quan nhập sai ngữ liệu, độ dài câu, dấu chấm câu, qui ước viết hoa, viết tắt, v.v (lỗi ngẫu nhiên) b) Phân tích lỗi dịch tự động Anh-Việt Căn vào lý thuyết Corder (1981) Ellis (1997), luận án thực các bước sau để phân tích lỗi dịch tự động: thu thập các loại lỗi, xác định loại lỗi, miêu tả lỗi, giải thích lỗi đánh giá lỗi 1.3 Những lỗi ngôn ngữ dịch tự động Anh-Việt hợp đồng kinh tế 1.3.1 Đặc điểm dịch tự động a) Khái niệm dịch tự động Dịch tự động việc lập chương trình cho máy tính điện tử tự chuyển ngữ các văn từ một ngôn ngữ sang một ngôn ngữ khác Ngôn ngữ văn gốc gọi ngôn ngữ nguồn, ngôn ngữ văn dịch gọi ngôn ngữ đích Hai văn dịch gọi tương đương người đọc hiểu giống b) Những thuận lợi khó khăn dịch tự động - Thuận lợi dịch tự động dịch nhanh (tiết kiệm rất nhiều thời gian); chi phí thấp (nếu thuê người dịch chuyên nghiệp cần phải trả tiền theo số trang); có tính bảo mật cao cho người sử dụng dịch vụ (những dịch mang tính cá nhân) - Khó khăn dịch tự động chưa cho kết xác một cách nhất quán, dịch từ rời rạc mà không cần hiểu, đó, cần phải chỉnh sửa tay sau dịch tự động Ngoài ra, chất lượng dịch tự động thấp đối với văn có nhiều từ ngữ Dịch tự động dựa vào luật hình thức luật hệ thống nên gặp khó khăn đối với câu nhập nhằng Trong đó, dịch thủ công giải cách tập trung vào ngữ cảnh, sử dụng kinh nghiệm hay trực giác c) Các cách tiếp cận dịch tự động Theo Koeln (2014), có sáu cách tiếp cận dịch tự động: dịch tự động từ một (direct MT), dịch chuyển đổi cú pháp (syntactic-transfer MT), dịch tự động liên ngữ (interlingual MT), dịch tự động dựa ngôn ngữ có kiểm soát (controlled language MT), dịch tự động dựa ví dụ (example-based MT) dịch tự động dựa thống kê (SMT) Ngoài ra, có các tài liệu liệt kê bốn cách tiếp cận: dịch tự động dựa qui luật (rulebased MT), dựa sở tri thức (knowledge-based MT), dựa ngữ liệu (corpus-based MT) dựa cách tiếp cận lai (hybrid MTS) (Đinh Điền, 2006b) 1.3.2 Đặc điểm loại hình tiếng Việt tiếng Anh - Tiếng Việt xếp vào loại hình đơn lập (isolate) hay gọi loại phi hình thái, không biến hình, đơn tiết - Tiếng Anh xếp vào loại hình hòa kết (flexional) hay biến hình 1.3.3 Hợp đồng kinh tế a) Khái niệm hợp đồng kinh tế Hợp đồng kinh tế thỏa thuận văn bản, tài liệu giao dịch các bên ký kết việc thực công việc sản xuất, trao đổi hàng hóa, dịch vụ, nghiên cứu ứng dụng tiến bộ khoa học kỹ thuật các thỏa thuận khác có mục đích kinh doanh với quy định rõ ràng quyền nghĩa vụ bên để xây dựng thực kế hoạch mình b) Các loại hợp đồng kinh tế Dựa khác nhau, mà người ta phân hợp đồng kinh tế thành nhiều loại khác nhau: thời hạn thực hợp đồng, vào tính chất quan hệ hợp đồng vào nội dung giao dịch mối quan hệ hợp đồng 1.3.4 Nhận diện phân loại lỗi ngôn ngữ dịch tự động Dưới góc nhìn ngôn ngữ học, luận án khảo sát loại lỗi theo tiêu chí BLAST: Loại I: loại lỗi không hợp với cách nói người sử dụng ngôn ngữ đích tạm chấp nhận vì vẫn mang đủ nghĩa theo ngữ cảnh Loại II: xem sai hoàn toàn Có loại lỗi ngôn ngữ dịch tự động hợp đống kinh tế Anh-Việt phân tích luận án này: a) Lỗi tả dịch tự động hợp đồng kinh tế Anh-Việt bao gồm lỗi sai thành phần cấu trúc âm tiết (thanh điệu, phụ âm đầu, vần), lỗi viết hoa, lỗi viết tắt, lỗi dấu câu b) Lỗi từ vựng dịch tự động hợp đồng kinh tế Anh-Việt Những câu dịch ý nghĩa tạo lỗi ngữ nghĩa (sense) Theo tiêu chí BLAST, lỗi ngữ nghĩa thuộc lỗi từ vựng chủ yếu dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: lỗi nhập nhằng nghĩa lỗi chọn sai mục từ từ điển (ambiguity), lỗi hiểu sai nghĩa thành ngữ (idiom) lỗi hiểu sai nghĩa thuật ngữ (term) c) Lỗi ngữ pháp dịch tự động hợp đồng kinh tế Anh-Việt Lỗi ngữ pháp bao gồm: lỗi trật tự từ (word order); lỗi thừa hay thiếu một hay nhiều thành tố cấu trúc gọi lỗi thừa từ (extra), lỗi thiếu từ (missing) lỗi không hòa hợp chủ từ động từ (agreement) Nhận xét chương 1: Dịch tự động Anh-Việt các hợp đồng kinh tế một phương tiện hỗ trợ thiết thực hữu dụng cho người Do ngôn ngữ có tính tương đồng tính dị biệt, nên dịch tự động không mắc lỗi, chủ yếu lỗi từ vựng, lỗi tả lỗi ngữ pháp Google Translate giúp cho nhân loại hiểu qua dịch thuật, với ưu điểm dịch nhanh với số lượng trang văn khá nhiều thời gian ngắn Tuy nhiên, khác loại hình ngôn ngữ chẳng hạn tiếng Anh, ngôn ngữ hòa kết, tiếng Việt, ngôn ngữ đơn lập, nên hạn chế dịch máy tránh khỏi Vì vậy, cần có một sở lý thuyết để minh định cho vấn đề đặt ra, cách tiếp cận giúp hiểu rõ nguyên nhân mắc lỗi các phần mềm vi tính đời hỗ trợ cho ngôn ngữ học BLAST, BLAST-VCL Đó tiền đề nhận diện phân loại lỗi lỗi tả, lỗi từ vựng lỗi ngữ pháp Khi nghiên cứu gì mà các nhà ngôn ngữ học trước nêu vấn đề dịch tự động, đưa một tranh tổng quát các khái niệm có liên quan đến dịch tự động chương này, đồng thời cố gắng giải thích nguyên nhân sở để phân tích phân loại lỗi, sở nghiên cứu quy luật chi phối chúng Dịch tự động một vấn đề lý thú đòi hỏi một nghiên cứu sâu để tìm quy tắc hoạt động chúng, giải pháp hữu hiệu, khả thi để khắc phục loại lỗi mà khảo sát sở ngữ liệu các hợp đồng kinh tế thương mại Anh – Việt Các khái niệm, quy tắc nêu chương chưa đủ để giải thích mọi tượng khả đóng góp dịch tự động Google Translate, chúng một số kết luận mang tính lý thuyết rút từ liệu thực tế mà thu thập thời gian làm luận án Các khái niệm quy tắc mong gợi ý cho nghiên cứu đề tài sở liệu phong phú CHƯƠNG PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG Sau thống kê lập các tiêu chí để phân loại qua phần mềm BLAST, nhận thấy có hai loại I loại II (theo qui ước 1.3.4 chương 1) xuất hầu hết các loại lỗi khảo sát 2.1 Lỗi tả Kết thống kê các loại lỗi tả phân tích trình bày luận án có tống cộng 867 lỗi tả Trong số đó, lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II chiếm tỉ lệ cao nhất 40,95 % (355 lỗi) Kế đến lỗi dịch sai chữ số - loại II (chiếm 27,68%), lỗi dịch sai dấu câu - loại II (chiếm 16,61 %) Lỗi chiếm tỉ lệ thấp nhất lỗi viết tắt lỗi viết hoa (chỉ chiếm từ 0,35 % đến 1,27 %) Ngoài ra, các lỗi sai thành phần cấu trúc âm tiết, cụ thể chuyển dịch tự động bị thiếu phụ ầm đầu Trường hợp dịch thiếu âm tiết chiếm tỉ lệ đáng kể (5,76 %) thời điểm khảo sát ngữ liệu luận án (năm 2012-2014), đặc điểm bật dịch tự động thống kê phần mềm Google Translate lỗi khắc phục kể từ năm 2015 đến 2.1.1 Lỗi dịch sai chữ số - loại I (gồm lỗi chiếm tỉ lệ 0,81%) dịch thiếu quán việc xét “chữ” hay “số” Mặc dù lỗi dịch sai chữ số vẫn mang đủ nghĩa theo ngữ cảnh Ví dụ: March 16, 1994 (Ngữ liệu LEGAL, số 707), (DTC) ngày 16 tháng năm 1994 (DTĐ) ngày 16 Tháng Ba 1994 Vậy, dịch thù công văn phong tiếng Việt dịch tự động 2.1.2 Lỗi dịch sai chữ số - loại II (có 240 lỗi, chiếm tỉ lệ 22,68%) tạo nên câu văn hoàn toàn không lưu loát đồng thời không mang đầy đủ ý nghĩa theo ngữ cảnh Ví dụ: 2.2 The Rules on license trade (Ngữ liệu LEGAL, số 353) (DTĐ) 2,2 Các quy định giấy phép thương mại Trường hợp máy hiểu số thập phân nên dịch sang tiếng Việt đổi dấu chấm thành dấu phẩy số “2.2” làm cho câu nghĩa 2.1.3 Lỗi dịch sai dấu câu - loại I (có 28 lỗi chiếm 3,23 %) đặt thiếu dư các dấu chấm, dấu phẩy, dấu hai chấm câu lỗi viết hoa viết thường Tuy nhiên, chúng vẫn mang đủ nghĩa theo ngữ cảnh Ví dụ: Article 17 The mode of payment (Ngữ liệu LEGAL, số 353), (DTĐ) Điều 17 Phương thức toán Trong ví dụ này, thấy ngôn ngữ đích vẫn có nghĩa vì dấu chấm từ “Phuơng” vẫn đuợc viết hoa 2.1.4 Lỗi dịch sai dấu câu - loại II (gồm có 144 lỗi, chiếm 16,61%) đa số xảy dấu phẩy lược âm (‘s ) gây hiểu nhầm dấu chấm hỏi (?) bỏ qua không dịch Ví dụ: Robert’s normal business days (Ngữ liệu NTY, số 130), (DTĐ) ngày làm việc bình thường Robert? 2.1.5 Lỗi thành phần cấu trúc âm tiết - loại II (chiếm 3,34%, 29 lỗi) dịch thiếu phụ âm đầu ngôn ngữ đích tạo nên câu văn hoàn toàn sai Chẳng hạn như: Any audit (Ngữ liệu NTY, số 26), (DTĐ) “iểm toán”, thiếu phụ âm “k” từ “kiểm toán” Hầu hết các lỗi phân tích luận án Google Translate dịch vào tháng 8/2012, từ sau tháng đến nay, lỗi không xuất hiện, có lẽ thời gian Google Translate điều chỉnh 2.1.5 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I (có 21 lỗi, chiếm 2,42%) Một số từ tiếng Anh sử dụng Việt hóa nên giữ nguyên gốc dịch tạo lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I Chẳng hạn “fax letters” (điện báo) (Ngữ liệu LEGAL, số 175) dịch tự động “thư fax” điều không ảnh hưởng đến ngôn ngữ nguồn vì vẫn mang đầy đủ nghĩa so với ngữ cảnh 2.1.6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II (có 355 lỗi, chiếm 40,95%) Lỗi thường người nhập ngữ liệu khâu đánh máy sai tả, vì các từ không tìm thấy từ điển.Vậy cần sửa lỗi tả ngôn ngữ nguồn có câu dịch Ví dụ: contitons of the guarantee (ngữ liệu LEGAL, số 56), (DTĐ) contitons bảo lãnh 2.1.7 Lỗi viết hoa - loại I (gồm lỗi, chiếm 0,69%) Lỗi viết hoa - loại I vẫn mang đủ nghĩa theo ngữ cảnh vì các văn gặp các từ viết hoa thường để nhấn mạnh xem danh từ riêng, điều không ảnh hưởng đến ý nghĩa câu văn, không mặt ngữ âm Ví dụ: up to.….Dollars (ngữ liệu, XH-MK, số 6), (DTĐ) lên đến … Dollars 2.1.8 Lỗi viết hoa - loại II (chiếm 0,92% , lỗi) Những trường hợp viết hoa tùy tiện, ngẫu hứng bất cẩn trường hợp dấu ba chấm ( ) lại có thêm dấu chấm thứ tư, điều máy không hiểu xem dấu chấm cuối câu từ đầu câu viết hoa Chính vì thế, câu văn không ý nghĩa Ví dụ: the … language and the other in the English language (ngữ liệu, XH-MK, số 477), (DTĐ) Ngôn ngữ khác tiếng 2.1.9 Lỗi viết tắt – loại I (có lỗi, chiếm 0,35%) Lỗi viết tắt - loại I vẫn mang đủ nghĩa theo ngữ cảnh Ví dụ: ABC Co Ltd (ngữ liệu,TLTL, số 477), (DTĐ) ABC Công ty TNHH 2.1.10 Lỗi viết tắt – loại II (có 11 lỗi, chiếm 1,27%) Lỗi viết tắt - loại II tạo nên câu văn sai hoàn toàn Ví dụ: this GCC Clause 10 shall be responsibility of the Employer, (ngữ liệu, CKT, số 122), (DTĐ) khoản GCC 10? Được trách nhiệm Chủ đầu tư, 2.1.11 Các lỗi tả khác- loại II (chiếm 1,73% , 15 lỗi) Một số lỗi tả khác phân tích luận án vì chúng không thuộc các tiêu chí sẵn có phần mềm, các lỗi tạo nên câu văn hoàn toàn sai Ví dụ: b) Claim a penalty for breach (ngữ liệu LEGAL, số 326), (DTĐ) B) Bổ xung vào một hình phạt Vậy, trường hợp dịch tự động viết hoa chữ B (dạng số thứ tự) sai tả tiếng Việt từ “xung” Một ví dụ khác như: no Article on prince (ngữ liệu LEGAL, số 435), (DTĐ) Điều hoàng tử Trường hợp cho thấy các lỗi tả xảy nhập ngữ liệu 10 sai ngôn ngữ nguồn vẫn dịch sang tiếng Việt vì từ có từ điển Google Translate Cụ thể “prince” (lẽ ngữ cảnh phải viết “price” mang nghĩa “giá cả”) ngôn ngữ nguồn bị nhập sai, kéo theo dịch tự động hiểu sai nghĩa Lỗi khá phổ biến dễ sửa vì cần cẩn thận khắc phục 2.2 Lỗi từ vựng Lỗi từ vựng bao gồm lỗi nhập nhằng, lỗi hiểu sai thành ngữ lỗi hiểu sai nghĩa thuật ngữ.Theo kết thống kê, lỗi từ vựng chiếm tần suất cao nhất Đáng kể nhất lỗi dịch sai thuật ngữ hợp đồng kinh tế loại I II chiếm 84,95% so với loại lỗi từ vựng, lỗi nhập nhằng - loại II có 13,29% Tỉ lệ lỗi thấp nhất lỗi hiểu sai thành ngữ - loại II gồm có 0,82% lỗi nhập nhằng - loại I chiếm tỉ lệ thấp 0,94% 2.2.1 Lỗi nhập nhằng - loại I (có 24 lỗi chiếm 0,94% ) lỗi chọn sai mục từ từ điển Ví dụ: be directly liable to pay damages to the innocent party, (Ngữ liệu LEGAL, số 220), (DTĐ) trực tiếp chịu trách nhiệm bồi thường thiệt hại cho bên vô tội, Lẽ câu phải dịch “chịu trách nhiệm tài sản trực tiếp với bên bị vi phạm” 2.2.2 Lỗi nhập nhằng - loại II (có 340 lỗi chiếm 13,29%): tương tự lỗi trên, chọn sai mục từ từ điển mà tạo câu văn nghĩa Ví dụ: deadline, Party A (Ngữ liệu XH-MK, số 161), (DTĐ) Đảng thời hạn, A; từ Party có nghĩa Bên 2.2.3 Lỗi dịch sai thành ngữ- loại II (chiếm 0,82%, 21 lỗi) dịch tự động không hiểu thành ngữ câu dịch từ làm mất ý nghĩa ngôn ngữ nguồn Ví dụ: discrepancies the same shall be explained (Ngữ liệu TLTL, số 93), (DTC) không rõ nghĩa thì đuợc giải thích, (DTĐ) dịch “bất giải thích.” 2.2.4 Lỗi hiểu sai nghĩa thuật ngữ - loại I (có 312 lỗi chiếm 12,20%) lỗi dịch không với nghĩa thuật ngữ ngôn ngữ nguồn vẫn mang đủ nghĩa theo ngữ cảnh Chẳng hạn như: attach with the application for this purpose, (Ngữ liệu LEGAL, số 1755), có nghĩa gửi kèm theo, (DTĐ) dịch đính kèm với các ứng dụng cho mục đích 2.2.5 Lỗi hiểu sai nghĩa thuật ngữ - loại II (có 1.861 lỗi, chiếm tỉ lệ cao nhất 72,75%) lỗi dịch không ngôn ngữ nguồn mà không nghĩa Ví dụ: this Agreement (Ngữ liệu NTY, số 64) có nghĩa Hợp đồng này, (DTĐ) Hiệp định 2.3 Lỗi tả lỗi từ vựng thuộc lỗi hệ thống lỗi ngẫu nhiên 2.3.1 Lỗi tả lỗi từ vựng thuộc lỗi hệ thống Có 12 loại lỗi tả loại từ vựng thuộc lỗi hệ thống 17 loại lỗi xuất chương này, có 357 lỗi chia thành 13 loại thuộc lỗi hệ thống Trong đó, lỗi hiểu sai thuật ngữ - loại II chiếm tỉ lệ cao nhất 35,57% (127 lỗi) Kế 11 lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại II (58 lỗi – 16,25%) lỗi nhập nhằng - loại II (55 lỗi – 15,54%) Tỉ lệ thấp nhất lỗi viết hoa lỗi viết tắt 2.3.2 Lỗi tả lỗi từ vựng thuộc lỗi ngẫu nhiên Trong tổng số 17 loại lỗi khảo sát chương bao gồm 12 loại lỗi tả (30,97%) có loại lỗi từ vựng chiếm tỉ lệ gấp đôi lỗi tả (69,03%) Trong lỗi tả, có nhất loại lỗi giữ nguyên từ thuộc ngôn ngữ nguồn – loại I không thuộc lỗi ngẫu nhiên Trong lỗi từ vựng, lỗi hiểu sai thuật ngữ - loại II chiếm tỉ lệ cao nhất 32,98% (279 lỗi), 154 lỗi nhập nhằng - loại II (chiếm tỉ lệ 18,20%), lỗi viết tắt lỗi viết hoa chiếm tỉ lệ thấp nhất (từ 0,24% đến 0,59%) Nhận xét chương 2: Trong chương hai, sở lý luận từ việc so sánh đối chiếu ngôn ngữ dịch tự động ngôn ngữ dịch thủ công, kết thu tổng cộng 17 loại lỗi có 12 lỗi tả loại lỗi từ vựng phân tích Ngoài việc mô tả phân tích lỗi từ vựng tả thuộc lỗi ngôn ngữ dịch tự động Anh-Việt, thấy cần phải khảo sát thêm lỗi hệ thống lỗi ngẫu nhiên nhằm vừa làm sáng tỏ nét đặc thù ngôn ngữ vừa đóng góp vào thiếu sót cần cải tiến chương trình dịch tự động lĩnh vực từ vựng, một khía cạnh mới khám phá hy vọng hướng khắc phục có nhiều tiềm mang nhiều triển vọng 12 CHƯƠNG PHÂN TÍCH LỖI NGỮ PHÁP Trong chương khảo sát các loại lỗi ngữ pháp – cấu trúc Đối với loại lỗi cấu trúc, thấy có lỗi thừa hay thiếu một hay nhiều thành tố cấu trúc Chúng gọi lỗi thừa từ lỗi thiếu từ Việc phân loại theo cách giúp dễ dàng nhận dạng lỗi một cách cụ thể dịch tự động Ngoài có lỗi trật tự từ, lỗi dịch sai từ công cụ lỗi dịch sai hòa hợp chủ từ động từ phân tích chương 3.1 Lỗi trật tự từ 3.1.1 Lỗi trật tự từ theo tiêu chí BLAST Theo tiêu chí BLAST, có dạng lỗi trật tự từ xuất dịch tự động Trong đó, phạm vi cụm từ khoảng cách xa – loại IV chiếm tỷ lệ cao nhất Phạm vi lỗi trật tự từ phạm khoảng loại vi cách từ gần I IV xa IV số lỗi 13 21 42 % lỗi 0,96 1,55 3,10 phạm khoảng loại số % lỗi vi cách lỗi cụm gần I 53 3,92 từ IV 112 8,28 Xa I 72 5,32 IV 418 30,89 Với 448 cặp câu Anh-Việt loại ngữ liệu khảo sát, số lượng câu chứa lỗi trật tự từ có nhất lỗi nhiều nhất lỗi Kết số câu chứa lỗi tổng kết sau: 273 câu chứa lỗi, 123 câu chứa lỗi, 25 câu chứa lỗi, câu chứa lỗi, câu chứa lỗi 16 câu lỗi 3.1.2 Lỗi trật tự từ theo tiêu chí BLAST-VCL Để phát huy tính ưu việt phần mềm BLAST, đề nghị nhóm nghiên cứu xử lý tiếng Việt (Vietnamese Computational Linguistics – VCL) khoa Công nghệ thông tin Trường Đại học Khoa học tự nhiên, TP HCM, xây dựng bổ sung tiêu chí phân loại lỗi trật tự từ cho phù hợp với loại hình ngôn ngữ tiếng Anh tiếng Việt xử lý luận án Phần mềm mới đặt tên BLAST-VCL (viết tắt BVCL) Theo tiêu chí BLAST-VCL, lỗi trật tự từ chia thành 13 nhóm với 60 loại đặt tên BVCL kèm theo số thứ tự đánh số từ đến 60 BLAST-VCL phân chia lỗi trật tự từ các phạm vi sau: Nhóm BVCL Lỗi trật tự từ theo tiêu chí BLAST BVCL-1 - BVCL-10 BVCL-11 - BVCL-22 BVCL-28 BVCL-23 - BVCL-27 BVCL-29 - BVCL-31 BVCL-32 - BVCL-42 BVCL-43 - BVCL-49 BVCL-50 - BVCL-52 BVCL-53 - BVCL-60 phạm vi ngữ khoảng cách xa – loại I phạm vi ngữ khoảng cách xa – loại II phạm vi ngữ khoảng cách gần – loại I phạm vi ngữ khoảng cách gần – loại II phạm vi từ khoảng cách xa – loại II phạm vi từ khoảng cách gần – loại I phạm vi từ khoảng cách gần – loại II 13 Ngoài ra, các nhóm BVCL xếp theo cấu trúc câu sau: Cấu trúc Chủ động bị động Tính từ danh từ Trạng từ - tính từ Mạo từ - danh từ Liên từ Danh từ danh từ Danh từ - sở hữu cách danh từ Số - danh từ Giới từ - danh từ Chủ từ - động từ Động từ trạng từ Động từ - túc từ Động từ động từ Tiêu chí BVCL BVCL-1, BVCL-14, BVCL-23, BVCL-35, BVCL-43 BVCL-53 BVCL-2, BVCL-11, BVCL-24, BVCL-36, BVCL-44 BVCL-54 BVCL-3, BVCL-15, BVCL-32 BVCL-45 Số lỗi/ % 29 lỗi (4,05%) BVCL-4, BVCL-12, BVCL-46 BVCL-55 lỗi (0,84%) BVCL-5, BVCL-13 BVCL-33 BVCL-7, BVCL-17, BVCL-34, BVCL-48 BVCL-57 BVCL-6, BVCL-16, BVCL-25, BVCL-37, BVCL-47, BVCL-50 BVCL-56 13 lỗi (1,81%) 132 lỗi (18,41%) 234 (32,64%) BVCL-8, BVCL-18, BVCL-26, BVCL-38, BVCL-49, BVCL-51 BVCL-58 BVCL-9, BVCL-19, BVCL-27, BVCL-39 BVCL-59 BVCL-28 26 lỗi (3,63%) BVCL-20, BVCL-29 BVCL-40 18 lỗi (2,51%) BVCL-10, BVCL-21, BVCL-30, BVCL-41 BVCL-52 BVCL-22, BVCL-31, BVCL-42 BVCL60 13 lỗi (1,81%) 167 lỗi (23,29%) 17 lỗi (2,37%) 34 lỗi (4,74%) 14 lỗi (1,95%) 14 lỗi (1,95%) Một số ví dụ minh họa lỗi trật tự từ theo cấu trúc câu: Ví dụ (a): the parties exchange correspondence (Ngữ liệu LEGAL, số 38) (DTC) các bên nhận tài liệu giao dịch (DTĐ) các thư từ trao đổi bên Ví dụ (b): has seriously violated the law (Ngữ liệu LEGAL, số 1342) (DTC) vi phạm pháp luật nghiêm trọng (DTĐ) vi phạm nghiêm trọng pháp luật Ví dụ (c): The rights (Ngữ liệu LEGAL, số118), có nghĩa Quyền, dịch tự động (?) Quyền Nhận xét: ví dụ (a) có cấu trúc: chủ từ - vị từ, (b) cấu trúc động từ - túc từ (c) cấu trúc số - danh từ 3.2 Lỗi dịch sai từ công cụ - loại II có 64 lỗi chiếm 4,73% Ví dụ: (NNN) on all essential terms (Ngữ liệu LEGAL, số 38) (DTC) tất điều khoản chủ yếu (DTĐ) tất các điều khoản 14 3.3 Lỗi dịch sai hòa hợp chủ từ động từ - loại II hay gọi lỗi phù ứng lỗi hòa hợp chủ từ động từ các từ câu, tạo nên câu văn hoàn toàn sai Lỗi chiếm 0,12% (6 lỗi) Ví dụ: (NNN) follow Party A’s instructions (Ngữ liệu XH-MK, số 178) (DTC) bên A đề (DTĐ) theo Đảng hướng dẫn A? Nhận xét: dịch tự động dịch theo trật tự ngôn ngữ nguồn, mặt ngữ pháp sai phù ứng mà sai khả chọn thuật ngữ sở hữu cách 3.4 Các loại lỗi thừa từ thiếu từ Lỗi thừa từ thiếu từ thường vi phạm các quy tắc cấu tạo các tượng dịch thừa thiếu một thành phần câu làm cho câu tối nghĩa 3.4.1 Lỗi thừa từ Các ví dụ sau minh họa cho lỗi thừa từ, các từ dịch thừa đuợc in đậm câu dịch tự động (DTĐ) a) Lỗi thừa từ nội dung - loại I có 34 lỗi, chiếm 1,16 % Ví dụ: to be calculated in the same manner (Ngữ liệu LEGAL, số 789), (DTĐ) tính toán theo cách tương tự b) Lỗi thừa từ nội dung - loại II có số 690 lỗi, chiếm 23,63% Ví dụ: The Borrower is required to provide (Ngữ liệu XH-MK, số 23), (DTĐ) Bên vay cần thiết để cung cấp c) Lỗi thừa từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62 % Ví dụ: as the right to enter into (Ngữ liệu LEGAL, số 154), (DTĐ): d) Lỗi thừa từ ngữ pháp - loại II có 411 lỗi chiếm 14,08% Ví dụ: the business which will carry out (Ngữ liệu LEGAL, số 23), (DTĐ): doanh nghiệp mà thực e) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I có lỗi, chiếm 0,14% Ví dụ: apart from damages paid (ngữ liệu LEGAL, số 225) (DTC) mức phạt (DTĐ) việc trả tiền bồi thường thiệt hại f) Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II có 10 lỗi, chiếm 0,34 % Ví dụ: results from (i) the correction (ngữ liệu NTY, số 57) (DTC) (i) việc chỉnh sửa (DTĐ) kết yêu cầu bồi thường từ điều chỉnh 2.4.2 Lỗi thiếu từ Đối với lỗi thiếu từ, qua các ví dụ, so sánh dịch tự động với dịch thủ công (DTC) để nhận biết các từ thiếu sót: a) Lỗi thiếu từ nội dung - loại I có 34 lỗi, chiếm 1,16 % Ví dụ: has not registered, in accordance with the law, (ngữ liệu LEGAL, số 23), (DTC) đăng ký kinh doanh theo quy định pháp Luật (DTĐ) không đăng ký theo quy định pháp luật, b) Lỗi thiếu từ nội dung - loại II có 682 lỗi, chiếm 23,36% Ví dụ: any kind necessary (ngữ liệu TLTL, số 109), (DTC) thuộc - loại cần thiết (DTĐ) bất loại cần thiết c) Lỗi thiếu từ ngữ pháp - loại I có 18 lỗi, chiếm 0,62% Ví dụ: Clause are essential terms of the contract (ngữ liệu LEGAL, số 52), (DTC) Điều điều khoản chủ yếu hợp đồng kinh tế 15 (DTĐ) Khoản điều khoản cần thiết hợp đồng d) Lỗi thiếu từ ngữ pháp - loại II có 111 lỗi, chiếm 3,8% Ví dụ: in the same process as judge, (ngữ liệu LEGAL, số 538) (DTC) vụ án với tư cách thẩm phán, (DTĐ) trình Thẩm phán, 3.5 Lỗi ngữ pháp thuộc lỗi hệ thống lỗi ngẫu nhiên Tương tự cách trình bày mục 2.3 Chương 2, lỗi ngữ pháp thuộc lỗi hệ thống lỗi ngẫu nhiên 3.5.1 Lỗi ngữ pháp thuộc lỗi hệ thống Tính tới thời điểm tháng 2/2014 lỗi ngữ pháp thuộc lỗi hệ thống xuất lỗi trật tự từ Trong ba ngữ liệu khảo sát, lỗi trật tự từ thuộc phạm vi cụm từ/ ngữ khoảng cách xa – loại II thuộc lỗi hệ thống có số lỗi nhiều nhất 86, chiếm tỷ lệ 44,56% Ở phạm vi cụm từ/ ngữ khoảng cách xa - loại I thuộc lỗi hệ thống có 41 lỗi (21,24%) Với phạm vi từ khoảng cách xa - loại II thuộc lỗi hệ thống có 23 lỗi, chiếm 11,92% Phạm vi cụm từ/ ngữ khoảng cách gần - loại I thuộc lỗi hệ thống có số lỗi 21, chiếm 10,88% Với phạm vi cụm từ/ ngữ khoảng cách gần - loại II thuộc lỗi hệ thống có 12 lỗi, chiếm 6,22% Cuối cùng, phạm vi từ khoảng cách gần - loại II thuộc lỗi hệ thống 10 lỗi chiếm 5,18% 3.5.2 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên Lỗi ngẫu nhiên chiếm tỉ lệ cao lỗi hệ thống đặc tính loại hình dịch tự động khác hẳn đặc tính dịch thủ công Chất lượng phương pháp dịch tự động thống kê Google Translate lệ thuộc vào nguồn ngữ liệu Vì vậy, dịch tự động vẫn chưa cho kết thực tốt vì nguồn ngữ liệu mang yếu tố chủ quan bất cẩn nhập ngữ liệu cho ngôn ngữ nguồn (đánh máy sai) giai đoạn tiền xử lý ngữ liệu, tách các cặp câu song ngữ Anh-Việt chưa hoàn chỉnh Điều dẫn đến tình trạng lần sau tốt lần trước lần trước dịch tốt lần sau Theo thống kê các ngữ liệu luận án, lỗi ngẫu nhiên xảy tất các trường hợp lỗi từ vựng lỗi ngữ pháp, các trường hợp sau chiếm tỉ lệ đáng kể hơn: lỗi sai dấu câu, sở hữu cách, viết hoa không cách, lỗi dịch thừa từ dịch sát nghĩa từ một, lỗi dịch thiếu từ câu quá dài, cuối lỗi giao thoa từ vựng (nghĩa giữ nguyên từ ngôn ngữ nguồn) đa số danh từ riêng lỗi tả xuất phát từ ngôn ngữ nguồn tạo lỗi “mất đồng bộ” sử dụng hai ngôn ngữ một câu Kết lỗi ngữ pháp khảo sát luận án cho dịch tự động nhiều lần thay đổi theo thời gian nghĩa lỗi ngẫu nhiên Trong đó, các loại lỗi trật tự từ thuộc lỗi ngẫu nhiên cao nhất (chiếm 74,46%) so với các loại lỗi ngữ pháp khác Kế đến, lỗi cú pháp chiếm 3,17% gồm: lỗi dịch sai từ công cụ (8,84%), lỗi gán nhãn từ loại sai (7,27%) Tiếp theo, lỗi không hòa hợp chủ từ động từ (5,5%); cuối có lỗi dịch sai ý nghĩa sở hữu chiếm 3,93% 16 3.6 Lỗi hệ thống lỗi ngẫu nhiên thông qua khoảng cách Levenshtein Để đánh giá kết dịch Google Translate năm 2012 2014, trước tiên, sử dụng 2.865 cặp câu Anh-Việt trích ba loại ngữ liệu [LEGAL], [TLTL] [NTY] Trong đó, tiếng Anh câu nguồn tiếng Việt câu tham chiếu (người dịch) Sau đó, sử dụng phần mềm Google Translate dịch tự động câu nguồn vào nhiều thời điểm khác năm 2012 năm 2014 Tiếp theo, sử dụng khoảng cách Levenshtein để so sánh đối chiếu nhận kết sau: năm 2014 dịch tốt năm 2012 với số cặp câu 1053 (chiếm 36,75%), ngược lại, năm 2012 dịch tốt năm 2014 nhận 432 cặp câu (chiếm 15,08%) hai lần dịch năm 2012 2014 tương đương có 1380 cặp câu (chiếm 48,17%) 3.6.1 Kết lỗi hệ thống thông qua khoảng cách Levenshtein Lỗi hệ thống chiếm 48,17% so sánh lỗi hệ thống lỗi ngẫu nhiên Ví dụ: The names and the positions of the parties to the dispute and their representatives; (Ngữ liệu LEGAL, số 1650), (DTC) Tên chức vụ các bên tham gia vụ kiện người đại diện; hai lần dịch tự động năm 2012 2014 nhau: Tên vị trí các bên tranh chấp các đại diện họ; với L1=0, L2=33 L3=33 3.6.2 Kết lỗi ngẫu nhiên thông qua khoảng cách Levenshtein Độ lệch Levenshtein L2 L3 lớn cho kết lỗi ngẫu nhiên Có hai trường hợp lỗi ngẫu nhiên: dịch tự động năm 2014 dịch tốt dịch tự động năm 2012 ngược lại a) Dịch tự động năm 2014 tốt năm 2012 Trong lỗi ngẫu nhiên, L2 lớn L3 đồng thời độ lệch Levenshtein L2 L3 lớn (L2 – L3 >4) thì hệ thống dịch tự động năm 2014 dịch tốt năm 2012 b) Dịch tự động năm 2012 tốt năm 2014 Tương tự trên, thấy: L2 nhỏ L3 đồng thời độ lệch Levenshtein L2 L3 lớn (L3 – L2 > 4) thì hệ thống dịch tự động 2012 dịch tốt hệ thống dịch tự động 2014 17 Nhận xét chương 3: Trong chương ba, phân tích lỗi ngữ pháp, tiêu biểu nhất lỗi trật tự từ Do trật tự từ hai ngôn ngữ tiếng Anh tiếng Việt khác nhau, nên vấn đề không tránh khỏi máy nhận diện cấu trúc quá trình chuyển dịch Qua minh chứng lỗi ngữ pháp thực tiễn dịch tự động, ta thấy, các cặp câu sai các lỗi ngữ pháp khác nhau, câu trùng lặp ngữ liệu nguồn, kết lỗi ngữ pháp đa dạng phong phú nhiều chiều, tất hướng tới một vấn đề chung đến tháng năm 2014 Google Translate vẫn chưa hiểu luật trật tự từ chuyển dịch hai ngôn ngữ Anh-Việt, vấn đề sở hữu cách không hiểu lập trình một cách thông minh, linh hoạt hệ thống nhận diện cấu trúc Điều cần thấy nhờ vào phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST, nhận biết khuyết điểm máy dịch cách nhận diện chuyển dịch linh hoạt cấu trúc câu, đặc biệt cụm từ Nhờ vào đó, hiểu thêm luật cú pháp hai ngôn ngữ qua người dịch qua máy dịch Tuy nhiên, một đóng góp không nhỏ máy dịch tự động thấy bên cạnh lỗi trật tự từ nằm lỗi ngữ pháp, máy dịch cho kết dịch nhiều loại trật tự từ vốn có khác biệt hai ngôn ngữ Anh-Việt, thể nhiều cặp câu Điều một tiến bộ đáng ghi nhận khoa học công nghệ, ngôn ngữ học máy tính lĩnh vực dịch tự động Để khắc phục lỗi trật tự từ, các lỗi ngữ pháp - cấu trúc khác (lỗi dịch sai từ công cụ, lỗi thừa từ, lỗi thiếu từ,…) các nhà ngôn ngữ học, đặc biệt các nhà Việt ngữ phải bổ sung tập huấn lại cho Google Translate cụm từ tiếng Việt chuyển dịch từ ngôn ngữ nguồn sang ngôn ngữ đích theo cụm, cụm bao gồm thành ngữ, thuật ngữ trật tự kết hợp theo hệ thống để có một dịch thật Việt Nam, vì đảo lộn trật tự từ dịch từ Anh sang Việt làm cho dịch không mang tính đặc thù văn hóa Việt thứ tiếng Việt “giống tiếng nước ngoài” bị bóp méo theo cách dịch trật tự từ ngôn ngữ Châu Âu, ngôn ngữ Anh Việc phân tích lỗi ngữ pháp chương trình dịch tự động một lần xác nhận gì cần cải tiến phương diện ngữ pháp mặt khác khẳng định hạn chế mà chương trình dịch tự động, gì cần cải tiến thời gian tới 18 KẾT LUẬN Qua ba chương khảo sát, luận án đúc kết các kết sau: Dịch tự động nhanh nhiều so với dịch thủ công kết dịch chưa có độ xác cao, nên cần có kết hợp chặt chẽ ngôn ngữ học tin học để cải thiện chất lượng dịch tự động Phương thức nhận diện lỗi ngữ pháp theo tiêu chí BLAST giúp nhận biết khuyết điểm máy dịch cách nhận diện chuyển dịch linh hoạt cấu trúc câu, đặc biệt cụm từ Tuy nhiên, một đóng góp không nhỏ dịch tự động thấy bên cạnh lỗi trật tự từ nằm lỗi ngữ pháp, máy dịch cho kết dịch nhiều loại trật từ từ vốn có khác biệt hai ngôn ngữ Anh - Việt, thể nhiều cặp câu Điều một tiến bộ đáng ghi nhận khoa học công nghệ, ngôn ngữ học máy tính lĩnh vực dịch tự động Luận án định vị các nhóm lỗi lỗi từ vựng, lỗi tả lỗi ngữ pháp chương trình dịch, lý giải nguyên nhân gây khác biệt dịch tự động dịch thủ công các ngữ liệu hợp đồng kinh tế chuyển dịch Anh sang Việt với tổng số cặp câu 3.461 Luận án nhận Google Translate chưa hiểu luật trật tự từ, điểm khác biệt hai ngôn ngữ Anh Việt Vì thế, lỗi trật tự từ khảo sát khá tỉ mỉ luận án Sự tương tác người xử lý lỗi dịch tự động với sản phẩm dịch đánh giá qua hai lần dịch thử nghiệm tại hai thời điểm khác phân tích luận án, cho thấy khác hai ngôn ngữ lập thành hệ thống cho các loại lỗi hệ thống Vai trò các lỗi ngẫu nhiên lỗi hệ thống cung cấp kiến thức cho người lập trình hệ thống người dùng chương trình dịch tự động điểm hạn chế chương trình dịch nhằm đưa giải pháp cụ thể khả thi để cải tiến Quan điểm phân loại lỗi luận án khai thác khá đầy đủ lực dịch tự động chương trình dịch qua thử nghiệm liên tục hai năm, so sánh đối chiếu sản phẩm dịch - ngữ liệu thực tế thời điểm khác nhau, cho thấy cách hiểu lỗi cung cấp đường dẫn vào một mô hình khai thác lỗi lý tưởng để hướng lộ trình khắc phục cho ngôn ngữ phải thể tư người ngữ từ ngôn ngữ nguồn sang ngôn ngữ đích Luận án tìm hiểu mối quan hệ ngôn ngữ dịch tự động ngôn ngữ dịch thủ công với phương pháp tiếp cận khai thác phần mềm BLAST, hỗ trợ cho người nghiên cứu có sở khoa học hợp lý để phân tích Những đóng góp hạn chế luận án * Đóng góp Luận án đặt vấn đề đối chiếu lỗi một cách có hệ thống một phạm vi rộng gồm nhiều văn hợp đồng kinh tế với số lượng 3.387 cặp câu song ngữ Anh Việt chương trình dịch tự động Đây điểm mới luận chưa thực Việt Nam Luận án lập tiêu chí từ phần mềm BLAST để giải khó khăn tồn đọng từ nhiều năm dịch tự động mắc phải BLAST nhận diện lỗi chuyển từ ngôn ngữ nguồn sang ngôn ngữ đích dễ dàng tương đối xác Sau đó, để hỗ trợ cho BLAST, nhóm xử lý tiếng Việt cho đời BLAST-VCL, tiêu chí phần mềm tập trung giải các lỗi trật tự từ thuộc lỗi ngữ pháp 19 Luận án nêu bật loại lỗi phổ biến chấp nhận lỗi chấp nhận chương trình dịch tự động Luận án xác định khó khăn mà chương trình dịch tự động gặp phải quá trình chuyển dịch văn Anh-Việt theo cặp câu đồng thời cung cấp một số liệu đáng tin cậy cho việc huấn luyện chương trình dịch tự động nghiên cứu tương lai để cải tiến việc dịch tự động Luận án góp phần khẳng định xu nghiên cứu cải tiến dịch tự động để phục vụ ngày tốt cho người dùng, với các văn dịch nhanh, chi phí thấp văn đáp ứng nhu cầu lợi ích người dùng giai đoạn hội nhập quốc tế * Hạn chế Luận án bỏ ngỏ một số vấn đề cần quan tâm nghiên cứu sâu tương lai: Luận án chưa tìm hiểu sâu đề xuất các giải pháp khắc phục lỗi Số lần thử nghiệm chưa nhiều nên luận án chưa thể xác định thay đổi xảy lỗi hệ thống lỗi ngẫu nhiên lần dịch Luận án chưa sâu vào ngôn ngữ học tin học đạt kết khả quan hỗ trợ cho chương trình dịch tự động đạt hiệu Luận án vẫn chưa tiếp cận các loại văn khác, mà nghiên cứu hạn hẹp phạm vi Tóm lại, luận án thực các văn thuộc hợp đồng kinh tế, chưa mở rộng các loại hình khác Ngoài ra, luận án nghiên cứu dịch tự động một chiều từ Anh sang Việt Do đó, phần dịch tự động theo chiều ngược lại Việt – Anh, tác giả rất mong muốn tiếp tục thực tương lai gần 20 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN CỦA TÁC GIẢ *TIẾNG VIỆT 1) Trần Lê Tâm Linh (2013a), Khảo sát nét nghĩa trợ động từ “shall” Tạp chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng nam bộ, trang 44-50 2) Trần Lê Tâm Linh (2013b), Khảo sát thuật ngữ tiếng Anh- tiếng Việt ngữ liệu hợp đồng kinh tế, Tạp chí KHXH, Viện hàn lâm Việt Nam, viện KHXH vùng nam bộ, trang 45-49 3) Trần Vũ Hoàng Ưng, Nguyễn Thị Phương Như, Trần Lê Tâm Linh (2013), Cải tiến dịch tự động thống kê Anh-Việt phương pháp xóa "từ nhiễu", Hội thảo quốc gia lần thứ XVI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, trang 34-39 4) Nguyễn Thị Phương Như, Trần Vũ Hoàng Ưng, Nguyễn Thị Thanh Thảo, Trần Lê Tâm Linh (2014), Cải Tiến Chất Lượng Dịch tự động Thống Kê Việt – Anh Bằng Mô Hình Phát Sinh Từ Chức Năng, Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông-Đắk Lắk, 30-31/10/2014, trang 24-30 5) Huỳnh Quang Đức, Trần Lê Tâm Linh (2015), “Gán nhãn ngữ nghĩa song ngữ Anh Việt”, Hội thảo Quốc gia 2015 Điện tử, Truyền thông Công nghệ Thông tin (The 2015 National Conference on Electronics, Communications, and Information Technology - ECIT 2015) - thành phố Hồ Chí Minh, 10-11/12/2015, trang 71-76 *TIẾNG ANH 6) Tran Le Tam Linh (2013), Survey of Common Errors of English to Vietnamese Google Translate in Business Contract, Open Journal of Modern Linguistics, USA, Vol.3, No.2, 101-107 7) Phuoc Tran, Dien Dinh, Linh Tran (2013), Resolving Named Entity Unknown Word in Chinese-Vietnamese Machine Translation, The fifth international conference on knowledge and systems engineering- KSE 2013, trang 273-284 8) Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh (2013), A survey of named entity recognition in English-French-Vietnamse trilingual corpus, Hội thảo quốc gia lần thứ XVI: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, trang 611 9) Nguyễn Thị Châu Anh, Trần Lê Tâm Linh, Quách Trọng Liêm, Huỳnh Thái Lộc, Nguyễn Thị Hồng Yến (2013), A case study of translating interrogative sentences into English & Chinese from Google Translation Machine: Some suggestions for learners of the two languages as a foreign, 2013 International Conference on Innovation in English Teaching and Research, trang 25 21 10) Nguyễn Thị Thanh Thảo, Lê Ngọc Tấn, Lê Ngọc Tiến, Trần Lê Tâm Linh, Trần Vũ Hoàng Ưng, Nguyễn Thị Phương Như (2014), An Empirical Named Entity Tagging For Vietnamese By Using English – Vietnamese Bilingual (Thực nghiệm gán nhãn thực thể có tên cho tiếng Việt dựa vào song ngữ Anh-Việt), Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông-Đắk Lắk, 30-31/10/2014, trang 7-12 11) Huynh Quang Duc, Tran Le Tam Linh (2015), Semantic role labelling in bilingual English-Vietnamese corpus, International Journal of Mathematics and Computational Science, Vol.1, No.5, 2015, 260-267 22 ... Những lỗi ngôn ngữ dịch tự động Anh-Việt hợp đồng kinh tế 1.3.1 Đặc điểm dịch tự động a) Khái niệm dịch tự động Dịch tự động việc lập chương trình cho máy tính điện tử tự chuyển ngữ các. .. liên quan lỗi ngôn ngữ Google Translate dịch tự động hợp đồng kinh tế Anh-Việt bao gồm: đặc điểm dịch tự động - trình bày thuận lợi khó khăn dịch tự động, khái niệm hợp đồng kinh tế; đặc... lỗi dịch tự động Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu luận án lỗi dịch tự động Anh – Việt phần mềm Google Translate (dịch tự động thống kê ) dịch các hợp đồng kinh tế - Phạm

Ngày đăng: 16/06/2017, 02:13

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • CHƯƠNG 1. CƠ SỞ LÝ THUYẾT

    • 1.1.1. Khái niệm lỗi chính tả

    • 1.1.2. Khái niệm lỗi từ vựng

    • 1.1.3. Khái niệm lỗi ngữ pháp

    • 1.1.4. Lỗi hệ thống

    • 1.1.5. Lỗi ngẫu nhiên

    • 1.2.1. Định nghĩa lỗi dịch thuật và lỗi dịch tự động

    • a) Định nghĩa lỗi dịch thuật

    • b) Định nghĩa lỗi dịch tự động

    • Theo Hutchins và Somers (1992), các loại lỗi trong dịch tự động chính là những nhập nhằng (ambiguity) về từ vựng, cấu trúc và từ định lượng. Nhập nhằng từ vựng được nhấn mạnh trong phạm vi từ loại, từ đồng tự, từ đa nghĩa và nhập nhằng chuyển di / giao thoa. Nhập nhằng cấu trúc bao gồm nhập nhằng cấu trúc thực (real structural ambiguity) và nhập nhằng cấu trúc ngẫu nhiên (accidental structural ambiguity).

    • 1.2.2. Các bước xử lý ngữ liệu trước khi phân tích lỗi

    • a) Nhận dạng lỗi dịch tự động

    • b) Phân tích lỗi dịch tự động Anh-Việt

    • 1.3.1. Đặc điểm của dịch tự động

    • a) Khái niệm về dịch tự động

    • c) Các cách tiếp cận đối với dịch tự động

    • 1.3.2. Đặc điểm về loại hình của tiếng Việt và tiếng Anh

    • 1.3.3. Hợp đồng kinh tế

    • 1.3.4. Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động

    • a) Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt

Tài liệu cùng người dùng

Tài liệu liên quan