Báo cáo kỹ thuật: Xây dựng kho ngữ liệu song ngữ Anh Việt

46 160 0
Báo cáo kỹ thuật: Xây dựng kho ngữ liệu song ngữ Anh  Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo này bao gồm các báo cáo về nghiên cứu thiết kế liệt kê trong phụ lục hợp đồng: Nghiên cứu nội dung các kho ngữ liệu song ngữ; nghiên cứu tham khảo cấu trúc các kho ngữ liệu song ngữ; thiết kế nội dung kho ngữ liệu câu Anh Việt.

Báo cáo kỹ thuật Đề tài nhánh SP.74 Xây dựng kho ngư liệu song ngữ AnhViệt Ghi : Báo cáo bao gồm báo cáo nghiên cứu – thiết kế liệt kê phụ lục hợp đồng : Nghiên cứu nội dung kho ngữ liệu song ngữ SP: báo cáo Nghiên cứu tham khảo cấu trúc kho ngữ liệu song ngữ SP: báo cáo Thiết kế nội dung kho ngữ liệu câu Anh- Việt SP: báo cáo Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt SP: báo cáo Thiết kế xây dựng khuôn dạng liệu cho hai kho ngữ liệu câu Anh- Việt SP: báo cáo Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt SP: báo cáo Nhóm thực Hồ Bảo Quốc Đinh Điền Đặng Bác Văn Lương Vỹ Minh Phạm Đào Duy Vũ Mục lục I Giới thiệu I.1 Mục tiêu đề tài nhánh I.2 Một số định nghĩa II Nghiên cứu lien quan giới nước II.1 Nghiên cứu kho ngữ liệu song ngữ giới II.1.1 Một số kho ngữ liệu song ngữ tiêu biểu giới II.1.2 Nội dung kho ngữ liệu II.1.3 Cấu trúc kho ngữ liệu 10 II.1.4 Phương pháp xây dựng kho ngữ liệu song ngữ 11 II.2 Các nghiên cứu nước liên quan 13 III Xây dựng kho ngữ liệu song ngữ Anh- Việt 14 III.1 Tiêu chí chọn mẫu cho kho ngữ liệu AnhViệt 14 III.2 Chọn nguồn liệu thô 15 III.3 Chuẩn hóa 19 III.4 Định dạng kho ngữ liệu song ngữ AnhViệt 20 IV.Thiết các công cụ 21 IV.1 Công cụ khai thác văn song ngữ AnhViệt từ Internet 21 IV.2 Cơng cụ hiệu đính khai thác 35 V.Các kết đạt 36 Phụ lục II Hướng dẫn sử dụng chương trình EVT-Miner 37 I Chức tìm địa web có cung cấp tài liệu song ngữ 37 II Tiền xử lý phân trang 38 III Chức Canh hàng văn (đến mức câu) 40 IV Chức xem hiệu chỉnh kho ngữ liệu: Alignment Editor 41 Tài liệu tham khảo 44 I Giới thiệu I.1 Mục tiêu đề tài nhánh Trong tính tốn ngơn ngữ học (linguistic computing) tài nguyên cần thiết kho ngữ liệu song ngữ song song (parallel corpus) Các kho ngữ liệu song ngữ song song sữ dụng cho nhiều mục tiêu khác : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thơng tin xun ngữ, dịch máy v.v Các kho ngữ liệu song ngữ nguồn tài nguyên để ứng dụng học tương ứng đơn vị ngôn ngữ (từ, ngữ, câu, đoạn, văn ) hai ngơn ngữ, từ giải vấn đề liên quan Kết toán phụ thuộc nhiều vào độ lớn chất lượng kho ngữ liệu song song sử dụng Trên giới có nhiều kho ngữ liệu song ngữ song song xây dựng để phục vụ cho mục tiêu (xin xem chi tiết phần II) Hiện chưa có kho ngữ liệu song song Anh Việt công bố thức cho phép cộng đồng nghiên cứu liên quan đến chia sử dụng cho mục tiêu nghiên cứu Do đề tài nhánh nhằm nghiên cứu cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc định dạng lưu trữ kho ngữ liệu song ngữ song song tiêu chí phương pháp đánh giá kho ngữ liệu song ngữ song song AnhViệt Trong khn khổ cho phép kinh phí đề tài, mục tiêu đề tài nhánh xây dựng kho ngữ liệu song ngữ AnhViệt song song gióng hàng đến mức câu (Sentence Aligment) gồm 100.000 cặp câu song song AnhViệt 80.000 cặp câu cho lĩnh vực kinh tế xã hội 20.000 cặp câu cho lĩnh vực tin học công cụ hỗ trợ để tiếp tục xây dựng khai thác kho ngữ liệu song ngữ Trước vào chi tiết, xin thống số thuật ngữ liên quan phần I.2 Một số định nghĩa căn bản  Định nghĩa : Kho ngữ liệu (corpus) Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu tập hợp mảnh ngôn ngữ (pieces of language) chọn lựa xếp theo số tiêu chí ngơn ngữ học rõ ràng để sử dụng mẫu ngôn ngữ Kho ngữ liệu số hóa (computer corpus) : kho ngữ liệu mã hóa theo chuẩn định đồng để khai thác cho ứng dụng khác Định nghĩa : Một tập văn (tài liệu) viết nhiều ngơn ngữ gọi kho ngữ liệu đa ngữ (multilingual corpora) Định nghĩa : Một tập văn (tài liệu) ngôn ngữ khác mà có chủ đề gọi kho ngữ liệu (có thể) so sánh (comparable corpus) Định nghĩa : Kho ngữ liệu song song (Parallel Corpus) tập văn (tài liệu) nhiều ngơn ngữ khác nhau, có ngơn ngữ nguồn (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) Định nghĩa : Sự gióng hàng (Alignment) tài liệu song ngữ kho ngữ liệu song ngữ múc sau • Mức tài liệu (Document Alignment) : Các tài liệu kho ngữ liệu gióng hàng đơi một, tài liệu dịch tài liệu • Mức đoạn (Paragraph Alignment) : Các đoạn tài liệu ngơn ngữ gióng hàng, đoạn dịch đoạn • Mức câu (Sentence Alignment) : Các tài liệu song ngữ gióng hàng mức câu : câu dịch câu • Mức ngữ (Phrase Alignment) : Các ngữ cặp câu gióng hàng đôi : ngữ lả dịch ngữ • Mức Từ (Word Alignment) : từ câu gióng hàng cặp : từ từ dịch từ II Nghiên cứu liên quan trên thế giới nước  II.1 Nghiên cứu các kho ngữ liệu song ngữ trên thế giới  II.1.1 Một số kho ngữ liệu song ngữ trên thế giới  Trên giới có nhiều kho ngữ liệu song ngữ song song chia miễn phí cho cộng đồng nghiện cứu Dưới xin phép liệt kê sơ lược vài kho ngữ liệu song ngữ song song tiêu biểu (theo đánh giá chủ quan chúng tôi) Kho ngữ liệu song ngữ song song xây dựng từ hỗ trợ dự án EuroMatrix (tham khảo địa http://www.euromatrix.net/) Kho ngữ liệu gồm cặp ngôn ngữ khác lấy nguồn từ kỷ yếu (proceeding) Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 [10] Kho ngữ liệu song ngữ song song gồm cặp ngôn ngữ liệt kê (số liệu theo [10]) Kho ngữ liệu song ngữ song song chia miễn phí cho mục tiêu nghiên cứu địa http://www.statmt.org/europarl/ Parallel Corpus (L1-L2) Sentences L1 Words L2 Words Danish-English 1,304,947 34,169,707 36,225,880 German-English 1,313,096 34,700,362 36,663,083 Greek-English 662,090 18,834,758 18,827,241 Spanish-English 1,304,116 37,870,751 36,429,274 Finnish-English 1,257,720 24,895,790 34,802,617 French-English 1,334,080 41,573,117 37,436,222 Italian-English 1,251,315 36,411,166 36,510,033 Dutch-English 1,326,412 36,784,168 36,690,392 Portuguese-English 1,287,757 37,342,426 36,355,907 Swedish-English 1,164,536 28,882,142 32,053,628 Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, hiệp hội liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu gồm 2.8 triệu cặp câu http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20) (theo Dữ liệu văn chủ yếu lấy từ trang web Quốc hội Canada http://www.parl.gc.ca JENAAD Japanese – English Parallel Corpus Masao Utiyama Hitoshi Isahara xây dựng, bao gồm 45.000 cặp câu, có 15.000 câu canh theo tỉ lệ 1:1 30.000 câu theo tỉ lệ 1:n (2003) Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 đại học Bắc kinh gồm 200.000 cặp câu thuộc nhiều lĩnh vực kinh tế xă hội khác (tham khảo http://www.ling.lancs.ac.uk/corplang/863parallel/ ) II.1.2 Nội dung của các kho ngữ liệu   Như phần định nghĩa trình bày, kho ngữ liệu song ngữ chứa văn hai ngôn ngữ khác gióng hàng theo cấp độ đơn vị ngơn ngữ khác Các kho ngữ liệu song song thường có nội dung đa lĩnh vực : kinh tế, xã hội, văn hóa, kỹ thuật Đa số có nguồn gốc từ báo đặc biệt văn Quốc hội Canada hai thứ tiếng Anh – Pháp Các kho ngữ liệu song ngữ chứa liệu thô (nội dung văn bản) phân tích để gán thêm nhãn ngôn ngữ ranh giới từ, từ gối, từ loại từ v.v Tổng quát nội dung kho ngữ liệu gồm phần sau : Các thông tin văn : nguồn gốc vaen bản, tác giả, ngày tạo, thể loại Nội dung văn Các nhãn ngơn ngữ II.1.3 Cấu trúc của các kho ngữ liệu  Có nhiều định dạng dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI XML Dưới liệt kê định dạng thường sử dụng CES (Corpus Encoding Standard) : chuẩn dựa SGML, nhằm đưa hướng dẫn (guidelines) cho việc mă hóa kho ngữ liệu Một tài liệu dạng CES gồm phần : 1.1 • Phần liệu ngun thủy/thơ (primary data) : Thông tin văn : id, title, authors … : gọi phần đầu Header • Thông tin cấu trúc nội dung: phần (section), đoạn (paragraph), câu (sentence)… : gọi phần Text 1.2 Phần giải ngơn ngữ học (linguistic annotation) • Ranh giới đoạn, câu, từ • Từ loại từ (POS) • Gốc từ (lemma) 1.3 Thơng tin gióng hàng (alignment) Thơng tin chi tiết tham khảo thêm http://www.cs.vassar.edu/CES/ Việc xác định cặp từ dịch thực thông qua từ điển Anh-Việt Hồ Ngọc Đức (khoảng 100,000 từ, lưu HQT CSDL SQL Server) từ tiếng Anh lưu dạng gốc (stemmed form) Các từ tiếng Anh không nằm SMART’s English Stoplist [10] chuyển dạng gốc thuật tốn Porter, sau tìm tất nghĩa tiếng Việt có từ nhằm nâng cao độ bao phủ hệ thống Sau khâu này, hệ thống thu tập cặp văn dịch (kèm theo thông tin đoạn dịch đoạn nào), chuẩn bị cho khâu xử lý kế tiếp: canh hàng mức câu để tìm cặp câu dịch IV.1.4 Canh hàng ở mức câu: Xây dựng kho ngữ liệu song ngữ  Từ cặp văn dịch tìm thấy trên, hệ thống bắt đầu tiến hành canh hàng mức câu Với cặp đoạn tìm thấy dịch nhau, hệ thống chia thành câu Q trình tìm cặp câu dịch tương tự trình tìm cặp đoạn dịch phần 3, khác tham số: câu tiếng Anh so với câu tiếng Việt tương ứng canh hàng mức đoạn Kết thu kho ngữ liệu song song mức câu, tức bao gồm cặp câu dịch tương ứng Kho ngữ liệu lưu định dạng XML (tự đinh nghĩa) Cụ thể, cặp tài liệu dịch lưu file XML rõ cặp câu dịch File XML có định dạng sau: Dưới ví dụ file XML corpus: IV.1.5 Alignment Editor:   Chương trình cho phép người dùng xem chỉnh sửa corpus Do kho ngữ liệu xây dựng tự động khơng tránh khỏi có sat sót, chúng tơi thiết kế chương trình có khả đọc file XML ngữ liệu song ngữ mà chương trình tìm thấy Người dùng xem cặp câu hệ thống canh hàng chỉnh sửa lại phát sai sót Hiện tại, chương trình có chức sau: Đọc file XML kho ngữ liệu thư mục cho trước Hiển thị tài liệu / cặp câu mà hệ thống canh hàng Nếu phát cặp câu hệ thống canh sai, người dùng chỉnh lại mối liên kết cách kéo thả (xem phần hướng dẫn sử dụng để biết chi tiết) Các chức dự kiến làm thêm: Cho người dùng thay đổi nội dung văn (tài liêu/câu song ngữ) không thay đối mối liên kết chúng Cho người dùng xóa bỏ cặp khơng tìm thấy câu dịch khỏi file XML IV.2 Cơng cụ hiệu đính và khai thác  A Chức a View : cho phép hiển thị cặp câu song song Hiển thị toàn Hiển thị theo thể loại : xă hội, tin học … Hiển thị từ câu đến câu b Edit : cho phép sửa đổi nội dung corpus Cho phép thay đổi lien kết cặp câu Cho phép sửa hai câu cặp câu Cho phép xóa cặp câu khơng tốt c Add : cho phép thêm cặp câu Thêm tù file Nhập trực tiếp từ bàn phím d Print In tồn In theo chủ đề In từ cặp câu đến cặp câu e Export Cho phép xuất file txt Cho phép xuất file xml B Giao diện : i Thân thiện người dùng V.Các kết quả đạt được và công việc tới V.1 Các kết quả đạt được cho đến nay 4/2008 như sau:  Kho ngữ liệu song ngữ thô gồm 120.000 cặp câu Kho ngữ liệu song ngữ qua hiệu chỉnh thủ công : 20.000 cặp câu Công cụ Khai thác liệu song ngữ từ Internet V.2 Các công việc đang tiến hành  Thu thập thêm liệu Tiếp tục hiệu đính liệu thơ Thiết kế xây dựng cơng cụ khai thác kho ngữ liệu Phụ lục A.  Hướng dẫn sử dụng chương trình EVT‐Miner  I Chức năng tìm địa chỉ web có cung cấp tài liệu song ngữ  Chương trình cung cấp tùy chọn: - Tìm tử trang web định Sử dụng tùy chọn trường hợp biết địa web có cung cấp tài liệu song ngữ mong muốn Ví dụ trang http://www.voanews.com - Tìm địa web có dấu hiệu song ngữ Sử dụng tùy chọn trường hợp địa web cung cấp tài liệu song ngữ mong muốn Khi đó, chương trình dùng Google để tìm Internet địa web có dấu hiệu chứa tài liệu song ngữ (lưu lại địa vào file người dùng chọn) - Tìm địa web định nghĩa trước tập tin host.xml Tập tin host.xml có nhờ sử dụng tùy chọn Sau có danh sách địa vậy, sử dụng tùy chọn Khi đó, chương trình tự động download trang web từ địa xuống để phục vụ mục đích mining trang song ngữ Dưới giao diện chương trình diễn giải thành phần giao diện II Tiền xử lý và phân trang  Nhập vào thư mục chứa file HTML tiếng Anh HTML tiếng Việt Chương trình từ động tiền xử lý file HTML để file TEXT chuẩn hóa Sau tiến hành phân cluster File cluster chứa đường dẫn đến tất file text, file text có chung ngày tạo xếp vào cluster Cách xếp phục vụ cho phần mining phía sau – với file tiếng Anh, chương trình cần xét file tiếng Việt cluster ứng với ngày gần • English HTML Documents: Đường dẫn đến thư mục chứa file HTML tiếng Anh • Vietnamese HTML Documents: Đường dẫn đến thư mục chứa file HTML tiếng Việt • English Text Documents: Đường dẫn đến thư mục chứa file TEXT tiếng Anh • Vietnamese Text Documents: Đường dẫn đến thư mục chứa file TEXT tiếng Việt • English Cluster: file cluster cho tài liệu tiếng Anh • Vietnamese Cluster: file cluster cho tài liệu tiếng Việt Ghi chú: Nếu có thư mục TEXT có file text chuẩn hóa sẵn, check vào “Input(s) are Text File, create cluster only” để hệ thống tiến hành chuẩn hóa nữa, mà tạo clusters để làm input cho việc mining phía sau III Chức năng Canh hàng văn bản (đến mức câu)  Nhập input mô tả bên dưới, hệ thống tiến hành canh hàng từ mức tài liệu đến mức câu để tạo kho ngữ liệu song ngữ sau lưu dạng XML mô tả phần trước • SQL Server/Username/Password/ Catalog: Tài khoản đăng nhập SQL Server để truy xuất đến database từ điển Anh-Việt • EnLocation/EnCluster: thư mục chứa file TEXT chuẩn hóa tiếng Anh file cluster tương ứng • VnLocation/VnCluster: thư mục chứa file TEXT chuẩn hóa tiếng Việt file cluster tương ứng • OuputDir: English/Vietnamese: log lại q trình align hệ thống • Lower Ratio/Upper Ratio: chặn chặn cho tỉ lệ độ dài văn song ngữ • Min Token Pair: giá trị ngưỡng θp • Threshold: giá trị ngưỡng θd • Thread: số luồng chạy • Pair file: file output ngữ liệu song ngữ Trong ghi rõ câu dịch câu IV Chức năng xem và hiệu chỉnh kho ngữ liệu: Alignment Editor  Nhấn nút “Show Editor” hình trước, mở chương trình Alignment Editor cho phép xem hiệu chỉnh kho ngữ liệu Mặc định, chương trình load tất file ngữ liệu hệ thống tìm thấy (trong thư mục “output/” nơi chứa file này) lên cho trình xem/hiệu chỉnh Cửa sổ bên trái hiển thị danh sách file xml ngữ liệu có thư mục “output” chọn trước Mỗi file (mỗi dòng cửa sổ này) ứng với cặp văn Khi chọn dòng này, đoạn (paragraphs) cặp văn liên kết chúng hiển thị cửa số bên phải Khi bung dòng cửa sổ bên trái nút Mỗi nút ứng với cặp paragraph cặp văn Ví dụ: 6-7 paragraph văn tiếng Anh khớp với paragraph văn tiếng Việt Khi chọn nút (tức chọn cặp paragraph), cửa số bên phải thể câu paragraph mối liên chúng Khi (chọn nút - mức đoạn), cửa sổ bên phải hiển thị cặp câu canh hàng với Đường nối “Sentence” cho biết câu nối xem dịch (nếu chọn mức tài liệu cửa sổ bên trái, cửa số bên phải canh hàng đoạn) Nếu phát phép canh hàng sai, người dùng chọn mối nối nhấn nút “Delete” để xóa nó: câu (hoặc đoạn) tương ứng xem dịch Nếu muốn thêm phép canh hàng – ví dụ hệ thống cho câu (Anh) không liên quan với câu (Việt), người dùng nhận câu thật dịch nhau, người dùng nhấn giữ chuột vào ô câu tiếng Anh, kéo rê sang ô câu tiếng Việt thả Khi đường thằng nối câu 2-3 cho biết câu xem dịch Tài liệu tham khảo  [1] Johann Gamper, Encoding a Parallel Corpus for Automatic Terminology extraction, Proceedings of EACL '99 [2] Nancy Ide, Greg Priest-Domain and Jean Veronic (1996), Corpus Encoding Standard, http://www.cs.vassar.edu/CES/ [3] CHANG Baobao, Chinese-English Parallel Corpus Construction and its Application, PACLIC 18, December 8th-10th, 2004, Waseda University, Tokyo [4] M Gavrilidou, P Labropoulou, E Desipri, V Giouli, V Antonopoulos, S Piperidis, Building parallel corpora for eContent professionals, MLR2004: PostCOLING Workshop on Multilingual Linguistic Resources, 28 August 2004, Geneva, Switzerland [5] William A.Gale, Kenneth W.Church (1991), A program for aligning sentences in bilingual corpora In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics [6] P Resnik, Noah A Smithy (2003), The web as parallel corpus [7] J.Y Nie, J Chen (2002), Exploiting the Web as Parallel Corpora for Cross Languague Information Retrieval, WI02 [8] C.C Yang, K.W Li (2002), Mining English/Chinese Parallel Documents from the World Wide Web Proceedings of the International World Wide Web Conference, Honolulu, Hawaii, May 7-11, 2002 [9] J Chen, R Chau, C.H Yeh (2004), Discovering Parallel Text from the World Wide Web In Proc Australasian Workshop on Data Mining and Web Intelligence (DMWI2004), Dunedin, New Zealand CRPIT, 32 Purvis, M., Ed ACS 157-161 [10] Phillip Koehn, Europarl: A Parallel Corpus for Statistical Machine Translation [11] P F Brown, S.A.D Pietra, V D J Pietra, and R L Mercer, “The mathematics of machine translation: Parameter estimation”, Computational Linguistics, 19: 263-312, 1992 [12] J.-Y Nie, M Simard, P Isabelle, and R Durand “Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the Web,” Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 74-81, 1999 [13] Mark W Davis and William C Ogden “Quilt: Implementing a large-scale cross-language text retrieval system”, The 20th International Conference on Research and Development in Information Retrieval, 1997 [14] Van B Dang, Bao-Quoc Ho, “Automatic Construction of EnglishVietnamese Parallel Corpus through Web Mining”, Proceedings of RIVF 2007, Vietnam [15] Phạm Đào Minh Vũ, “Khai thác tự động liệu từ Internet để xây dựng kho ngữ liệu song ngữ Anh – Việt”,Luận văn cao học, Đại học Khoa học Tự Nhiên TP Hồ Chí Minh, 2007 [16] J Chen, J.Y Nie “Automatic construction of parallel English-Chinese corpus for cross-language information retrieval,” Proc ANLP, pp 21-28, Seattle, 2000 [17] Resnik Philip “Parallel strands: A preliminary investigation into mining the Web for bilingual text,” in Proceedings of the Third Conference of the Association for Machine Translation in the Americas, AMTA-98, in Lecture Notes in Artificial Intelligence, 1529, Langhorne, PA, October 28-31 [18] P Resnik and N A Smith “The Web as a Parallel Corpus,” Computational Linguistics, 2003, 29(3):349–380 [19] Ma Xiaoyi, Mark Liberman “BITS: A method for bilingual text search over the web,” Machine Translation Summit VII, September, 1999 [20] C.J van Rijsbergen, S.E Robertson and M.F Porter “New models in probabilistic information retrieval,” London: British Library, 1980 (British Library Research and Development Report, no 5587)

Ngày đăng: 22/02/2019, 10:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan