Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus)việt anh, việt pháp từ các nguồn tài liệu đa ngữ

12 519 0
Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus)việt anh, việt pháp từ các nguồn tài liệu đa ngữ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG LÊ CÔNG VÕ Người hướng dẫn khoa học: TS Huỳnh Công Pháp NGHIÊN CỨU PHƯƠNG PHÁP THU THẬP TẬP DỮ LIỆU SONG SONG (PARALLEL CORPUS) Phản biện 1: PGS TS Đoàn Văn Ban Phản biện 1: TS Huỳnh Hữu Hưng VIỆT – ANH, VIỆT – PHÁP TỪ CÁC NGUỒN TÀI LIỆU ĐA NGỮ Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Chuyên ngành: KHOA HỌC MÁY TÍNH Nẵng ngày 10 tháng năm 2011 Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Có thể tìm hiểu luận văn tại: – Trung tâm Thơng tin – Học liệu, Đại học Đà Nẵng – Trung tâm Học liệu, Đại học Đà Nẵng Đà Nẵng - Năm 2011 -1MỞ ĐẦU Lý chọn ñề tài -2nhân hệ thống thiếu tập liệu dịch tự động song song có chất lượng tốt, ñủ lớn Hiện nay, tồn nhiều phương pháp ñể thu thập kho ngữ liệu Trước bùng nổ thông tin nay, nhu cầu dịch tự song song cho nhiều ngôn ngữ khác giới Tuy nhiên, ñối với ñộng ngày lớn Việc dịch tự ñộng văn bản, báo, tạp tiếng Việt gặp nhiều khó khăn việc xây dựng kho ngữ liệu song chí,…(từ ngơn ngữ A sang ngơn ngữ B nhiều ngơn ngữ khác) để song Ví dụ như: Tính nhập nhằng tiếng Việt, phức tạp từ phục vụ công việc học tập, nghiên cứu cách kịp thời, nhanh chóng nhiều âm tiết,… Như vậy, chúng tơi áp sử dụng phương vấn ñề cấp bách Chính vậy, tốn pháp có sẵn tiến ñể thu thập ñược kho ngữ liệu song song cho dịch tự động song song ngơn ngữ có ý nghĩa thiết thực tiếng Việt Đó chọn lựa phương pháp thu thập từ nguồn tài nguyên hết sẵn có: Từ Website đa ngữ Internet Bởi vì, Internet có Ngày nay, với phát triển CNTT, Internet phát triển mạnh nhiều Website ña ngữ chứa tiếng Việt, tiếng Anh, tiếng Pháp,… ñược sử dụng rộng rãi Các dịch vụ dịch thuật ngày trở nên Và thời gian giới hạn đề tài, chúng tơi chọn cặp ngôn ngữ phổ biến thiếu người việc xây dựng kho Việt – Anh, Việt – Pháp hai ngơn ngữ chủ ñạo cộng liệu song song (Parallel Corpus) ñiều cần làm ñể làm sở, tảng ñồng người Việt tính cấp bách người Việt Trong cho hệ thống dịch tự động thơng minh nhằm phục vụ cho việc tương lai, phát triển cho cặp ngôn ngữ khác dịch ñoạn văn bản, báo,… Mục đích nghiên cứu Ngồi kho liệu song song quan trọng ñối với mục Mục tiêu mà ñề tài hướng ñến nghiên cứu phương pháp ñích nghiên cứu học tập tạo hệ thống mẫu để đánh giá chất trích lọc câu song song Việt – Anh, Việt – Pháp từ Website ña lượng dịch, phục vụ cho việc học ngoại ngữ,… ngữ Đồng thời ghiên cứu phương pháp mơ hình cho phép Ngày nay, việc đánh giá phát triển hệ thống ngôn ngữ khác như: Tiếng Anh, tiếng Ý, tiếng Pháp,… dễ dàng ñạt chất lượng cao Bởi vì, ngơn ngữ có hệ thống kho ngữ liệu song song lớn có chất lượng cao Nhưng tiếng Việt khó khăn để xây dựng hệ thống kho ngữ liệu song song chất lượng tốt chưa tồn dịch tự động có chất lượng cao Ví dụ GoogleTranslater có hỗ trợ tiếng Việt có chất lượng khoảng 20% so với chất lượng người dịch mà Nguyên người cộng tác ñể cải tiến, sửa ñổi,… kho ngữ liệu song song Thu thập ñược kho ngữ liệu song song Việt – Anh, Việt – Pháp có chất lượng tốt từ Website đa ngữ Sau xây dựng mơ hình quản lý cho phép người dùng tương tác nhằm cải tiến hệ thống kho ngữ liệu song song cho viêc dịch tự ñộng -33 Đối tượng phạm vi nghiên cứu Hiện nay, giới có nhiều kho ngữ liệu song song cho cặp ngôn ngữ khác Tuy nhiên, khuôn khổ luận văn -4trình quản lí cho phép người dùng cộng tác, sửa ñổi, cải tiến, kho ngữ liệu song song ngày tốt Ý nghĩa khoa học thực tiễn đề tài chúng tơi nghiên cứu phương pháp thu thập kho ngữ liệu song Ý nghĩa khoa học: song Việt – Anh Việt – Pháp mơ hình cho phép người cộng Góp phần xây dựng hệ thống dịch tự ñộng, nâng cao chất lượng tác ñể cải tiến, sửa ñổi,… kho ngữ liệu song song ñã thu thập ñược hệ thống dịch tự động Có thể dùng tập liệu tập liệu Ngày nay, Internet quan trọng và phần khơng thể khoa học đáng tin cậy ñể người muốn nghiên cứu ứng dụng thiếu ñối với ñời sống người Với hội nhập quốc tế công ty, việc dịch tự động song ngữ dùng để tham khảo phát quan, tổ chức,… ñều có Website riêng để phục vụ cho việc triển giao tiếp quảng bá thương hiệu Để tiện giao tiếp đưa thương Ý nghĩa thực tiễn: hiệu vươn tầm quốc tế, hầu hết ñã xây dựng cho Xây dựng tập liệu dịch tự động song ngữ phục vụ cho hệ thống Website ña ngữ ñể ñáp ứng yêu cầu ñó Nên số lượng Website ña dịch tự ñộng ña ngữ song song chương trình quản lý tập liệu ngữ lớn Internet Đó nguồn tài ngun đa ngữ song song ngôn ngữ lớn chưa ñược khai thác triệt ñể Trong luận văn chúng tơi chọn nguồn liệu để thu thập xây dựng kho ngữ liệu song song Phương pháp nghiên cứu Để ñáp ứng mục tiêu nhiệm vụ đề tài đặt ra, tơi áp dụng hai phương pháp nghiên cứu: Phương pháp lý thuyết: Nó có ý nghĩa thiết thực việc dịch thuật tự ñộng ña ngữ song song, kết ñề tài góp phần phục vụ tốt cho việc dịch tự động nhiều ngơn ngữ Ngồi sử dụng kho ngữ liệu song song việc dạy học ngoại ngữ nhà trường Bố cục luận văn Trong phương pháp nghiên cứu sở lý thuyết kho ngữ Bố cục luận văn gồm chương, sau phần mở ñầu là: liệu song song, phương pháp phân tích, trích lọc liệu từ Chương giới thiệu sơ nội dung tổng quan Website ña ngữ, phương pháp phân ñoạn, liên kết kết liệu ñể xây kho ngữ liệu song song phương pháp thu thập, trích lọc liệu từ dựng kho ngữ liệu song song Website ña ngữ Trong phần trình bày tổng quan đặc Phương pháp thực nghiệm: ñiểm Website ña ngữ phương pháp xác định Website đa Xây dựng module trích lọc, phân ñoạn, liên kết cặp ngữ câu song song cặp ngôn ngữ Đồng thời xây dựng chương -5- -6- Trong chương 2, luận văn giới thiệu bước xây dựng kho giao tiếp ngôn ngữ cung cấp thông tin kinh tế, xã hội liệu song ngữ phương pháp quản lý kho ngữ liệu song song ñã thu ñại cần thiết khơng quốc gia tồn giới, thập được, sâu vào việc xây dựng đo độ tương đồng ngơn ngữ mà cịn cần thiết cá nhân người hoạt ñộng ñời câu ñã thu thập sống xã hội Trong chương tập trung nghiên cứu phân tích xây dựng kiến Là nước ñang phát triển, Việt Nam cần sử dụng nhiều công trúc tổng thể hệ thống gồm thành phần liên quan, cách vận nghệ tiên tiến giới Trong số cơng nghệ tiên tiến ñược hành hệ thống Từ kiến trúc tổng thể ñã xây dựng, khai nước giới sử dụng nhiều có cơng nghệ dịch thiết kế thành phần phân tích, xây dựng sở liệu, ứng dụng tự ñộng Việc cần thiết sử dụng hệ thống dịch tự ñộng tiếng Việt quản lý kho ngữ liệu song song ñã ñược xây dựng Nam bắt nguồn từ hàng loạt nguyên nhân sau ñây: Phần kết luận, tổng hợp kết nghiên cứu Thứ nhất: Ở Việt Nam nay, tăng mạnh nhu cầu ñọc nhanh ñể luận văn, số hạn chế chưa hoàn thiện Đồng thời, luận văn lấy nhiều thơng tin mới, bổ ích, đặc biệt thơng tin khoa ñề xuất số hướng nghiên cứu cụ thể tác giả học, công nghệ kĩ thuật từ nước tiên tiến giới CHƯƠNG – CƠ SỞ LÝ THUYẾT Trong chương này, chúng tơi trình bày khái qt sở lý thuyết về: Hệ thống dịch tự ñộng, số khái niệm kho ngữ liệu song song, tổng quan số kho ngữ liệu song song số bước quan trọng qui trình xây dựng kho ngữ liệu song ngữ Thứ hai: Trong tất trường học công sở Việt Nam ngày địi hỏi nắm vững tiếng Anh phương tiện cần thiết giao tiếp ngôn ngữ Thứ ba: Nhu cầu giao lưu nhiều ngoại ngữ chuyên ngành khoa học ngày tăng Thứ tư: Sự phát triển công nghệ máy tính Internet thúc đẩy nhu cầu khai thác thông tin nhiều trang Web nhiều ngôn 1.1 HỆ THỐNG DỊCH TỰ ĐỘNG 1.1.1 Các hệ thống dịch tự ñộng 1.1.2 Sự cần thiết việc xây dựng hệ thống dịch tự động có hỗ trợ tiếng Việt Dịch tự ñộng dạng ñặc biệt hoạt ñộng dịch thuật biên phiên dịch viên Đồng thời, dịch tự ñộng phương tiện ñặc biệt ngữ khác Cần thừa nhận dịch tự động khơng thể thay hồn tồn việc dịch thuật thực người Tuy nhiên, nhờ hệ thống tự động chương trình dịch máy, nâng cao ñáng kể hiệu lao ñộng người dịch chất lượng cán chuyên ngành Ngày nay, dịch tự động phát triển đến mức thực dịch trực tiếp mạng Tuy vậy, số ngơn ngữ dịch tự động trực tuyến, chưa có tiếng Việt có chất lượng thấp -7Rõ ràng ñiều kiện nay, người dịch chuyên nghiệp cần phải biết thuật ngữ nhiều chuyên ngành -8như khơng có nhóm nghiên cứu thực việc xây dựng kho ngữ liệu song song từ nguồn cần phải thuộc nhiều tên gọi xác chủng loại chi tiết, linh Với phát triển bùng nổ công nghệ thông tin Internet, kiện, dụng cụ, cấu, chất v.v khác nhau, phiên dịch viên kho ngữ liệu song song dạng ñiện tử ñang tồn phong dù giỏi ñến ñâu cập nhật hết ñược lượng thông tin phú nhiều dạng Kho ngữ liệu song song ñơn giản mà khổng lồ kinh tế toàn cầu phát triển Lúc này, việc sử dụng nhận thấy loại truyện song ngữ, tài liệu tác phẩm dịch tự ñộng ñể trợ giúp cho trình dịch thuật tất yếu cần thiết văn học nước tiếng ñược dịch sang tiếng Việt Nguồn ngữ 1.2 MỘT SỐ KHÁI NIỆM VỀ KHO NGỮ LIỆU liệu thu thập tay từ Internet Kho ngữ liệu song song (Parallel Corpus) tập văn 1.2.1 Kho ngữ liệu (Corpus) (tài liệu) nhiều ngôn ngữ khác nhau, có ngơn 1.2.2 Kho ngữ liệu ña ngữ (Multilingual Corpora) ngữ nguồn (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ nguồn) 1.2.3 Kho ngữ liệu so sánh (Comparable Corpus) 1.2.5 Sự liên kết (Alignment) 1.2.4 Kho ngữ liệu song song (Parallel Corpus) Kho ngữ liệu song song thành phần thiết yếu quan trọng thiếu Chất lượng kho ngữ liệu song song đóng vai trị ñịnh ñến chất lượng ñầu hệ dịch Hệ thống dịch cho kết tốt kho ngữ liệu song song sử dụng trình huấn luyện có chất lượng khơng tốt cho dù áp dụng phương pháp học máy tiên tiến Kho ngữ liệu song song thu thập từ nhiều nguồn 1.3 TỔNG QUAN VỀ MỘT SỐ KHO NGỮ LIỆU SONG NGỮ 1.3.1 Lịch sử hình thành phát triển kho ngữ liệu song song 1.3.2 Một số kho ngữ liệu song song giới Tổng quát, chia nguồn thành hai loại, nguồn ngữ liệu 1.3.3 Nội dung kho ngữ liệu dạng giấy viết nguồn ngữ liệu dạng ñiện tử Kho ngữ liệu song song 1.3.4 Cấu trúc kho ngữ liệu dạng giấy viết tìm thấy dễ dàng sách học ngoại ngữ, sách truyện, tài liệu song ngữ từ điển song ngữ Việc tìm kiếm loại ngữ liệu đơn giản, nhiên q trình nhập liệu vào máy tính tốn nhiều thời gian cơng sức Do thực tế, gần 1.3.5 Các cơng trình nghiên cứu nước kho ngữ liệu song song -9- -10− Có thể sử dụng kho ngữ liệu song song để làm mẫu đánh giá 1.4 TÌM HIỂU MỘT SỐ BƯỚC QUAN TRỌNG TRONG số hệ thống, chương trình tự động: hệ thống dịch tự động, QUY TRÌNH XÂY DỰNG KHO NGỮ LIỆU SONG SONG chương trình học ngoại ngữ,… − Phục vụ cho mục đích nghiên cứu ngơn ngữ học, xử lý 1.4.1 Xác định nguồn tài nguyên phục vụ việc xây dựng kho ngôn ngữ,… nhà nghiên cứu − Trong lĩnh vực nghiên cứu giảng dạy ngôn ngữ nhà ngữ liệu song song trường 1.4.2 Liên kết liệu ñã thu thập Khi Việt Nam ñã gia nhập WTO nên cần thiết phải thực 1.5 TỔNG KẾT CHƯƠNG CHƯƠNG – ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG VÀ giao lưu để trao đổi thơng tin mức độ giao tiếp nhiều ngơn ngữ phạm vi toàn giới Điều cần thiết việc hội nhập kinh tế giới cần có hệ thống kho ngữ liệu song song quốc gia Nhằm QUẢN lÝ KHO NGỮ LIỆU SONG SONG 2.1 HIỆN TRẠNG NGHIÊN CỨU VỀ KHO NGỮ LIỆU SONG SONG 2.1.1 Tầm quan trọng kho ngữ liệu song song Hiện nay, kho ngữ liệu song song ñã ñang ñược xây dựng cho nhiều ngôn ngữ khác giới nên tầm quan trọng giá trị sử dụng lớn Mặt khác, kho ngữ liệu song song phục vụ lĩnh vực liên quan ñến nghiên cứu khoa học, giảng dạy, cập nhật thông tin nước v.v Mặt khác người phiên dịch chuyên nghiệp cần phải biết thuật ngữ nhiều chuyên ngành cần phải thuộc nhiều tên gọi xác chủng loại chi tiết, linh kiện, dụng cụ, cấu, chất v.v khác Thì phiên dịch viên dù giỏi đến đâu khơng thể cập nhật hết lượng thơng tin khổng lồ Lúc này, việc sử dụng kho ngữ liệu song song để trợ giúp cho q trình dịch thuật tất yếu cần thiết 2.1.2 Hiện trạng nghiên cứu kho ngữ liệu song song thành phần quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên dịch tự động Bởi vì, nhờ kho ngữ liệu song song xây dựng chương trình quan trọng lĩnh vực Nghiên cứu cho thấy kho ngữ liệu song song có đặc 2.2 PHƯƠNG PHÁP TIẾP CẬN ñiểm quan trọng ñối với khoa học ñời sống Với vai trò tầm quan trọng kho ngữ liệu song song người: − Là thành phần khơng thể thiếu ñối với hệ thống dịch tự ñộng ứng dụng xử lý ngơn ngữ tự nhiên, đồng thời thúc ñẩy việc thiếu sở liệu song song Việt – Anh, Việt – Pháp cho nhiều nghiên cứu khác, luận văn tập trung vào công việc: -11- -12- − Tìm hiểu, nghiên cứu, phát triển cơng nghệ tốn trích lọc liệu câu song song từ Website ña ngữ cho Quá trình khai thác liệu từ Internet để xây dựng hệ thống Kho ngữ liệu song song ñược thể qua sơ đồ hình 2.1 cặp ngơn ngữ Việt – Anh, Việt – Pháp Download − Xây dựng công cụ trích lọc cặp câu song song Tìm kiếm Website đa ngữ cho cặp ngơn ngữ Việt – Anh, Việt – Hỗ trợ Pháp − Có thể chia làm hai tiếp cận tiếp cận dựa nội dung tiếp cận dựa cấu trúc trang Web Đối với tiếp Xấu cận dựa nội dung, phải sử dụng từ ñiển song ngữ Tốt Do việc từ ñiển song ngữ Việt – Anh, Việt – Pháp có nhiều nhập nhằng, thời gian có hạn nên chúng tơi tập trung vào nghiên cứu theo tiếp cận thứ hai dựa vào cấu trúc văn (cấu trúc trang Web) Phương pháp chúng tơi sử dụng phát triển dựa nghiên cứu [3,5], với hai phần: − Xác định thuộc tính dùng để đo độ tương tự hai trang Xấu HTML − Áp dụng thuật tốn học máy để xây dựng mơ hình tập thuộc tính Tốt Xấu Tốt Đối với phần xác định thuộc tính để đo độ tương đồng hai trang HTML, sử dụng thuộc tính sau: − So sánh độ tương đồng tên file trang Web − So sánh ñộ tương ñồng cấu trúc URL − So sánh cấu trúc HTML cặp trang Web Xây dựng Parallel Corpus Corpus − Và số tiêu chí khác để làm giảm thời gian chạy hệ thống ngày sửa, ngày tạo, tỉ lệ âm tiết, tỉ lệ chunk Hình 2.1 Quá trình khai thác liệu xây dựng kho ngữ liệu song song -14- -13- liệu Internet lớn, khơng thể dị tìm trang Vậy trình gồm bước sau: Bước 1: Tìm kiếm phát Website đa ngữ Việt – Anh, Việt – Pháp, Việt – Anh – Pháp ngược lại; chúng tơi dựa vào hai tiêu chí: − Dựa vào nội dung liên kết trang − Dựa vào URL trang Bước 2: Download liệu từ trang Web đa ngữ tìm bước qua hỗ trợ công cụ download: Wget, Teleport pro, Ý tưởng sử dụng máy tìm kiếm (Search Engine) để tìm nhanh trang Web có khả chứa tài liệu song ngữ dựa vào số heuristic quan sát mắt Chúng tơi sử dụng heuristic trước trình bày bên Trong luận văn chúng tơi đưa số phương pháp ñể xác ñịnh trang Web ña ngữ 2.3.1 Dựa vào nội dung liên kết (link) Website 2.3.1.1 Website tiếng Anh có liên kết ñến trang tiếng Việt Việc dùng phần mềm ñể download cịn tùy vào đặc điểm 2.3.1.2 Website tiếng Pháp có liên kết đến trang tiếng Việt trang 2.3.1.3 Website tiếng Việt có liên kết đến trang tiếng Anh Bước 3: Xác ñịnh trang dịch nhau, ñánh giá chất lượng dịch cặp trang Web tiền xử lý thẻ HTML, khôi phục ký tự tiếng Việt, tiếng Pháp ñược cặp tiếng Pháp 2.3.1.4 Website tiếng Việt có liên kết đến trang tiếng Anh dịch Bước 4: Đánh giá tiến hành tách ñoạn cặp dịch bước 3, thu ñược tập liệu cặp dịch ñoạn tiếng Pháp 2.3.2 Dựa vào URL trang Bước 5: Đánh giá, tách câu liên kết câu cặp ñoạn dịch bước Chúng ta thu ñược tập cặp câu dịch Đây kho ngữ liệu song song 2.4 BÀI TOÁN KHAI THÁC DỮ LIỆU SONG SONG TỪ CÁC WEBSITE ĐA NGỮ Các bước chúng tơi làm rõ phần sau luận 2.4.1 Lọc theo cấu trúc văn 2.3 PHÁT HIỆN CÁC WEBSITE ĐA NGỮ VIỆT – ANH, VIỆT – PHÁP Phần trình bày chúng tơi số phương pháp phát tự động trang Web có tài liệu song ngữ Việt – Anh, Việt – Pháp Do 2.4.2 Lọc theo nội dung 2.4.3 Lọc theo đặc điểm khác 2.4.4 Thuật tốn qui hoạch ñộng -152.5 XÂY DỰNG KHO DỮ LIỆU SONG SONG Hiện nay, kho ngữ liệu song song ngày đóng vai trị quan trọng nhiều lĩnh vực tìm kiếm xuyên ngữ (Cross-language Information Retrieval), dịch máy (Machine Translation),… Tuy nhiên, kho ngữ liệu song song có cho số cặp ngơn ngữ Anh – Pháp, Anh – Hoa, việc xây dựng chúng địi hỏi nhiều thời gian cơng sức Hiện chưa có kho ngữ liệu song song Việt – Anh, Việt – Pháp cơng bố ñể phục vụ cho nghiên cứu liên quan Do việc xây dựng kho ngữ liệu thủ công tốn kém, nhà -16Anh, Việt – Pháp) viết vấn đề (tin tức), lại dùng ngơn từ khác nhau, tổ chức ý khác chí ñưa dẫn chứng khác làm cho việc phát tài liệu thực song ngữ (chất lượng dịch tốt) trở nên khó khăn Từ vấn đề nêu trên, chúng tơi tham khảo phương pháp xây dựng tự ñộng kho ngữ liệu song song từ Internet cho ngôn ngữ khác phát triển phương pháp thu thập kho ngữ liệu song song Việt – Anh, Việt – Pháp tự ñộng bán tự ñộng ñể phục vụ cho nghiên cứu nước Chúng tơi cài đặt phương pháp thành Module với chức sau: − Tự ñộng bán tự ñộng phát ñịa Web có tài liệu nghiên cứu bắt đầu tìm kiếm phương pháp xây dựng tự ñộng: Khai song ngữ Việt – Anh, Việt – Pháp thác từ Internet Số lượng trang Web song ngữ Việt – Anh, Việt – − Tự ñộng tải Website máy trạm ñể xử lí Pháp Internet ngày nhiều quan, tổ chức nước − Liên kết mức văn bản: Tải trang Web từ địa có khuynh hướng tự giới thiệu mình, hợp tác với nước ngồi Vì vậy, về, tiền xử lý (loại bỏ thẻ HTML, phần nội dung phụ,…) Internet trở thành nguồn cung cấp tài liệu song ngữ tiềm tiến hành dị tự động ñể tìm cặp tài liệu dịch có nhiều cơng trình nghiên cứu lĩnh vực Tuy nhiên, lượng liệu lớn mà Internet có khả cung cấp − Liên kết mức câu: Với cặp tài liệu dịch tìm thấy, tiến mang lại nhiều khó khăn Do lượng liệu lớn, việc tự ñộng hành liên kết tự ñộng, để có kho ngữ liệu song song gồm dị tìm trang Web chứa tài liệu song ngữ không dễ dàng Ngay cặp câu tương ứng dịch có trang Web song ngữ, việc xác ñịnh trang − Phần mềm quản lý kho ngữ liệu song song: Cho phép dịch khơng đơn giản ñòi hỏi nhiều tài nguyên người duyệt qua cặp câu song song chỉnh sửa, thêm bớt ngôn ngữ tài nguyên hỗ trợ tiếng Việt cịn hạn chế cần Một khó khăn chất lượng tài liệu dịch Internet chưa phải 2.5.1 Liên kết mức tài liệu: Phát cặp tài liệu song dịch chuẩn Do không ñược kiểm soát, chất lượng dịch tài liệu Internet khác nhau, tài liệu dịch chuẩn Hơn nữa, có nhiều tài liệu (ví dụ tài liệu tin tức song ngữ Việt – ngữ 2.5.1.1 Tải tài liệu -18- -172.5.1.2 Tiền xử lý 2.5.1.3 Tìm cặp tài liệu dịch 2.5.2 Xây dựng kho ngữ liệu song song Tìm kiếm web ña ngữ 2.6 TỔNG KẾT CHƯƠNG CHƯƠNG – XÂY DỰNG VÀ PHÁT TRIỂN ỨNG DỤNG Tải webiste ña ngữ 3.1 XÂY DỰNG CÁC MODULE THÀNH PHẦN 3.1.1 Kiến trúc hệ thống Tiền xử lí Trong chương chúng tơi đề xuất phương pháp xây dựng quản lý kho ngữ liệu song song Trong chương xây dựng Module thành phần Hệ thống thiết kế Hình 3.1 XĐ cặp trang song song Tách câu, tách ñoạn Liên kết Parallel Corpus HT quản lí Hình 3.1 Quy trình xây dựng Module Đầu tiên hệ thống tìm kiếm Website ña ngữ Việt – Anh, Việt – Pháp từ Internet, sau bước ñược URL trang web Sau ñó tải liệu từ trang tìm máy tính -19- -20- Bước tiếp theo, tiến hành tiền xử lý trang web ñã tải tác thực Bên cạnh hệ thống cịn phải đảm bảo tính dễ quản lý (loại bỏ thẻ HTML) ñể có ñược liệu tài liệu chuẩn Sau trao đổi thành viên, tính chia dễ sử dụng có tài liệu chuẩn, chúng tơi tiến hành xác định tài liệu dịch ñể tiến hành tách câu liên kết câu Bước cuối 3.2.1.2 Yêu cầu hệ thống cùng, xây dựng hệ thống quản lý kho ngữ liệu song song bao 3.2.2 Phân tích thiết kế hệ thống gồm chức năng: thêm mới, chỉnh sửa, xóa câu song song 3.2.2.1 Xác định tác nhân ca sử dụng 3.1.2 Thiết kế thành phần hệ thống 3.1.2.1 Xây dựng Module tìm kiếm xác ñịnh Website ña ngữ 3.2.2.2 Chức hệ thống 3.2.2.3 Mô tả ca sử dụng 3.2.2.4 Sơ ñồ hoạt ñộng 3.1.2.2 Tải Website ña ngữ 3.1.2.3 Tiền xử lý 3.1.2.4 Xác ñịnh cặp tài liệu dịch 3.2.3 Thiết kế sở liệu hệ thống 3.3 KẾT QUẢ 3.3.1 Màn hình trang chủ 3.1.2.5 Tách câu 3.1.2.6 Liên kết câu 3.2 XÂY DỰNG HỆ THỐNG QUẢN LÝ KHO NGỮ LIỆU SONG SONG 3.2.1 Thực trạng yêu cầu hệ thống Hình 3.38 Màn hình trang chủ 3.2.1.1 Phân tích thực trạng 3.3.2 Đăng ký thành viên Hệ thống môi trường cộng tác giúp cho cộng 3.3.3 Đăng nhập đồng phát triển kho ngữ liệu song song Việt – Anh, Việt – Pháp nên địi hỏi phải có đầy đủ u cầu môi trường cộng 3.3.4 Truy vấn xem liệu -213.3.5 Cập nhật câu song song đăng bình luận -22thêm mới, xóa bình luận câu song song; dễ dàng tra cứu hệ thống, tìm kiếm trực tuyến Website 3.3.6 Chức quản trị 3.4 TỔNG KẾT CHƯƠNG Trong chương chúng tơi xây dựng bước trích lọc liệu từ Website ña ngữ Việt – Anh, Việt – Pháp Đặc biệt xây dựng Chúng xây dựng kho ngữ liệu song song nhằm tạo CSDL mở cho phép người sử dụng việc xây dựng hệ thống dịch tự ñộng, giảng dạy học tập nhà trường, việc nghiên cứu ñánh giá hệ thống xử lý ngôn ngữ ñược hệ thống quản lý kho ngữ liệu song song Qua ñó thấy HẠN CHẾ khả ứng dụng phương pháp thu thập kho ngữ liệu song song Các Module hệ thống chưa hoàn toàn tự ñộng, số Module từ Website ña ngữ hồn tồn đưa vào thực tế KẾT LUẬN cịn cần phải có tác động người Giao diện hệ thống Website quản lý kho ngữ liệu song song chưa bắt mắt, chưa ñẹp HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Với thành tựu tốc ñộ phát triển cơng nghệ ngày việc phải vượt qua rào cản mặt ngôn ngữ nhu cầu thiết Từ nghiên cứu trên, chúng tơi mạnh dạn đề xuất việc ứng dụng hệ thống dịch tự ñộng lĩnh vực tất hướng nghiên cứu phát triển tiếp luận văn tương lai yếu Việc xây dựng kho ngữ liệu song song từ Website ña ngữ sau: ñiều cần thiết ñể tạo CSDL cho hệ thống dịch tự ñộng Thứ nhất, xây dựng cho nhiều cặp ngôn ngữ khác giới việc dạy học ngoại ngữ cho ñối tượng Thứ hai, phát triển, nâng cấp giao diện tương tác với người dùng KẾT QUẢ ĐẠT ĐƯỢC ñối với hệ thống quản lý kho ngữ liệu song song ñể thuận tiện cho Về mặt lý thuyết: Tơi nghiên cứu phương pháp thu thập người sử dụng kho ngữ liệu song song từ Website đa ngữ Luận văn phân tích, đề xuất bước xây dựng kho ngữ liệu song song từ Website đa ngữ Từ mở hướng việc khai thác nguồn tài nguyên ña ngữ khổng lồ từ Internet Về công nghệ sử dụng NET SQL Server 2008 ñể làm sở phát triển ứng dụng Về ứng dụng: Thu thập số Website ña ngữ tải ñược số lượng máy tính Ngồi xây dựng kho ngữ liệu song song Việt – Anh, Việt – Pháp hệ thống quản lý cho phép cập nhật, Thứ ba, xây dựng Module hồn tồn tự động, ổn định Thêm chức cho phép nhiều tùy chọn cho chức Thứ tư, tích hợp Module vào chương trình để dễ sử dụng quản lý -* - ... lý thuyết: Tơi nghiên cứu phương pháp thu thập người sử dụng kho ngữ liệu song song từ Website ña ngữ Luận văn ñã phân tích, ñề xuất bước xây dựng kho ngữ liệu song song từ Website đa ngữ Từ. .. khăn Từ vấn đề nêu trên, chúng tơi tham khảo phương pháp xây dựng tự ñộng kho ngữ liệu song song từ Internet cho ngôn ngữ khác phát triển phương pháp thu thập kho ngữ liệu song song Việt – Anh, Việt. .. Internet Đó nguồn tài ngun đa ngữ song song ngơn ngữ lớn chưa khai thác triệt để Trong luận văn chúng tơi chọn nguồn liệu ñể thu thập xây dựng kho ngữ liệu song song Phương pháp nghiên cứu Để ñáp

Ngày đăng: 30/12/2013, 14:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan