Thông tin tài liệu
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
oOo
LÊ NGỌC SƠN
CANH LỀ VĂN BẢN SONG NGỮ
VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP
ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành : 01.02.10
LUẬN VĂN TỐT NGHIỆP
TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học:
Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày . . . . . tháng . . . . . năm 2006
ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
oOo oOo
Tp. Hồ Chí Minh, ngày … tháng … năm 2006
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Lê Ngọc Sơn Phái : Nam
Ngày sinh : 28/05/1981 Nơi sinh : Tiền Giang
Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179
I. TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp
đặc thù của ngôn ngữ Anh - Việt.
II. NHIỆM VỤ VÀ NỘI DUNG:
Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ.
Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA.
Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn
bản song ngữ Anh - Việt.
Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại
theo lĩnh vực.
III. NGÀY GIAO NHIỆM VỤ : / / 2006
IV. NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi
CÁN BỘ HƯỚNG DẪN
PGS., TS. Phan Thị Tươi
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
Ngày … tháng … năm 2006
PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH
LỜI CẢM ƠN
Tôi xin được gửi lời cảm ơn chân thành đến:
PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu và
thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong những
lúc khó khăn nhất.
Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP.
Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi những
kiến thức nền tảng và khả năng nghiên cứu.
Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Liễu, KS. Nguyễn Hoàng Thanh
Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong
Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôi
trong suốt thời gian thực hiện luận văn.
Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi học
tập và phấn đấu.
TÓM TẮT
Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ
và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu
dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản
để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương
pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đối
chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Việc áp dụng vào
canh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểm
của ngôn ngữ tiếng Việt.
Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuật
canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật Longest
Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý một trường hợp đặc biệt
trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, chương trình phải xử lý
trường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợp
này.
Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm
các cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản. Ngoài ra,
chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu. Nó sẽ là một
tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ
lớn.
Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cách
hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.
ABSTRACT
Bitext (- parallel text) is a text in one language and its translation in another
language. They are available sources of information for bilingual lexicography,
machine translation. In order to achieve this, they must be aligned first, i.e. the
various pieces of the text must be put into correspondence.
Recently, text alignment has been taken interest in very much. Many methods
and algorithm have been brought out into open and applied. The result were relatively
accurate. However, any pair of languages have their characteristics, the application of
Vietnamese- English bittext alignment needs to be adjusted in accordance with the
Vietnamese characteristics.
In this study, I am constructing a new alignment procedure which applied the
algorithm of length- based alignment, dictionary- based word alignment and Longest
Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is
taking the notice of a commonly special problem- cross translation. Then, the
algorithm must solve the cross translation problem which is often bypassed by many
previous algorithms.
The degree of accuracy is relatively high. It creates a corpus inncluding
aligned pairs of sentences and devided in the field of text. In addition, the algorithm
will mark map points between words in sentences. It will be an useful data file for
machine translation and automically create a specialist dictionary when the data
warehouse is large enough.
In this composition, I present in detail algorithms using and the realization of
applied algorithms in Vietnamese- English bitext alignment.
MỤC LỤC
Giới thiệu 1
1 Bối cảnh thực hiện luận văn: 1
2 Thực trạng – Vấn đề: 1
3 Hướng giải quyết vấn đề: 2
4 Mục tiêu của luận văn: 2
5 Đóng góp của luận văn: 2
6 Hướng phát triển: 5
7 Cấu trúc của luận văn: Luận văn chia làm 7 phần 5
Các công trình nghiên cứu liên quan 7
1 Phương pháp canh lề văn bản dựa vào chiều dài câu: 7
1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8
1.2 Phương pháp của Peter F.Brown [17]: 9
2 Phương pháp canh lề dựa vào từ vựng: 10
2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle [15]: 10
2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11
2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna
A, Rajev Sangal, Sushma Bendre [9]: 12
2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13
2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8] 14
2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 15
3 Kết hợp các phương pháp: 16
3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy
Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16
3.2 Phương pháp của Stanley F.Chen:[14] 17
3.3 Phương pháp canh lề theo giải thuật SIMR và GSA. Nghiên cứu của tác giả
I. Dan Melamed [10] : 18
4 Nghiên cứu của các tác giả trong nước: 20
4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004): 20
4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh-
Việt dựa trên giải thuật SIMR và GSA 20
Phần 3 22
Cơ sở lý thuyết 22
1 Các định nghĩa: 22
1.1 Phép canh lề: 22
1.2 Phép canh lề chéo 23
2 Đánh giá mức độ chính xác của phép canh lề 23
3 Hệ số Dice (D): 24
4 Xác suất có điều kiện: 24
5 Phân tích hồi qui tuyến tính: 25
Phân tích giải thuật 28
1 Giải thuật Stemming: 28
2 Giải thuật phân đoạn câu: 32
3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34
3.1 Khung lập trình động (A Dynamic Programming Framework): 34
3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37
4 Phương pháp canh lề sử dụng dãy giới hạn (Confidence Bands Algorithm - CBA)
[8]: 37
5 Phương pháp canh lề sử dụng “chuỗi được sắp xếp dài nhất” (Longest Sorted
Sequence Algorithm - LSSA) [1]: 40
6 So sánh phương pháp LSSA với CBA: 41
7 Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer)
và GSA [10] 46
8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50
Hiện thực 52
1 Stemming: Dùng giải thuật Porter 54
2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55
3 Phân đoạn câu: 57
4 Canh lề câu theo chiều dài câu: 58
5 Kiểm tra tính hợp lệ của phép canh lề 62
6 Canh lề chéo: 65
7 Canh lề từ: 66
8 Phân loại văn bản: 68
Kết quả thực nghiệm 69
1 Giới thiệu chương trình: 69
2 Kết quả sau bước canh lề câu (Bước 1): 70
3 Kết quả sau bước canh lề chéo (Bước 2): 74
4 Kết quả canh lề từ: 76
5 Các chức năng khác: 79
5.1 Lưu kết quả canh lề: 79
5.2 Mở lại một qui trình canh lề: 79
5.3 Chạy từng bước giải thuật: 80
Kết luận 81
1 Tổng kết: 81
2 Hướng mở rộng và phát triển đề tài: 83
2.1 Hoàn chỉnh luận văn: 83
2.2 Phát triển theo hướng nghiên cứu: 83
2.3 Phát triển theo hướng ứng dụng: 83
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87
TÀI LIỆU THAM KHẢO 89
DANH MỤC HÌNH
Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6] 13
Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6] 13
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] 14
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] 15
Hình 2-5 Không gian văn bản song ngữ 18
Hình 3-6 Canh lề chéo trong văn bản song ngữ 23
Hình 4-7 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức 34
Hình 4-8 Đường thẳng hồi qui tuyến tính 38
Hình 4-9 Biểu đồ khoảng cách 39
Hình 4-10 Dãy giới hạn (CB) 39
Hình 4-11. Kết quả thu được khi sử dụng CBA 42
Hình 4-12. Kết quả thu được khi sử dụng LSSA 42
Hình 4-13. Tính khoảng cách trong CBA 43
Hình 4-14. Kết quả canh lề sử dụng CBA 43
Hình 4-15. Kết quả canh lề sử dụng CBA 44
Hình 4-16. Kết quả canh lề dùng CBA 44
Hình 4-17. Kết quả canh lề dùng LSSA 45
[...]... rất tiện dụng Độ chính xác cao: 99,4% Tạo ra một corpus khoảng 10000 cặp câu song ngữ Anh- Việt Trang 20 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn Canh lề từ, tạo ra từ điển song ngữ Anh- Việt Trang 21 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD:... 1-0 được xác định trong canh lề 2-1 74 Bảng 6-1 7 Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75 Bảng 6-1 8 Ví dụ minh họa - Kết quả canh lề chéo .76 Bảng 6-1 9 Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77 Bảng 6-2 0 Ví dụ kết quả canh lề chéo cụm từ .78 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan... 15 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn giải thuật Longest Sorted Sequence (LSSA) là cải tiến của tác giả Giải thuật dựa trên ý tưởng chọn phép canh lề có số lượng những từ được canh lề là lớn nhất trong các phép canh lề Với sự thay thế này, ứng dụng vào canh lề văn bản song ngữ Bồ Đào NhaPháp, giải. .. bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dài câu, canh lề kết hợp 2 bước như sau: Trang 10 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi Số cặp câu không canh lề Phần trăm lỗi Thời gian xử lý HV: Lê Ngọc Sơn Canh lề theo... tổ hợp các phép canh lề khả dĩ sao cho tổng khoảng cách của chúng là nhỏ nhất Các phép canh lề khả dĩ bao gồm: Phép canh lề một-không ( 1-0 ) Phép canh lề không-một ( 0-1 ) Phép canh lề một-một ( 1-1 ) Phép canh lề một-hai ( 1-2 ) Phép canh lề hai-một ( 2-1 ) Ngoài ra, tác giả giả thiết rằng không có phép canh lề chéo Khi đó, nếu phép canh lề thứ k là phép canh lề giữa câu thứ i của S và câu thứ j của. .. 1 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn nước cũng đã có những nghiên cứu về vấn đề này Các giải thuật được áp dụng gồm phương pháp canh lề dựa vào chiều dài câu và phương pháp canh lề dựa vào từ vựng Giải thuật SIRM và GSA là sự kết hợp ưu điểm của 2 xu hướng canh lề dựa vào chiều dài câu và dựa vào... khi áp dụng vào canh lề từ Anh – Việt Trong quá trình canh lề từ, chương trình cũng loại ra những điểm tương ứng ngẫu nhiên bằng cách lọc bỏ những từ không có giá trị canh lề Trang 3 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn (stopword) Ngoài ra, giải thuật LSSA cũng nhận dạng được những đoạn canh lề chéo... lớn nhất trong các phép canh lề Trang 22 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn Nếu một câu tiếng Anh được dịch ra hai câu tiếng Việt thì ta gọi phép canh lề này là phép canh lề một-hai ( 1-2 ) Trường hợp ngược lại gọi là phép canh lề hai-một ( 2-1 ) Cũng có khi một câu tiếng Anh vì lý do gì đó không... Anh cũng như trong tiếng Việt Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt Trang 2 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi HV: Lê Ngọc Sơn Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp tương ứng: Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh. .. canh lề toàn bộ văn bản mà không được canh lề đoạn trước Trang 9 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS Phan Thị Tươi 2 HV: Lê Ngọc Sơn Phương pháp canh lề dựa vào từ vựng: Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạn trước thì giải thuật mới cho ra kết quả tốt Trong khi đó, phương pháp canh lề theo . 76 Bảng 6-1 9. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77 Bảng 6-2 0. Ví dụ kết quả canh lề chéo cụm từ 78 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ. TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh - Việt. II. NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản. tiếng Anh cũng như trong tiếng Việt. Trường hợp đặc biệt và phổ biến nhất là từ ghép tiếng Việt. Trang 2 Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh
Ngày đăng: 29/03/2014, 14:25
Xem thêm: canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ anh - việt, canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ anh - việt, 6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]:, 2 Phép canh lề chéo., 5 Phân tích hồi qui tuyến tính:, Phân tích giải thuật, 3 Giải thuật canh lề văn bản theo chiều dài câu [16]:, 1 Khung lập trình động (A Dynamic Programming Framework):, 2 Thuật toán lập trình động (A Dynamic Programming Algorithm):, 4 Phương pháp canh lề sử dụng dãy giới hạn (Confidence Bands Algorithm - CBA) [8]:, 6 So sánh phương pháp LSSA với CBA:, 7 Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer) và GSA [10], 8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn):, 2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh:, 4 Canh lề câu theo chiều dài câu:, 5 Kiểm tra tính hợp lệ của phép canh lề, 2 Kết quả sau bước canh lề câu (Bước 1):, 4 Kết quả canh lề từ:, 5 Các chức năng khác:, 3 Chạy từng bước giải thuật:, 2 Hướng mở rộng và phát triển đề tài:, 3 Phát triển theo hướng ứng dụng: