Xây dựng mô hình ngôn ngữ cho tiếng việt

51 756 3
Xây dựng mô hình ngôn ngữ cho tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tài liệu tham khảo công nghệ thông tin Xây dựng mô hình ngôn ngữ cho tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn Việt XÂY DỰNG MƠ HÌNH NGƠN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Cao Văn Việt XÂY DỰNG MƠ HÌNH NGƠN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán hướng dẫn: Tiến sĩ Lê Anh Cường HÀ NỘI - 2010 Mơ hình ngơn ngữ Ngram - Cao Văn Việt K51KHMT LỜI CẢM ƠN Đầu tiên, cho phép gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người trực tiếp hướng dẫn, bảo tạo điều kiện cho tơi q trình hồn thành luận văn Đồng thời xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Công Nghệ, đặc biệt thầy cô mơn Khoa học Máy tính , người trực tiếp giảng dạy, hướng dẫn tạo điều kiện cho tơi q trình học tập thực hành trường Cuối cùng, xin gửi gời cảm ơn tới tất bạn đồng học gia đình ủng hộ, giúp đỡ tơi hồn thành luận văn TĨM TẮT Mơ hình ngơn ngữ phận quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Có nhiều lĩnh vực xử lý ngơn ngữ tự nhiên sử dụng mơ hình ngơn ngữ như: kiểm lỗi tả, dịch máy hay phân đoạn từ Trên giới có nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa chọn tập trung nghiên cứu vấn đề để tạo điều kiện cho việc xử lý ngôn ngữ tiếng Việt vốn vô phong phú Luận văn trình bày khái qt mơ hình ngơn ngữ, đồng thời khó khăn cịn tồn để đưa phương pháp khắc phục, trọng tâm nghiên cứu phương pháp làm mịn Trong luận văn này, sử dụng chủ yếu công cụ mã nguồn mở SRILIM để xây dựng mô hình ngơn ngữ cho tiếng Việt, sau áp dụng mơ hình ngơn ngữ tạo để tính tốn độ hỗn loạn thông tin văn dịch máy thống kê Kết có sở để chúng tơi phương pháp làm mịn tốt sử dụng việc xây dựng mơ hình ngơn ngữ tiếng Việt MỤC LỤC Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: 1.2 Mục tiêu: 1.3 Cấu trúc luận văn: Chương Mơ hình ngơn ngữ Ngram: 2.1 Khái quát: 2.2 Cơng thức tính “xác suất thô”: 2.3 Khó khăn xây dựng mơ hình ngôn ngữ N-gram 2.3.1 Phân bố không đều: 2.3.2 Kích thước nhớ mơ hình ngơn ngữ 2.4 Các phương pháp làm mịn 2.4.1 Các thuật toán chiết khấu (discounting): 2.4.2 Phương pháp truy hồi: .8 2.4.3 Phương pháp nội suy: 10 2.4.4 Phương pháp làm mịn Kneser - Ney: 10 2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến Chen - GoodMan: .12 2.5 Kỹ thuật làm giảm kích thước liệu: 13 2.5.1 Loại bỏ (pruning): 13 2.5.2 Đồng hóa (Quantization): 15 2.5.3 Nén (Compression): 16 2.6 Độ đo: 16 2.6.1 Entropy – Độ đo thông tin: 16 2.6.2 Perplexity – Độ hỗn loạn thông tin: 18 2.6.3 Error rate – Tỉ lệ lỗi: 18 Chương 19 3.1 Ứng dụng mơ hình ngơn ngữ mơ hình dịch máy thống kê: Dịch máy: 19 3.2 Dịch máy thống kê: 19 3.2.1 Giới thiệu: 19 3.2.2 Nguyên lý thành phần: 19 3.2.3 Mơ hình dịch: 21 3.2.4 Bộ giải mã: .25 3.3 Các phương pháp đánh giá dịch: 25 3.3.1 Đánh giá trực tiếp người: 25 3.3.2 Đánh giá tự động: phương pháp BLEU 25 Chương 4.1 Thực nghiệm: 28 Công cụ: 28 4.1.1 Bộ công cụ trợ giúp xây dựng tập văn huấn luyện: 28 4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28 4.1.3 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 29 4.1.4 Bộ cơng cụ xây dựng mơ hình dịch máy thống kê – MOSES: 32 4.2 Dữ liệu huấn luyện: 34 4.3 Kết quả: 34 4.3.1 Số lượng cụm ngram: 34 4.3.2 Tần số tần số: 36 4.3.3 Cut-off (loại bỏ): 39 4.3.4 Các phương pháp làm mịn: 40 4.3.5 Áp dụng vào mơ hình dịch máy thống kê: .41 Chương Kết luận .43 Tài liệu tham khảo 44 Danh sách bảng sử dụng luận văn: Bảng 4-1: số lượng cụm Ngram văn huấn luyện với âm tiết 35 Bảng 4-2: số lượng cụm Ngram văn huấn luyện với từ .36 Bảng 4-3: tần số tần số cụm Ngram áp dụng cho âm tiết 37 Bảng 4-4: tần số tần số cụm Ngram với từ 38 Bảng 4-5: nhớ độ hỗn loạn thông tin áp dụng loại bỏ âm tiết 39 Bảng 4-6: nhớ độ hỗn loạn thông tin áp dụng loại bỏ với từ 40 Bảng 4-7: độ hỗn loạn thông tin phương pháp làm mịn cho âm tiết 40 Bảng 4-8: độ hỗn loạn thông tin phương pháp làm mịn cho từ .41 Bảng 4-9: điểm BLEU dịch máy với mơ hình ngơn ngữ sử dụng liệu huấn luyện có kích thước nhỏ (50Mb) 41 Bảng 4-10: điểm BLEU dịch máy với mơ hình Ngram sử dụng liệu huấn luyện có kích thước lớn (300Mb) .42 Danh sách hình sử dụng luận văn: Hình 3-1: mơ hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 20 Hình 3-3: tương ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 3-4: tương ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh .22 Hình 3-5: tương ứng - nhiều câu tiếng Anh với câu tiếng Pháp .22 Hình 3-6: tương ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 3-7: mơ hình dịch dựa cú pháp 25 Hình 3-8: trùng khớp dịch máy với dịch mẫu 26 Hình 4-1: số lượng cụm Ngram với âm tiết tăng kích thước liệu 35 Hình 4-2: số lượng cụm Ngram với từ tăng kích thước liệu .36 Hình 4-3: số lượng cụm Ngram (âm tiết) có tần số từ đến 10 37 Hình 4-4: số lượng cụm Ngram (từ) có tần số từ đến 10 38 Chương Giới thiệu vấn đề 1.1 Đặt vấn đề: Ngôn ngữ tự nhiên ngôn ngữ người sử dụng giao tiếp hàng ngày: nghe, nói, đọc, viết [10] Mặc dù người dễ dàng hiểu học ngơn ngữ tự nhiên; việc làm cho máy hiểu ngôn ngữ tự nhiên chuyện dễ dàng Sở dĩ có khó khăn ngơn ngữ tự nhiên có luật, cấu trúc ngữ pháp phong phú nhiều ngơn ngữ máy tính, để hiểu nội dung giao tiếp, văn ngôn ngữ tự nhiên cần phải nắm ngữ cảnh nội dung Do vậy, để xây dựng ngữ pháp, từ vựng hồn chỉnh, xác để máy hiểu ngơn ngữ tự nhiên việc tốn cơng sức địi hỏi người thực phải có hiểu biết sâu ngơn ngữ học Các phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê không nhắm tới việc người tự xây dựng mơ hình ngữ pháp mà lập chương trình cho máy tính “học” nhờ vào việc thống kê từ cụm từ có văn Cốt lõi phương pháp xử lý ngôn ngữ tự nhiên dựa thống kê việc xây dựng mơ hình ngơn ngữ Mơ hình ngơn ngữ phân bố xác suất tập văn [2][10] Nói đơn giản, mơ hình ngơn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngôn ngữ Ví dụ: áp dụng mơ hình ngơn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hơm qua”] = Mơ hình ngơn ngữ áp dụng nhiều lĩnh vực xử lý ngơn ngữ tự nhiên như: kiểm lỗi tả, dịch máy hay phân đoạn từ Chính vậy, nghiên cứu mơ hình ngơn ngữ tiền đề để nghiên cứu lĩnh vực Mơ hình ngơn ngữ có nhiều hướng tiếp cận, chủ yếu xây dựng theo mơ hình Ngram Vấn đề trình bày rõ ràng chương 1.2 Mục tiêu: Mục tiêu luận văn tìm hiểu lý thuyết mơ hình Ngram vấn đề đó, đặc biệt phương pháp làm mịn Về thực nghiệm, luận văn có sử dụng ... giúp xây dựng tập văn huấn luyện: 28 4.1.2 Công cụ tách từ cho tiếng Việt - vnTokenizer: 28 4.1.3 Bộ cơng cụ xây dựng mơ hình ngơn ngữ - SRILM: 29 4.1.4 Bộ cơng cụ xây dựng mơ hình. .. nhiều nước cơng bố nghiên cứu mơ hình ngơn ngữ áp dụng cho ngôn ngữ họ Việt Nam, việc nghiên cứu xây dựng mơ hình ngơn ngữ chuẩn cho tiếng Việt mẻ gặp nhiều khó khăn Chính điều gợi ý thúc đẩy lựa... giản, mơ hình ngơn ngữ cho biết xác suất câu (hoặc cụm từ) thuộc ngơn ngữ Ví dụ: áp dụng mơ hình ngơn ngữ cho tiếng Việt: P[“hôm qua thứ năm”] = 0.001 P[“năm thứ hôm qua”] = Mơ hình ngơn ngữ áp

Ngày đăng: 23/11/2012, 13:45

Hình ảnh liên quan

Thuật toán Kneser-Ney xây dựng theo hai mô hình: truyhồi và nội suy, tuy nhiên trong thuật toán này không cần phải áp dụng các thuật toán chiết khấu trước khi áp dụng  công thức truy hồi. - Xây dựng mô hình ngôn ngữ cho tiếng việt

hu.

ật toán Kneser-Ney xây dựng theo hai mô hình: truyhồi và nội suy, tuy nhiên trong thuật toán này không cần phải áp dụng các thuật toán chiết khấu trước khi áp dụng công thức truy hồi Xem tại trang 20 của tài liệu.
Môhình dịch có 3 hướng tiếp cận chính: - Xây dựng mô hình ngôn ngữ cho tiếng việt

hình d.

ịch có 3 hướng tiếp cận chính: Xem tại trang 29 của tài liệu.
Hình 3-3: sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh - Xây dựng mô hình ngôn ngữ cho tiếng việt

Hình 3.

3: sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh Xem tại trang 30 của tài liệu.
Trong khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch dựa  trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ của  ng - Xây dựng mô hình ngôn ngữ cho tiếng việt

rong.

khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch dựa trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ của ng Xem tại trang 30 của tài liệu.
3.2.3.4 Môhình dịch dựa trên cú pháp (Syntax-based): - Xây dựng mô hình ngôn ngữ cho tiếng việt

3.2.3.4.

Môhình dịch dựa trên cú pháp (Syntax-based): Xem tại trang 32 của tài liệu.
Hình 3-7: sự trùng khớp của các bản dịch máy với bản dịch mẫu - Xây dựng mô hình ngôn ngữ cho tiếng việt

Hình 3.

7: sự trùng khớp của các bản dịch máy với bản dịch mẫu Xem tại trang 34 của tài liệu.
Hình 4-8: số lượng các cụm Ngram với âm tiết khi tăng kích thước dữ liệu - Xây dựng mô hình ngôn ngữ cho tiếng việt

Hình 4.

8: số lượng các cụm Ngram với âm tiết khi tăng kích thước dữ liệu Xem tại trang 42 của tài liệu.
4.3.1.1 Số lượng các cụm Ngram với tiếng Việt dựa trên âm tiết: - Xây dựng mô hình ngôn ngữ cho tiếng việt

4.3.1.1.

Số lượng các cụm Ngram với tiếng Việt dựa trên âm tiết: Xem tại trang 42 của tài liệu.
Bảng 4-3: tần số của tần số các cụm Ngram áp dụng cho âm tiết - Xây dựng mô hình ngôn ngữ cho tiếng việt

Bảng 4.

3: tần số của tần số các cụm Ngram áp dụng cho âm tiết Xem tại trang 44 của tài liệu.
Hình 4-11: số lượng các cụm Ngram (từ) có tần số từ 1 đến 10 - Xây dựng mô hình ngôn ngữ cho tiếng việt

Hình 4.

11: số lượng các cụm Ngram (từ) có tần số từ 1 đến 10 Xem tại trang 45 của tài liệu.
Bảng 4-5: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ trong âm tiết - Xây dựng mô hình ngôn ngữ cho tiếng việt

Bảng 4.

5: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ trong âm tiết Xem tại trang 46 của tài liệu.
Bảng 4-6: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ với từ - Xây dựng mô hình ngôn ngữ cho tiếng việt

Bảng 4.

6: bộ nhớ và độ hỗn loạn thông tin khi áp dụng loại bỏ với từ Xem tại trang 47 của tài liệu.
Bảng 4-8: độ hỗn loạn thông tin của các phương pháp làm mịn cho từ - Xây dựng mô hình ngôn ngữ cho tiếng việt

Bảng 4.

8: độ hỗn loạn thông tin của các phương pháp làm mịn cho từ Xem tại trang 48 của tài liệu.
4.3.5 Áp dụng vào mô hình dịch máy thống kê: - Xây dựng mô hình ngôn ngữ cho tiếng việt

4.3.5.

Áp dụng vào mô hình dịch máy thống kê: Xem tại trang 48 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan