ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA của từ TIẾNG VIỆT và ỨNG DỤNG

66 761 5
ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA của từ TIẾNG VIỆT và ỨNG DỤNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM THỊ THÙY GIANG ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA CỦA TỪ TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã đề tài: CNTTVINH13B-09 LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THU HƯƠNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Luận văn thạc sỹ em nghiên cứu thực hướng dẫn củaTS Nguyễn Thị Thu Hương Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên em làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, em cam đoan không chép toàn văn công trình thiết kế tốt nghiệp người khác Hà nội, tháng năm 2015 Học viên Phạm Thị Thùy Giang LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn tới thầy cô giáo viện Công nghệ Thông tin Truyền thông tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu thời gian học tập cao học trường Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Nguyễn Thị Thu Hương – Bộ môn Khoa học máy tính, viện Công nghệ Thông tin Truyền thông trường Đại học Bách Khoa Hà Nội tận tình hướng dẫn, đưa góp ý, chỉnh sửa vô quý báu cho em trình làm luận văn Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ em trình học tập, nghiên cứu hoàn thành luận văn MỤC LỤC DANH MỤC HÌNH VẼ, BẢNG BIỂU DANH MỤC HÌNH DANH MỤC TỪ VIẾT TẮT Từ viết tắt EBMT CBR PMI PMI-IR LSA SVD LCS NGD IS-A OHĐ Từ đầy đủ Example-based machine translate Case-Based Reasoning Pointwise Mutual Information Pointwise Mutual Information – Information Retrieval Latent Semantic Analysis Singular Value Decomposition Least common subsumer Normalized Google Distance Ý nghĩa Dịch máy ví dụ Lập luận dựa theo tình Thông tin chung dựa điểm Tìm kiếm thông tin chung dựa điểm Phân tích ngữ nghĩa ẩn Nút cha chung gần hai khái niệm Giải thuật google chuẩn hóa Quan hệ kế thừa Ô tô mát hữu hạn đơn định Chương 1: Tổng quan độ tương đồng Các độ đo tương đồng văn dùng từ lâu ứng dụng xử lý ngôn ngữ tự nhiên lĩnh vực liên quan Các ứng dụng độ tương đồng ngữ nghĩa từ kể đến dùng cho phân lớp văn bản, trích chọn văn dịch máy tự động hay tóm tắt văn Đánh giá độ tương đồng ngữ nghĩa vấn đề quan trọng xử lý ngôn ngữ tự nhiên, đặc biệt lĩnh vực dịch máy, tóm tắt văn bản, phân cụm Tuy nhiên đánh giá độ tương đồng ngữ nghĩa tiếng Việt gặp khó khăn tài nguyên ngữ liệu nghèo nàn Luận văn mong muốn tìm phương pháp đo độ tương đồng ngữ nghĩa thích hợp cho tiếng Việt ứng dụng vào hệ thống dịch máy thử nghiệm Việc đánh giá độ tương đồng từ tiếng Việt có ứng dụng quan trọng, nhiên lại khó thực chưa có đủ tài nguyên, đặc biệt hệ thống Wordnet Vì luận văn tìm cách sử dụng phương pháp đánh giá qua kết tìm kiếm Google với kết chấp nhận số lĩnh vực, với mong muốn hỗ trợ cho hệ thống xử lý ngôn ngữ tự nhiên dịch máy, tóm tắt văn Dịch máy lĩnh vực thú vị, thu hút quan tâm nhiều nhóm nghiên cứu giới Tuy nhiên, thân ngôn ngữ phức tạp, thường hay có nhập nhằng Mặc khác, ngôn ngữ có khác biệt, từ từ vựng đến cấu trúc để tạo thành câu Việc xây dựng hệ dịch máy có khả hiểu ngữ cảnh, khử nhập nhằng dịch gần với người thách thức lớn Xuất phát từ lý chọn đề tài “Độ tương đồng ngữ nghĩa từ tiếng Việt ứng dụng” Luận văn tập trung khảo sát việc đo độ tương đồng ngữ nghĩa từ để ứng dụng vào hệ thống dịch máy Việt – Anh ví dụ, hướng đến phát triển hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ tri thức phân tích ngôn ngữ Học viên: Phạm Thị Thùy Giang Luận văn thạc sĩ Chương 1: Tổng quan độ tương đồng CHƯƠNG 1: TỔNG QUAN VỀ ĐỘ TƯƠNG ĐỒNG 1.1 Khái quát độ tương đồng Khái niệm tương đồng có nhiều dạng khác sử dụng để so sánh hai (hay nhiều) đối tượng, hoàn cảnh, vấn đề, v.v… với nhiều lĩnh vực khác Sự tương đồng (similarities) mang nhiều ý nghĩa khác khoa học máy tính khoa học nhận thức (cognitive science) Sự tương đồng sử dụng cách gián tiếp trình giải vấn đề, bật phương pháp dựa phép loại suy (Analogy reasoning), lập luận dựa theo tình (Case-Based Reasoning), nhận dạng mẫu (Pattern Recognition) Chúng có liên hệ với ranh giới rõ ràng phương pháp • Đa phần trình tìm kiếm sở liệu cần so trùng xác Tuy nhiên tương đồng có liên quan với số loại tìm kiếm có quan hệ với CBR(Case-Based Reasoning) Các phép đo độ tương đồng giữvai trò số sở liệu đặc biệt sở liệu không gian (spatial database) hay sở liệu địa lý (geodatabase) • Nhận dạng mẫu (Pattern Recognition) vấn đề tổng quát, nghiên cứu vận hành thiết kế hệ thống nhận dạng mẫu liệu Vì mẫu lúc giống hệt nhau, khái niệm tương đồng thường đóng vai trò định • Trong phân loại (Classification) phân cụm (Clustering), tương đồng sử dụng để phân loại đối tượng: đối tượng tương đồng thuộc lớp/cụm, đối tượng không tương đồng thuộc lớp/cụm khác • Trong diễn xuất hình ảnh (Image Interpretation), hình ảnh diễn xuất theo ý nghĩa chúng chúng so sánh với Ví dụ, ảnh y khoa thực tế ảnh có bệnh lý so sánh với nhau: Học viên: Phạm Thị Thùy Giang 10 Luận văn thạc sĩ Chương 3:Thử nghiệm độ tương đồng ngữ nghĩa tiếng Việt toán dịch máy Việt - Anh Từ hàm sở trên, hàm h*(s) định nghĩa sau: h' ' ( s, E ) s.trans = E  h* ( s ) = min (h' ' ( s, S ), h' ' ( s, D), h' ' ( s, D)) s.trans = S min (h' ' ( s, I ), h' ' ( s, D)) s.trans = NIL  C.4 Thuật toán A * tìm câu tương đồng Đây thuật toán nhằm chọn câu phù hợp với câu đầu vào (câu có chi phí so khớp thấp nhất) số câu lớp ứng viên đề cập Đầu vào: o Đồ thị (otomat) đoán nhận lớp câu số từ nội dung số từ chức o Câu đầu vào tiếng Việt tách từ o Chi phí tốt tìm : uppercost Đầu ra: Hình trạng lưu lại toàn trình so khớp câu đầu vào đến trạng thái đích với chi phí nhỏ đồ thị Thuật toán A *: BEGIN ∅ 1) CLOSED := ; { s0 } OPEN := ; {s0 trạng thái đầu} result := f* := ∞ 2) WHILE ∅ ; ∈ ; {f* = f*(s), s result} ( ∃s ∈ OPEN : ( g ( s ) ≤ upper cos t ) ) BEGIN v 3) 4) ∇ ∈ ∧ := { s | (s OPEN) (f*(s)

Ngày đăng: 01/07/2016, 17:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan