NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT

40 705 0
NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG ĐỒNG VĂN BẢN ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài: Thành viên tham gia: Th.S NGUYỄN KIM ANH Th.S TRỊNH THỊ NGỌC HƯƠNG Hải Phòng, tháng 05/2016 MỤC LỤC MỤC LỤC DANH SÁCH HÌNH ẢNH DANH SÁCH BẢNG BIỂU MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Phương pháp nghiên cứu CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT 2.1 Bài toán so sánh văn 2.2 Đặc điểm ngôn ngữ tiếng Việt 10 2.2.1 Cấu tạo từ tiếng Việt 10 2.2.2 Biến hình từ tiếng Việt 11 2.2.3 Từ đồng nghĩa 11 2.2.4 Đặc điểm tả 12 2.2.5 Bảng mã tiếng Việt máy tính .12 2.3 Hướng tiếp cận cho toán so sánh văn tiếng Việt 13 2.3.1 Tiền xử lý văn tiếng Việt 13 2.3.2 Phương pháp tính độ tương đồng văn 14 2.3.3 Hướng tiếp cận cho toán so sánh văn tiếng Việt 16 CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT 18 3.1 Mô hình biểu diễn văn truyền thống 18 3.1.1 Mô hình logic 18 3.1.2 Mô hình vector 19 3.2 Mô hình đồ thị biểu diễn văn 22 3.2.1 Mô hình đồ thị khái niệm 22 3.2.2 Mô hình đồ thị hình 23 3.2.3 Mô hình đồ thị vô hướng sử dụng tần số xuất 23 3.2.4 Mô hình đồ thị có hướng, cạnh không gán nhãn 24 3.3.5 Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh khoảng cách n hai từ văn 24 CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN 26 4.1 Khái niệm độ tương đồng 26 4.2 Độ tương đồng văn dựa tập từ chung 26 4.2.1 Khoảng cách Jaro 26 4.2.2 Mô hình tương phản (Contrast model) 27 4.2.3 Hệ số Jaccard .27 4.3 Độ tương đồng văn dựa vector biểu diễn 27 4.3.1 Độ tương đồng Cosine 27 4.3.2 Độ tương đồng dựa vào khoảng cách Euclide 28 4.3.3 Độ tương đồng dựa vào khoảng cách Manhattan .28 4.4 Độ tương đồng văn tiếng Việt 29 4.4.1 Độ tương tự ngữ nghĩa từ - từ 29 4.4.2 Độ tương tự ngữ nghĩa văn 30 4.4.3 Độ tương tự thứ tự từ văn 31 4.4.4 Kết hợp độ đo để đánh giá độ tương tự hai văn 32 CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ 33 5.1 Mô hình hệ thống 33 5.1.1 Tiền xử lý 33 5.1.2 Xử lý từ .33 5.1.3 * Vector hóa văn .35 5.1.4 *Tính độ tương tự văn 36 5.2 Mô hình thực nghiệm 38 5.2.1 Môi trường thực nghiệm 38 5.2.2 *Chương trình ứng dụng thử nghiệm 38 5.2.3 *Kết thử nghiệm 38 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 DANH SÁCH HÌNH ẢNH Hình 1: Mô hình vector biểu diễn văn 19 Hình 2: Ví dụ mô hình đồ thị khái niệm 22 Hình 3: Ví dụ mô hình đồ thị hình 23 Hình 4: Ví dụ mô hình đồ thị vô hướng sử dụng tần số xuất 24 Hình 5: Ví dụ mô hình đồ thị đơn giản 24 Hình 6: Ví dụ mô hình đồ thị khoảng cách n đơn giản 25 Hình 7: Mô hình hệ thống so sánh văn tiếng Việt 33 Hình 8: Chương trình thử nghiệm so sánh độ tương tự văn 38 DANH SÁCH BẢNG BIỂU Bảng 1: Tần suất xuất độ dài từ tiếng Việt vdict.com 11 Bảng 2: Biểu diễn văn mô hình Logic 18 Bảng 3: Vector biểu diễn văn 20 MỞ ĐẦU Hiện nay, với phát triển bùng nổ ứng dụng Internet, liệu văn tăng nhanh số lượng nội dung Trong kho liệu ấy, lượng lớn văn tiếng Việt Tuy nhiên, nghiên cứu khai thác thông tin văn tiếng Việt lại chưa nhiều so với tiếng Anh, hầu hết sử dụng phương pháp đề xuất cho tiếng Anh để áp dụng sang tiếng Việt Do đặc điểm ngôn ngữ tiếng Việt có nhiều điểm khác so với ngôn ngữ tiếng Anh nên việc áp dụng phương pháp nhiều hạn chế Mục tiêu đề tài nghiên cứu mô hình biểu diễn văn tiếng Việt, kỹ thuật tính độ tương đồng nhằm cải tiến phép đo tương đồng ứng dụng vào thiết kế, xây dựng thử nghiệm số phần chức hệ thống so sánh văn tiếng Việt Nội dung báo cáo gồm:  Chương 1: giới thiệu tổng quan đề tài, mục đích nội dung nghiên cứu  Chương 2: trình bày đặc điểm ngôn ngữ tiếng Việt phương pháp cho toán so sánh văn tiếng Việt  Chương 3: trình bày mô hình biểu diễn văn truyền thống mô hình đồ thị, ứng dụng mô hình biểu diễn văn tiếng Việt  Chương 4: trình bày phương pháp tính độ tương tự cải tiến văn tiếng Việt  Chương 5: trình bày thiết kế hệ thống so sánh độ tương tự văn tiếng Việt Cuối đề tài đưa số kết luận kết thực đề xuất hướng nghiên cứu tương lai Thuyết minh ĐT NCKH CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý chọn đề tài Trong loại liệu liệu văn dạng phổ biến Ngày nay, với phát triển mạnh mẽ Internet, liệu văn trở nên phong phú nội dung tăng nhanh số lượng Chỉ vài thao tác đơn giản, đâu, thời điểm nào, ta nhận khối lượng khổng lồ trang web tài liệu điện tử liên quan đến nội dung tìm kiếm Chính dễ dàng mang đến cho nhiều khó khăn việc chắt lọc thông tin coi mới, riêng, hữu ích tài liệu Cho đến thời điểm tại, khai phá liệu văn tiếng Anh có nhiều công trình nghiên cứu đạt nhiều kết Nhìn cách tổng quan, hầu hết nghiên cứu dựa vào mô hình biểu diễn văn dạng vector tính toán dựa xác suất thống kê thông tin trọng số từ văn Do đặc điểm tiếng Việt khác với tiếng Anh, phương pháp có nhược điểm chưa quan tâm tới vấn đề ngữ nghĩa văn mối quan hệ từ/cụm từ, tần số, vị trí từ … 1.2 Mục đích nghiên cứu Nghiên cứu tổng quan vấn đề xử lý văn số phương pháp so sánh độ tương đồng câu áp dụng thu kết khả quan phương pháp tính độ tương đồng sử dụng độ đo Cosine, độ đo khoảng cách Euclide… Nghiên cứu đặc điểm văn tiếng Việt, xây dựng mô hình biểu diễn văn tiếng Việt nhằm cải tiến phép đo tương đồng ứng dụng vào thiết kế, xây dựng thử nghiệm số phần chức hệ thống so sánh văn tiếng Việt 1.3 - - - 1.4 Đối tượng nghiên cứu Nghiên cứu số mô hình tính toán độ tương đồng văn cú pháp ngữ nghĩa, xác định mức tương đồng văn cấp độ từ, câu, đoạn văn hay toàn văn ứng dụng tiếng Việt Nghiên cứu phương pháp biểu diễn văn tiếng Việt xây dựng đồ thị liên kết biểu diễn văn bản, tính độ tương tự văn dựa mô hình biểu diễn Xây dựng ứng dụng thử nghiệm so sánh văn tiếng Việt, hỗ trợ đánh giá việc chép điện tử Phương pháp nghiên cứu Tìm hiểu, khảo sát hệ thống hóa kết nghiên cứu có vấn đề độ tương đồng văn ứng dụng tiếng Việt Thuyết minh ĐT NCKH CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI Nghiên cứu lý thuyết mô hình tính độ tương đồng văn bản, mô hình biểu diễn văn ứng dụng mô hình vào thiết kế, xây dựng thử nghiệm hệ thống so sánh độ tương đồng văn tiếng Việt Thực nghiệm liệu mẫu để đánh giá hệ thống Thuyết minh ĐT NCKH CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT 2.1 Bài toán so sánh văn Hiện nay, tình trạng chép, vi phạm quyền gian dối, chống đối kết học tập, nghiên cứu diễn sôi khó kiểm soát Đặc biệt lĩnh vực giáo dục – đào tạo, việc người học tham khảo chép phổ biến, làm giảm khả tư chất lượng nghiên cứu, học tập Vấn đề đặt làm để xác định phép đo độ giống văn bản, sở đưa kết luận việc chép điện tử, làm để phân loại đánh giá kết luận, nghiên cứu người học Thực tế có số nghiên cứu đề xuất phương pháp khác đề xác định xem đoạn văn tài liệu có nằm tài liệu khác không Các phương pháp chủ yếu dựa tìm kiếm so khớp chuỗi, nhiên so khớp chuỗi có hiệu việc chép “nguyên văn” Việc chép có sửa đổi thay số từ từ đồng nghĩa hay thay đổi thứ tự câu văn cần phương pháp khác hiệu Trong xử lý ngôn ngữ tự nhiên, công trình nghiên cứu đánh giá độ tương tự văn tiếng Anh diễn sôi Nhiều công trình nghiên cứu nhiều ứng dụng hữu ích thu kết việc phát vi phạm quyền tác giả viết Plagiarism-Detector Personal, Turnitin… Đối với xử lý ngôn ngữ tiếng Việt, bắt đầu xuất nghiên cứu so sánh văn tiếng Việt song chiếm tỉ lệ khiêm tốn Trong tiếng Anh, kho ngữ liệu hay mạng từ tiếng Anh phát triển tốt nên hiệu hệ thống so sánh cài đặt cao Do đặc điểm từ tiếng Việt có nhiều điểm khác với tiếng Anh, việc xử lý văn xây dựng kho ngữ liệu chuẩn đầy đủ vấn đề lớn Các phương pháp đánh giá độ tương tự văn tiếng Việt dựa kho ngữ liệu nghiên cứu phát triển Một số phần mềm so sánh văn bản:  Download Compare My Docs: chương trình so sánh văn cho phép người dùng so sánh lúc nhiều văn với để tìm khác biệt nội dung chúng Nhờ mà ta biết văn tài liệu có bị trùng với văn hay không? Phần mềm hỗ trợ văn tiếng việt theo bảng mã Unicode  Download UltraCompare: phần mềm so sánh file văn Chương trình thực so sách nội dung tài liệu đưa tỷ lệ trùng, đánh dấu nội dung trùng cách xác Ngoài chương trình cho phép người dùng tìm kiếm, đồng liệu tìm kiếm thư mục để thuận việc tìm kiếm, so sánh trở lên nhanh chóng Thuyết minh ĐT NCKH CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT  Plagiarism-Detector Personal: phần mềm phát đoạn văn chép Đây ứng dụng độc đáo với công cụ hữu ích nhằm hỗ trợ người sử dụng phát đoạn văn hay văn chép từ nguồn khác cách xác  Turnitin: hệ thống hỗ trợ kiểm tra, đánh giá việc chép điện tử triển khai FPT Polytechnic Hệ thống làm việc với nhiều trường đại học hàng đầu giới trung tâm nghiên cứu lớn, vài tổ chức phủ nhằm cung cấp công cụ hiệu phát vay mượn, chép 2.2 Đặc điểm ngôn ngữ tiếng Việt 2.2.1 Cấu tạo từ tiếng Việt Tiếng Việt ngôn ngữ không biến hình từ âm tiết tính, tức âm tiết (tiếng) phát âm tách rời thể từ [4] Hai đặc trưng chi phối toàn toàn tổ chức hệ thống ngôn ngữ tiếng Việt a) Tiếng Tiếng đơn vị sở để cấu tạo lên từ Tiếng đơn vị nhỏ có nội dung thể Xét mặt ý nghĩa, tiếng chia thành loại sau [1]: - - Tiếng tự thân có ý nghĩa, thường quy chiếu vào đối tượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ… Tiếng tự thân ý nghĩa, không quy chiếu vào đối tượng, khái niệm mà chúng thường với tiếng khác có nghĩa làm thay đổi sắc thái tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (nắng) nôi… Tiếng tự thân ý nghĩa ghép với để tạo thành từ có nghĩa, thường xuyên gặp từ mượn phéc-mơ-tuya, a-pa-tít, mì-chính Trong tiếng Việt tiếng thuộc nhóm chiếm đa số, tiếng thuộc hai nhóm sau thường chiếm số ít, đặc biệt nhóm thứ 3, chúng thường gọi tiếng vô nghĩa b) Từ, cụm từ Từ cấu tạo từ nhiều tiếng Từ cấu tạo từ tiếng gọi từ đơn, ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo nhiều tiếng từ ghép, tiếng có mối quan hệ nghĩa Từ ghép phân thành từ ghép đẳng lập từ ghép phụ Đối với từ ghép đẳng lập thành phần cấu tạo từ có mối quan hệ bình đẳng với nghĩa, 10 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Các phép đo độ tương tự văn văn quan tâm nghiên cứu từ lâu ứng dụng xử lý ngôn ngữ tự nhiên lĩnh vực liên quan Một ứng dụng sớm độ tương tự văn tìm kiếm thông tin, tài liệu có liên quan tới câu truy vấn xếp hạng theo thứ tự độ tương tự Ngoài ra, độ tương tự văn dùng cho phân lớp văn bản, trích chọn hay tóm tắt văn bản, phương pháp cho đánh giá dịch máy tự động hay đánh giá tính chặt chẽ văn Nội dung chương trình bày số phép tính độ tương đồng văn điển hình phương pháp để xác định độ tương đồng văn tiếng Việt 4.1 Khái niệm độ tương đồng Độ tương đồng đại lượng dùng để so sánh hai hay nhiều đối tượng với nhau, phản ánh cường độ mối quan hệ đối tượng với Ví dụ: xét câu “Tôi nam” “Tôi nữ”, ta nhận thấy hai câu có tương đồng cao Phát biểu toán tính độ tương đồng sau: Xét văn di dj Mục tiêu tìm giá trị S(di,dj), S (0,1), thể độ tương đồng văn di dj Giá trị cao giống nghĩa hai văn nhiều Ví dụ mô hình không gian vector, ta sử dụng độ đo Cosine để tính độ tương đồng hai văn bản, văn biểu diễn vector Độ tương tự ngữ nghĩa khái niệm thể tỷ lệ dựa giống nội dung ý nghĩa tập tài liệu thuật ngữ danh sách thuật ngữ [6] Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa câu, tài liệu văn 4.2 Độ tương đồng văn dựa tập từ chung 4.2.1 Khoảng cách Jaro Khoảng cách Jaro định nghĩa độ đo tương tự hai chuỗi Cho hai câu s1 s2, khoảng cách Jaro d s1 s2 tính sau (Winkler, W E., “String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage”, 1990): 𝑑= 𝑚 𝑚 𝑚−𝑡 ( ) + + |𝑠1 | |𝑠2 | 𝑚 26 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Trong m số từ giống nhau, t ½ số bước chuyển Phép chuyển vị trí thực hai từ giống hai câu s1 s2 có khoảng cách không lớn giá trị: ⌊ max(|𝑠1 |, |𝑠2 |) ⌋−1 Mỗi từ câu s1 so sánh với tất từ s2 Số bước chuyển định nghĩa số lượng từ giống hai câu (nhưng thứ tự chuỗi khác nhau) chia cho 4.2.2 Mô hình tương phản (Contrast model) Mô hình tương phản Tversky đề xuất (“Features of similarity”, Psychological Review, 1977) để tính độ tương tự hai câu A B sau: 𝑆𝑖𝑚(𝐴, 𝐵) =∝∗ 𝑔(𝐴 ∩ 𝐵 ) − 𝛽 ∗ 𝑔(𝐴 − 𝐵) − 𝛾 ∗ 𝑔(𝐵 − 𝐴) Trong g(A∩B) biểu diễn cho từ chung A B, g(A-B) biểu diễn cho từ riêng A g(B-A) biểu diễn cho từ riêng B Hệ số ∝, 𝛽, 𝛾 xác định trình thử nghiệm thuật toán 4.2.3 Hệ số Jaccard Hệ số Jaccard độ đo tương tự tập hợp dựa phương pháp thống kê Theo đó, độ tương tự hai câu A B sau (Paul Jaccard, “Etude comparative de la distribution orale dans une portion des Alpes et des Jura” In Bulletin del la Socit Vaudoise des Sciences Naturelles, volume 37, pages 547-579): 𝑆𝑖𝑚 (𝐴, 𝐵) = 4.3 |𝐴 ∩ 𝐵| |𝐴 ∪ 𝐵| Độ tương đồng văn dựa vector biểu diễn 4.3.1 Độ tương đồng Cosine Trong phương pháp này, văn biểu diễn theo mô hình không gian vector, thành phần vector đến từ tương ứng danh sách mục từ thu từ trình tiền xử lý văn đầu Không gian vector hay số chiều vector có kích thước số mục từ danh sách mục từ Giá trị phần tử vector độ quan trọng mục từ câu Độ quan trọng từ tính theo phương pháp trình bày trên, phần mô hình vector biểu diễn văn bản, ví dụ: 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 √∑𝑗 𝑡𝑓𝑖𝑗 với tfij tần số xuất từ i câu j Giả sử vector biểu diễn cho hai văn có dạng: 27 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN Di = với wit trọng số từ thứ t không gian vector i Dj = với wjt trọng số từ thứ t không gian vector j Độ đo tương đồng tính Cosine góc hai vector biểu diễn cho hai văn Di Dj Độ tương tự chúng tính theo công thức [2]: 𝑆𝑖𝑚(𝐷𝑖𝑗 ) = ∑𝑡𝑘=1 𝑤 𝑖 𝑘 𝑤 𝑗 𝑘 √∑𝑡𝑘=1(𝑤 𝑖 𝑘 )2 ∗ ∑𝑡𝑘=1(𝑤 𝑗 𝑘 )2 Nhận xét: vector biểu diễn cho câu chưa quan tâm đến mối quan hệ ngữ nghĩa từ mục, từ đồng nghĩa không phát hiện, kết tín độ tương tự chưa cao 4.3.2 Độ tương đồng dựa vào khoảng cách Euclide Khoảng cách Euclide phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn bản[2] Cho hai vector 𝑣 a 𝑣 b, khoảng cách Euclide định nghĩa sau: 𝑛 𝐸_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) = √∑(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑖=1 Mức độ tương đồng hai vector xác định công thức: 𝑛 𝐸_𝑠𝑖𝑚(𝑣⃗𝑎 ,𝑣⃗𝑏 ) 𝐸_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) =1− = − √∑(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑛 𝑛 𝑖=1 4.3.3 Độ tương đồng dựa vào khoảng cách Manhattan Khoảng cách Manhattan phương pháp tính độ tương đồng vector đặc trưng biểu diễn cho hai văn [2] Cho hai vector 𝑣 a 𝑣 b, khoảng cách Manhattan định nghĩa sau: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) = ∑ |𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑖=1 Mức độ tương đồng hai vector xác định công thức: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣⃗𝑎 ,𝑣⃗𝑏 ) 𝑚𝑎𝑛_𝑠𝑖𝑚 = − = − ∑ |𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑛 𝑛 𝑖=1 28 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN 4.4 Độ tương đồng văn tiếng Việt Thông thường đánh giá độ tương tự văn bản, cần phân tích văn thành đơn vị nhỏ thực đánh giá dựa đơn vị Việc xử lý văn tách từ vựng đề cập chương 2, phương pháp cho toán so tự sánh văn tiếng Việt Một số công cụ tách từ tiếng Việt vnTokenizer, JvnTextPro xây dựng cho kết khả quan sử dụng làm bước tiền xử lý cho hệ thống so sánh văn Sau tách từ, văn Ti biểu diễn vector từ có dạng: 𝑇𝑖 = {𝑤1 , 𝑤2 , … , 𝑤𝑛𝑖 } với ni số từ tách Ti Trong nhiều trường hợp, độ tương tự hai đoạn văn xác định dựa so khớp từ đơn giản, điểm tương tự xác định dựa số đơn vị từ vựng xuất hai đoạn văn đầu vào Tuy nhiên, phương pháp khẳng định độ tương tự ngữ nghĩa văn chưa quan tâm tới tượng đồng nghĩa từ, tầm quan trọng từ tần suất xuất hiện, vị trí xuất từ câu văn Các phương pháp đánh giá độ tương tự văn chủ yếu dựa hai yếu tố: độ tương tự ngữ nghĩa từ độ tương tự theo trật tự từ văn  Đánh giá độ tương tự ngữ nghĩa từ: số phương pháp sử dụng mạng từ (WordNet), số khác dựa kho ngữ liệu Web dựa phân tích ngữ nghĩa ẩn  Đánh giá độ tương tự theo trật tự từ văn Đánh giá độ tương tự ngữ nghĩa từ dùng để tạo vector đặc trưng ngữ nghĩa văn Vector đặc trưng sử dụng công thức mục 4.2 cho ta phép đo độ tương tự hai văn tương ứng 4.4.1 Độ tương tự ngữ nghĩa từ - từ 4.4.1.1 *Độ tương tự ngữ nghĩa từ - từ dựa WordNet Wordnet sở liệu tri thức từ vựng thiết kế dựa lý thuyết ngôn ngữ tâm lý theo cách liên tưởng từ ngữ người [6] WordNet tổ chức dựa theo quan hệ ngữ nghĩa Một quan hệ ngữ nghĩa quan hệ nghĩa Một từ có nghiều nghĩa nghĩa thuộc vào tập đồng nghĩa khác Ngược lại, tập đồng nghĩa lại chứa nhiều từ khác Khi quan hệ ngữ nghĩa xem trỏ tập đồng nghĩa 4.4.1.2 Độ tương tự ngữ nghĩa từ - từ dựa ngữ liệu Độ tương tự ngữ nghĩa dựa tập ngữ liệu (corpus) xác định mức độ tương tự mặt ngữ nghĩa từ sử dụng thông tin xuất phát từ tập ngữ liệu lớn Một số phương pháp xác định sau: 29 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN a) PMI (Pointwise Mutual Information) – thông tin chung dựa điểm PMI đưa Turney 2001 độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa từ PMI sử dụng liệu tập hợp từ việc tìm kiếm thông tin (PMI-IR), dựa tượng đồng xảy từ tập ngữ liệu lớn để xác định độ tương tự cho từ w1 w2 sau: 𝑃𝑀𝐼 (𝑤1 , 𝑤2 ) = 𝑙𝑜𝑔2 𝑝(𝑤1 , 𝑤2 ) 𝑝(𝑤1 ) ∗ 𝑝(𝑤2 ) b) *LSA (Latent Semantic Analysis) – phân tích ngữ nghĩa ẩn - Xây dựng ma trận T (ma trận từ – tài liệu) thể tập ngữ liệu - Giảm số chiều SVD SVD xem cách khắc phúc số hạn chế mô hình không gian vecto chuẩn số chiều cao, giúp cho LSA tính với số chiều thấp mối quan hệ từ - văn khai thác Độ tương tự không gian kết đo độ tương tự Cosine Ngoài ra, LSA sinh mô hình không gian vector thể đồng từ, cụm từ văn 4.4.2 Độ tương tự ngữ nghĩa văn Việc đánh giá độ tương tự ngữ nghĩa hai văn đa số nghiên cứu sử dụng vector đặc trưng cho ngữ nghĩa văn Mỗi thành phần vector thiết lập từ việc tính độ tương tự từ văn với từ văn lại, trọng số thành phần độ đo tương tự lớn Giả sử cho hai văn (đã tách từ vựng) sau: T1 = { w11, w12, …, w1m1 } T2 = { w21, w22, …, w2m2 } Trong đó: o wij từ thứ j văn di (i=1,2) o mi số lượng từ vựng tách văn Ti Tập từ không giống hai văn là, T = T1 ∪ T2 = { w1, w2, …, wm } Véc-tơ đặc trưng ngữ nghĩa cho văn T1, ký hiệu V1 = (v11, v12, …, v1m) xây dựng sau:  Xét từ wi ∈ T, tính độ tương tự ngữ nghĩa với từ T1, độ đo tương tự lớn đưa vào thành phần v1i tương ứng V1 v1i = max{ sim(wi, w1j) | j =1 m1 }, với i=1 m 30 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN  Độ tượng tự ngữ nghĩa hai văn tính dựa hai véc-tơ đặc trưng ngữ nghĩa tương ứng Hệ số cosin độ đo hay sử dụng để tính độ tương tự này: ∑𝑚 𝑉1 𝑉2 𝑖=1 𝑣1𝑖 𝑣2𝑖 𝑠𝑖𝑚𝑆(𝑇1 , 𝑇2 ) = = 𝑚 2 |𝑉1 | |𝑉2 | √∑𝑚 𝑖=1 𝑣1𝑖 √∑𝑖=1 𝑣2𝑖 Để tính toán độ tương tự (sim) hai từ, tiếng Anh người ta dựa vào mạng từ WordNet, nhiên với tiếng Việt mạng từ chưa xây dựng đầy đủ nên phương án sử dụng công cụ dịch từ tiếng Việt tiếng Anh, sau đánh giá độ tương tự cặp từ tiếng Anh mạng WordNet đề tài tác giả Dương Thăng Long [5] Một số nghiên cứu khác sử dụng phương pháp phân tích ngữ nghĩa ẩn LSA hay PMI để đo độ tương tự từ dựa tập ngữ liệu 4.4.3 Độ tương tự thứ tự từ văn Độ tương tự thứ tự từ yếu tố quan trọng ảnh hưởng đến độ tương tự văn Các văn chứa tập từ vựng giống khác vị trí có ý nghĩa hoàn toàn khác Ví dụ cho hai câu: T1 = { con_chó, cắn, con_mèo } T2 = { con_mèo, cắn, con_chó } Hai câu chứa tập từ giống gần giống thứ tự từ, sai khác thứ tự cặp từ “con_mèo” “con_chó” Nếu dựa độ tương tự ngữ nghĩa văn hai văn chứa tập từ giống cho kết hoàn toàn giống nhau, có nghĩa sim(T1,T2)=1 Tuy nhiên, hai câu có ý nghĩa không giống nhau, khác hai câu sai khác vị trí từ câu Tác giả Dương Thăng Long đề tài nghiên cứu [5] đưa phương pháp đánh giá độ tương tự văn dựa thứ tự từ sau:  Với cặp văn T1 T2, xác định tập từ vựng phân biệt hai văn T = T1 ∪ T2  Vector đặc trưng thứ tự từ hai văn bản, kí hiệu R1 = (r11, r12, …, r1m) R2 = (r21, r22, …, r2m), tính dựa tập T o Vector thứ tự từ biểu diễn thứ tự từ thuộc T nằm vị trí văn tương ứng o Với từ wi ∈ T, tìm từ gần nghĩa T1 để xác định trọng số cho phần tử r1i R1 theo ba trường hợp sau:  Nếu từ wi có T1 r1i số thứ tự từ T1 31 Thuyết minh ĐT NCKHCHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN  Tìm từ T1 gần nghĩa với wi, sử dụng phương pháp đo độ tương tự ngữ nghĩa hai từ Nếu độ đo vượt ngưỡng θ cho trước r1i số thứ tự từ T1  Nếu không tìm thấy độ tương tự từ T1 wi không vượt ngưỡng đặt r1i Vector đặc trưng thứ tự từ biểu diễn thông tin cấu trúc từ văn Mức độ giống cấu trúc hai văn tính toán dựa vector đặc trưng thứ tự từ công thức sau: 𝑠𝑖𝑚𝑅 = − |𝑅1 − 𝑅2 | √∑𝑚 𝑖=1(𝑟1𝑖 − 𝑟2𝑖 ) =1− |𝑅1 + 𝑅2 | √∑𝑚 𝑖=1(𝑟1𝑖 + 𝑟2𝑖 ) 4.4.4 Kết hợp độ đo để đánh giá độ tương tự hai văn Trong phân tích trên, độ tương tự ngữ nghĩa thể phép đo dựa nghĩa từ vựng, độ tương tự cấu trúc từ thể mối quan hệ thứ tự từ, từ đứng trước sau từ khác Cả hai độ tương tự có vai trò quan trọng xác định độ tương tự văn Do đó, để đo tương tự văn cần phải kết hợp hai loại độ đo trên, độ tương tự ngữ nghĩa độ tương tự thứ tự từ văn Biểu thức kết hợp hai độ đo có dạng 𝑠𝑖𝑚 = 𝑎 ∗ 𝑠𝑖𝑚𝑆 + 𝑏 ∗ 𝑠𝑖𝑚𝑅 với a+ b = Việc xác định trọng số độ đo tương tự (a,b) chưa có công thức chung nào, sử dụng phương pháp quan sát thử nghiệm qua liệu thực tế để có lựa chọn tốt cho hệ thống Phương án cân tiêu chí lựa chọn, trọng số tiêu chí kết hợp có giá trị giống nhau, tức a = 0.5 b = 0.5 32 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ VÀO SO SÁNH VĂN BẢN TIẾNG VIỆT 5.1 Mô hình hệ thống Nội dung văn đầu vào lưu trữ file text Sau thực tiền xử lý văn ta thu file: file chứa từ tách (các từ phân cách dấu “|”) file chứa câu, đầu câu có chứa số thứ tự câu đặt cặp dấu “[ ]” Tiền xử lý - Tách câu - Tách từ Xử lý từ - Loại bỏ từ dừng - Xử lý từ đồng nghĩa Văn gốc Tính độ tương đồng văn Vector hóa văn Hình 7: Mô hình hệ thống so sánh văn tiếng Việt Trong mô hình này, đầu vào văn tiếng Việt Các văn xử lý qua giai đoạn: 5.1.1 Tiền xử lý Giai đoạn có nhiệm vụ tách văn từ câu Do việc xây dựng tách từ phức tạp nằm phạm vi nghiên cứu nên đề tài sử dụng tách từ WordSegForTV viết sẵn để thực bước tiền xử lý văn Nội dung văn đầu vào lưu trữ file txt, doc Sau thực tiền xử lý văn ta thu file: file chứa từ tách (các từ phân cách dấu “|”) file chứa câu, đầu câu có chứa số thứ tự câu đặt cặp dấu “[ ]” 5.1.2 Xử lý từ Giai đoạn nhằm mục đích loại bỏ từ dừng dựa từ điển từ dừng có trước, sau với từ câu, dựa vào từ điển từ đồng nghĩa để lập danh sách từ đồng nghĩa Đầu vào giai đoạn tập tin văn thêm dấu phân tách từ bước Thuật toán thực việc chọn từ, câu, từ đồng nghĩa loại bỏ từ dừng mô tả sau: 33 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ Input: Tệp văn tách từ Output: Tập từ Words, tập câu Sents Mở tệp văn ST=Nội dung file //Tách câu n=0; //đếm số lượng câu k=1; while k 0} Giá trị idf(ti) tính hàm logarit sau: 𝑖𝑑𝑓 (𝑡𝑖 ) = 𝑙𝑜𝑔 + |𝑆| |𝑆𝑡𝑖 | 5.3.1.2 Vector thứ tự từ 5.1.4 *Tính độ tương tự văn Độ tương tự cho toán câu kết hợp độ tương tự vector ngữ nghĩa vector thứ tự biểu diễn hai câu Các độ đo Cosine, Jaccard… thường lựa chọn để xác định độ tương đồng vector biểu diễn câu Trong thử nghiệm, đề tài sử dụng công thức tính độ tương tự Cosine  Độ tương tự ngữ nghĩa 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) = 𝑘 𝑙 ∑𝑚 𝑘,𝑙=1 𝑠𝑒𝑛𝑡𝑖 𝑠𝑒𝑛𝑡𝑗 𝑘 𝑚 𝑙 √∑𝑚 𝑘=1 𝑠𝑒𝑛𝑡𝑖 √∑𝑙=1 𝑠𝑒𝑛𝑡𝑖  Độ tương tự thứ tự từ 5.1.4.1 Ma trận liên kết Ma trận liên kết biểu thị mối quan hệ câu văn biểu diễn sau: 𝐷(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) = { 𝑖𝑓 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) < 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) 𝑖𝑓 𝑠𝑖𝑚(𝑠𝑒𝑛𝑡𝑖 , 𝑠𝑒𝑛𝑡𝑗 ) ≥ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 36 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ Với threshold ngưỡng cho trước tính toán thực nghiệm loại văn khác Trong cài đặt, qua tham khảo số đề tài xử lý tiếng Việt, đề tài sử dụng threshold = 0.2 5.1.4.2 Thuật toán xây dựng ma trận liên kết Input: Tập từ T, số lượng từ m, tập câu Sent, số lượng câu n, ngưỡng threshold Output: Đồ thị liên kết câu Dis(i,j), i=1 m, j=1 n {Sắp xếp tập từ T} HeapSort(T,m); {Tính tf-idf} for i = to m for j = to n if T(i)=T(j) then N(i,j) = N(i,j) + 1; {Tính tf} for i = to m for j = to n { tf(i,j) = 0; if N(i,j) > then tf(i,j) = + ln(1+ln(N(i,j))) } {Tính idf} for i = to m { count = 0; for j = to n if N(i,j) > then count = count + 1; idf(i) = ln((1+n)/count) } {Tính toán độ tương đồng} for i = to m for j = to n 37 Thuyết minh ĐT NCKH CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ { sim = cos(senti, sentj) if sim > threshold then Dis(i,j) = sim; } return Dis(i,j) 5.2 Mô hình thực nghiệm 5.2.1 Môi trường thực nghiệm Chương trình xây dựng thử nghiệm với hỗ trợ sau: - Phần mềm WordSegForTV nhằm thực tách từ văn Từ điển từ dừng: gồm 807 từ website xulyngonngu.com cung cấp Từ điển đồng nghĩa: gồm 603 mục từ với tổng cộng 2867 từ đồng nghĩa Tập văn thử nghiệm gồm văn có nội dung với nhiều lĩnh vực khác lấy từ hai trang http://vnexpress.net http://vietnamenet.vn 5.2.2 *Chương trình ứng dụng thử nghiệm Chương trình thử nghiệm xây dựng đơn giản, cho phép nhập trực tiếp hai đoạn văn cần đánh giá chọn từ tệp, sau so sánh hai văn Ngoài ra, chương trình cho phép chọn trọng số kết hợp nhằm đánh giá ảnh hưởng tiêu chí tham gia đo độ tương tự văn Các trọng số nên chọn ưu tiên cho yếu độ độ tương tự đặc trưng ngữ nghĩa câu nào, đoạn văn có tương tự ngữ nghĩa vượt ngưỡng cần quan tâm độ tương tự thứ tự từ Hình 8: Chương trình thử nghiệm so sánh độ tương tự văn 5.2.3 *Kết thử nghiệm 38 Thuyết minh ĐT NCKH KẾT LUẬN KẾT LUẬN Xử lý ngôn ngữ tự nhiên, phân loại so khớp nội dung tài liệu văn năm gần lĩnh vực quan tâm cộng đồng khoa học nước Mục đích đề tài nghiên cứu, xây dựng thử nghiệm hệ thống so sánh văn tiếng Việt dựa kết hợp yếu tố độ tương tự ngữ nghĩa độ tương tự thứ tự từ Các kết đạt đề tài:  Nghiên cứu tổng quan đặc điểm ngôn ngữ tiếng Việt phương pháp xử lý sử dụng tách từ, từ điển từ đồng nghĩa, từ điển từ dừng  Nghiên cứu phương pháp tính độ tương đồng văn bản, vector hóa đặc trưng ngữ nghĩa cấu trúc thứ tự từ văn  Các kết nghiên cứu áp dụng vào xây dựng thử nghiệm hệ thống so sánh độ tương đồng văn Những nội dung quan trọng nghiên cứu bao gồm: - - Nhờ việc sử dụng tách từ phân biệt xác từ đơn từ ghép nên ngữ nghĩa văn phần đảm bảo Tần số xuất từ kết hợp biểu diễn vector đặc trưng ngữ nghĩa văn Đây độ đo hữu dụng sử dụng phần lớn công trình nghiên cứu xử lý văn để đánh giá tầm quan trọng từ Độ tương tự văn tính dựa vào kết hợp yếu tố độ tương tự ngữ nghĩa từ độ tương tự thứ tự từ o Độ tương tự ngữ nghĩa từ tính dựa đặc điểm tập ngữ liệu so sánh, không phụ thuộc vào việc sử dụng từ điển dịch từ tiếng Việt sang tiếng Anh hay mạng ngữ nghĩa o Công thức Cosine sử dụng để đo độ tương tự vector biểu diễn công thức áp dụng đa số đề tài xử lý văn tiếng Anh Độ tương tự văn có nhiều ứng dụng toán khác nhau, từ mức độ thấp đến cao trích chọn thông tin, tóm tắt văn bản, phân lớp văn bản… đặc biệt toán chống chép, đạo văn Do hạn chế mặt thời gian kĩ thuật nên hệ thống so sánh dừng việc so sánh văn đơn, chưa thể ứng dụng để quét văn so với tập liệu có trước Hướng phát triển đề tài tiếp tục nghiên cứu hoàn thiện công đoạn xử lý tiếng Việt xử lý từ đồng nghĩa từ dừng, kết hợp từ/cụm từ… để làm tăng tính ngữ nghĩa cho vector biểu diễn văn bản, từ mở rộng phạm vi ứng dụng hệ thống so sánh để thực so sánh đa văn 39 TÀI LIỆU THAM KHẢO Nguyễn Trung Kiên, “Phân đoạn tiếng Việt sử dụng mô hình CRFs”, ĐH Quốc gia Hà Nội, 2006 Trần Ngọc Phúc, “Phân loại nội dung tài liệu Web”, Đại học Lạc Hồng, 2012 “Mô hình biểu diễn văn thành đồ thị” – Đại học Khoa học Tự nhiên, 2008 Lê Quý Tài, “Nghiên cứu phương pháp xử lý tiếng Việt, ứng dụng cho tóm tắt văn bản”, Đại học Quốc gia Hà Nội, 2011 TS Dương Thăng Long, “Nghiên cứu độ tương đồng văn tiếng Việt ứng dụng hỗ trợ đánh giá việc chép điện tử”, Viện Đại học Mở Hà Nội, 2014 Đỗ Thị Thanh Nga, “Tính toán độ tương tự ngữ nghĩa văn dựa vào độ tương tự từ với từ”, Đại học Công nghệ Đại học Quốc gia Hà Nội, 2010

Ngày đăng: 20/07/2016, 01:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan