Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Dung PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN HỌC MÁY SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ Thơng tin HÀ NỘI – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Dung PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN HỌC MÁY SVM KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Phạm Quang Nhật Minh HÀ NỘI – 2012 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Thi Dung RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON SVM Major: Information technology Supervisor: Assoc Prof Ha Quang Thuy Co-Supervisor: Masters Pham Quang Nhat Minh HA NOI – 2012 Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, Ths Phạm Quang Nhật Minh tận tình hướng dẫn bảo tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến thầy cơ, anh chị, bạn phịng thí nghiệm KT-Lab hỗ trợ nhiều kiến thức chun mơn q trình thực khóa luận Tôi xin cảm ơn bạn lớp K53CLC ủng hộ khuyến khích tơi suốt suốt q trình học tập trường Cuối cùng, tơi xin gửi cám ơn vơ hạn tới gia đình bạn bè, người bên cạnh, giúp động viên tơi q trình học tập suốt q trình thực khóa luận Tơi xin chân thành cảm ơn! Hà Nội, ngày 18 tháng 05 năm 2012 Sinh viên Nguyễn Thị Dung i PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN MƠ HÌNH HỌC MÁY SVM Nguyễn Thị Dung Khóa QH-2008-I/CQ, ngành cơng nghệ thơng tin Tóm tắt khóa luận: Kế thừa văn (Textual Entailment: TE) đề cập tới mối liên quan ngữ nghĩa hai văn ngữ nghĩa văn suy luận (kế thừa) từ văn khác Trong năm gần đây, phát kế thừa văn (Recognizing TE: RTE) thu hút quan tâm đặc biệt nhóm nghiên cứu giới, điển hình dãy phiên hội nghị RTE hàng năm Viện Tiêu chuNn Công nghệ quốc gia Mỹ (National Institute of Standards and Technology: NIST) phát kế thừa văn có nhiều ứng dụng quan trọng dịch máy, tóm tắt văn nhiều toán quan trọng xử lý ngơn ngữ tự nhiên Trên sở tìm hiểu so sánh hướng tiếp cận đề xuất dãy hội nghị RTE NIST, khóa luận khảo sát phương pháp giải toán kế thừa văn tập trung vào lớp mô hình phát kế thừa dựa phân lớp SVM theo tập đặc trưng từ vựng, ngữ nghĩa Khóa luận đề nghị mơ hình phát kế thừa văn kết hợp mơ hình Julio Javier Castillo [10] với việc sử dụng ba phân lớp SVM để đưa phán kế thừa, phân lớp sử dụng nhóm đặc trưng Đồng thời, khóa luận thi hành mơ hình nói hệ thống thử nghiệm tiến hành thực nghiệm đánh giá mơ hình liệu chuNn hội nghị RTE dịch tiếng Việt Kết thực nghiệm đạt khả quan cho thấy việc kết hợp phân lớp nâng cao độ xác Từ khóa: RTE, SVM ii RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON SVM Nguyen Thi Dung QH-2008-I/CQ course, information technology faculty Abtract thesis: Inference task relates the understanding and processing language in communication which is an interesting task Textual Inference plays an important role in Natural Language Processing Textual entailment derived from inference (entailment) in logic Recognizing Textual Entailment which focuses on detecting semantic inference has attracted a lot of attention The main idea behind RTE is concerned with inferring the meaning of the text from that of another larger text.The concept of RTE explores the relationship between the text and hypothesis, the text entails the hypothesis if the hypothesis can be inferred from the text Based on surveying and comparing some approaches proposed in the PASCAL RTE challenge, the thesis focus on many Textual Entailment problems such as concept of Textual Entailment, role of Textual Entailment and some approachs for RTE task We then propose a recognizing textual entailment model based on SVM model with lexical features and semantic features Our model is based Julio Javier Castillo’s model [10] However, we use use many SVM classifiers and combine them together when Julio Javier Castillo only used a SVM classifier Thesis conduct experiments on system with Vietnamese RTE data which based on English RTE data of the third PASCAL RTE challenge (RTE-3) by manually translating RTE-3 development set and RTE3 test set to Vietnamese There are four experiments with cases: only use a SVM classifier, use many SVM classifiers and combine them together Test results are positive and they reveal that combining many classifiers can improve accuracy Keywords: RTE, SVM iii Lời cam đoan Tôi xin cam đoan phương pháp phát kế thừa văn tiếng Việt dựa học máy SVM thực nghiệm trình bày khóa luận thực hướng dẫn PGS.TS Hà Quang Thụy Ths Phạm Quang Nhật Minh Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 18 tháng 05 năm 2012 Sinh viên Nguyễn Thị Dung iv MỤC LỤC Lời cảm ơn i Tóm tắt khóa luận: ii Lời cam đoan iv Mục lục Error! Bookmark not defined Danh sách bảng vii Danh sách hình vẽ viii Danh sách từ viết tắt ix Lời mở đầu Chương Giới thiệu chung kế thừa văn 1.1 Khái niệm kế thừa văn 1.1.1 Kế thừa logic 1.1.2 Kế thừa văn 1.2 Phát biểu toán phát kế thừa văn 1.3 Bài toán phát kế thừa văn hội nghị RTE 1.4 Vai trò phát kế thừa văn 1.5 Tóm tắt chương Chương Hướng tiếp cận học máy cho toán phát kế thừa văn mơ hình học máy SVM 10 2.1 Giới thiệu chung hướng tiếp cận sử dụng học máy .10 2.2.1 Các đặc trưng Intra-pair (In-pair features) .11 2.1.2 Các đặc trưng Cross-Pair 12 2.1.3 Các phương pháp học máy 13 2.2 Một số hệ thống phát kế thừa văn có sử dụng học máy 13 2.2.1 Đối với văn tiếng nước 13 2.2.2 Đối với văn tiếng Việt .18 2.2.3 Nhận xét hướng tiếp cận học máy 19 2.3 Học máy SVM .19 2.4 Kết luận 24 v Chương Mơ hình phát kế thừa văn tiếng Việt dựa học máy SVM 25 3.1 Mơ hình đề xuất .25 3.1.1 Tiền xử lý 27 3.1.2 Trích xuất đặc trưng 27 3.1.3 Sử dụng học máy SVM cho phán kế thừa 31 3.2 Tóm tắt chương 31 Chương Thực nghiệm đánh giá 32 4.1 Môi trường thực nghiệm 32 4.1.1 Cấu hình phần cứng 32 4.1.2 Công cụ phần mềm 32 4.2 Dữ liệu thực nghiệm 33 4.3 Thực nghiệm 33 4.4 Đánh giá hệ thống .34 4.4.1 Kết thực nghiệm .34 4.4.2 Đánh giá hệ thống 37 Kết luận định hướng nghiên cứu 38 Tài liệu tham khảo 39 vi Danh sách bảng Bảng 1: Một số ví dụ RTE hội nghị RTE-3 Bảng 2: Các đặc trưng sử dụng phân lớp định [5] 14 Bảng 3: Cấu hình phần cứng 32 Bảng 4: Công cụ phần mềm 32 Bảng 5: Ý nghĩa giá trị 34 Bảng 6: Giá trị độ đo tập liệu sử dụng phân lớp SVM1 35 Bảng 7: Giá trị độ đo tập liệu sử dụng phân lớp SVM2 35 Bảng 8: Giá trị độ đo tập liệu sử dụng phân lớp SVM3 36 Bảng 9: Giá trị độ đo tập liệu sử dụng ba phân lớp SVM 36 vii Dưới mơ hình giải tốn Tập huấn luyện Tiền xử lý Loại bỏ từ dừng Tách từ Độ đo ngữ nghĩa từ vựng Cosin Jaccard Jaro ……… Trích xuất đặc trưng Nhóm đặc trưng Tập kiểm tra SVM1 Nhóm đặc trưng Nhóm đặc trưng SVM2 SVM3 Kết kế thừa Yes No Hình 9: Mơ hình giải tốn Với cặp T-H, đầu tiên, tiến hành tiền xử lý với module tùy chọn Sau đó, chúng tơi tiến hành trích xuất đặc trưng sử dụng đặc trưng 26 vào ba phân lớp SVM Cuối cùng, tiến hành kết hợp kết lại từ ba phân lớp từ đưa phán kế thừa cho cặp Như vậy, mô hình gồm ba bước thực sau: 3.1.1 Tiền xử lý Đầu vào: Tập cặp câu văn – giả thuyết có sau thu thập liệu Đầu ra: Tập cặp câu văn – giả thuyết tách từ loại bỏ từ dừng Quá trình tiền xử lý thực sau: • Tách từ: Cặp văn – giả thuyết tách từ công cụ tách từ tách câu vnTokenizer • Loại bỏ từ dừng: Sau cặp văn – giả thuyết tách thành từ chúng tơi loại bỏ từ dừng xuất 3.1.2 Trích xuất đặc trưng Đầu vào: Tập cặp câu văn – giả thuyết tách từ loại bỏ từ dừng Đầu ra: Các giá trị đặc trưng cặp câu văn – giả thuyết Chúng tơi tính 20 đặc trưng thuộc từ vựng ngữ nghĩa Sau đây, chúng tơi xin trình bày số đặc trưng tiêu biểu ሬԦ ሬԦ Cho hai vector :࢞ = (࢞૚ , ……,࢞࢔ ) ࢟ = (࢟૚ , … ,࢟࢔ ) không gian vector n chiều Trong đó, n số từ phân biệt xuất T, H ࢞࢏ , ࢟࢏ số lần xuất từ số từ phân biệt T H Ví dụ: T: Vụ tai nạn xảy làm 50 người bị chết H: 50 người bị chết vụ tai nạn giao thông 27 Các từ phân biệt T H là: vụ, tai nạn, xảy ra, làm, 50, người, bị, chết, trong, giao thông ሬԦ= ࢞ (1,1,1,1,1,1,1,1,0,0) ሬԦ ࢟ = (1,1,0,0,1,1,1,1,1.1) Khoảng cách Manhattan: Được biết đến khoảng cách City Block hay ‫ܮ‬ଵ Khoảng cách xác định công thức sau: ‫ܮ‬ଵ (‫ ݔ‬Ԧ) = ∑௡ |‫ݔ‬௜ − ‫ݕ‬௜ | Ԧ,‫ݕ‬ ௜ୀଵ Khoảng cách Euclidean: Khoảng cách tính theo cơng thức: ‫ܮ‬ଵ (‫ ݔ‬Ԧ) = ඥ∑௡ (‫ݔ‬௜ − ‫ݕ‬௜ )ଶ Ԧ,‫ݕ‬ ௜ୀଵ Độ tương đồng Cosin: Được định nghĩa theo công thức sau: Ԧ,‫ݕ‬ Cos(‫ ݔ‬Ԧ) = Ԧ.௬ ௫ ሬԦ Ԧ||.||௬ ሬԦ|| ||௫ Hệ số Matching:Gọi X tập từ phân biệt văn t, Y tập từ phân biệt giả thuyết h Khi đó, hệ số Matching |X ∩ Y| Hệ số Dice: D= ଶ.|ଡ଼ ∩ ଢ଼| |௑ ା ௒| Hệ số Jaccard: J= |ଡ଼ ∩ ଢ଼| |ଡ଼ ∪ ଢ଼| Chuỗi chung dài nhất: Một chuỗi chung hai xâu chuỗi ký tự xuất hai xâu Chuỗi chung dài chuỗi chung có độ dài lớn 28 Để tính độ đo T H văn chia nhỏ chúng thành token coi token kí tự độ dài T H tổng số token Ví dụ: T: Vụ tai nạn xảy Hà Nội làm 50 người bị chết H: 50 người bị chết vụ tai nạn giao thông Hà Nội Khi đó, chuỗi chung dài là: vụ- tai nạn-ở-Hà Nội Cho hai chuỗi T H Theo Levenshtein độ độ đo chuỗi chung dài tính theo cơng thức: lcs(T ,H) = ௅௘௡௚௧௛(ெ௔௫஼௢௠ௌ௨௕(்,ு)) ௠௜௡(௅௘௡௚௧௛(்),௅௘௡௚௧௛(ு)) Trong hầu hết trường hợp thông thường, (Length(T), Length(H)) với Length(H) giá trị biểu diễn đoạn [0,1] Phần trăm từ giả thuyết xuất văn nguồn Cho cặp văn - giả thuyết T H Chúng đếm tổng số từ xuất T H Giả sử gọi W = {w1, w2, …, wk} tập từ có mặt T H, W gồm có k phần tử ; Length(T) độ dài văn T tính theo đơn vị từ Khi đó, chúng tơi có cơng thức tính phần trăm từ giả thuyết xuất văn nguồn: ‫= ܨ‬ ݇ ‫ݐ݃݊݁ܮ‬ℎ(ܶ) Khoảng cách chu n Levenshtein dựa từ Khoảng cách Levenshtein (được Vladimir Levenshtein đề vào năm 1965) thể khoảng cách khác biệt hai chuỗi kí tự Khoảng cách Levenshtein chuỗi H chuỗi T số bước biến đổi chuỗi H thành chuỗi T thông qua ba phép biến đổi : xóa kí tự, thêm kí tự thay kí tự thành kí tự khác 29 Ví dụ: Khoảng cách chuỗi “kitten” “sitting” phải dùng ba lần biến đổi kitten -> sitten (thay "k" "s") sitten -> sittin (thay "e" "i") sittin -> sitting (thêm kí tự "g") Khoảng cách Levenshtein tính tốn cách sử dụng thuật tốn quy hoạch động, tính tốn mảng chiều (n+1).(m+1) với m, n độ dài chuỗi cần tính Sau đoạn mã (H, T chuỗi cần tính khoảng cách n, m độ dài hai chuỗi) int LevenshteinDistance(char h[1 m], char t[1 n]) // d is a table with m+1 rows and n+1 columns declare int d[0 m, n] for i from to m d[i, 0] := i for j from to n d[0, j] := j for i from to m for j from to n { if h[i] = t[j] then cost := else cost := d[i, j] := minimum( d[i-1, j] + 1, // xoá d[i, j-1] + 1, // thêm d[i-1, j-1] + cost // thay ) } return d[m, n] 30 3.1.3 Sử dụng học máy SVM cho phán kế thừa Đầu vào: Các giá trị đặc trưng cặp câu văn – giả thuyết Đầu ra: Kết phân lớp với phương án hai phán kế thừa (“Yes”, “No”) Như chúng tơi trình bày trên, việc phán kế thừa cho cặp văn – giả thuyết tương tự việc phân lớp văn Vì thế, Để áp dụng học máy SVM vào toán phát kế thừa văn chúng tơi coi cặp văn nguồn - giả thuyết tương ứng với mẫu văn ࢞࢏ Mẫu ࢞࢏ thuộc lớp dương có quan hệ kế thừa, ࢞࢏ thuộc lớp âm có quan hệ khơng kế thừa Tập giá trị đặc trưng tương ứng với vector trọng số ࢞࢏ Trong mô hình này, chúng tơi sử dụng ba phân lớp SVM (SVM1, SVM2 SVM3), kết từ phân lớp SVM đựợc kết hợp với để nâng cao độ xác Ba phân lớp SVM sử dụng liệu huấn luyện nhóm đặc trưng khác Nhóm đặc trưng bao gồm độ đo như: khoảng cách Manhattan, khoảng cách Euclidean, độ tương đồng Cosin, hệ số Matching, hệ số Dice, hệ số Jaccard, hệ số Jaro Nhóm đặc trưng thứ hai bao gồm: Khoảng cách chuNn Levenstein, chuỗi chung dài nhất, độ đo TF-IDF, tần suất xuất từ giả thuyết văn bản, tần suất xuất từ văn giả thuyết, phần trăm bigram giả thuyết xuất văn nguồn, phần trăm bigram văn xuất giả thuyết…, nhóm đặc trưng thứ ba bao gồm tất đặc trưng có Cuối cùng, tiến hành so sánh tổng hợp kết nhận từ phân lớp SVM để có kết cuối phán kế thừa Chúng tổng hợp kết cách sử dụng phương pháp vote (Nếu có hai nhiều số kết trả từ ba phân lớp “Yes” gán nhãn “Yes” cho cặp văn – giả thuyết , ngược lại, cặp văn – giả thuyết gán nhãn “No”) 3.2 Tóm tắt chương Trên sở nghiên cứu phân tích phương pháp, khóa luận đề xuất mơ hình phát kế thừa văn tiếng Việt dựa học máy SVM trình bày bước thực hệ thống Với cặp văn – giả thuyết, tiến hành tách từ, loại bỏ từ dừng, sau tiến hành trích xuất đặc trưng sử dụng đặc trưng vào phân lớp SVM Trong chương 4, khóa luận trình bày phần thực nghiệm, sau đưa kết quả, nhận xét đánh giá 31 Chương Thực nghiệm đánh giá Trong chương này, chúng tơi trình bày thực nghiệm mơ hình đề xuất chương ba Chúng tiến hành thực nghiệm 1600 cặp câu văn – giả thuyết dịch từ tập liệu tiếng Anh hội nghị RTE-3 Dựa vào kết thực nghiệm, tiến hành đánh giá, nhận xét đưa định hướng Chúng tiến hành bốn thực nghiệm, có ba thực nghiệm hệ thống với phân lớp SVM riêng lẻ (SVM1, SVM2, SVM3) thực nghiệm hệ thống bao gồm ba phân lớp Kết thực nghiệm cho thấy mơ hình hệ thống đề xuất chương ba khả quan 4.1 Môi trường thực nghiệm 4.1.1 Cấu hình phần cứng Bảng 3: Cấu hình phần cứng Thành phần Chỉ số CPU Intel Core i3 M330 2.13Ghz RAM 4GB HDD 320GB OS Windows Ultimate 32 bits 5.1.1 Công cụ phần mềm Bảng 4: Công cụ phần mềm ST T Tên phầm mềm Eclipse-SDK-3.4.0win64 vnTokenizer Tác giả Nguồn http://www.eclipse.org/dowloads Lê Hồng Phương http://www.loria.fr/~lehong/tools/vn Tokenizer.php 32 5.2 Dữ liệu thực nghiệm Chúng tiến hành thực nghiệm 1600 cặp câu văn – giả thuyết hội nghị RTE-3 (800 cặp câu thuộc liệu huấn luyện 800 cặp câu thuộc tập liệu kiểm tra, phong phú nội dung) dịch sang tiếng Việt Do đó, liệu thực nghiệm liệu chuNn, đáng tin cậy File liệu có định dạng sau: Hình 10: Dữ liệu thực nghiệm 5.3 Thực nghiệm Để thử nghiệm chương trình, tiến hành bước sau: Bước 1: Sử dụng công cụ mã nguồn mở vnTokenizer tác giả Lê Hồng Phương để tách từ cho tất cặp câu văn – giả thuyết tiến hành loại bỏ từ dừng Bước 2: Từ tập cặp văn – giả thuyết tách từ, chúng tơi tiến hành trích xuất đặc trưng cách sử dụng độ đo giới thiệu chương Bước 3: Nhóm giá trị đặc trưng thu bước Sau đó, sử dụng nhóm đặc trưng tập liệu huấn luyện để học mơ hình cho phân lớp SVM Bước 4: Sau có mơ hình học bước 3, áp dụng cho tập liệu kiểm tra 33 Tập liệu kiểm tra sau qua phân lớp phân lớp vào hai lớp “Yes” “No” 5.4 Đánh giá hệ thống Hệ thống đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall), độ đo F (F-measure) Ba độ đo tính theo cơng thức sau đây: ‫= ݁ݎ݌‬ ܿ‫ݏܻ݁ݐܿ݁ݎݎ݋‬ ܿ‫ݏܻ݁ݐܿ݁ݎݎ݋ܿ݊݅ + ݏܻ݁ݐܿ݁ݎݎ݋‬ ‫= ܿ݁ݎ‬ ܿ‫ݏܻ݁ݐܿ݁ݎݎ݋‬ ܿ‫݋ܰݐܿ݁ݎݎ݋ܿ݊݅ + ݏܻ݁ݐܿ݁ݎݎ݋‬ ‫=ܨ‬ ∗ ‫ܿ݁ݎ ∗ ݁ݎ݌‬ ‫ܿ݁ݎ + ݁ݎ݌‬ Ý nghĩa giá trị thích bảng: Bảng 5: Ý nghĩa giá trị Giá trị Ý nghĩa ܿ‫ݏܻ݁ݐܿ݁ݎݎ݋‬ Số cặp văn – giá thuyết thực tế kế thừa hệ thống phán kế thừa ݅݊ܿ‫ݏܻ݁ݐܿ݁ݎݎ݋‬ Số cặp văn – giả thuyết thực tế kế thừa hệ thống phán không kế thừa ܿ‫݋ܰݐܿ݁ݎݎ݋‬ Số cặp văn – giả thuyết thực tế không kế thừa hệ thống phán không kế thừa ݅݊ܿ‫݋ܰݐܿ݁ݎݎ݋‬ Số cặp văn – giả thuyết thực tế không kế thừa hệ thống phán kế thừa 5.4.1 Kết thực nghiệm Chúng tiến hành thực nghiệm 1600 cặp văn – giả thuyết dịch tiếng Việt từ tập liệu chuNn hội nghị RTE-3 Chúng chia liệu thành 10 phần Data1, Data2, , Data10 Trong đó, phần liệu dùng để làm liệu kiểm tra, ba phần làm liệu huấn luyện cho phân lớp SVM1, ba phần làm liệu huấn luyện cho phân lớp SVM2, ba phần làm liệu huấn luyện cho phân lớp SVM3 Chúng thực bốn thí nghiệm sau: Thí nghiệm 1: Chỉ sử dụng phân lớp SVM1 Kết thể bảng 34 Bảng 6: Giá trị độ đo tập liệu sử dụng phân lớp SVM1 Độ đo Precision Recall F-measure Tập kiểm tra Data1 0.562 0.738 0.638 Data2 0.6 0.775 0.676 Data3 0.702 0.725 0.713 Data 0.632 0.625 0.628 Data 0.637 0.69 0.662 Data 0.689 0.674 0.681 Data 0.734 0.644 0.686 Data 0.645 0.769 0.701 Data 0.527 0.753 0.62 Data 10 0.638 0.779 0.701 Trung bình 0.637 0.717 0.671 Thí nghiệm 2: Chỉ sử dụng phân lớp SVM2 Kết thể bảng Bảng 7: Giá trị độ đo tập liệu sử dụng phân lớp SVM2 Độ đo Precision Recall F-measure Tập kiểm tra Data1 0.575 0.642 0.606 Data2 0.591 0.721 0.649 Data3 0.705 0.713 0.709 Data 0.626 0.681 0.676 Data 0.642 0.658 0.65 Data 0.684 0.631 0.656 Data 0.743 0.644 0.69 Data 0.606 0.769 0.677 Data 0.554 0.805 0.656 Data 10 0.605 0.785 0.683 Trung bình 0.633 0.707 0.665 35 Thí nghiệm 3: Chỉ sử dụng phân lớp SVM3 Kết thể bảng Bảng 8: Giá trị độ đo tập liệu sử dụng phân lớp SVM3 Độ đo Precision Recall F-measure Tập kiểm tra Data1 0.577 0.678 0.623 Data2 0.596 0.706 0.646 Data3 0.703 0.67 0.686 Data 0.553 0.653 0.599 Data 0.525 0.617 0.574 Data 0.663 0.619 0.640 Data 0.670 0.611 0.639 Data 0.609 0.679 0.642 Data 0.531 0.675 0.594 Data 10 0.629 0.705 0.643 Trung bình 0.606 0.661 0.629 Thí nghiệm 4: Sử dụng ba phân lớp SVM Kết thể bảng Bảng 9: Giá trị độ đo tập liệu sử dụng ba phân lớp SVM Độ đo Precision Recall F-measure Tập kiểm tra Data1 0.612 0.785 0.682 Data2 0.60 0.782 0.679 Data3 0.733 0.741 0.737 Data 0.662 0.71 0.685 Data 0.656 0.712 0.68 Data 0.565 0.728 0.636 Data 0.756 0.656 0.702 Data 0.677 0.782 0.725 Data 0.565 0.766 0.65 Data 10 0.621 0.726 0.669 Trung bình 0.645 0.743 0.684 36 Dưới biểu đồ thể kết tổng hợp từ bốn thí nghiệm 80 75 70 Precision 65 Recall F-measure 60 55 50 TN1 TN2 TN3 Trung bình TN TN4 Hình 11: Biểu đồ thể kế bốn thực nghiệm 5.4.2 Đánh giá hệ thống Chúng sử dụng ba độ đo: precision, recall F-measure để đánh giá hệ thống Qua trình tổng hợp đánh giá kết thực nghiệm, chúng tơi thấy mơ hình hệ thống đề xuất chương ba (sử dụng kết hợp ba phân lớp SVM) mang tính khả thi với độ đo F đạt 68.4 % (trong độ đo F trung bình đạt sử dụng phân lớp 65.5%) Tuy nhiên, điểm hạn chế hệ thống số đặc trưng dùng cho phân lớp SVM cịn 37 Kết luận định hướng nghiên cứu Qua trình tìm hiểu phương pháp phát kế thừa văn trình bày qua hội nghị RTE phân tích ưu điểm, nhược điểm phương pháp, khóa luận đề xuất mơ hình phát kế thừa văn cho tiếng Việt dựa mơ hình học máy SVM Khóa luận đạt kết sau đây: - Giới thiệu khái niệm kế thừa văn bản, nêu lên vai trò, ý nghĩa kế thừa văn toán phát kế thừa văn hội nghị RTE - Trình bày phân tích hướng tiếp cận học máy cho toán phát kế thừa văn số cơng trình nghiên cứu gần mơ hình phát kế thừa văn dựa học máy: mơ hình Julio Javier Castillo (2010) [10] số tác giả khác - Đề xuất cài đặt mơ hình phát kế thừa văn cho tiếng Việt dựa mơ hình học máy SVM Thực nghiệm tập liệu chuNn hội nghị RTE-3 dịch sang tiếng Việt Kết thực nghiệm cho thấy mơ hình đề xuất có độ đo F đạt 68.4% - cho thấy mơ hình mà khóa luận đề xuất có tính khả thi Tuy nhiên, hạn chế mặt thời gian kiến thức nên khóa luận tồn mặt hạn chế như: Các đặc trưng sử dụng cho phân lớp SVM chưa phong phú, chưa gán trọng số cho giá trị đặc trưng Trong thời gian tới, tiếp tục trích xuất nhiều đặc trưng hơn: loại đặc trưng cú pháp, nhận dạng thực thể…Ngoài ra, tiến hành đánh giá mức độ quan trọng đặc trưng để gán giá trị cho chúng theo Rui Wang [15] - 38 Tài liệu tham khảo [1] BingLiu.“Web Data Mining Exploring Hyperlinks, Contents, and Usage Data”, 2007 [2] Corinna Cortes, Vladimir Vapnik, “Support-Vector Networks, Machine Learning”,AT&T Bell Labs,Holmdel, NJ 07733, USA, 1995 [3] Diana Inkpen, Darren Kipp, and Vivi Nastase., “Machine Learning Experiments for Textual Entailment”, School of Information Technology and Engineering University of Ottawa Canada [4] Dr Arti Arya1, Vishwanath Yaligar2, Ramya D Prabhu2, Ramya Reddy2, Rohith Acharaya2, “A Knowledge Based Approach for Recognizing Textual Entailment for Natural Language Inference using Data Mining”, Department of MCA, PESSE, VTU, Bangalore, India, 2010 [5] Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual Entailment Recognition Using aLinguistically–Motivated Decision Tree Classifier”, School of Computer Science and Informatics, University College Dublin, Ireland, 2006 [6] Frank Schilder and Bridget Thomson McInnes, “Word and tree-based similarities for textual entailment”, In Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006 [7] Ido Dagan and Oren Glickman, “Generic Applied Modeling of Language Variability”, In Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining, Grenoble, France 2004 [8] Ido Dagan, Bill Dolan, Bernardo Magnini, Dan Roth, “Recognizing textual entailement: Rational, evaluation and approaches”, In Natural Language Engineering15(4):i-xvii, Cambridge University Press 2009, 2009 [9] Johan Bos and Katja Markert, “When logical inference helps determining textual entailment (and when it doesn’t)”, In Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006 39 [10] Julio Javier Castillo,“An approach to Recognizing Textual Entailment and TE SearchTask using SVM”, Procesamiento del Lenguaje Natural, Nº44, marzo de 2010: 139-145, http://www.sepln.org/revistaSEPLN/revista/44/revista44.pdf [11] Milen Kouylekov and Bernardo Magnini, “Tree Edit Distance for Recognizing Textual Entailment: Estimating the Cost of Insertion”, In Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006 [12] Milen Kouylekov, “Recognizing Textual Entailment with Tree Edit Distance: Application to Question Answering and Information Extraction”, International Doctorate School in Information and Communication Technologies, 2006 [13] Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu, “Using Machine Translation for Recognizing Textual Entailment in Vietnamese Language”, Proceedings of RIVF-2012 (to appear), 2012 [14] Ranxu Su, Sheng Shang, Pan Wang, Haixu Liu, Yan Zheng,“ZSWSL Text Entailment Recognizing System at NTCIR-9 RITE Task”, School of Computer Science Beijing University of Posts and Telecommunications [15] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual Entailment”, PhD Thesic, Saarland University (German), 2011 40 ... hình phát kế thừa văn cho tiếng Việt dựa mô hình học máy SVM Khóa luận đạt kết sau đây: - Giới thiệu khái niệm kế thừa văn bản, nêu lên vai trò, ý nghĩa kế thừa văn toán phát kế thừa văn hội nghị... niệm kế thừa văn bản, phát biểu toán phát kế thừa văn bản, ứng dụng thực tiễn trình phát triển toán phát kế thừa văn hội nghị RTE Chương 2: Trình bày hướng tiếp cận giải toán phát kế thừa văn. .. tiếng Anh tiếng Việt Cuối cùng, khóa luận trình bày mơ hình học máy SVM Dựa theo hướng tiếp cận học máy cho phát kế thừa văn bản, chương khóa luận giới thiệu mơ hình phát kế thừa văn tiếng Việt sử

Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan