Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM

55 662 3
Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy hỗ trợ vector SVM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Đức Trọng GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ HÀ NỘI - 2011 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này. Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi trong quá trình thu thập dữ liệu và thực nghiệm mô hình. Đồng thời tôi xin gửi lời cảm ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này. Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc. Tôi xin chân thành cảm ơn ! Sinh viên Lê Đức Trọng Lời cam đoan Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Khóa luận không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo. Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và thống kê từ kết quả thực thế. Sinh viên Lê Đức Trọng Tóm tắt Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] . Đây là một vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới. Tại Việt Nam, bài toán này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn. Tuy nhiên, nó là một bài toán có tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu. Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới, tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt. Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một vector đặc trưng. Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau. Khóa luận sử dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ liệu học cho mô hình đề xuất. Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác 76,51 %. Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng tương đương. Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực tế. Lời mở đầu 1 Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản 3 1.1. Quan hệ đồng tham chiếu 3 1.1.1. Khái niệm 3 1.1.2. Các thành phần trong quan hệ đồng tham chiếu thường gặp 3 1.1.3. Phân loại các quan hệ đồng tham chiếu 4 1.2. Bài toán đồng tham chiếu trong văn bản 5 1.3. Ứng dụng 6 1.4. Khó khăn và thách thức 7 Tóm tắt chương một 8 Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản 9 2.1. Phương pháp học không giám sát 9 2.1.1 Phương pháp xếp hạng 9 2.1.2 Phương pháp gom cụm 11 2.2 Phương pháp học giám sát 15 2.2.1 Phương pháp cây quyết định C4.5 15 2.2.2 Phương pháp máy vector hỗ trợ (SVM) 17 2.3. Nhận xét 21 Tóm tắt chương hai 21 Chương 3. Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 22 3.1. Đặc trưng của văn bản tiếng Việt 22 3.1.1. Đặc trưng từ trong tiếng Việt 22 3.1.2. Đặc trưng về tên người trong tiếng Việt 23 3.1.3. Đặc trưng về quan hệ ngữ nghĩa 24 3.2. Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 25 3.2.1. Phát biểu bài toán 25 3.2.2. Ý tưởng giải quyết bài toán 25 3.3. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 26 3.3.1. Xây dựng bộ dữ liệu học 26 3.3.2. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29 Tóm tắt chương 3 34 Chương 4: Thực nghiệm và đánh giá 35 4.1. Môi trường thực nghiệm 35 4.1.1. Cấu hình sử dụng 35 4.1.2. Công cụ phần mền 35 4.2. Dữ liệu thực nghiệm 36 4.3. Thực nghiệm 36 4.3.1. Mô tả cài đặt chương trình 36 4.3.2. Xây dựng bộ dữ liệu học 36 4.3.3. Xây dựng bộ phân lớp 40 4.4. Đánh giá, so sánh 40 4.4.1. Đánh giá hệ thống 40 4.4.2. Phương pháp đánh giá 40 4.4.3. Kết quả thực nghiệm 41 4.5. Nhận xét 42 Kết luận 44 Tài liệu tham khảo 45 Danh sách các hình vẽ Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu 6 Hình 2: Một ví dụ về cây quyết định 15 Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học 27 Hình 4: Văn bản tải về dạng html 28 Hình 5 : Mô hình xây dựng bộ dữ liệu học 28 Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29 Hình 7: Ví dụ về dữ liệu gán nhãn 37 Hình 8: Một ví dụ về sinh vector đặc trưng 39 Hình 9: Kết quả độ đo chính xác của hai mô hình thực nghiệm trên 10 văn bản 41 Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản 42 Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 42 Danh sách các bảng Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách 13 Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18 Bảng 3: Đặc trưng mô tả cụm từ đang xét 18 Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 18 Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 20 Bảng 6: Bảng đặc trưng của cụm từ NP1 32 Bảng 7: Bảng đặc trưng của cụm từ NP2 32 Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 33 Bảng 9: Cấu hình phần cứng 35 Bảng 10: Danh sách các phần mềm sử dụng 35 Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản 41 Bảng các kí hiệu viết tắt Từ hoặc cụm từ Kí hiệu viết tắt Vietname semantic web VSW Name entity recognition NER Part-of-speech tagging POS-tagging Support vector machines SVM A library for Support Vector Machines LibSVM 1 Lời mở đầu Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6]. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics ), IJCAI (International Joint Conference on Artifical intelligence) Nếu một phương pháp giải quyết được đề xuất cho kết quả tốt thì nhiều bài toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn bản [20], tự động sinh các biểu diễn tương đương của đoạn văn bản [4] … sẽ được cải thiện về chất lượng một cách đáng kể. Xuất phát từ lý do đó và mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 là “Hệ thống hỏi đáp thực thể tên người cho tiếng Việt”, khóa luận chọn bài toán đồng tham chiếu trong văn bản tiếng Việt làm nội dung tập trung nghiên cứu và xây dựng mô hình giải quyết. Bài toán đồng tham chiếu trong văn bản ra đời từ những năm 60-70 của thế kỉ trước [21], các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm. Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán. Tuy nhiên, nổi bật hơn là các phương pháp dựa trên hướng tiếp cận học máy không giám sát và học máy giám sát. Những công trình này mang tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn. Khóa luận này giới thiệu một số phương pháp tiếp cận giải quyết điển hình như: phương pháp xếp hạng, phương pháp gom cụm, phương pháp cây quyết định và phương pháp máy vector hỗ trợ (SVM). Trong những phương pháp đó, phương pháp máy vector hỗ trợ là phương pháp mới (2005) cho kết quả khả quan (độ chính xác đạt 69.2%). Vì vậy chúng tôi sử dụng phương pháp này cho việc giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là xây dựng mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt. Kết quả thực nghiệm bước đầu cho thấy mô hình phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt. Nội dung của khóa luận bao gồm có 4 chương: Chương 1: Giới thiệu khái quát về bài toán đồng tham chiếu cũng như các khái niệm liên quan Chương 2: Giới thiệu một số phương pháp tiếp cận giải quyết bài toán đồng tham chiếu bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát. Đây là cơ sở lý thuyết, phương pháp luận quan trọng để khóa [...]... chiếu trong văn bản và hướng tiếp cận giải quyết tương ứng 8 Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản Có nhiều phương pháp giải quyết bài toán đồng tham chiếu trong văn bản Trong chương này, khóa luận giới thiệu một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có... trưng để giải quyết bài toán này Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt sẽ được trình bày chi tiết trong chương thứ tư 21 Chương 3 Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ Trên cơ sở giới thiệu và phân tích các ưu nhược điểm của các phương pháp giải quyết bài toán đồng tham chiếu, khóa luận đã chọn phương pháp học... áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu 3.3 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ Dựa trên ý tưởng trình bày ở phần trước, mô hình trích chọn đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ sử dụng một bộ phân lớp để nhận dạng các cặp cụm từ có quan hệ đồng tham chiếu Tuy nhiên, để... hệ đồng tham chiếu trong văn bản tiếng Việt ở trong chương 4 Chương 3: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 2 và thông qua khảo sát miền dữ liệu văn bản tiếng Việt, khóa luận đã lựa chọn phương pháp máy vector hỗ trợ (SVM) là cơ sở của việc giải quyết bài toán đồng tham chiếu trong tiếng Việt Nội dung chính của chương này trình bày một số đặc trưng của văn bản tiếng Việt, bài toán. .. chọn phương pháp này để xây dựng mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở chương bốn của khóa luận Tóm tắt chương hai Trong chương này đã giới thiệu một số phương pháp giải quyết bài toán đồng tham chiếu trong văn bản điển hình, chỉ ra những ưu nhược điểm và lý do lựa chọn phương pháp dựa. .. nhất, trong chương này khóa luận nghiên cứu, trình bày một số đặc trưng trong văn bản tiếng Việt, phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt và mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa trên phương pháp máy vector hỗ trợ SVM 3.1 Đặc trưng của văn bản tiếng Việt Văn bản tiếng Việt không chỉ bao gồm những đặc trưng về quan hệ ngữ nghĩa giống thông thường giống... luận Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra định hướng nghiên cứu trong thời gian sắp tới 2 Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản Nội dung chính của khóa luận là đề xuất một mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector. .. của quan hệ đồng tham chiếu giữa các cụm từ NPi [9]: - Tính chất bắc cầu: Nếu NP1, NP2 là đồng tham chiếu; NP2, NP3 là đồng tham chiếu thì NP1, NP3 là đồng tham chiếu - 1.2 Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là đồng tham chiếu Tính chất độc lập: Sự thể hiện của NP1 và NP2 độc lập nhau trong ngữ cảnh tương ứng Bài toán đồng tham chiếu trong văn bản Trong các văn bản, các... tương ứng với một vector đặc trưng • Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp 1 tương ứng với cặp có quan hệ đồng tham chiếu, lớp 0 tương ứng với cặp không có quan hệ đồng tham chiếu • Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm... hệ ngữ nghĩa trong đó một thực thể biểu diễn số lượng của một thực thể/ sự kiện nào đó Ví dụ: “Nhóm ba sinh viên” 3.2 Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 3.2.1 Phát biểu bài toán Bài toán đồng tham chiếu được Morton [13] và Denis [6] phát biểu ở chương 1, trong trường hợp này được viết lại như sau: Đầu vào: Văn bản tiếng Việt D Đầu ra: Các nhóm cụm từ đồng tham chiếu {NPi} 3.2.2 . thành khóa luận này. Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường . của NP1 và NP2 độc lập nhau trong ngữ cảnh tương ứng 1.2. Bài toán đồng tham chiếu trong văn bản Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong các câu, tạo nên sự. Tóm tắt Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm

Ngày đăng: 20/08/2014, 09:47

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan