Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

53 2,750 8
  • Loading ...

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 30/01/2013, 15:38

Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS TS Hà Quang Thụy Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 3 Lời cảm ơn Tôi xin gửi lời cảm ơn biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Đặng Thanh Hải đã chỉ bảo hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu Khoa học quá trình thực hiện khoá luận này. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập nghiên cứu tại trường Đại họ c Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên cứu “Khai phá dữ liệu khám phá tri thức” đã giúp đỡ, ủng hộ động viên tôi trong quá trình nghiên cứu làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận. Cuối cùng, tôi muốn gửi lờ i cảm ơn biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn những người thân yêu của tôi. Xin chân thành cảm ơn! Sinh viên Hoàng Minh Hiền 4 Tóm tắt nội dung Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. Tóm tắt văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics ), của các trung tâm nghiên cứu như IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu ứng dụng trong bài toán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng câu các phương pháp để tính toán độ tương đồng câu. Từ đó, trên cơ sở về một số kết quả nghiên cứu đã có về độ đo tương đồng câu v ề Hidden Topic, khóa luận đề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tương đồng ngữ nghĩa giữa hai câu. 5 Mục lục Tóm tắt nội dung . 4 Mục lục .5 Danh sách bảng 7 Danh sách hình vẽ 8 Bảng ký hiệu từ viết tắt 9 Mở đầu 10 Chương 1. Tổng quan về tóm tắt văn bản độ tương đồng câu . 12 1.1. Đặt vấn đề 12 1.2. Nền tảng kiến thức 13 1.2.1. Data Mining .13 1.2.2. Text Mining .13 1.2.3. Web Mining .14 1.3. Tóm tắt văn bản .15 1.4. Độ tương đồng giữa hai câu 16 Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 18 2.1. Bài toán tóm tắt văn bản 18 2.1.1. Định nghĩa tóm tắt .18 2.1.2. Phân loại tóm tắt văn bản .19 2.1.3. Tóm tắt văn bản đơn 21 2.2. Các phương pháp tóm tắt văn bản đơn 21 2.2.1. Phương pháp Word frequencies .22 2.2.2. Phương pháp của Edmundson .23 2.2.3. Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước 26 6 Chương 3. Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1. Độ tương đồng .32 3.2. Độ tương đồng câu 32 3.3. Phương pháp để đo độ tương đồng câu .33 3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus .33 3.3.2. Phương pháp tính độ tương đồng câu sử dụng Hidden Topic .39 Chương 4. Đề xuất mô hình tóm tắt kết quả thực nghiệm . 46 4.1. Đề xuất mô hình tóm tắt 46 4.2. Thiết kế mô hình thử nghiệm 47 4.3. Kết quả thực nghiệm .47 Kết luận hướng phát triển của khóa luận 50 Tài liệu tham khảo . 51 7 Danh sách bảng Bảng 1. Các kết quả so sánh các độ đo .37 Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] 48 Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] .49 8 Danh sách hình vẽ Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản . 15 Hình 2. Giá trị trung bình của các phương pháp . 26 Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước . 27 Hình 4. So sánh giữa phương pháp Two-step các phương pháp khác (Title) 31 Hình 5. So sánh giữa phương pháp Two-step các phương pháp khác ( không sử dụng Title) 31 Hình 6. Lược đồ tính toán độ tương đồng câu 34 Hình 7. Hệ thống cây phân cấp ngữ nghĩa 36 Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) . 40 Hình 9. Mô hình sinh cho LDA . 41 Hình 10. Quá trình khởi tạo lấy mẫu lần đầu 42 Hình 11. Quá trình khởi tạo lấy mẫu lại 43 Hình 12. Quá trình đọc các tham số đầu ra . 44 Hình 13. Nội dung một văn bản đơn tiếng Việt 47 9 Danh sách các từ viết tắt WAP : Wireless Application Protocol PDA : Personal digital assistant SMS : Short Message Service LDA : Latent Dirichlet Allocation IR : Information Retrieval TF : Term Frequency IDF : Inverted document frequency 10 Mở đầu Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản. Tóm tắt văn bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa học. Tóm tắt văn bản có thể được ứng dụng để tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động. Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình . Những ứng dụng đa dạng phong phú của tóm tắt văn bản khẳng định sự cần thiế t của việc xây dựng một hệ thống tóm tắt văn bản tự động hiệu quả. Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả. Để tiếp cận mục tiêu này, khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thờ i, khóa luận nghiên cứu, đề xuất phương pháp tính toán độ tương đồng câu sử dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm tăng tính ngữ nghĩa trong tính toán độ tương đồng câu mà không cần dùng tới một mạng ngữ nghĩa hay một corpus nào khác. Nội dung của khóa luận được chia thành các chương như sau: Chương 1. Tổng quan về bài toán tóm tắt văn bản độ tương đồng câu: Đề cập tới nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần này cũng giới thiệu những nội dungbản nhất của bài toán tóm tắt văn bản độ tương đồng ngữ nghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản: Trình bày cụ thể về bài toán tóm tắt văn bản bao g ồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá một văn bản tóm tắt một số phương pháp tóm tắt văn bản. Chương 3. Độ đo tương đồng câu phương pháp tính độ tương đồng câu. Chương này giới thiệu về độ tương đồng, độ tương đồng câu hai phương pháp khác nhau để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus [...]... USA 16 tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [9][16] 17 Chương 2 Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 2. 1 Bài toán tóm tắt văn bản 2. 1.1 Định nghĩa tóm tắt Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản mà không mất... tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9] Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể tóm tắt miền tổng quát; tóm tắt một kiểu văn bản cụ thể Dựa vào mục đích thì tóm tắt được chia thành tóm tắt generic, query-based; tóm tắt indicative information; hay tóm tắt background... Tính độ tương đồng ngữ nghĩa cho hai câu Khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu Sử dụng vector ngữ nghĩa của hai câu để tính độ tương đồng về ngữ nghĩa cho hai câu đó Bước 4: Tính độ tương đồng thứ tự từ Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu Bước 5: Tính độ tương đồng cho toàn bộ câu Kết hợp giữa vector ngữ nghĩa và vector thứ tự của hai câu. .. 20 2. 1.3 Tóm tắt văn bản đơn Đối tượng thực nghiệm của khóa luận là các văn bản đơn Tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản các bài toán tóm tắt phức tạp hơn Văn bản đơn có thể... trong văn bản Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt sẽ xét sự tương đồng giữa các thành phần của văn bản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt 2. 2 Các phương pháp tóm tắt văn bản đơn Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm. .. đặc trưng văn bản quy định - Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bảncấu trúc Với văn bảncấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước - Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn Một vài hệ thống sẽ tạo ra một bản tóm tắt dựa trên một tài liệu đơn, trong khi một vài hệ thống khác có thể sử dụng nhiều nguồn tài liệu Những hệ thống... kê [9] Từ năm 20 00 đến nay, tóm tắt tập trung vào các lĩnh vực như tóm tắt đa văn bản (các tin tức, trang Web, email, văn bản luật, y tế, …), sinh Headline; tóm tắt hỗ trợ các thiết bị cầm tay; tóm tắt đa phương tiện Chiến lược tóm tắt văn bản phổ biến nhất vẫn là trích rút các phần quan trọng (các câu) trong văn bản rồi sắp xếp chúng theo thứ tự trong văn bản Bên cạnh đó, tóm tắt văn 21 bản cũng bao... engine Tóm tắt văn bản được ứng dụng ngày một rộng rãi Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong. .. trong phạm vi từ -1 đến 1 hoặc 0 đến 1 Như vậy, một độ đo tương đồng có thể coi là một loại scoring function (hàm tính điểm) Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector Phân loại độ đo tương đồng, ở đây có thể liệt kê ra một số độ đo như độ đo tương đồng giữa các từ, độ đo tương đồng giữa các văn bản, ... ra được độ tương đồng cho hai câu 34 3.3.1 .2 Tính độ tương tự từ dựa trên WordNet Vì một đoạn văn bản gồm nhiều câu mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữ nghĩa khi xét cho một văn bản Vậy, muốn tính độ tương tự câu yêu cầu bắt buộc phải dựa vào độ tương tự của từ có trong câu Độ tương tự giữa các từ có ý nghĩa trong các . Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng. cơ bản nhất của bài toán tóm tắt văn bản và độ tương đồng ngữ nghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn
- Xem thêm -

Xem thêm: Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản, Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản, Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản, Đặt vấn đề Nền tảng kiến thức, Tóm tắt văn bản, Định nghĩa tóm tắt, Các phương pháp tóm tắt văn bản đơn, Độ tương đồng về thứ tự của các từ trong câu Tính độ tương đồng cho tồn bộ câu Latent Dirichlet Allocation LDA

Từ khóa liên quan