ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN

53 1,476 1
  • Loading ...

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Tài liệu liên quan

Thông tin tài liệu

Ngày đăng: 06/04/2013, 18:44

Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS TS Hà Quang Thụy Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 3 Lời cảm ơn Tôi xin gửi lời cảm ơn biết ơn sâu sắc nhất tới Phó Giáo sư Tiến Quang Thụy Thạc sỹ Đặng Thanh Hải đã chỉ bảo hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu Khoa học quá trình thực hiện khoá luận này. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập nghiên cứu tại trường Đại họ c Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiên cứu “Khai phá dữ liệu khám phá tri thức” đã giúp đỡ, ủng hộ động viên tôi trong quá trình nghiên cứu làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận. Cuối cùng, tôi muốn gửi lờ i cảm ơn biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạn những người thân yêu của tôi. Xin chân thành cảm ơn! Sinh viên Hoàng Minh Hiền 4 Tóm tắt nội dung Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. Tóm tắt văn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hội nghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics ), của các trung tâm nghiên cứu như IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu ứng dụng trong bài toán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng câu các phương pháp để tính toán độ tương đồng câu. Từ đó, trên cơ sở về một số kết quả nghiên cứu đã có về độ đo tương đồng câu v ề Hidden Topic, khóa luận đề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tương đồng ngữ nghĩa giữa hai câu. 5 Mục lục Tóm tắt nội dung . 4 Mục lục .5 Danh sách bảng 7 Danh sách hình vẽ 8 Bảng ký hiệu từ viết tắt 9 Mở đầu 10 Chương 1. Tổng quan về tóm tắt văn bản độ tương đồng câu . 12 1.1. Đặt vấn đề 12 1.2. Nền tảng kiến thức 13 1.2.1. Data Mining .13 1.2.2. Text Mining .13 1.2.3. Web Mining .14 1.3. Tóm tắt văn bản .15 1.4. Độ tương đồng giữa hai câu 16 Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 18 2.1. Bài toán tóm tắt văn bản 18 2.1.1. Định nghĩa tóm tắt .18 2.1.2. Phân loại tóm tắt văn bản .19 2.1.3. Tóm tắt văn bản đơn 21 2.2. Các phương pháp tóm tắt văn bản đơn 21 2.2.1. Phương pháp Word frequencies .22 2.2.2. Phương pháp của Edmundson .23 2.2.3. Tóm tắt văn bản tự động sử dụng trích chọn câu hai bước 26 6 Chương 3. Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1. Độ tương đồng .32 3.2. Độ tương đồng câu 32 3.3. Phương pháp để đo độ tương đồng câu .33 3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus .33 3.3.2. Phương pháp tính độ tương đồng câu sử dụng Hidden Topic .39 Chương 4. Đề xuất mô hình tóm tắt kết quả thực nghiệm . 46 4.1. Đề xuất mô hình tóm tắt 46 4.2. Thiết kế mô hình thử nghiệm 47 4.3. Kết quả thực nghiệm .47 Kết luận hướng phát triển của khóa luận 50 Tài liệu tham khảo . 51 7 Danh sách bảng Bảng 1. Các kết quả so sánh các độ đo .37 Bảng 2. Trọng số của từng câu trong văn bản [không dùng Hidden Topic] 48 Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] .49 8 Danh sách hình vẽ Hình 1. Mô hình chung của một hệ thống tóm tắt văn bản . 15 Hình 2. Giá trị trung bình của các phương pháp . 26 Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước . 27 Hình 4. So sánh giữa phương pháp Two-step các phương pháp khác (Title) 31 Hình 5. So sánh giữa phương pháp Two-step các phương pháp khác ( không sử dụng Title) 31 Hình 6. Lược đồ tính toán độ tương đồng câu 34 Hình 7. Hệ thống cây phân cấp ngữ nghĩa 36 Hình 8. Mô hình biểu diễn của LDA (Các khối vuông biểu diễn quá trình lặp) . 40 Hình 9. Mô hình sinh cho LDA . 41 Hình 10. Quá trình khởi tạo lấy mẫu lần đầu 42 Hình 11. Quá trình khởi tạo lấy mẫu lại 43 Hình 12. Quá trình đọc các tham số đầu ra . 44 Hình 13. Nội dung một văn bản đơn tiếng Việt 47 9 Danh sách các từ viết tắt WAP : Wireless Application Protocol PDA : Personal digital assistant SMS : Short Message Service LDA : Latent Dirichlet Allocation IR : Information Retrieval TF : Term Frequency IDF : Inverted document frequency 10 Mở đầu Dữ liệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó khiến người dùng trở nên bối rối do không đủ thời gian đọc tất cả văn bản. Tóm tắt văn bản tự động hiện đang là một bài toán được sự quan tâm nghiên cứu của nhiều nhà khoa học. Tóm tắt văn bản có thể được ứng dụng để tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động. Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm. Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình . Những ứng dụng đa dạng phong phú của tóm tắt văn bản khẳng định sự cần thiế t của việc xây dựng một hệ thống tóm tắt văn bản tự động hiệu quả. Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả. Để tiếp cận mục tiêu này, khóa luận giới thiệu kết quả nghiên cứu của báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thờ i, khóa luận nghiên cứu, đề xuất phương pháp tính toán độ tương đồng câu sử dụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm tăng tính ngữ nghĩa trong tính toán độ tương đồng câu mà không cần dùng tới một mạng ngữ nghĩa hay một corpus nào khác. Nội dung của khóa luận được chia thành các chương như sau: Chương 1. Tổng quan về bài toán tóm tắt văn bản độ tương đồng câu: Đề cập tới nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần này cũng giới thiệu những nội dungbản nhất của bài toán tóm tắt văn bản độ tương đồng ngữ nghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản: Trình bày cụ thể về bài toán tóm tắt văn bản bao g ồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá một văn bản tóm tắt một số phương pháp tóm tắt văn bản. Chương 3. Độ đo tương đồng câu phương pháp tính độ tương đồng câu. Chương này giới thiệu về độ tương đồng, độ tương đồng câu hai phương pháp khác nhau để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus [...]... báo, bản tin, thư, báo cáo …) Với cách phân loại này, tóm tắt văn bản là bài báo sẽ khác với tóm tắt thư, tóm tắt báo cáo khoa học do những đặc trưng văn bản quy định - Định dạng văn bản: tóm tắt văn bản free-form, tóm tắt văn bản cấu trúc Với văn bản cấu trúc, tóm tắt văn bản thường sử dụng một mô hình học đã xây dựng từ trước - Kích thước nguồn: tóm tắt đa văn bản, tóm tắt văn bản đơn Một vài... kê phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [9][16] 17 Chương 2 Bài toán tóm tắt văn bản một số phương pháp tóm tắt văn bản 2.1 Bài toán tóm tắt văn bản 2.1.1 Định nghĩa tóm tắt Tóm tắt văn bản là quá trình làm giảm đi độ dài hoặc độ phức tạp của một văn bản mà không mất đi nội dung chính của văn bản [18].Bài toán tóm tắt văn bản có đầu vào là văn bản nguồn một... thường) trong khi rất khó làm cho máy hiểu những điều này [2] 18 2.1.2 Phân loại tóm tắt văn bản Có nhiều cách phân loại tóm tắt văn bản khác nhau tuy nhiên sự phân loại chỉ mang tính tương đối, phụ thuộc vào việc tóm tắt trên cơ sở nào Ở đây, khóa luận phân loại tóm tắt như dựa vào input, output, mục đích tóm tắt [9] Nếu dựa vào input ta có tóm tắt đa văn bản, đơn văn bản; tóm tắt miền cụ thể tóm tắt. .. engine Tóm tắt văn bản được ứng dụng ngày một rộng rãi Tóm tắt văn bản có thể ứng dụng trong tóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tả của kết quả tìm kiếm Người dùng dựa vào đó để chọn nhưng kết quả phù hợp với mong muốn của mình Hiện nay, tóm tắt văn bản được sự quan tâm đặc biệt trong các... thể tóm tắt sử dụng thêm câu truy vấn để đưa ra nội dung của bản tóm tắt Cách làm này có ưu điểm là văn bản kết quả sẽ cho nội dung gần với mong muốn của người sử dụng hơn Quá trình tóm tắt cụ thể sẽ xét mối liên hệ, sự tương đồng giữa các thành phần trong văn bản với câu truy vấn để tìm ra các phần quan trọng trong văn bản Tuy nhiên, với tóm tắt một văn bản đơn không sử dụng truy vấn, quá trình tóm tắt. .. tương đồng giữa các thành phần của văn bản với nhau Điều này dẫn đến một vấn đề là chưa thể kết luận ngay các thành phần quan trọng của văn bản để có thể trích rút, đưa vào tóm tắt 2.2 Các phương pháp tóm tắt văn bản đơn Những năm 50-70, tóm tắt văn bản chủ yếu dựa vào các kỹ thuật thống kê để tóm tắt các văn bản khoa học Những năm 80, người ta sử dụng trí tuệ nhân tạo để tóm tắt các văn bản ngắn, các bản. .. đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung chính của văn bản đầu vào đó Tóm tắt văn bản đơn là bước đệm cho việc xử lý, tóm tắt đa văn bản các bài toán tóm tắt phức tạp hơn Văn bản đơn có thể là một trang Web, một bài báo, hoặc một tài liệu với định dạng xác định (ví dụ : doc, txt)… Những phương pháp tóm tắt văn bản ra đời đầu tiên đều là các phương pháp tóm tắt cho văn bản. .. Headline; tóm tắt hỗ trợ các thiết bị cầm tay; tóm tắt đa phương tiện Chiến lược tóm tắt văn bản phổ biến nhất vẫn là trích rút các phần quan trọng (các câu) trong văn bản rồi sắp xếp chúng theo thứ tự trong văn bản Bên cạnh đó, tóm tắt văn 21 bản cũng bao gồm cả việc đơn giản hóa câu bằng cách thu ngắn câu lại, xóa đi các phần không quan trọng trong câu để làm cho văn bản ngắn gọn hơn Người ta thường sử dụng. .. vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách tóm tắt cho các đối tượng đọc thông thường - Tóm tắt sử dụng trong IR sẽ khác với tóm tắt phục vụ cho việc sắp xếp 19 - Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt Indicative tóm tắt Informative Tóm tắt Indicative chỉ ra loại của thông tin, ví dụ như là “alert” Còn tóm tắt Informative chỉ ra nội dung của thông tin - Tóm. .. sử dụng các thông tin có trong văn bản để trích rút các phần quan trọng (các câu) trong văn bản Cách tiếp cận truyền thống này chủ yếu dựa trên các phương pháp heuristic Những thông tin trong văn bản có thể là tần số từ trong văn bản, đầu đề của văn bản, vị trí câu, cụm từ gợi ý, … Trích rút các phần quan trọng trong văn bản là kỹ thuật phổ biến được sử dụng trong tóm tắt văn bản Trên thế giới cũng đã . đồng ngữ nghĩa giữa hai câu và ứng dụng trong bài toán tóm tắt văn bản tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độ tương đồng câu và. 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản 2.1. Bài toán tóm tắt văn bản 2.1.1. Định nghĩa tóm tắt Tóm tắt văn bản là quá trình
- Xem thêm -

Xem thêm: ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN, ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN, ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN, Đặt vấn đề Nền tảng kiến thức, Tóm tắt văn bản, Định nghĩa tóm tắt, Các phương pháp tóm tắt văn bản đơn, Độ tương đồng về thứ tự của các từ trong câu Tính độ tương đồng cho tồn bộ câu Latent Dirichlet Allocation LDA

Từ khóa liên quan