Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

53 3.3K 8
Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh Hiền ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TĨM TẮT VĂN BẢN KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 Lời cảm ơn Tôi xin gửi lời cảm ơn biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sỹ Đặng Thanh Hải bảo hướng dẫn tận tình cho tơi suốt q trình nghiên cứu Khoa học trình thực khố luận Tơi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới anh chị, bạn sinh viên nhóm nghiên cứu “Khai phá liệu khám phá tri thức” giúp đỡ, ủng hộ động viên q trình nghiên cứu làm khố luận Đặc biệt, xin cảm ơn Cử nhân Trần Mai Vũ, Nghiên cứu sinh Nguyễn Cẩm Tú Sinh viên Lê Diệu Thu, người hỗ trợ nhiều kiến thức chun mơn, giúp tơi hồn thành khóa luận Cuối cùng, tơi muốn gửi lời cảm ơn biết ơn vô hạn tới bố, mẹ, anh trai, tất bạn bè người thân yêu tơi Xin chân thành cảm ơn! Sinh viên Hồng Minh Hiền Tóm tắt nội dung Hiện nay, tóm tắt văn tốn có tính ứng dụng thực tiễn cao Tóm tắt văn nhận nhiều quan tâm nghiên cứu nhiều nhà khoa học, hội nghị quốc tế hội nghị DUC (Document Understanding Conference), hội nghị Coling/ACL (Computational Linguistics/Association for Computational Linguistics), trung tâm nghiên cứu IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa hai câu ứng dụng toán tóm tắt văn bản” tập trung nghiên cứu vào phương pháp tóm tắt văn bản; độ tương đồng câu phương pháp để tính tốn độ tương đồng câu Từ đó, sở số kết nghiên cứu có độ đo tương đồng câu Hidden Topic, khóa luận đề xuất mơ hình tóm tắt văn đơn có sử dụng Hidden Topic để tính tốn độ tương đồng ngữ nghĩa hai câu Mục lục Tóm tắt nội dung Mục lục Danh sách bảng Danh sách hình vẽ Bảng ký hiệu từ viết tắt Mở đầu 10 Chương Tổng quan tóm tắt văn độ tương đồng câu 12 1.1 Đặt vấn đề 12 1.2 Nền tảng kiến thức 13 1.2.1 Data Mining .13 1.2.2 Text Mining .13 1.2.3 Web Mining .14 1.3 Tóm tắt văn 15 1.4 Độ tương đồng hai câu 16 Chương Bài tốn tóm tắt văn số phương pháp tóm tắt văn 18 2.1 Bài tốn tóm tắt văn 18 2.1.1 Định nghĩa tóm tắt .18 2.1.2 Phân loại tóm tắt văn 19 2.1.3 Tóm tắt văn đơn 21 2.2 Các phương pháp tóm tắt văn đơn 21 2.2.1 Phương pháp Word frequencies .22 2.2.2 Phương pháp Edmundson 23 2.2.3 Tóm tắt văn tự động sử dụng trích chọn câu hai bước 26 Chương Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1 Độ tương đồng .32 3.2 Độ tương đồng câu 32 3.3 Phương pháp để đo độ tương đồng câu .33 3.3.1 Phương pháp tính độ tương đồng câu sử dụng WordNet corpus .33 3.3.2 Phương pháp tính độ tương đồng câu sử dụng Hidden Topic 39 Chương Đề xuất mơ hình tóm tắt kết thực nghiệm 46 4.1 Đề xuất mơ hình tóm tắt 46 4.2 Thiết kế mơ hình thử nghiệm 47 4.3 Kết thực nghiệm .47 Kết luận hướng phát triển khóa luận 50 Tài liệu tham khảo 51 Danh sách bảng Bảng Các kết so sánh độ đo .37 Bảng Trọng số câu văn [không dùng Hidden Topic] 48 Bảng Trọng số câu văn [dùng Hidden Topic] 49 Danh sách hình vẽ Hình Mơ hình chung hệ thống tóm tắt văn 15 Hình Giá trị trung bình phương pháp 26 Hình Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước 27 Hình So sánh phương pháp Two-step phương pháp khác (Title) 31 Hình So sánh phương pháp Two-step phương pháp khác ( không sử dụng Title) 31 Hình Lược đồ tính tốn độ tương đồng câu 34 Hình Hệ thống phân cấp ngữ nghĩa 36 Hình Mơ hình biểu diễn LDA (Các khối vng biểu diễn q trình lặp) 40 Hình Mơ hình sinh cho LDA 41 Hình 10 Quá trình khởi tạo lấy mẫu lần đầu 42 Hình 11 Quá trình khởi tạo lấy mẫu lại 43 Hình 12 Quá trình đọc tham số đầu 44 Hình 13 Nội dung văn đơn tiếng Việt 47 Danh sách từ viết tắt WAP : Wireless Application Protocol PDA : Personal digital assistant SMS : Short Message Service LDA : Latent Dirichlet Allocation IR : Information Retrieval TF : Term Frequency IDF : Inverted document frequency Mở đầu Dữ liệu Internet sinh liên tục ngày, lượng thơng tin khổng lồ khiến người dùng trở nên bối rối không đủ thời gian đọc tất văn Tóm tắt văn tự động toán quan tâm nghiên cứu nhiều nhà khoa học Tóm tắt văn ứng dụng để tóm tắt tin với định dạng WAP SMS cho thiết bị PDA, điện thoại di động Trong máy tìm kiếm, ứng dụng tóm tắt văn đưa đoạn mơ tả kết tìm kiếm Người dùng dựa vào để chọn kết phù hợp với mong muốn Những ứng dụng đa dạng phong phú tóm tắt văn khẳng định cần thiết việc xây dựng hệ thống tóm tắt văn tự động hiệu Mục tiêu khóa luận tập trung vào việc khảo sát, nghiên cứu phương pháp giải toán tóm tắt văn cách hiệu Để tiếp cận mục tiêu này, khóa luận giới thiệu kết nghiên cứu báo cáo [4]: phương pháp tính độ tương đồng câu sử dụng WordNet corpus; Đồng thời, khóa luận nghiên cứu, đề xuất phương pháp tính tốn độ tương đồng câu sử dụng mơ hình topic ẩn Ưu điểm phương pháp làm tăng tính ngữ nghĩa tính tốn độ tương đồng câu mà khơng cần dùng tới mạng ngữ nghĩa hay corpus khác Nội dung khóa luận chia thành chương sau: Chương Tổng quan tốn tóm tắt văn độ tương đồng câu: Đề cập tới nhu cầu ứng dụng tóm tắt văn bản, tảng kiến thức toán tóm tắt Phần giới thiệu nội dung tốn tóm tắt văn độ tương đồng ngữ nghĩa hai câu Chương Bài tốn tóm tắt văn số phương pháp tóm tắt văn bản: Trình bày cụ thể tốn tóm tắt văn bao gồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá văn tóm tắt số phương pháp tóm tắt văn Chương Độ đo tương đồng câu phương pháp tính độ tương đồng câu Chương giới thiệu độ tương đồng, độ tương đồng câu hai phương pháp khác để tính độ tương đồng câu: Phương pháp tính độ tương đồng câu sử dụng WordNet corpus 10 ... với đề tài ? ?Độ tương đồng ngữ nghĩa hai câu ứng dụng tốn tóm tắt văn bản? ?? tập trung nghiên cứu vào phương pháp tóm tắt văn bản; độ tương đồng câu phương pháp để tính tốn độ tương đồng câu Từ đó,... tóm tắt văn số phương pháp tóm tắt văn 18 2. 1 Bài tốn tóm tắt văn 18 2. 1.1 Định nghĩa tóm tắt .18 2. 1 .2 Phân loại tóm tắt văn 19 2. 1.3 Tóm tắt văn đơn 21 2. 2... bước 26 Chương Độ tương đồng câu phương pháp tính độ tương đồng câu 32 3.1 Độ tương đồng . 32 3 .2 Độ tương đồng câu 32 3.3 Phương pháp để đo độ tương đồng câu .33

Ngày đăng: 30/01/2013, 15:38

Hình ảnh liên quan

Mô hình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của Mani&Maybury gồm có ba bước: Analysis, Transformation, Synthesis - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

h.

ình chung của một hệ tóm tắt văn bản dựa trên cách tiếp cận của Mani&Maybury gồm có ba bước: Analysis, Transformation, Synthesis Xem tại trang 15 của tài liệu.
Hình 2. Giá trị trung bình của các phương pháp [11] - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 2..

Giá trị trung bình của các phương pháp [11] Xem tại trang 26 của tài liệu.
Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 3..

Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13] Xem tại trang 27 của tài liệu.
Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13]  - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 4..

So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13] Xem tại trang 31 của tài liệu.
Như đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên. - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

h.

ư đã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên Xem tại trang 33 của tài liệu.
Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16] - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 7..

Hệ thống cây phân cấp ngữ nghĩa[16] Xem tại trang 36 của tài liệu.
Bảng 1. Các kết quả so sánh các độ đo - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Bảng 1..

Các kết quả so sánh các độ đo Xem tại trang 37 của tài liệu.
Hình 8. Mô hình biểu diễn của LDA [6] - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 8..

Mô hình biểu diễn của LDA [6] Xem tại trang 40 của tài liệu.
Hình 10. Quá trình khởi tạo lấy mẫu lần đầu - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 10..

Quá trình khởi tạo lấy mẫu lần đầu Xem tại trang 42 của tài liệu.
Hình 11. Quá trình khởi tạo lấy mẫu lại - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 11..

Quá trình khởi tạo lấy mẫu lại Xem tại trang 43 của tài liệu.
Hình 12. Quá trình đọc các tham số đầu ra - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Hình 12..

Quá trình đọc các tham số đầu ra Xem tại trang 44 của tài liệu.
Trường hợp không sử dụng Hidden Topic, trọng số của từng câu như bảng sau: - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

r.

ường hợp không sử dụng Hidden Topic, trọng số của từng câu như bảng sau: Xem tại trang 48 của tài liệu.
Bảng 3. Trọng số của từng câu trong văn bản [dùng Hidden Topic] - Độ tương đồng ngữ nghĩa giữa 2 câu và ứng dụng trong tóm tắt văn bản

Bảng 3..

Trọng số của từng câu trong văn bản [dùng Hidden Topic] Xem tại trang 49 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan