Báo cáo " Tự động sinh mục lục cho văn bản " docx

Thông tin tài liệu

Tự động sinh mục lục cho văn bản Nguyễn Việt Cường Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS TS Hà Quang Thụy Năm bảo vệ: 2007 Abstract: Giới thiệu bài toán tóm tắt văn bản nói chung và bài toán xây dựng mục lục cho văn bản nói riêng; Nghiên cứu các phương pháp và thuật toán tiêu biểu sử dụng trong các phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản; Phân tích và đề xuất phương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; Đề xuất một số hướng cải tiến và trình bày các phương pháp đánh giá; Phần thử nghiệm trình bày quá trình thử nghiệm cùng các kết quả đạt được, đưa ra những ý kiến phân tích và đánh giá các kết quả làm tiền đề cho các ý kiến đề xuất Keywords: Công nghệ thông tin, Soạn thảo văn bản, Tự động sinh mục lục Content MỞ ĐẦU Hiện nay, lượng văn bản được số hoá đang tăng lên nhanh chóng và đặc biệt được phổ biến rộng rãi cùng với sự tăng trưởng của Internet. Các văn bản này thuộc nhiều dạng khác nhau như văn bản chữ viết, văn bản âm thanh và văn bản hình ảnh. Nguồn thông tin khổng lồ này vừa mang lại lợi ích giúp con người tiếp cận và khai thác được nhiều thông tin hơn, nhưng mặt khác cũng gây khó khăn cho công việc lựa chọn và tổng hợp thông tin. Lĩnh vực xử lí ngôn ngữ tự nhiên (xử lí ngôn ngữ trên máy tính một cách tự động) ra đời nhằm giải quyết phần nào sự khó khăn này. Lĩnh vực xử lí ngôn ngữ tự nhiên đã đặt ra hàng loạt bài toán nhằm giải quyết các khó khăn và trợ giúp con người xử lí văn bản tốt hơn như: tìm kiếm văn bản, phân lớp văn bản, rút trích thông tin, tóm tắt văn bản, hệ thống hỏi-đáp,… Các hệ thống thông tin trực tuyến như Google, Yahoo!, MSN,… đã thể hiện được các kết quả nghiên cứu giải quyết các bài toán này. Ví dụ như máy tìm kiếm Google đảm nhận việc tìm kiếm các văn bản theo yêu cầu của người dùng, trích ra các đoạn văn bản liên quan đến yêu cầu, tóm tắt lại dựa trên các thông tin đó và hiển thị cho người dùng lựa chọn. Tuy chất lượng xử lí văn bản chưa đạt được mức độ như con người nhưng sự lớn mạnh của các cỗ máy tìm kiếm trên đã cho thấy tiềm năng và triển vọng thực sự của các bài toán trong xử lí ngôn ngữ tự nhiên. Tóm tắt văn bản là một bài toán trong xử lí ngôn ngữ tự nhiên, đó là “một quá trình thu gọn văn bản đầu vào thành văn bản tóm tắt thông qua việc cô đọng nội dung bằng cách lựa chọn và/hoặc tổng hợp những thông tin quan trọng trong văn bản đầu vào” [18]. Trong thời gian gần đây, tóm tắt văn bản đang nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu trên thế giới với sự tăng trưởng về số bài báo có liên quan trong các hội nghị DUC 1 2001-2007, ACL 2 2001-2007,…; sự phát triển của các hệ thống tóm tắt văn bản 3 như MEAD, LexRank, Text Analyst (Megaputer), Text Analysis (IBM Japan), Microsoft Word,… Rất nhiều bài toán nhỏ của tóm tắt văn bản đã được đặt ra và giải quyết [18] thông qua các hội nghị và phần mềm kể trên. Một trong những vấn đề được quan tâm nghiên cứu gần đây là xây dựng mục lục cho văn bản một cách tự động [2, 5]. Đây là một bài toán tóm tắt văn bản, trong đó các thông tin quan trọng của tài liệu được định nghĩa là tiêu đề của các đoạn văn bản và được thể hiện dưới dạng danh sách ở mục lục của văn bản. Cấu trúc mục lục là một cấu trúc phổ biến ở trong các văn bản dài mà đặc biệt là các cuốn sách, nó giúp người đọc tìm kiếm chủ đề quan tâm và định vị được vị trí của chủ đề đó trong văn bản. Đối với các văn bản âm thanh, hình ảnh, việc xây dựng được mục lục cho văn bản là rất cần thiết vì những văn bản dạng này hầu như không có sẵn mục lục để định vị các phân đoạn thông tin khác nhau [3, 10, 18, 20]. Việc xây dựng mục lục cho văn bản gồm hai bước, bước thứ nhất là phân đoạn văn bản, tức là phân văn bản thành các đoạn rời rạc, nối tiếp nhau, mỗi đoạn nói về một chủ đề tương đối khác nhau [2, 4, 6, 15, 16, 20] và bước thứ hai là sinh tiêu đề cho các đoạn văn bản, tức là sinh một cụm từ ngắn thể hiện được chủ đề chính của đoạn văn [3, 10, 17, 28]. Trong [5], các tác giả đã trình bày và thử nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới dừng lại ở việc giải quyết nửa sau của bài toán xây dựng mục lục cho văn bản, tức là sinh tiêu đề và xây dựng cấu trúc mục lục với việc sử dụng cấu trúc phân đoạn sẵn có của văn bản. Hơn thế nữa, mô hình trong [5] là mô hình học giám sát, đòi hỏi phải có dữ liệu huấn luyện trong khi loại dữ liệu này rất thiếu đối với bài toán được đề cập. Với việc lựa chọn đề tài “Tự động sinh mục lục cho văn bản”, luận văn này hướng tới việc tích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản một cách tự động. Trong luận văn này, các bài toán của từng bước được nghiên cứu chi tiết; phương pháp tích hợp hai bước với nhau được đề xuất và tiến hành thử nghiệm thực tế trên văn bản khoa học. Kết quả thực nghiệm khả quan của luận văn đã cho thấy tính khả thi và triển vọng của bài toán này. Ngoài ra trong luận văn, tác giả cũng đưa ra những phương hướng cải tiến cùng cơ sở khoa học của nó để làm tiền đề cho các nghiên cứu tiếp theo. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: 1 http://duc.nist.gov/ 2 http://www.aclweb.org/ 3 http://www.ics.mq.edu.au/~swan/summarization/projects_full.htm - Chương 1 “Giới thiệu bài toán” sẽ giới thiệu bài toán tóm tắt văn bản nói chung và bài toán xây dựng mục lục cho văn bản nói riêng; phân tích các công trình có liên quan và đưa ra các thức giải quyết bài toán của luận văn. - Chương 2 “Phân đoạn văn bản và sinh tiêu đề” sẽ tiến hành nghiên cứu và trình bày các phương pháp và thuật toán tiêu biểu được sử dụng trong các bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản. - Chương 3 “Xây dựng mục lục cho văn bản” sẽ phân tích và đề xuất phương án tích hợp các thuật toán của các bước để giải quyết bài toán chính của luận văn; đề xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó; và trình bày các phương pháp đánh giá. - Chương 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn cùng các kết quả đạt được, đồng thời phân tích và đánh giá các kết quả đó để làm tiền đề cho các đề xuất cải tiến. References Tiếng Việt 1. Nguyễn Việt Cường, Nguyễn Thị Thuỳ Linh, Phan Xuân Hiếu, Hà Quang Thuỵ (2005), “Bài toán lọc và phân lớp nội dung web tiếng Việt với hướng tiếp cận Entropy cực đại”, Kỉ yếu Hội thảo Quốc gia lần thứ 8 “Một số vấn đề chọn lọc của công nghệ thông tin”, tr. 174-189, Hải Phòng, Việt Nam. Tiếng Anh 2. Angheluta R., De Busser R.D., Moens M.F. (2002), “The Use of Topic Segmentation for Automatic Summarization”, In Proceedings of the 40 th Annual Meeting of the Association of Computational Linguistics, Philadelphia, USA. 3. Banko M., Mittal V.O., Witbrock M.J. (2000), “Headline Generation Based on Statistical Translation”, In Proceedings of the 38 th Annual Meeting of the Association of Computational Linguistics, Hong Kong. 4. Beeferman D., Berger A., Lafferty J. (1999), “Statistical Models for Text Segmentation”, Machine Learning, 34(1-3), pp. 177-210. 5. Branavan S.R.K., Deshpande P., Barzilay R. (2007), “Generating a Table-of-Contents”, In Proceedings of the 45 th Annual Meeting of the Association of Computational Linguistics, pp. 544-551, Prague, Czech Republic. 6. Choi F. (2000), “Advances in domain independent linear text segmentation”, In Proceedings of NAACL '00, pp. 26-33, Seattle, USA. 7. Church K.W. (1993), “Char align: A Program for Aligning Parallel Texts at the Character Level”, In Proceedings of the 31 st Annual Meeting of the Association of Computational Linguistics, pp. 1-8, Ohio, USA. 8. Collins M., Roark B. (2004), “Incremental Parsing with the Perceptron Algorithm”, In Proceedings of the 42 nd Annual Meeting of the Association of Computational Linguistics, pp. 111-118, Barcelona, Spain. 9. Cuong N.V., Linh N.T.T., Thuy H.Q., Hieu P.X. (2006), “A Maximum Entropy Model for Text Classification”, In Proceeding of International Conference on Internet Information Retrieval 2006, pp. 143-149, Korea. 10. Dorr B., Zajic D., Schwartz R. (2003), “Hedge Trimmer: A parse-and-trim approach to headline generation”, In Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization, pp. 1-8, Edmonton, Canada. 11. Elhada N., McKeown K.R. (2001), “Towards generating patient specific summaries of medical articles”, In Proceedings of NAACL Workshop on Automatic Summarization, Pittsburgh, PA, USA. 12. Georgescul M., Clark A., Armstrong S. (2006), “An Analysis of Quantitative Aspects in the Evaluation of Thematic Segmentation Algorithms”, In Proceedings of the 7th SIGdial Workshop on Discourse and Dialogue, pp. 144-151. 13. Givón T. (2001), “Syntax: An Introduction”, John Benjamins Publishing, Amsterdam. 14. Goldstein J. (1999), “Automatic Text Summarization of Multiple Documents”, Thesis Proposal, Carnegie Mellon University. 15. Hearst M.A. (1994), “Multi-paragraph segmentation of expository text”, In Proceedings of the 32 nd Annual Meeting of the Association of Computational Linguistics, pp. 9-16, New Mexico, USA. 16. Hearst M.A. (1997), “TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages”, Computational Linguistics, 23(1), pp. 33-64. 17. Jin R., Hauptmann A.G. (2002), “A New Probability Model for Title Generation”, The 19 th International Conference on Computational Linguistics, Taiwan. 18. Jones K.S. (2007), “Automatic summarising: The state of the art”, Information Processing and Management, doi:10.1016/j.ipm.2007.03.009. 19. Luhn H.P. (1958), “The automatic creation of literature abstracts”, IBM Journal of Research and Development, 2, pp. 159-165. 20. Malioutov I., Barzilay R. (2006), “Minimum Cut Model for Spoken Lecture Segmentation”, In Proceedings of the 21 st International Conference on Computational Linguistics and 44 th Annual Meeting of the ACL, pp. 25-32, Sydney, Australia. 21. Moens M.F., De Busser R. (2001), "Generic topic segmentation of document texts", In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 418-419, New York, USA. 22. Morris J., Hirst G. (1991), “Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text”, Computational Linguistics, 17(1), pp. 21-48. 23. Pevzner L., Hearst M.A. (2002), “A Critique and Improvement of an Evaluation Metric for Text Segmentation”, Computational Linguistics, 28 (1), pp. 19-36. 24. Ponte J.M., Croft W.B. (1997), “Text Segmentation by Topic”, In Proceedings of the First European Conference on Research and Advanced Technology for Digitial Libraries, pp.120-129. 25. Reynar J.C. (1994), “An automatic method of finding topic boundaries”, In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, pp. 331- 333. 26. Shi J., Malik J. (2000), “Normalized Cuts and Image Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8) pp. 888-905. 27. Teufel S., Moens M. (2002), “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, Computational Linguistics, 28(4), pp. 409-445. 28. Witbrock M.J., Mittal V.O. (1999), “Ultra-Summarization: A statistical Approach to Generating Highly Condensed Non-Extractive Summaries”, In Proceedings of the 22 nd International Conference on Research and Development in Information Retrieval (SIGIR '99), Poster Session, 315-316, USA. . Tự động sinh mục lục cho văn bản , luận văn này hướng tới việc tích hợp hai bước phân đoạn và sinh tiêu đề trong quá trình xây dựng mục lục cho văn bản. nghiệm xây dựng mục lục cho văn bản, tuy nhiên bài báo mới dừng lại ở việc giải quyết nửa sau của bài toán xây dựng mục lục cho văn bản, tức là sinh tiêu đề

Ngày đăng: 19/03/2014, 18:20

Xem thêm: Báo cáo " Tự động sinh mục lục cho văn bản " docx, Báo cáo " Tự động sinh mục lục cho văn bản " docx

Báo cáo " Tự động sinh mục lục cho văn bản " docx

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan