Xây dựng hệ tóm tắt ý kiến về sản phẩm từ nhiều người dùng cho văn bản tiếng việt

Xây dựng hệ tóm tắt ý kiến về sản phẩm từ nhiều người dùng cho văn bản tiếng Việt Trần Thị Hải Yến Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: TS Nguyễn Lê Minh Năm bảo vệ: 2011 Abstract: Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng. Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn. Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được. Keywords: Xử lý văn bản; Tiếng Việt; Hệ tóm tắt ý kiến; Công nghệ thông tin Content Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có nhiều các sản phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua sản phẩm trực tuyến. Để tăng cường sự hài lòng của khách hàng và kinh nghiệm mua sắm, một thực tế phổ biến cho các nhà kinh doanh trực tuyến là cho phép khách hàng của họ có thể đánh giá hoặc phát biểu ý kiến về các sản phẩm mà họ đã mua. Với việc ngày càng nhiều người dùng sử dụng mua bán trực tuyến thì số lượng người đánh giá về sản phẩm ngày càng tăng lên. Kết quả là, số lượng ý kiến mà một sản phẩm nhận được tăng lên nhanh chóng. Hơn nữa, rất nhiều ý kiến đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm. Điều này thực sự khó khăn cho một khách hàng tiềm năng có thể đọc chúng để thực hiện một quyết định đúng đắn về việc có nên mua sản phẩm hay không. Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể nhận được một cái nhìn không đúng đắn về sản phẩm. Số lượng lớn các ý kiến cũng gây ra khó khăn cho các nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ. Đối với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang web kinh doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu như) sản xuất rất nhiều loại sản phẩm. Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản xuất có thể thu thập thông tin khách hàng trong một quy mô lớn để cung cấp chiến lược cũng như hỗ trợ kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết kế, phát triển sản phẩm và tiếp thị bán hàng. Khảo sát thống kê là một phương pháp tiếp cận chung được áp dụng rộng rãi để thu thập thông tin của khách hàng và hành vi của khách hàng. Tuy nhiên, các nghiên cứu trước 2 đây sử dụng thông tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho mục đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường lòng trung thành của khách hàng. Tuy nhiên, dữ liệu văn bản chiếm một phần đáng kể của thông tin khách hàng đã phần nào bị bỏ qua. Trong khi đó, tính toán và phân tích dữ liệu được cấu trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu, điều này làm cho họ xử lý tương đối dễ dàng. Một vài kỹ thuật được thành lập để phân tích và quản lý những dữ liệu này. Ví dụ: phân tích xử lý trực tuyến (OLAP) và khai thác dữ liệu. Ngược lại, dữ liệu văn bản viết bằng ngôn ngữ tự nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu trúc. Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực khác nhau như: cơ sở dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự nhiên. Vì vậy, tồn tại một mức độ khó khăn hơn trong xử lý thông tin văn bản. Tương tự như các dữ liệu số, dữ liệu văn bản cung cấp thông tin phong phú trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng như thông tin về sự cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên các ứng dụng kinh doanh Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời gian cần thiết để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn văn bản như email, bản ghi nhớ, các trang web và thậm chí cả tin nhắn. Khách hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác nhau. Một số người tiêu dùng hành động một cách chuyên nghiệp bằng những phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối. Những đánh giá sản phẩm là rất cần thiết đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản xuất có thể hiểu rõ hơn những điều khách hàng quan tâm và cải tiến sản phẩm cho phù hợp. Tuy nhiên, việc xử lý thông tin quan trọng như vậy không phải là một nhiệm vụ nhỏ. Số lượng đánh giá một cách trực tiếp của khách hàng có thể phát triển rất nhanh chóng và nó là tốn thời gian để thực sự đọc qua tất cả chúng bằng “tay”. Làm thế nào để đối phó với các số lượng lớn khách hàng đánh giá và lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng đầy thách thức. Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất phương pháp tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm trực tuyến bằng cách sử dụng tóm tắt văn bản tự động. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán tóm tắt văn bản tự động. Luận văn cũng tiến hành thử nghiệm tóm tắt trên một tập các đánh giá về một sản phẩm cụ thể. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: - Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng. - Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. - Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn. 3 - Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được. References Tiếng Việt 1. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt Nam. Tiếng Anh 2. Agrawal, R. & Srikant, R. 1994. Fast algorithm for mining association rules. VLDB’94, 1994. 3. Ahonen-Myka, H. (1999). Finding all frequent maximal sequences in text. In Proceedings of the 16th international conference on machine learningICML-99 workshop on machine learning in text data analysis (pp. 11–17). Ljubljana: J. Stefan Institute. 4. Barzilay, R., & Elhadad, M. (1997). Using lexical chains for text summarization. In Proceedings of the ACL’97/ECAL’97 workshop on intelligent scalable text summarization (pp. 10–17). Madrid, Spain. 5. Bennekom, F. C. V. (2002). Customer surveying: A guidebook for service managers. Customer Service Press. 6. Boguraev, B., and Kennedy, C. 1997. Salience-Based Content Characterization of Text Documents. In Proc. Of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization. 7. Bourigault, D. 1995. Lexter: A terminology extraction software for knowledge acquisition from texts. KAW’95. 8. Bruce, R., and Wiebe, J. 2000. Recognizing Subjectivity: A Case Study of Manual Tagging. Natural Language Engineering. 9. Buttle, F. (2003). Customer relationship management. Butterworth- Heinemann. 10. Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval (pp. 335–336). Melbourne, Australia. 11. Cardie, C., Wiebe, J., Wilson, T. and Litman, D. 2003. Combining Low-Level and Summary Representations of Opinions for Multi-Perspective Question Answering. 2003 AAAI Spring Symposium on New Directions in Question Answering. 12. Choi, F. Y. Y. (2000). Advances in domain independent linear text segmentation. In Proceedings of the 1st North American chapter of the association for computational linguistics (pp. 26–33). Seattle, WA. 13. Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery: Opinion extraction and semantic classification of product reviews. In Proceedings of 4 the 12th international conference on World Wide Web (pp. 519–528). Budapest, Hungary. 14. Edmundson, H. P. (1969). New methods in automatic extracting Journal of the ACM, 16(2), 264–285. 15. Fayyad, U. M., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery: An overview. In U. M. Fayyad, G. 16. Fowler, F. J. (1995). Improving survey questions: Design and evaluation. Sage Publications, Inc 17. Gamon, M., Aue, A., Corston-Oliver, S., & Ringger, E. (2005). Pulse: “Mining customer opinions from free text. In Proceedings of advances inintelligent data analysis VI, 6th international symposium on intelligent data analysis IDA 2005”, (pp 121–132). Madrid, Spain. 18. Ganapathy, S., Ranganathan, C., & Sankaranarayanan, B. (2004). Visualization strategies and tools for enhancing customer relationship management. Communications of the ACM, 47(11), 92–99. 19. Gong, Y., & Liu, X. (2001). Generic text summarization using relevance measure and latent semantic analysis. In Proceedings of the 24th annual international ACM SIGIR conference on research and development in information retrieval (pp. 19–25). New Orleans, LA. 20. Gustafsson, A., & Gustafsson, N. (1994). Exceeding customer expectations. In Proceedings of the sixth symposium on quality function deployment (pp 52–57). 21. Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques. San Francisco, USA: Morgan Kaufman. 22. Hearst, M. A. (1997). TextTiling: Segmenting text into multi-paragraph subtopic passages. Computational Linguistics, 23(1), 33–64. 23. Hearst, M.A. (1999). Untangling text data mining. In Proceedings of ACL’99, the 37th annual meeting of the association for computational linguistics, invited paper. University of Maryland. 24. Hovy, E., & Lin, C. Y. (1997). Automated text summarization in SUMMARIST. In Proceedings of the ACL’97/EACL’97 workshop on intelligent scalable text summarization (pp. 18–24). Madrid, Spain. 25. Hu, M., & Liu, B. (2004a). “Mining and summarizing customer reviews. In Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining”, (pp 168–177). Seattle, WA. 26. Hu, M., & Liu, B. (2004b). “Mining opinion features in customer reviews. In Proceedings of the nineteenth national conference on artificial intelligence, sixteenth conference on innovative applications of artificial intelligence AAAI 2004”, (pp 755– 760). San Jose. 27. Kumar, V., & Reinartz, W. (2005). Customer relationship management: A databased approach. Wiley. 5 28. Kupiec, J., Pedersen, J., & Chen, F. (1995). “A trainable document summarizer. In Proceedings of the 18th annual international ACM SIGIR conference on research and development in information retrieval”, (pp 68–73). Seattle, WA. 29. Lee, S., Lee, S.,&Park, Y. (2007). Aprediction model for success of services in e- Commerce using decision tree: E-customer’s attitude towards online service. Expert Systems with Applications, 33(3), 572–581. 30. Lent, B., Agrawal, R., & Srikant, R. (1997). Discovering trends in text databases. In Proceedings of the third international conference on knowledge discovery and data mining (pp 227–230). 31. Mani, I. (2001). Summarization evaluation: An overview NAACL 2001. 32. Mani, I., & Bloedorn, E. (1999). Summarizing similarities and differences among related documents. Information Retrieval, 1(1–2), 35–67. 33. Mann, W., & Thompson, S. (1988). Rhetorical structure theory: Toward a functional theory of text organization. Text, 8(3), 243–281. 34. Marcu, D. (1999). Discourse trees are good indicators of importance in text. In I. Mani & M. Maybury (Eds.), Advances in automatic text summarization (pp. 123–136). Cambridge, MA: The MIT Press. 35. Piatetsky-Shapiro, P. Smyth, & R. Uthurusamy (Eds.), Advances in knowledge discovery and data mining (pp 1–34). Menlo Park, CA, USA: American Association for Artificial Intelligence. . Xây dựng hệ tóm tắt ý kiến về sản phẩm từ nhiều người dùng cho văn bản tiếng Việt Trần Thị Hải Yến Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin;. của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng. - Chương 2: Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. . tắt ý kiến về sản phẩm từ nhiều người dùng. Chương 2: Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản

Xây dựng hệ tóm tắt ý kiến về sản phẩm từ nhiều người dùng cho văn bản tiếng việt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan