Phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt

71 346 0
Phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Figure ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Công nghệ thông tin Cán bộ hướng dẫn: ThS. Trần Thị Oanh Cán bộ đồng hướng dẫn: ThS. Nguyễn Cẩm Tú HÀ NỘI - 2009 i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú và Cử nhân Trần Mai Vũ – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã t ạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Cuối cùng, tôi muốn gử i lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Đức Vinh ii Tóm tắt Trong mười năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Microsoft, IBM…), các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào khảo sát các phương pháp được áp dụng cho xây dựng hệ thống hỏi đáp trên thế giới, đặc biệt tập trung nghiên cứu pha phân tích câu hỏi – pha đầu tiên trong hệ thống hỏi đáp, có ý nghĩa đặc biệt quan trọng với hoạt động của cả hệ thống. Trên cơ sở các nghiên cứu đó và điều kiện thực t ế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực nghiệm việc phân tích câu hỏi tiếng Việt sử dụng phương pháp học máy thống kê và trích rút mẫu quan hệ. Các kết quả ban đầu đạt được khá khả quan. Bộ phân lớp câu hỏi cho hệ thống hỏi đáp miền mở đạt độ chính xác 81.49% khi sử dụng thuật toán SVM, 81.14 % với mô hình Entropy cực đại. Module phân tích câu hỏi sử dụng mẫ u quan hệ cho hệ thống hỏi đáp trên miền du lịch đạt độ chính xác 89.7 %. iii Mục lục Tóm tắt i Mục lục iii Danh sách các bảng v Danh sách các hình vi Lời mở đầu 1 Chương 1. Giới thiệu về hệ thống hỏi đáp tự động 3 1.1. Hệ thống hỏi đáp tự động 3 1.2. Phân loại hệ thống hỏi đáp tự động 5 1.2.1. Phân loại theo miền ứng dụng (domain) 5 1.2.2. Phân loại theo khả năng trả lời câu hỏi 6 1.2.3. Phân lo ại theo hướng tiếp cận: 7 1.3. Các bước chung của hệ thống hỏi đáp tự động 7 Chương 2. Phân tích câu hỏi 10 2.1. Nội dung của phân tích câu hỏi 10 2.2. Khó khăn của phân tích câu hỏi 10 2.3. Một số nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi 11 2.4. Taxonomy câu hỏi 14 2.4.1. Khái niệm về taxonomy 14 2.4.2. Taxonomy câu hỏi 15 2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau 19 2.5.1. Câu hỏi đơn giản (factual-base) 19 2.5.2. Câu hỏi định nghĩa (definition question) 21 2.5.3. Câu hỏi ph ức tạp, có ràng buộc về thời gian 22 iv Chương 3. Các phương pháp xác định loại câu hỏi 24 3.1. Phương pháp phân lớp sử dụng học máy thống kê 24 3.1.2. Các thuật toán học máy thống kê cho việc phân lớp 28 3.1.3. Xây dựng bộ phân lớp câu hỏi theo học máy thống kê 37 3.2. Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 42 3.3. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 45 Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việ t 47 4.1. Thực nghiệm với phân lớp câu hỏi sử dụng học máy thống kê 47 4.1.1. Dữ liệu và công cụ cho thực nghiệm 47 4.1.2. Kết quả bộ phân lớp sử dụng SVM và MEM 49 4.2. Thực nghiệm với xác định loại câu hỏi sử dụng mẫu quan hệ 51 4.2.1. Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ 51 4.2.2. Kết quả phân tích câu hỏi sử dụng mẫu quan hệ 55 Kết luận 5 8 Tài liệu tham khảo 60 v Danh sách các bảng Bảng 1. Taxonomy câu hỏi do Li và Roth đưa ra 17 Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp 27 Bảng 3. Số lượng câu hỏi theo từng lớp cha 48 Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram 49 Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ 49 Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau 50 Bảng 7. Danh sách các từ hỏi 50 Bảng 8. Tập seed tìm được cùng với mố i quan hệ tương ứng 53 Bảng 9. Tập quan hệ cùng các mẫu tương ứng 54 Bảng 10. Các quan hệ được thực nghiệm trong hệ thống 55 Bảng 11. Các công cụ sử dụng 55 Bảng 12. Các thành phần chính của hệ thống Q&A trên miền du lịch 56 Bảng 13. Kết quả phân tích câu hỏi trong hệ thống hỏi đáp trên miền du lịch 56 vi Danh sách các hình Hình 1. Xu hướng trong nghiên cứu về Q&A 6 Hình 2. Các bước chung của hệ thống Q&A 8 Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base 19 Hình 4. Mối quan hệ giữa các siêu phẳng phân cách 30 Hình 5. Siêu phẳng tối ưu và biên. 31 Hình 6. Biến nới lỏng cho soft margin 33 Hình 7. Mô hình bộ phân lớp đa cấp của Li và Roth 39 Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43 Hình 9. Ánh xạ từ trọng tâm vào Wordnet 44 Hình 10. Mô hình Snowball 46 Hình 11. Mô hình hệ thống hỏi đáp tiếng Việt sử d ụng trích xuất mẫu quan hệ 52 Hình 12. Mô hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời 53 1 Lời mở đầu Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “hiểu văn bản” và xây dựng hệ thống hỏi đáp d ựa trên các mô hình ngôn ngữ thống kê. Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất đượ c quan tâm. Tuy nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…). Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vai trò hết s ức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu hỏi không tốt thì sẽ không thể tìm ra được câu trả lời. Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt thực hiện khảo sát, nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân tích câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân tích câu h ỏi phù hợp nhất (trên cơ sở các nguồn tài nguyên ngôn ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu trong khóa luận có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng Việt. Khóa luận được trình bày thành bốn chương, nội dung được trình bày sơ bộ như dưới dây: Chương 1. Giới thiệu về hệ thống hỏi đáp tự động trình bày những nội dụng cơ bản nhất về hệ thống hỏi đáp và đặt vấn đề cho phân tích câu hỏi. Chương 2. Phân tích câu hỏi trình bày một cách tổng quan các vấn đề xung quanh việc phân tích câu hỏi như: nội dung của phân tích câu hỏi, những khó khăn của phân tích 2 câu hỏi, các nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi, đồng thời khảo sát các phương pháp phân tích câu hỏi cho một số loại câu hỏi khác nhau. Trong chương này cũng chỉ ra tầm quan trọng của xác định loại câu hỏi trong phân tích câu hỏi. Chương 3. Các phương pháp xác định loại câu hỏi trình bày ba phương pháp để xác định loại câu hỏi, phân tích và chọn lựa hai phương pháp sẽ sử dụng cho phân tích câu hỏi tiếng Việt. Ch ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt. Phần kết luận tổng kết, tóm lược nội dung và kết quả đạt được của khóa luận. [...]... liên quan đến phân tích câu hỏi 9 Chương 2 Phân tích câu hỏi 2.1 Nội dung của phân tích câu hỏi Bài toán phân tích câu hỏi: Phân tích câu hỏi nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, đưa ra câu truy vấn cho bước trích chọn tài liệu liên quan và các thông tin cần thiết cho bước trích rút câu trả lời Câu truy vấn là dạng tổ hợp của các từ khóa quan trọng trong câu hỏi (và các... dụng câu truy vấn được tạo ra ở bước phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi Bước3-Trích xuất câu trả lời: Bước này phân tích tập tài liệu trả về từ bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất Câu hỏi Phân tích câu hỏi Trích chọn tài liệu liên Trích xuất câu trả lời Câu trả lời Hình 2 Các bước chung của hệ thống. .. nghĩa và mối liên hệ ngữ nghĩa Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến 1.3 Các bước chung của hệ thống hỏi đáp tự động Một hệ thống hỏi đáp tự động thường gồm 3 bước chung sau: Bước1 -Phân tích câu hỏi: Bước phân tích câu hỏi tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời 7 Bước2-Trích chọn... với các câu hỏi phức tạp, hoặc không trích được câu trả lời trong tập dữ liệu do không có tài liệu nào chứa câu trả lời có dạng tương tự với câu hỏi Hệ thống Webclopedia lại phân tích câu hỏi kĩ hơn tới mức ngữ pháp Các bước chính của hệ thống bao gồm: Phân tích ngữ pháp cho câu hỏi: sử dụng bộ phân tích cú pháp CONTEX Tạo truy vấn: Tạo truy vấn bằng cách kết hợp các từ đơn và cụm từ trong câu hỏi, sử... câu hỏi đến tầng nào cũng tùy thuộc vào từng hệ thống, vào phương pháp trích xuất câu trả lời và các công cụ hỗ trợ phân tích ngôn ngữ đến đâu Hệ thống AskMSR [8,12] đưa ra phương pháp phân tích câu hỏi và trích xuất câu trả lời rất đơn giản, chỉ phân tích câu hỏi ở tầng hình thái, sử dụng các từ vựng trong câu hỏi để tìm ra các câu trả lời ứng viên Theo Michele Banko [8] thì đối với nhiều câu hỏi. .. pha xử lý câu hỏi với loại câu hỏi này là xác định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan Xác định loại câu hỏi Xác định loại câu hỏi có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual base, đặc biệt là việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời (như mục 2.3 đã 19 trình bày) Có nhiều cách để xác định loại câu hỏi như: xây... Nhiệt độ size Kích thước, diện tích, thể tích weight Cân nặng 18 2.5 Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau Trong hội nghị TREC, các câu hỏi được chia thành một số loại sau: câu hỏi đơn giản (factual-base question), câu hỏi định nghĩa (definition question), câu hỏi danh sách (list question), câu hỏi phức tạp (complex question),… Mỗi loại câu hỏi có những đặc trưng riêng... cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 1.2.1 Phân loại theo miền ứng dụng (domain) Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời bất kỳ câu hỏi nào được đưa vào Khó khăn cho hệ thống miền mở đó chính là việc xây dựng các tri thức nên cho việc... diễn ngữ pháp, ngữ nghĩa của câu hỏi để so khớp (matching) và xếp hạng (ranking) các câu trả lời 2.2 Khó khăn của phân tích câu hỏi Câu hỏi đầu vào của hệ thống hỏi đáp tự động là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng Vì vậy việc phân tích câu hỏi cũng gặp những khó khăn của xử lý ngôn ngữ tự nhiên Theo Hồ Tú Bảo và Lương Chi Mai [1], cái khó nằm ở chỗ làm sao cho máy tính được hiểu ngôn... diễn logic của câu hỏi [18,29] Một số hệ thống chia nhỏ các lớp câu hỏi wh-words thành các lớp con nhằm cho phép hệ thống Q&A có thể nhận diện được “kiểu ngữ nghĩa (semantic types) của câu trả lời mong muốn” Dan Moldovan và đồng nghiệp đưa ra một taxonomy phân loại câu hỏi phân cấp theo cả từ để hỏi lẫn loại câu trả lời mong muốn tương ứng [29] Eduard Hovy [18] chỉ ra rằng việc phân lớp câu hỏi theo loại . Figure ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI. HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP. trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Đức Vinh ii Tóm tắt Trong mười năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm đặc

Ngày đăng: 20/08/2014, 09:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan