Thông tin tài liệu
Figure
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đức Vinh
PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG
HỎI ĐÁP TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Đức Vinh
PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG
HỎI ĐÁP TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
: Công nghệ thông tin
Cán bộ hướng dẫn: ThS. Trần Thị Oanh
Cán bộ đồng hướng dẫn: ThS. Nguyễn Cẩm Tú
HÀ NỘI - 2009
i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến
sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú và Cử nhân Trần Mai
Vũ – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá
luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã t
ạo
cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn đã tận tình hỗ trợ
về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gử
i lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Đức Vinh
ii
Tóm tắt
Trong mười năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm đặc
biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Microsoft, IBM…), các hội
nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã
đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống hỏi đáp cho
tiếng Việt vẫn còn rất nhiều hạn chế.
Khóa luận
Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào khảo
sát các phương pháp được áp dụng cho xây dựng hệ thống hỏi đáp trên thế giới, đặc biệt
tập trung nghiên cứu pha phân tích câu hỏi – pha đầu tiên trong hệ thống hỏi đáp, có ý
nghĩa đặc biệt quan trọng với hoạt động của cả hệ thống. Trên cơ sở các nghiên cứu đó và
điều kiện thực t
ế của các công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực
nghiệm việc phân tích câu hỏi tiếng Việt sử dụng phương pháp học máy thống kê và trích
rút mẫu quan hệ. Các kết quả ban đầu đạt được khá khả quan. Bộ phân lớp câu hỏi cho hệ
thống hỏi đáp miền mở đạt độ chính xác 81.49% khi sử dụng thuật toán SVM, 81.14 %
với mô hình Entropy cực đại. Module phân tích câu hỏi sử dụng mẫ
u quan hệ cho hệ
thống hỏi đáp trên miền du lịch đạt độ chính xác 89.7 %.
iii
Mục lục
Tóm tắt i
Mục lục iii
Danh sách các bảng v
Danh sách các hình vi
Lời mở đầu 1
Chương 1. Giới thiệu về hệ thống hỏi đáp tự động 3
1.1. Hệ thống hỏi đáp tự động 3
1.2. Phân loại hệ thống hỏi đáp tự động 5
1.2.1. Phân loại theo miền ứng dụng (domain) 5
1.2.2. Phân loại theo khả năng trả lời câu hỏi 6
1.2.3. Phân lo
ại theo hướng tiếp cận: 7
1.3. Các bước chung của hệ thống hỏi đáp tự động 7
Chương 2. Phân tích câu hỏi 10
2.1. Nội dung của phân tích câu hỏi 10
2.2. Khó khăn của phân tích câu hỏi 10
2.3. Một số nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi 11
2.4. Taxonomy câu hỏi 14
2.4.1. Khái niệm về taxonomy 14
2.4.2. Taxonomy câu hỏi 15
2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau 19
2.5.1. Câu hỏi đơn giản (factual-base) 19
2.5.2. Câu hỏi định nghĩa (definition question) 21
2.5.3. Câu hỏi ph
ức tạp, có ràng buộc về thời gian 22
iv
Chương 3. Các phương pháp xác định loại câu hỏi 24
3.1. Phương pháp phân lớp sử dụng học máy thống kê 24
3.1.2. Các thuật toán học máy thống kê cho việc phân lớp 28
3.1.3. Xây dựng bộ phân lớp câu hỏi theo học máy thống kê 37
3.2. Phương pháp xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 42
3.3. Phương pháp xác định loại câu hỏi sử dụng mẫu quan hệ 45
Chương 4. Thực nghiệm phân tích câu hỏi tiếng Vi
ệt 47
4.1. Thực nghiệm với phân lớp câu hỏi sử dụng học máy thống kê 47
4.1.1. Dữ liệu và công cụ cho thực nghiệm 47
4.1.2. Kết quả bộ phân lớp sử dụng SVM và MEM 49
4.2. Thực nghiệm với xác định loại câu hỏi sử dụng mẫu quan hệ 51
4.2.1. Mô hình thực nghiệm phân tích câu hỏi sử dụng mẫu quan hệ 51
4.2.2. Kết quả phân tích câu hỏi sử dụng mẫu quan hệ 55
Kết luậ
n 58
Tài liệu tham khảo 60
v
Danh sách các bảng
Bảng 1. Taxonomy câu hỏi do Li và Roth đưa ra 17
Bảng 2. Biểu diễn của TP, TN, FP, FN trong đánh giá phân lớp 27
Bảng 3. Số lượng câu hỏi theo từng lớp cha 48
Bảng 4. Kết quả bộ phân lớp MEM khi sử dụng unigram 49
Bảng 5. Kết quả bộ phân lớp MEM khi sử dụng tách từ 49
Bảng 6. Kết quả bộ phân lớp SVM sử dụng các đặc trưng khác nhau 50
Bảng 7. Danh sách các từ hỏi 50
Bảng 8. Tập seed tìm được cùng với m
ối quan hệ tương ứng 53
Bảng 9. Tập quan hệ cùng các mẫu tương ứng 54
Bảng 10. Các quan hệ được thực nghiệm trong hệ thống 55
Bảng 11. Các công cụ sử dụng 55
Bảng 12. Các thành phần chính của hệ thống Q&A trên miền du lịch 56
Bảng 13. Kết quả phân tích câu hỏi trong hệ thống hỏi đáp trên miền du lịch 56
vi
Danh sách các hình
Hình 1. Xu hướng trong nghiên cứu về Q&A 6
Hình 2. Các bước chung của hệ thống Q&A 8
Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base 19
Hình 4. Mối quan hệ giữa các siêu phẳng phân cách 30
Hình 5. Siêu phẳng tối ưu và biên. 31
Hình 6. Biến nới lỏng cho soft margin 33
Hình 7. Mô hình bộ phân lớp đa cấp của Li và Roth 39
Hình 8. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43
Hình 9. Ánh xạ từ trọng tâm vào Wordnet 44
Hình 10. Mô hình Snowball 46
Hình 11. Mô hình hệ thống hỏi đáp tiếng Việt s
ử dụng trích xuất mẫu quan hệ 52
Hình 12. Mô hình xử lý cho pha phân tích câu hỏi và trích xuất câu trả lời 53
1
Lời mở đầu
Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã được quan tâm từ rất lâu trên thế
giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ liệu đã
được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc “hiểu văn
bản” và xây dựng hệ thống hỏi đáp d
ựa trên các mô hình ngôn ngữ thống kê. Cuối những
năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành một kho ngữ liệu
khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một
nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng
xử lý lượng dữ liệu web lớn đang rất đượ
c quan tâm. Tuy nhiên các nghiên cứu về xây
dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều hạn chế. Một trong những lý do
chính là chúng ta còn thiếu các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học
(Wordnet [28], ontology [30]…).
Phân tích câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp, có
nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các pha sau
(trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân tích câu hỏi có vai trò hết s
ức
quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Nếu phân tích câu
hỏi không tốt thì sẽ không thể tìm ra được câu trả lời.
Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt thực hiện khảo sát,
nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân tích câu hỏi đang được
quan tâm hiện nay, từ đó đưa ra phương pháp phân tích câu h
ỏi phù hợp nhất (trên cơ sở
các nguồn tài nguyên ngôn ngữ sẵn có) cho hệ thống hỏi đáp tiếng Việt. Những nghiên
cứu trong khóa luận có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ
thống hỏi đáp hoàn thiện cho tiếng Việt.
Khóa luận được trình bày thành bốn chương, nội dung được trình bày sơ bộ như
dưới dây:
Chương 1. Giới thiệu về hệ
thống hỏi đáp tự động trình bày những nội dụng cơ bản
nhất về hệ thống hỏi đáp và đặt vấn đề cho phân tích câu hỏi.
Chương 2. Phân tích câu hỏi trình bày một cách tổng quan các vấn đề xung quanh
việc phân tích câu hỏi như: nội dung của phân tích câu hỏi, những khó khăn của phân tích
2
câu hỏi, các nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi, đồng thời khảo
sát các phương pháp phân tích câu hỏi cho một số loại câu hỏi khác nhau. Trong chương
này cũng chỉ ra tầm quan trọng của xác định loại câu hỏi trong phân tích câu hỏi.
Chương 3. Các phương pháp xác định loại câu hỏi trình bày ba phương pháp để
xác định loại câu hỏi, phân tích và chọn lựa hai phương pháp sẽ sử dụng cho phân tích
câu hỏi tiếng Việt.
Ch
ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong
chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.
Phần kết luận tổng kết, tóm lược nội dung và kết quả đạt được của khóa luận.
[...]... liên quan đến phân tích câu hỏi 9 Chương 2 Phân tích câu hỏi 2.1 Nội dung của phân tích câu hỏi Bài toán phân tích câu hỏi: Phân tích câu nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, đưa ra câu truy vấn cho bước trích chọn tài liệu liên quan và các thông tin cần thiết cho bước trích rút câu trả lời Câu truy vấn là dạng tổ hợp của các từ khóa quan trọng trong câu hỏi (và các từ... dụng câu truy vấn được tạo ra ở bước phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi Bước3-Trích xuất câu trả lời: Bước này phân tích tập tài liệu trả về từ bước 2 và sử dụng các thông tin hữu ích do bước phân tích câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất Câu hỏi Phân tích câu hỏi Trích chọn tài liệu liên Trích xuất câu trả lời Câu trả lời Hình 2 Các bước chung của hệ thống. .. Internet 1.2 Phân loại hệ thống hỏi đáp tự động Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau như: phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải quyết bài toán… 1.2.1 Phân loại theo miền ứng dụng (domain) Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời bất kỳ câu hỏi nào được đưa vào Khó khăn cho hệ thống miền... Xử lý câu hỏi cũng cần phải có cơ chế để xử lý các câu hỏi tiếp sau liên quan đến cùng một vấn đề của câu hỏi trước, sử dụng các thông tin thu được ở câu hỏi trước để làm sáng tỏ câu hỏi tiếp sau, cao hơn nữa là có thể đối thoại với người dùng theo chuỗi các câu hỏi và câu trả lời 2.3 Một số nội dung của xử lý ngôn ngữ tự nhiên trong phân tích câu hỏi Đầu vào của pha phân tích câu hỏi là câu hỏi dạng... định nghĩa và mối liên hệ ngữ nghĩa Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê cũng đang ngày càng phổ biến 1.3 Các bước chung của hệ thống hỏi đáp tự động Một hệ thống hỏi đáp tự động thường gồm 3 bước chung sau: Bước1 -Phân tích câu hỏi: Bước phân tích câu hỏi tạo truy vấn cho bước trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bước trích xuất câu trả lời 7 Bước2-Trích... câu hỏi đến tầng nào cũng tùy thuộc vào từng hệ thống, vào phương pháp trích xuất câu trả lời và các công cụ hỗ trợ phân tích ngôn ngữ đến đâu Hệ thống AskMSR [8,12] đưa ra phương pháp phân tích câu hỏi và trích xuất câu trả lời rất đơn giản, chỉ phân tích câu hỏi ở tầng hình thái, sử dụng các từ vựng trong câu hỏi để tìm ra các câu trả lời ứng viên Theo Michele Banko [8] thì đối với nhiều câu hỏi. .. tạp, hoặc không trích được câu trả lời trong tập dữ liệu do không có tài liệu nào chứa câu trả lời có dạng tương tự với câu hỏi Hệ thống Webclopedia lại phân tích câu hỏi kĩ hơn tới mức ngữ pháp Các bước chính của hệ thống bao gồm: Phân tích ngữ pháp cho câu hỏi: sử dụng bộ phân tích cú pháp CONTEX Tạo truy vấn: Tạo truy vấn bằng cách kết hợp các từ đơn và cụm từ trong câu hỏi, sử dụng Wordnet để mở... pha xử lý câu hỏi với loại câu hỏi này là xác định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu liên quan Xác định loại câu hỏi Xác định loại câu hỏi có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual base, đặc biệt là việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời (như mục 2.3 đã 19 trình bày) Có nhiều cách để xác định loại câu hỏi như: xây... Nhiệt độ size Kích thước, diện tích, thể tích weight Cân nặng 18 2.5 Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau Trong hội nghị TREC, các câu hỏi được chia thành một số loại sau: câu hỏi đơn giản (factual-base question), câu hỏi định nghĩa (definition question), câu hỏi danh sách (list question), câu hỏi phức tạp (complex question),… Mỗi loại câu hỏi có những đặc trưng riêng... của câu trả lời, do đó hệ thống hỏi đáp cần có khả năng gộp các loại câu hỏi và câu trả lời tương đồng với nhau [19] Với một câu hỏi bất kì nếu xác định được loại câu hỏi thì có thể biết được các dạng của câu trả lời do có mỗi liên hệ mật thiết giữa loại câu hỏi và loại câu trả lời Tuy nhiên sự tương đương ngữ nghĩa cũng không rõ ràng, kể cả các biến thể nhỏ cũng tạo ra sự khác biệt Ví dụ với câu hỏi .
Ch
ương 4. Thực nghiệm phân tích câu hỏi tiếng Việt áp dụng các nghiên cứu trong
chương 3 để phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.
Phần kết luận. các nghiên cứu về hệ thống hỏi đáp cho
tiếng Việt vẫn còn rất nhiều hạn chế.
Khóa luận
Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt tập trung vào
Ngày đăng: 18/02/2014, 00:44
Xem thêm: phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt, phân tích câu hỏi trong hệ thống hỏi đáp tiếng việt