phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

104 995 0
phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  Nguyễn Quốc Đạt PHƢƠNG PHÁP PHÂN TÍCH CÂU HỎI CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ  Nguyễn Quốc Đạt PHƢƠNG PHÁP PHÂN TÍCH CÂU HỎI CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Giảng viên hƣớng dẫn: Công nghệ thông tin TS Phạm Bảo Sơn HÀ NỘI – 2009 To My Family Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn tiến sĩ Phạm Bảo Sơn Thầy hướng dẫn, hỗ trợ truyền đạt kinh nghiệm quý báu giúp hồn thành khóa luận Tơi xin chân thành cảm ơn tiến sĩ Bùi Thế Duy Thầy giúp đỡ tạo điều kiện thuận lợi cho q trình thực khóa luận Tơi xin chân thành cảm ơn bạn: Nguyễn Quốc Đại, Nguyễn Bá Đạt, Phạm Đức Đăng, Trần Bình Giang Những người bạn thực tập với tơi phịng thí nghiệm Các bạn đóng góp cho tơi nhiều ý kiến bổ ích Tôi xin chân thành cảm ơn hai bạn: Ngô Thị Thảo Tạ Thị Bích Huyền giúp đỡ tơi lúc tơi khó khăn Xin cám ơn người bạn bên cạnh quan tâm, động viên ủng hộ Con cảm ơn bố mẹ sinh thành, ni dưỡng, chăm sóc động viên Con cảm ơn bố mẹ nhiều Hà Nội, ngày 23 tháng năm 2009 Nguyễn Quốc Đạt i Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt Tóm tắt Thay trả danh sách tài liệu liên quan chứa đựng từ có câu hỏi giống cỗ máy tìm kiếm, hệ thống hỏi đáp đưa câu trả lời xác đáp lại mong muốn người dùng Phân tích câu hỏi thành phần hệ thống hỏi đáp Mục tiêu thành phần tạo biểu diễn trung gian để sử dụng phần cịn lại hệ thống Trong khóa luận này, xin giới thiệu phương pháp phân tích câu hỏi Phương pháp chúng tơi đem lại kết khả quan, góp phần xây dựng nên hệ thống hỏi đáp tiếng Việt ii Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt Mục lục Lời cảm ơn i Tóm tắt ii Mục lục iii Danh sách từ viết tắt v Danh sách hình vẽ vi Danh sách bảng viii Chƣơng Giới thiệu .1 Chƣơng Phân tích câu hỏi hệ thống hỏi đáp 2.1 Phân loại câu hỏi 2.1.1 Sự phân loại câu hỏi .4 2.1.2 Phân loại câu hỏi dựa loại câu trả lời 2.1.3 Giới thiệu phương pháp phân loại câu hỏi .6 2.1.4 Phân loại câu hỏi sử dụng mơ hình biểu thức quy .6 2.1.4.1 Giới thiệu biểu thức quy 2.1.4.2 Phân loại câu hỏi sử dụng biểu thức quy .9 2.1.5 Phân loại câu hỏi sử dụng mơ hình ngơn ngữ 10 2.1.5.1 Phân lớp câu hỏi sử dụng mơ hình unigram 11 2.1.5.2 Phân lớp câu hỏi sử dụng mô hình bigram 13 2.1.5.3 Kết hợp hai mơ hình unigram bigram 14 2.1.6 Kết hợp mơ hình ngơn ngữ với mơ hình biểu thức quy .15 2.1.7 Phân loại câu hỏi sử dụng thuật toán học máy 16 2.2 Phân tích câu hỏi hệ thống hỏi đáp sử dụng sở liệu 18 2.2.1 Các hệ thống so khớp mẫu 18 2.2.2 Các hệ thống dựa cú pháp .20 2.2.3 Các hệ thống sử dụng văn phạm ngữ nghĩa 22 2.3 Chú giải ngữ nghĩa phục vụ phân tích câu hỏi hệ thống hỏi đáp 26 Chƣơng GATE 28 3.1 Giới thiệu GATE 28 iii Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt 3.2 Trích chọn thông tin GATE .31 3.3 JAPE 33 3.3.1 Giới thiệu JAPE .33 3.3.2 Thiết lập lựa chọn .33 3.3.3 Khớp mẫu .34 3.3.3.1 Thành phần thay (Macro) 35 3.3.3.2 Ngữ cảnh văn phạm .36 3.3.4 Một ví dụ đơn giản JAPE 36 3.3.5 Sử dụng độ ưu tiên .37 3.3.6 Sử dụng Java cho JAPE .37 Chƣơng Phƣơng pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt .38 4.1 Kiến trúc hệ thống .38 4.2 Tiền xử lý 42 4.2.1 Xác định cụm từ để hỏi chuẩn câu hỏi ngôn ngữ tự nhiên 43 4.2.2 Tạo giải ngữ nghĩa cho từ đặc biệt 47 4.3 Phân tích cú pháp .49 4.3.1 Xác định cụm danh từ câu hỏi 49 4.3.2 Mối quan hệ 54 4.4 Phân tích ngữ nghĩa 58 4.4.1 Phân loại câu hỏi 58 4.4.2 So khớp mẫu .63 4.4.2.1 Cấu tạo câu hỏi .65 4.4.2.2 Bộ biểu diễn trung gian câu hỏi 71 Chƣơng Kết thực nghiệm 76 Chƣơng Kết luận hƣớng phát triển 80 Phụ lục A Chƣơng trình nhúng Java vào JAPE 82 Phụ lục B Bảng nhãn từ loại tiếng Việt 84 Phụ lục C Danh sách câu hỏi thực nghiệm .86 Tài liệu tham khảo .90 iv Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Danh sách từ viết tắt ANNIE A New-Nearly Information Extraction API Application Program Interface GATE General Architecture for Text Engineering IE Information Extraction JAPE Java Annotations Pattern Engine NER Named Entity Recognitioin SRW Sematically Related Words v Nguyễn Quốc Đạt Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt Danh sách hình vẽ Hình 2-1: Văn phạm mơ tả cấu trúc cú pháp câu 20 Hình 2-2: Cây cú pháp hệ thống dựa cú pháp .20 Hình 2-3: Một văn phạm ngữ nghĩa 22 Hình 2-4: Cây cú pháp-ngữ nghĩa văn phạm ngữ nghĩa .23 Hình 2-5: Cây cú pháp ngữ nghĩa câu hỏi: “Tìm sinh viên học môn giáo viên A dạy?” 25 Hình 2-6: Kiến trúc Aqualog 27 Hình 3-1: Kiến trúc GATE 28 Hình 3-2: Chú giải ngữ nghĩa GATE 30 Hình 4-1: Kiến trúc chung hệ thống trả lời ngôn ngữ tự nhiên .38 Hình 4-2: Các module thành phần xử lý câu hỏi ngôn ngữ tự nhiên 39 Hình 4-3: Đầu module phân tích câu hỏi tiếng Việt 41 Hình 4-4: Giao diện GATE sử dụng Coltech.NLP.Tokenizer 42 Hình 4-5: Một số từ để hỏi xác định lại cách sử dụng JAPE 44 Hình 4-6: Kiểu giải TokenVn cho từ đặc biệt 47 Hình 4-7: Kiểu giải TokenVn sau thay đổi giá trị đặc trưng category 48 Hình 4-8: Cụm danh từ số câu hỏi tiếng Việt .49 Hình 4-9: Từ mang ý nghĩa so sánh câu hỏi tiếng Việt .52 Hình 4-10: Một ví dụ kiểu giải Danhngu 53 Hình 4-11: Ví dụ “mối quan hệ” 54 Hình 4-12: Tách từ câu hỏi: “Nguyễn Quốc Đạt Nguyễn Quốc Đại có q Hà Tây phải khơng?” 55 Hình 4-13: Kiểu giải Moiquanhe 57 vi Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt Nguyễn Quốc Đạt Hình 4-14: Một ví dụ kiểu giải Tudehoi 58 Hình 4-15: Ví dụ biểu diễn trung gian câu hỏi .64 Hình 4-16: Một ví dụ kiểu giải Maucauhoi .72 Hình 4-17: Đầu câu hỏi có cấu tạo dạng Unknterm 73 Hình 4-18: Đầu câu hỏi có cấu tạo dạng And 74 Hình 4-19: Đầu câu hỏi có cấu tạo dạng AffirmNeg_3Term .75 Hình 5-1: Ví dụ phần câu hỏi khớp mẫu 77 Hình 5-2: Kết phân tích - câu hỏi thỏa mãn tiêu chí 78 Hình 5-3: Ví dụ câu hỏi thỏa mãn tiêu chí 78 Hình 5-4: Một ví dụ phân tích sai – câu hỏi thỏa mãn tiêu chí khơng thỏa mãn tiêu chí 79 Hình A-1: Chương trình nhúng Java vào JAPE 83 Hình B-1: Nhãn từ loại tiếng Việt dùng tách từ Coltech.NLP.Tokenizer 85 vii Chương Kết thực nghiệm Nguyễn Quốc Đạt Nhưng với câu hỏi: “sinh viên học lớp khoa học máy tính trường đại học Cơng Nghệ?” thỏa mãn tiêu chí khơng thỏa mãn tiêu chí 2, kết phân tích sai Ngun nhân biểu diễn chứa đựng “Mối quan hệ” nhận giá trị “học lớp khoa học máy tính của” khơng thỏa mãn yêu cầu Hình 5-4 sau đưa kết phân tích câu hỏi này: Hình 5-4: Một ví dụ phân tích sai – câu hỏi thỏa mãn tiêu chí nhƣng khơng thỏa mãn tiêu chí 79 Chương Kết luận hướng phát triển Nguyễn Quốc Đạt Chƣơng Kết luận hƣớng phát triển Phân tích câu hỏi tốn xử lý ngôn ngữ tự nhiên Đối với tiếng Việt tốn trở nên khó khăn tính phức tạp cấu trúc câu hỏi ràng buộc ngữ nghĩa câu hỏi, ví dụ như: từ để hỏi xuất nhiều vị trí Trong khóa luận này, chúng tơi giới thiệu phương pháp phân tích câu hỏi tiếng Việt Phương pháp chúng tơi dựa giải ngữ nghĩa thông qua văn phạm JAPE [45] Với câu hỏi đầu vào, thơng qua q trình tiền xử lý, phân tích cú pháp, phân tích ngữ nghĩa, phân loại câu hỏi, hệ thống phân tích sinh biểu diễn trung gian gồm có: “Dạng cấu tạo câu hỏi” (hoặc nhiều) biểu diễn Mỗi biểu diễn có dạng: (Dạng cấu tạo biểu diễn, Lớp câu hỏi, Thuật ngữ 1, Mối quan hệ, Thuật ngữ 2, Thuật ngữ 3) Trong đó, “Dạng cấu tạo câu hỏi” nguyên tắc (mẫu) cấu tạo câu hỏi, “Thuật ngữ 1” khái niệm, ―Thuật ngữ 2‖ “Thuật ngữ 3‖ (nếu có) thực thể “Mối quan hệ” ràng buộc ngữ nghĩa thuật ngữ chứa đựng khái niệm bên Khi câu hỏi tổng hợp từ nhiều câu hỏi con, nghĩa có nhiều biểu diễn sinh ra, “Dạng cấu tạo biểu diễn” “Lớp câu hỏi” biểu diễn “Dạng cấu tạo câu hỏi” lớp câu hỏi tương ứng Hệ thống áp dụng phương pháp phân tích thực tốt câu hỏi có cấu tạo đơn giản Trong câu hỏi có cấu tạo phức tạp khả phân tích bị giảm Những kết khả quan ban đầu (phân tích xác 45 / 60 câu hỏi) góp phần tạo nên hệ thống hỏi đáp tiếng Việt dựa Ontology Nguyễn Quốc Đại [42] xây dựng thử nghiệm 80 Chương Kết luận hướng phát triển Nguyễn Quốc Đạt Trong thời gian tới, tạo tập chứa nhiều mẫu cấu tạo câu hỏi Song song với việc cập nhật mẫu, cố gắng thực hướng tiếp cận nhằm giải vấn đề xảy với câu hỏi mà cấu tạo câu hỏi khơng khớp với mẫu cấu tạo có sẵn Ý tưởng hướng tiếp cận sinh số câu hỏi dựa giải ngữ nghĩa mẫu câu có sẵn, câu hỏi có ý nghĩa tương tự với câu hỏi ban đầu người sử dụng lựa chọn 81 Phụ lục A Nguyễn Quốc Đạt Phụ lục A Chƣơng trình nhúng Java vào JAPE Phase: EditYesnoAnno Input: TokenVn Split Options: control = appelt Macro: YesNo /*Macro YesNo dùng để khớp cụm từ: phải khơng, khơng, có là, có phải là, có đúng, có phải, Có đúng, Có phải, Có là, Có phải là*/ ( ( ({TokenVn.string == "phải"}|{TokenVn.string == "đúng"}) ? {TokenVn.string == "không"} ) | ( ({TokenVn.string == "Có"} | {TokenVn.string == "có"}) ({TokenVn.string == "đúng"} | {TokenVn.string == "phải"}) ({TokenVn.string == "là"})? ) ) Rule: editYesNoTerm Priority: 50 ( YesNo ):YesNoSet > { //Đưa tập chứa đựng giải mà LHS khớp gate.AnnotationSet YesNoSet (gate.AnnotationSet)bindings.get("YesNoSet"); //Đưa danh sách List listTerm = new ArrayList(YesNoSet); //Đưa biến lặp giải Iterator termIter = (Iterator)listTerm.iterator(); //Khai báo biến gate.Annotation yesnoAnn; gate.FeatureMap yesnoAnnFeatures; 82 = Phụ lục A Nguyễn Quốc Đạt String string = ""; //Xâu tương ứng với cụm từ khớp //Đưa ánh xạ đặc trưng while(termIter.hasNext()){ yesnoAnn = (gate.Annotation)termIter.next(); yesnoAnnFeatures = (gate.FeatureMap)yesnoAnn.getFeatures(); string += (String)yesnoAnnFeatures.get("string") + " "; } //Tạo đặc trưng gate.FeatureMap features = Factory.newFeatureMap(); features.put("string", string.trim()); features.put("category", "Tudehoi"); features.put("type", "YesNo"); /*Loại bỏ tất giải TokenVn từ cụm từ mà LHS luật khớp*/ inputAS.removeAll(YesNoSet); /*Đưa kiểu giải TokenVn cho cụm từ mà LHS luật khớp, nghĩa cụm từ xác định lại từ để hỏi*/ outputAS.add(YesNoSet.firstNode(), YesNoSet.lastNode(), "TokenVn", features); } Hình A-1: Chƣơng trình nhúng Java vào JAPE 83 Phụ lục B Nguyễn Quốc Đạt Phụ lục B Bảng nhãn từ loại tiếng Việt Np Nc Ng Nt Nu Na Nn Nl Vt Vit Vim Vo Vs Vb Vv Va Vc Vm Vla Vtim Vta Vtc Vtb Vto Vts Vtm Vtv danh từ riêng danh từ đơn thể danh từ tổng thể danh từ loại thể danh từ đơn vị danh từ trừu tượng danh từ số lượng danh từ vị trí động từ ngoại động động từ nội động động từ cảm nghĩ động từ hướng động từ tồn động từ biến hố động từ ý chí động từ tiếp thụ động từ so sánh động từ chuyển động động từ "là" động từ ngoại động cảm nghĩ động từ ngoại động tiếp thụ động từ ngoại động so sánh động từ ngoại động biến hoá động từ ngoại động hướng động từ ngoại động tồn động từ ngoại động chuyển động động từ ngoại động ý chí 84 proper noun countable noun collective noun classifier noun concrete noun abstract noun numeral locative noun transitive verb intransitive verb impression verb orientation verb state verb transformation verb volotive verb acceptation verb comparative verb move verb ―là‖ verb transitive-impression verb transitive-acceptation verb transitive-comparative verb transitive-transformation verb transitive-orientation verb transitive-state verb transitive-move verb transitive-volotive verb Phụ lục B Vitim Vitb Vits Vitc Vitm Aa An Pp Pd Pn Pa Pi Jt Jd Jr Ja Ji Cm Cc E I X Nguyễn Quốc Đạt động từ nội động cảm nghĩ động từ nội động biến hoá động từ nội động tồn động từ nội động so sánh động từ nội động chuyển động tính từ hàm chất tính từ hàm lượng đại từ xưng hô đại từ không gian, thời gian đại từ số lượng đại từ hoạt động, tính chất đại từ nghi vấn phụ từ thời gian phụ từ mức độ phụ từ so sánh phụ từ khẳng định, phủ định phụ từ mệnh lệnh giới từ liên từ cảm từ trợ từ không xác định intransitive-impression verb intransitive-transformation verb intransitive-state verb intransitive-comparative verb intransitive-move verb quality adjective quantity adjective personal pronoun demonstrative pronoun quantity pronoun quality pronoun interrogative pronoun time adjunct degree adjunct rapport adjunct adjunct of negation and acceptation imperative adjunct major/minor conjunction combination conjunction emotion word introductory word Hình B-1: Nhãn từ loại tiếng Việt đƣợc dùng tách từ Coltech.NLP.Tokenizer 85 Phụ lục C Nguyễn Quốc Đạt Phụ lục C Danh sách câu hỏi thực nghiệm Danh sách 60 câu hỏi dùng để thực nghiệm: Nguyễn Quốc Đạt ai? Cái mã sinh viên? Điểm trung bình nào? Những sinh viên có quê Hà Tây ai? Ai sinh viên có quê Hà Tây? Sinh viên có q Hà Tây? Mơn học học Nguyễn Quốc Đạt gì? Quê sinh viên Hà Tây? Nguyễn Quốc Đạt học lớp nào? 10 Ai sinh viên lớp khoa học máy tính? 11 Hà Tây quê ai? 12 Ai có quê Hà Tây? 13 Quê người Hà Tây? 14 Nguyễn Quốc Đạt có mã sinh viên gì? 15 Danh sách sinh viên lớp khoa học máy tính? 16 Lớp có sinh viên Nguyễn Quốc Đạt? 86 Phụ lục C Nguyễn Quốc Đạt 17 Số lượng sinh viên lớp khoa học máy tính bao nhiêu? 18 Tồn sinh viên có tên Nguyễn Quốc Đạt phải khơng? 19 Nguyễn Quốc Đạt có q Hà Tây phải không? 20 Tồn sinh viên Nguyễn Quốc Đạt phải không? 21 Nguyễn Quốc Đạt sinh viên phải không? 22 Quê quán Nguyễn Quốc Đạt Hà Tây phải khơng? 23 Những sinh viên có quê Hà Tây mà học lớp khoa học máy tính ai? 24 Ai sinh viên có quê Hà Tây học lớp khoa học máy tính? 25 Sinh viên lớp khoa học máy tính mà có quê Hà Tây ai? 26 Ai có quê Hà Tây học lớp khoa học máy tính? 27 Có q Hà Tây học lớp khoa học máy tính ai? 28 Nguyễn Quốc Đạt có mã sinh viên có quê đâu? 29 Nguyễn Quốc Đạt có quê đâu học lớp nào? 30 Sinh viên có quê Hà Tây học lớp khoa học máy tính? 31 Liệt kê sinh viên học lớp khoa học máy tính có q Hà Tây? 32 Số lượng sinh viên lớp khoa học máy tính mà có q Hà Tây bao nhiêu? 33 Những sinh viên có quê Hà Tây có quê Hà Nội ai? 34 Số lượng sinh viên có quê Hà Tây có quê Hà Nộ bao nhiêu? 35 Ai có quê Hà Tây có quê Hà Nội? 36 Có quê Hà Tây có quê Hà Nội ai? 37 Sinh viên có điểm trung bình lớn 7? 87 Phụ lục C Nguyễn Quốc Đạt 38 Sinh viên có điểm trung bình cao lớp khoa học máy tính? 39 Ai có quê Hà Tây học lớp khoa học máy tính? 40 Sinh viên học lớp khoa học máy tính có mã sinh viên gì? 41 Lớp khoa học máy tính có sinh viên có quê Hà Tây? 42 Danh sách điểm trung bình sinh viên lớp khoa học máy tính? 43 Ai sinh viên lớp khoa học máy tính trường đại học Cơng Nghệ? 44 Có phải Nguyễn Quốc Đạt lớp khoa học máy tính trường đại học cơng nghệ? 45 Tồn sinh viên có quê Hà Tây học lớp khoa học máy tính khơng? 46 Lớp có sinh viên Nguyễn Quốc Đạt lớp nào? 47 Sinh viên học lớp khoa học máy tính trường đại học cơng nghệ? 48 Sinh viên lớp khoa học máy tính ai? 49 Cho biết số lượng sinh viên học lớp khoa học máy tính? 50 Sinh viên học lớp nào? 51 Sinh viên học môn xử lý ảnh? 52 Số lượng sinh viên lớp khoa học máy tính bao nhiêu? 53 Tồn sinh viên lớp khoa học máy tính mà có q Hà Tây phải không? 54 Nguyễn Quốc Đạt học lớp trường đại học Công Nghệ? 88 Phụ lục C Nguyễn Quốc Đạt 55 Số lượng sinh viên lớp 45? 56 Lớp khoa học máy tính có 45 sinh viên phải khơng? 57 Lớp mà Nguyễn Quốc Đạt học gì? 58 Mơn học mà Nguyễn Quốc Đạt học gì? 59 Học lớp khoa học máy tính sinh viên nào? 60 Lớp có số lượng sinh viên lớn 45? 89 Tài liệu tham khảo Nguyễn Quốc Đạt Tài liệu tham khảo [1] Androutsopoulos I., Ritchie G D., Thanisch P Natural Language Interfaces to Databases - An Introduction In Natural Language Engineering, vol 1, part 1, pages 29—81, 1995 [2] Antonio C., Francesco F., Maria S., Ro T PIQASso: Pisa question answering system In TREC 2001 [3] Bird S., Liberman M A Formal Framework for Linguistic Annotation Technical Report MS-CIS-99-01, Department of Computer and Information Science,University of Pennsylvania, 1999 [4] Clark S., Steedman M., Curran R Object-Extraction and Question-Parsing using CCG Proceedings of the SIGDAT Conference on Empirical Methods in Natural Language Processing, pp.111-118, 2004 [5] Damljanovic D., Tablan V., Bontcheva K A text-based query interface to owl ontologies In 6th Language Resources and Evaluation Conference (LREC), Marrakech, Morocco, ELRA, May, 2008 [6] Das S., Charkrabarti S Issues in Question Answering M.Tech Seminar Report [7] Filipe P.P., Mamede N.J Databases and natural language interfaces In JISBD 2000, pages 321–332, 2000 [8] Frumkina R M., Mikhejev A V Meaning and Categorization New York: Nova Science Publishers, Inc, 1996 [9] Grishman R TIPSTER Architecture Design Document Version 2.3 Technical report, DARPA, 1997 90 Tài liệu tham khảo Nguyễn Quốc Đạt [10] Harabagiu M., Moldovan I., Pasca M., Mihalcea R., Surdeanu M., Bunescu C., Girju R., Rus V., Morarescu P FALCON: Boosting Knowledge for Answer Engines TREC 2000 [11] Harabagiu H., Maiorano J., Pasca A Open-Domain Textual Question Answering Techniques Natural Language Engineering, 1(1):1-38, 2003 [12] Hirschman L., Gaizauskas R Natural Language Question Answering: The View from Here Natural Language Engineering 2001 [13] Jelinek F., Statistical Methods for Speech Recognition [14] Katz B., Borchardt G., Felshin S Natural Language Annotations for Question Answering Proceedings of the 19th International FLAIRS Conference (FLAIRS 2006), May 2006 [15] Katz B., Borchardt G., Felshin S Syntactic and Semantic Decomposition Strategies for Question Answering from Multiple Resources Proceedings of the AAAI 2005 Workshop on Inference for Textual Question Answering, 35-41, July 2005 [16] Kocik K Question classification using maximum entropy models Honours thesis, University of Sydney, 2004 [17] Li W Question Classification Using Language Modeling In CIIR Technical Report: University of Massachusetts, Amherst, 2002 [18] Li X., Roth D Learning question classifiers: the role of semantic information Natural Language Engineering, v.12 n.3, p.229-249, 9- 2006 [19] Li X., Roth D Learning Question Classifiers In Proceedings of the 19th International Conference on Computational Linguistics (COLING'02), 2002 [20] Lopez V., Uren V., Motta E., Pasin M AquaLog: An ontology-driven question answering system for organizational semantic intranets Journal of Web Semantics, 5, 2, pp.72-105, Elsevier, 2007 [21] Lopez V., Motta E PowerAqua: An Ontology Question Answering System for the Semantic Web Workshop: Ontologias y Web Semantiica 2005 91 Tài liệu tham khảo [22] Nguyễn Quốc Đạt Manning C., Schutze H., Schutze H Foundations of Statistical Natural Language Processing [23] Manning D., Raghavan P., Schütze H Introduction to Information Retrieval Cambridge University Press 2008 [24] Mitchell T Machine Learning McGraw Hill ISBN 0-07-042807-7 [25] Narayanan S., Harabagiu S Question answering based on semantic structures Proceedings of the 20th international conference on Computational Linguistics, p.693-es, August 23-27, 2004 [26] Nguyen K., Le H Natural Language Interface Construction Using Semantic Grammars PRICAI 2008:728-739 [27] Nguyen M.L., Shimazu A., Nguyen T.T Subtree mining for question classification problem Twentieth International Joint Conference on Artificial Intelligence (IJCAI 2007) Hyderabad, India, January 6-12, 2007 [28] Nguyen T.T., Nguyen L.M., Shimazu A Using Semi-supervised Learning for Question Classification Information and Media Technologies, Vol 3, No 1, pp.112-130, 2008 [29] Ogden W., Bernick T Using natural language interfaces In: M Helander, Editor, Handbook of Human–Computer Interaction, Elsevier, 1996 [30] Ryan J., Smith A General Question Categorization for Question and Answer Systems (Unpublished report.) [31] Paggio P., Hansen D.H., Basili R., Pazienza M.T., Zanzotto F.M Ontologybased question analysis in a multilingual environment: the MOSES case study Proceedings of OntoLex 2004: Ontologies and Lexical Resources in Distributed Environments s 1-8 Lisboa 2004 [32] Popescu A., Etzioni O., Kautz H Towards a theory of natural language interfaces to databases New York, NY, USA: ACM (2003) 92 Tài liệu tham khảo [33] Nguyễn Quốc Đạt Saxena A., Sambhu G., Kaushik S., Subramaniam L IITD-IBMIRL System for Question Answering Using Pattern Matching, Semantic Type and Semantic Category Recognition TREC 2007 [34] Templeton M., Burger J Problems in Natural Language Interface to DBMS with Examples from EUFID In Proceedings of the 1st Conference on Applied Natural Language Processing, Santa Monica, California, pages 3–16, 1983 [35] Woods W.A., Kaplan R.M., Webber B.N The Lunar Sciences Natural Language Information System: Final Report BBN Report 2378, Bolt Beranek and Newman Inc., Cambridge, Massachusetts, 1972 [36] Wu M., Zheng X., Duan M., Liu T., Strzalkowski T Question answering by pattern matching, web-proofing, semantic form proofing TREC 2003 [37] Zhang D., Lee W S Question classification using support vector machines Proceedings of SIGIR2003, 2003 [38] Diệp Quan Ban, Hoàng Văn Thung Ngữ pháp tiếng Việt Nhà xuất giáo dục, 1999 [39] Đinh Điền So sánh trật tự từ định ngữ tiếng Anh tiếng Việt [40] Hồ Bảo Quốc, Hồ Tú Bảo, Đinh Điền Nghiên cứu đề xuất kiến trúc khung cho xử lý tài liệu tiếng Việt [41] Nguyễn Minh Tuấn, Đặng Quang Vinh, Nguyễn Cẩm Tú Phân lớp câu hỏi tiếng Việt sử dụng nguyên lý Entropy cực đại Báo cáo nghiên cứu khoa học sinh viên 2008, Coltech [42] Nguyễn Quốc Đại Phương pháp xây dựng hệ thống hỏi đáp tiếng Việt dựa Ontology Khóa luận tốt nghiệp 2009, Coltech [43] Nguyễn Bá Đạt Nhận dạng thực thể văn tiếng Việt Khóa luận tốt nghiệp 2009, Coltech [44] Phạm Đức Đăng Phương pháp phân đoạn từ tiếng Việt sử dụng gán nhãn từ loại Khóa luận tốt nghiệp 2009, Coltech [45] http://www.gate.ac.uk 93 ... thiệu phương pháp phân tích câu hỏi Phương pháp chúng tơi đem lại kết khả quan, góp phần xây dựng nên hệ thống hỏi đáp tiếng Việt ii Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt. .. ? ?Phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt? ?? nhằm mục đích góp phần tạo hệ thống hỏi đáp tiếng Việt Trong khóa luận mình, chúng tơi đề xuất phương pháp phân tích câu hỏi tiếng. .. Chương Phương pháp phân tích câu hỏi tiếng Việt Nguyễn Quốc Đạt Chƣơng Phƣơng pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt 4.1 Kiến trúc hệ thống Kiến trúc chung (trong hình 4-1) hệ thống

Ngày đăng: 18/02/2014, 00:07

Hình ảnh liên quan

Hình 2-2: Cây cú pháp trong một hệ thống dựa trên cú pháp - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 2.

2: Cây cú pháp trong một hệ thống dựa trên cú pháp Xem tại trang 31 của tài liệu.
Hình 2-3: Một văn phạm ngữ nghĩa - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 2.

3: Một văn phạm ngữ nghĩa Xem tại trang 33 của tài liệu.
Hình 2-4: Cây cú pháp-ngữ nghĩa trong một văn phạm ngữ nghĩa - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 2.

4: Cây cú pháp-ngữ nghĩa trong một văn phạm ngữ nghĩa Xem tại trang 34 của tài liệu.
Hình 2-5: Cây cú pháp ngữ nghĩa của câu hỏi: “Tìm các sinh viên học ít nhất 2 môn do - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 2.

5: Cây cú pháp ngữ nghĩa của câu hỏi: “Tìm các sinh viên học ít nhất 2 môn do Xem tại trang 36 của tài liệu.
Ontology được gọi là các Onto-Triple. Kiến trúc của Aqualog được chỉ ra trong hình - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

ntology.

được gọi là các Onto-Triple. Kiến trúc của Aqualog được chỉ ra trong hình Xem tại trang 38 của tài liệu.
Hình 3-1: Kiến trúc của GATE - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 3.

1: Kiến trúc của GATE Xem tại trang 39 của tài liệu.
Hình 3-2: Chú giải ngữ nghĩa trong GATE - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 3.

2: Chú giải ngữ nghĩa trong GATE Xem tại trang 41 của tài liệu.
Kiến trúc chung (trong hình 4-1) của một hệ thống hỏi đáp gồm 2 thành phần đó là thành  phần  phân  tích  câu  hỏi  ngôn  ngữ  tự  nhiên  (Natural  Language  Question  Analysis) và  thành  phần  tìm  kiếm  câu  trả  lời (Answer  Retrieval) - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

i.

ến trúc chung (trong hình 4-1) của một hệ thống hỏi đáp gồm 2 thành phần đó là thành phần phân tích câu hỏi ngôn ngữ tự nhiên (Natural Language Question Analysis) và thành phần tìm kiếm câu trả lời (Answer Retrieval) Xem tại trang 49 của tài liệu.
Hình 4-2: Các module của thành phần xử lý câu hỏi ngôn ngữ tự nhiên - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

2: Các module của thành phần xử lý câu hỏi ngôn ngữ tự nhiên Xem tại trang 50 của tài liệu.
Hình 4-3: Đầu ra của module phân tích câu hỏi tiếng Việt - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

3: Đầu ra của module phân tích câu hỏi tiếng Việt Xem tại trang 52 của tài liệu.
xâu ―word” và string tương ứng với xâu ký tự biểu diễn từ tiếng Việt. Hình 4-4 - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

x.

âu ―word” và string tương ứng với xâu ký tự biểu diễn từ tiếng Việt. Hình 4-4 Xem tại trang 53 của tài liệu.
Hình 4-5: Một số từ để hỏi đã đƣợc xác định lại bằng cách sử dụng JAPE - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

5: Một số từ để hỏi đã đƣợc xác định lại bằng cách sử dụng JAPE Xem tại trang 55 của tài liệu.
Hình 4-6: Kiểu chú giải TokenVn cho những từ đặc biệt - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

6: Kiểu chú giải TokenVn cho những từ đặc biệt Xem tại trang 58 của tài liệu.
Hình 4-7: Kiểu chú giải TokenVn sau khi đã thay đổi giá trị của đặc trƣng category - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

7: Kiểu chú giải TokenVn sau khi đã thay đổi giá trị của đặc trƣng category Xem tại trang 59 của tài liệu.
Hình 4-8: Cụm danh từ trong một số câu hỏi tiếng Việt - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

8: Cụm danh từ trong một số câu hỏi tiếng Việt Xem tại trang 60 của tài liệu.
Bảng 4-1: Cấu tạo của cụm danh từ trong câu hỏi tiếng Việt - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Bảng 4.

1: Cấu tạo của cụm danh từ trong câu hỏi tiếng Việt Xem tại trang 61 của tài liệu.
Hình 4-9: Từ mang ý nghĩa so sánh trong câu hỏi tiếng Việt - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

9: Từ mang ý nghĩa so sánh trong câu hỏi tiếng Việt Xem tại trang 63 của tài liệu.
với các đặc trưng type và category như hình 4-11 sau đây: - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

v.

ới các đặc trưng type và category như hình 4-11 sau đây: Xem tại trang 65 của tài liệu.
Hình 4-12: Tách từ trong câu hỏi: “Nguyễn Quốc Đạt và Nguyễn Quốc Đại có quê ở Hà - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

12: Tách từ trong câu hỏi: “Nguyễn Quốc Đạt và Nguyễn Quốc Đại có quê ở Hà Xem tại trang 66 của tài liệu.
Hình 4-13: Kiểu chú giải Moiquanhe - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

13: Kiểu chú giải Moiquanhe Xem tại trang 68 của tài liệu.
Hình 4-14: Một ví dụ về kiểu chú giải Tudehoi - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

14: Một ví dụ về kiểu chú giải Tudehoi Xem tại trang 69 của tài liệu.
Hình 4-15: Ví dụ về bộ biểu diễn trung gian của câu hỏi - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

15: Ví dụ về bộ biểu diễn trung gian của câu hỏi Xem tại trang 75 của tài liệu.
Hình 4-16: Một ví dụ về kiểu chú giải Maucauhoi - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

16: Một ví dụ về kiểu chú giải Maucauhoi Xem tại trang 83 của tài liệu.
như hình 4-17 sau đây: (Unknterm, (QUWho, ?,là sinh viên, lớp khoa học máy tính)). - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

nh.

ư hình 4-17 sau đây: (Unknterm, (QUWho, ?,là sinh viên, lớp khoa học máy tính)) Xem tại trang 84 của tài liệu.
Hình 4-18: Đầu ra của một câu hỏi có cấu tạo dạng And - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 4.

18: Đầu ra của một câu hỏi có cấu tạo dạng And Xem tại trang 85 của tài liệu.
(trong hình 4-19), câu hỏi này thuộc về lớp ManyClass có “Dạng cấu tạo câu hỏi” và “Dạng  cấu  tạo  bộ  biểu  diễn”  nhận  giá  trị  là “AffirmNeg_3Term”  hồn  tồn  có  thể  - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

trong.

hình 4-19), câu hỏi này thuộc về lớp ManyClass có “Dạng cấu tạo câu hỏi” và “Dạng cấu tạo bộ biểu diễn” nhận giá trị là “AffirmNeg_3Term” hồn tồn có thể Xem tại trang 86 của tài liệu.
Nghệ?” thỏa mãn tiêu chí 2 như hình 5-2 dưới đây: - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

gh.

ệ?” thỏa mãn tiêu chí 2 như hình 5-2 dưới đây: Xem tại trang 89 của tài liệu.
Hình 5-2: Kết quả phân tích đúng - câu hỏi thỏa mãn tiêu chí 2 - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

Hình 5.

2: Kết quả phân tích đúng - câu hỏi thỏa mãn tiêu chí 2 Xem tại trang 89 của tài liệu.
khoa học máy tính của” không thỏa mãn yêu cầu. Hình 5-4 sau đây đưa ra kết quả - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

khoa.

học máy tính của” không thỏa mãn yêu cầu. Hình 5-4 sau đây đưa ra kết quả Xem tại trang 90 của tài liệu.
Hình B-1: Nhãn từ loại trong tiếng Việt đƣợc dùng trong bộ tách từ trong Coltech.NLP.Tokenizer  - phương pháp phân tích câu hỏi cho hệ thống hỏi đáp tiếng việt

nh.

B-1: Nhãn từ loại trong tiếng Việt đƣợc dùng trong bộ tách từ trong Coltech.NLP.Tokenizer Xem tại trang 96 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan