Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

24 1.1K 4
Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HÀ THỊ MINH LỘC CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 XÂY DỰNG HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS. Hoàng Xuân Dậu Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU Mục tiêu của luận văn là xây dựng thử nghiệm hình hệ thống hỏi-đáp tự động tiếng Việt cho một miền cụ thể là hỗ trợ việc đào tạo trực tuyến hiện nay. Những nghiên cứu này làm cơ sở lý thuyết cũng như thực nghiệm cho việc xây dựng các hệ thống hỏi - đáp tiếng Việt có hiệu quả trong tương lai. Luận văn được trình bày với các nội dung chính như sau:  Chương 1: Những vấn đề khái quát, lịch sử phát triển và kiến trúc cơ bản của hệ thống hỏi đáp nói chung, các vấn đề cần quan tâm và những yêu cầu khi xây dựng hệ thống hỏi đáp.  Chương 2: Các cơ sở lý thuyết, các thuật toán, phương pháp xử lý dữ liệu ban đầu. Chương này cũng chỉ ra các phương pháp để phân câu hỏi vào các lớp cụ thể trong hệ thống, các giải pháp đánh giá độ tương đồng giữa các tài liệu.  Chương 3: Xây dựng hình hệ thống, phân tích từng giai đoạn của quá trình xây dựng, lựa chọn phương pháp và thuật toán cụ thể cho mỗi giai đoạn. 2 Chương 1 TỔNG QUAN 1.1. Khái quát về hệ thống hỏi đáp tự động Có hai loại hệ thống hỏi – đáp:  Hệ thống không tập chung: Các câu hỏi được gửi đến một nơi. Các câu trả lời có thể xuất phát từ nhiều nơi, từ nhiều người dùng (diễn đàn ).  Hệ thống tập chung: Các câu hỏi được gửi đến một nơi, câu trả lời được xuất phát, tập chung ở một nơi duy nhất, tập chung(Email ). Giới hạn quyền truy xuất, không phải ai cũng có thể thấy được. 1.2. Sơ lược lịch sử phát triển Một số hệ thống đầu tiên đã được ra đời từ những năm 1960 và đã nhận được rất nhiều mối quan tâm của cộng đồng các nhà nghiên cứu. Điều này bắt nguồn từ việc một lượng tài liệu lớn có gắn chỉ mục sẵn có trên Internet, cùng với các thành tựu trong lĩnh vực rút trích thông tin và sự gia tăng nhu cầu thương mại cho các sản phẩm QA trên toàn cầu. 1.3. Kiến trúc chung của hệ thống hỏiđáp 3 Hình 1.1. Hệ thống tìm kiếm thông tin (IR) Hình 1.2: Kiến trúc chung hệ thống hỏiđáp 4 1.3.1. Giao diện người dùng (User Interface): Từ một giao diện Web, người dùng có thể nhập vào câu hỏi.Sau khi câu hỏi được gửi đi, hệ thống sẽ xử lý và trả về cho người dùng một câu trả lời dưới định dạng tương tự. 1.3.2 Phân tích câu hỏi (Question Analyzer): Câu hỏi được phân tích và xử lý để trích lọc thông tin nhằm sử dụng trong giai đoạn tìm kiếm sau này. Câu hỏi đặt ra là làm thế nào để phân lớp và chuẩn hóa các câu hỏi một cách tốt nhất. Tùy vào việc phân tích câu hỏi nông hay sau mà bước này sẽ cho ra các kết quả khác nhau. 1.3.3. Tìm kiếm dữ liệu (Data Retrieval): Một số thông tin đã được trích xuất trong giai đoạn phân tích câu hỏi sẽ được sử dụng để tìm kiếm thông tin trong cơ sở tri thức. Trong phần này, thông tin được tiền xử lý nhiều lần để tăng hiệu quả của hệ thống. 1.3.4. Rút trích câu trả lời (Answer Extraction): Thông tin đã được trả về trong giai đoạn này có thể là các tài liệu hoặc các văn bản từ việc truy vấn cơ sở dữ liệu. Những thông tin này được sử dụng để rút trích các đoạn (passage) có liên quan ngữ nghĩa đến câu hỏi mà người dùng đưa ra. Khi mục đích câu hỏi đã được làm rõ. Hệ thống xử lý và chọn ra một tập các câu trả lời có liên quan đến nội dung hỏi (lĩnh vực hỏi). 1.3.5. Chiến lược xếp hạng (Ranking): Nếu các kết quả của giai đoạn rút trích câu trả lời có nhiều hơn một câu trả lời thì các câu trả lời sẽ được xếp hạng dựa trên mức độ liên quan về mặt ngôn ngữ với câu hỏi của người dùng. 1.3.6 Xác minh câu trả lời (Answer Verification): Một số hệ thống QA cải thiện thêm tính chính xác bằng cách phân tích các câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên bằng cách phân tích 5 sâu hơn để xác minh lại câu hỏi. Các câu hỏi và câu trả lời được phân tích cú pháp và chuyển đổi sang cùng một hình thức logic. Các câu hỏi và câu trả lời sau đó được so sánh với nhau để xác minh tính hợp lý của các câu trả lời. 1.4. Một số vấn đề quan tâm khi thiết kế hệ thống hỏi - đáp  Loại câu hỏi  Xử lý câu hỏi  Ngữ cảnh và hệ thống hỏi đáp  Nguồn dữ liệu cho hệ thống hỏi đáp  Trích xuất câu trả lời 1.5. Các yêu cầu của hệ thống hỏi - đáp  Tính chính xác  Tính khả dụng  Tính hợp lý về thời gian  Tính hoàn chỉnh  Tính thích hợp của câu trả lời 6 1.6. Kết luận Hệ thống hỏi - đáp tự động là một công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày càng cao của con người, nhưng hệ thống hỏi- đáp tiếng Việt lại mới chỉ được quan tâm trong vài năm gần đây. Như vậy, việc xây dựng một hệ thống hỏi-đáp tiếng Việt là một nhu cầu cần thiết. Hướng tới mục tiêu này, học viên muốni xây dựng một hình hệ thống hỏi - đáp tự động tiếng Việt nhằm phục vụ cho một lĩnh vực cụ thể là hỗ trợ đào tạo trực tuyến. 7 Chương 2 TIỀN XỬ LÝ VÀ PHÂN LOẠI CÂU HỎI 2.1. Tiền xử lý dữ liệu 2.1.1. Phân tích câu hỏi 2.1.1.1. Các phương pháp phân tích câu hỏi  Phương pháp nông (Shallow Method): Dựa trên từ khóa để xác định vị trí các đoạn và các câu từ các tài liệu được trả về trong giai đoạn tìm kiếm, sau đó lọc ra câu trả lời dựa trên sự hiện diện của loại câu trả lời trong văn bản được trả về đó.  Phương pháp sâu (Deep Method): Là phương pháp sử dụng các kỹ thuật xử lý cú pháp, ngữ nghĩa và ngữ cảnh phức tạp hơn để trích xuất hoặc xây dựng các câu trả lời. 2.1.1.2. Phân tích câu hỏi trong ngôn ngữ tiếng Việt Khi phân tích câu hỏi tiếng Việt, khác với các câu hỏi tiếng Anh, chúng ta phải giải quyết: - Xác định ranh giới giữa các từ trong câu. - Cùng hỏi về một thông tin, nhưng câu hỏi có thể được diễn đạt theo nhiều cách khác nhau, sử dụng từ ngữ, cấu trúc khác nhau. 8 - Có quá nhiều từ có mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào. - Chính tả tiếng Việt còn một số điểm chưa thống nhất. - Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các bảng mã khác nhau. Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử lý văn bản khác nhau 2.1.2. Tách từ 2.1.2.1. Các hướng tiếp cận dựa trên từ Hướng tiếp cận này có thể chia ra theo 3 hướng: dựa trên thống kê (statistics - based), dựa trên từ điển (dictionary – based) và hydrid (kết hợp nhiều phương pháp với hy vọng đạt được những ưu điểm của các phương pháp này) . 2.1.2.2. Các hướng tiếp cận dựa trên kí tự Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các ngữ. Rồi công trình nghiên cứu của H. Nguyễn et al [2005]. Đây là phương pháp tách tách từ tiếng Việt dựa trên thốngtừ Internet và thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for [...]... hỏi Unknown Thành công Thư ký Phân phối bằng tay So khớp câu hỏi Phân phối tự động Có câu hỏi tương tự So khớp câu trả lời Không có câu hỏi tương tự Chuyên gia Hình 3.1: hình hoạt động của hệ thống Câu trả lời 18 3.2.1 Giai đoạn phân tích câu hỏi Tách từ, tách câu Trích từ khóa Phân tích câu hỏi Xây dựng véc tơ đặc trưng câu hỏi Hình 3.2: Giai đoạn phân tích câu hỏi 3.2.2 Phân loại câu hỏi Câu hỏi. .. nghiên cứu tổng quát về hệ thống hỏi- đáp tự động, các phương pháp có thể áp dụng cho ngôn ngữ tiếng Việt dựa trên những thành quả xử lý ngôn ngữ tiếng Việt đã có để xây dựng thử nghiệm hình hệ thống hỏi- đáp tự động bằng tiếng Việt cho một miền cụ thể là hỗ trợ việc đào tạo trực tuyến Nội dung của luận văn tập trung chủ yếu vào nghiên cứu các phương pháp xử lý dữ liệu: Phân tích câu hỏi, biểu diễn và tìm... hỏi tới chuyên gia tương ứng Câu hỏi mới Lớp mà câu hỏi được phân vào Quyết định chuyên gia cần chuyển tới So sánh Chuyên gia ứng với lớp câu hỏi Hình 3.6: Tiến trình chuyển câu hỏi tới chuyên gia 3.3 Cài đặt Hệ thống hỏi- đáp tự động phục vụ vấn trực tuyến được cài đặt trên máy tính có cấu hình: CPU Intel B800, RAM 2GB Chương trình được cài đặt bằng ngôn ngữ Java Hệ thống được xây dựng theo hình. .. diễn và tìm kiếm văn bản Trong quá trình xây dựng hình hệ thống, ở mỗi giai đoạn, luận văn đã chọn lựa được từng phương pháp, từng công việc cụ thể, phù hợp để xây dựng những module con của hệ thống Tuy những kết quả ban đầu còn giới hạn, nhưng kết quả đạt được sẽ làm cơ sở lý thuyết và thực nghiệm cho việc xây dựng các hệ hỏi- đáp tiếng Việt thực tế hoạt động hiệu quả trong tương lai Trong thời... câu hỏi So sánh độ tương tự Tập luật phân lớp Hình 3.3: Tiến trình phân lớp Quyết định phân loại 19 3.2.3 So khớp (tìm kiếm) câu hỏi Kho câu hỏi Véc tơ câu hỏi Xác định nhóm câu hỏi So khớp câu hỏi Xếp hạng câu hỏi nQ gần nhất Hình 3.4: Tiến trình tìm kiếm câu hỏi 3.2.4 So khớp (tìm kiếm) câu trả lời Kho câu trả lời Xây dựng véc tơ các câu trả lời Chọn các câu trả lời tương ứng với nQ câu hỏi trên Hình. .. 2.2.2.1.5 Phân loại dựa theo công nghệ tác nhân thông minh Đây là modul được xây dựng theo công nghệ tác nhân thông minh Tác nhân phân loại có nhiệm vụ kiểm tra khi hệ thống có các câu hỏi mới đến (cảm nhận được sự thay đổi của hệ thống) , tiến hành phân loại câu hỏi (đưa ra hành động thích hợp) Tác nhân phân loại là một chương trình nhỏ được xây dựng như một serviece trên hệ điều hành 2.2.2.1.7 Kết luận... biểu diễn văn bản bằng hình không gian vector Trong hình này, đồ án xin lựa chọn theo hình này 3.1.3 Lựa chọn phương pháp rút trích đặc trưng: Ta sẽ sử dụng phương pháp truyền thống 3.3.4 Lựa chọn phương pháp phân lớp câu hỏi: Trong đồ án này sẽ chọn Naïve Bayes để phân loại văn bản Tuy nhiên việc ứng dụng ở đây có một số cải tiến 17 Câu hỏi mới 3.2 hình kiến trúc hệ thống Phân tích Không... 22  Số chiều của vector đặc trưng cho mỗi cặp hỏi- đáp trong hệ thống là lớn và tăng theo tỷ lệ thuận với số lượng các từ khóa trong toàn bộ kho dữ liệu của hệ thống Do đó học viên sẽ tìm hiểu các phương pháp rút trích đặc trưng nhằm giảm số chiều của vector đặc trưng Có nhiều phương pháp tìm kiếm thông tin khác có thể áp dụng vào hệ thống Hệ thống hỏi- đáp chính là sự phối hợp hiệu quả các phương pháp... mới, khi đó thuật toán phải có khả năng giảm độ nhiễu (noise) khi phân loại văn bản 2.2.3 Đánh giá độ tương đồng giữa các tài liệu 2.2.3.1 hình vector 2.2.3.2.Phương pháp trọng số tf-idf 2.2.3.3 Hệ số Cosine 16 Chương 3 XÂY DỰNG HÌNH HỆ THỐNG 3.1 Lựa chọn hình và thuật toán 3.1.1 Lựa chọn thuật toán tách từ: Phương pháp do tác giả H.Nguyễn có ưu điểm là không cần sử dụng bất cứ tập huấn luyện... xây dựng theo hình Client/ Server trên nền web Do đó cần một máy chủ chạy với hệ điều hành Windows 2003 server trở lên Người sử dụng có thể nối đến máy chủ để truy xuất hệ thống thông qua mạng LAN hay Internet 21 KẾT LUẬN Hệ thống hỏi- đáp tự động là một lĩnh vực có rất nhiều hướng mở cần nghiên cứu sâu hơn nữa nhằm đáp ứng ngày càng cao nhu cầu tìm kiếm thông tin súc tích, chính xác trong kho dữ . tiêu của luận văn là xây dựng thử nghiệm mô hình hệ thống hỏi- đáp tự động tiếng Việt cho một miền cụ thể là hỗ trợ việc đào tạo trực tuyến hiện nay. Những. xây dựng một hệ thống hỏi- đáp tiếng Việt là một nhu cầu cần thiết. Hướng tới mục tiêu này, học viên muốni xây dựng một mô hình hệ thống hỏi - đáp tự động

Ngày đăng: 17/02/2014, 09:47

Hình ảnh liên quan

XÂY DỰNG MƠ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN TĨM TẮT LUẬN VĂN THẠC SĨ  - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến
XÂY DỰNG MƠ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN TĨM TẮT LUẬN VĂN THẠC SĨ Xem tại trang 1 của tài liệu.
Hình 1.1. Hệ thống tìm kiếm thơng tin (IR) - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Hình 1.1..

Hệ thống tìm kiếm thơng tin (IR) Xem tại trang 5 của tài liệu.
Hình 1.2: Kiến trúc chung hệ thống hỏi – đáp - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Hình 1.2.

Kiến trúc chung hệ thống hỏi – đáp Xem tại trang 5 của tài liệu.
Hình 2.1: Tồn cảnh của hệ thống IGATEC - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Hình 2.1.

Tồn cảnh của hệ thống IGATEC Xem tại trang 11 của tài liệu.
3.2. Mơ hình kiến trúc hệ thống    Phân tích   Phân loại  câu hỏi Unknown  Thư ký  So khớp  câu hỏi  - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

3.2..

Mơ hình kiến trúc hệ thống Phân tích Phân loại câu hỏi Unknown Thư ký So khớp câu hỏi Xem tại trang 19 của tài liệu.
Hình 3.2: Giai đoạn phân tích câu hỏi - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Hình 3.2.

Giai đoạn phân tích câu hỏi Xem tại trang 20 của tài liệu.
Hình 3.4: Tiến trình tìm kiếm câu hỏi - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

Hình 3.4.

Tiến trình tìm kiếm câu hỏi Xem tại trang 21 của tài liệu.
Hệ thống hỏi-đáp tự động phục vụ tư vấn trực tuyến được cài đặt trên máy tính cĩ cấu hình: CPU Intel B800, RAM 2GB - Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến

th.

ống hỏi-đáp tự động phục vụ tư vấn trực tuyến được cài đặt trên máy tính cĩ cấu hình: CPU Intel B800, RAM 2GB Xem tại trang 22 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan