xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

187 599 0
xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHÓA 2001 - 2005 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 2 Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nhận của GVPB Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 3 ĐỀ CƯƠNG CHI TIẾT Thông tin chung về đề tài: Tên đề tài: Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin GVHD: Tiến sĩ Hồ Bảo Quốc Sinh viên thực hiện: 1. MSSV: 0112385 Họ tên: Tsàn Quế Hương 2. MSSV: 0112387 Họ tên: Võ Hồ Bảo Khanh Tóm tắt nội dung luận văn: Đề tài gồm 2 phần : 1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng một bảng đánh giá bằng thủ công 2.Xây dựng một hệ thống chương trình trợ giúp việc đánh giá các hệ thống tìm kiếm thông tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm thông tin ; các thành phần đầu ra : kết quả truy vấn, kết quả đánh giá, nội dung tập tài liệu, câu truy vấn Một số từ khóa chính liên quan đến nội dung đề tài: Đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) Lĩnh vực áp dụng: Đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài _ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) _ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text REtrieval Conference) _ Tìm hiểu sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier… _ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 4 _ Xây dựng một hệ chương trình phục vụ việc kiểm tra đánh giá các hệ thống tìm kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows Linux, chương trình viết bằng ngôn ngữ Java Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài Borland Jbuider X Visual Studio . NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point Xác nhận của GVHD Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 5 Lời cám ơn     Chúng em xin chân thành cảm ơn các Thầy Cô Khoa Công nghệ Thông tin đã hướng dẫn giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em. Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hộ i cho chúng em được nghiên cứu học hỏi về lĩnh vực tìm kiếm thông tin bằng Tiếng Việt, một lĩnh vực tương đối mới hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt chương trình trợ giúp đánh giá các hệ thố ng tìm kiếm thông tin”. Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ chúng em để hoàn thành tốt đề tài luận văn này. Nhóm sinh viên thực hiện Tsàn Quế Hương – Võ Hồ Bảo Khanh Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 6 MỤC LỤC MỞ ĐẦU 10 Chương 1 : TỔNG QUAN .13 1.1. Tổng quan về tìm kiếm thông tin hệ thống tìm kiếm thông tin 13 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin 14 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin 14 1.2.2. Các tiêu chuẩn được dùng để đánh giá .15 1.2.3. Các mô hình đánh giá .15 1.2.4. Các độ đo dùng để đánh giá .18 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá 18 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn .20 1.2.7. Phương pháp đánh giá tầm quan trọng củ a kết quả trả về .21 Chương 2 : CƠ SỞ LÝ THUYẾT .22 2.1. Tìm kiếm thông tin các hệ thống tìm kiếm thông tin .22 2.1.1. Lịch sử tìm kiếm thông tin hệ thống tìm kiếm thông tin .22 2.1.2. Hệ thống tìm kiếm thông tin .25 2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin .25 2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thông tin 25 2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines) .27 2.1.3. So sánh tìm kiếm thông tin cổ điển tìm kiếm thông tin trên Web .29 2.1.4. So sánh tìm kiếm thông tin với tìm kiếm dữ liệu 30 2.1.5. Công thức trừu tượng trong tìm kiếm thông tin 31 2.1.6. Các mô hình tìm kiếm thông tin cổ đi ển để sắp thứ tự liên quan .32 2.1.6.1. Mô hình Đại số Bool .32 2.1.6.2. Mô hình không gian vec-tơ 33 2.2. Đánh giá các hệ thống tìm kiếm thông tin .36 2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thông tin 36 2.2.2. Mô hình đánh giá hướng hệ thống 37 2.2.2.1. Từ Cranfield đến TREC 37 2.2.2.2. Thủ tục đánh giá 39 2.2.2.3. Đánh giá sự liên quan 40 2.2.3. Thực hiện đo khả năng tìm kiếm 41 2.2.3.1. Các khái niệm về độ đo liên quan .41 2.2.3.2. Cách tính độ bao phủ (R) độ chính xác (P) 42 2.2.3.3. Phương pháp tính độ chính xác dự a trên 11 điểm chuẩn của độ bao phủ 44 2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .44 2.2.3.3.2. Đường cong độ bao phủ độ chính xác RP .45 2.2.3.3.3. Đường cong RP cho tập truy vấn 47 2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị 48 2.2.3.4. Sự liên quan giữa câu hỏi tài liệu 49 2.2.3.4.1. Các độ liên quan .49 2.2.3.4.2. Các vấn đề về độ liên quan .49 2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ 51 2.2.3.4.4. Phươ ng pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên quan nhiều cấp độ 53 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 7 2.2.4. TREC đánh giá theo chuẩn TREC .54 2.2.4.1. TREC là gì? 54 2.2.4.2. Cách xây dựng ngữ liệu của TREC 56 2.2.4.2.1. Xây dựng tập hợp các tài liệu 57 2.2.4.2.2. Xây dựng các chủ đề .57 2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn 58 2.3. Ngữ liệu tiếng Việt .59 2.3.1. Từ 60 2.3.1.1. Quan niệm về từ 60 2.3.1.2. Quan niệm về hình vị 61 2.3.1.3. Khái niệm về cấu tạo từ .61 2.3.2. Ranh giới từ .62 Chương 3 : THIẾT KẾ CÀI ĐẶT .63 3.1. Xây dựng bộ ngữ liệu dùng để đánh giá 63 3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt 63 3.1.1.1. Chuẩn hóa ngữ liệu .63 3.1.1.1.1. Chuẩn hóa dạng ngữ liệu 63 3.1.1.1.2. Định dạng ngữ liệu .64 3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt .64 3.1.3. Tách từ tiếng Việt 65 3.1.4. Xây dựng bảng đánh giá .65 3.1.4.1. Hệ thống SMART .66 3.1.4.1.1. Giới thiệu hệ thống SMART .66 3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART 66 3.1.4.1.3. Mô hình vec-tơ c ủa hệ thống SMART 67 3.1.4.1.4. Sử dụng mô hình vec-tơ 69 3.1.4.2. Hệ thống Search4Vn .73 3.1.4.3. Hệ thống TERRIER 73 3.1.4.4. Hệ thống X-IOTA .74 3.1.4.5. Hệ thống LUCENE .74 3.2. Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin 74 3.2.1. Mô tả hệ thống trợ giúp đánh giá 74 3.2.1.1. Phát biểu bài toán 74 3.2.1.2. Mục tiêu 75 3.2.1.3. Phạm vi .75 3.2.1.4. Chức năng .75 3.2.1.5. Tính khả dụng .76 3.2.1.6. Hiệu suất .76 3.2.1.7. Tính bảo mật .76 3.2.2. Phân tích hệ thống đánh giá 76 3.2.2.1. Chức năng của hệ thống 76 3.2.2.2. Chức năng yêu cầu 77 3.2.2.2.1. Chức năng đánh giá một hệ thống IR 77 3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR .77 3.2.2.2.3. Sơ đồ use case 77 3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase .79 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 8 3.3. Thiết kế hệ thống đánh giá 86 3.3.1. Các chức năng của chương trình .86 3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu” 86 3.3.1.2. Chức năng “Định dạng kết quả trả về” .86 3.3.1.3. Chức năng “Định dạng file index” .87 3.3.1.4. Chức năng “Thực thi hệ thống IR” 87 3.3.1.5. Chức năng “Xử lý kết quả trả về” 87 3.3.1.6. Chức năng ”Đánh giá một hệ thống IR” .87 3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR” 87 3.3.2. Thiết kế hệ thống .88 3.3.2.1. Sơ đồ kiến trúc tổng thể .88 3.3.2.1.1. Danh sách các lớp đối tượng .88 3.3.2.1.2. Lớp đối tượng thể hiện 88 3.3.2.1.3. Lớp đối tượng xử lý 91 3.3.2.1.4. Lớp đối tượng lưu trữ .99 3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình 99 3.3.2.2.1. Chức năng “Định dạ ng tài liệu” 99 3.3.2.2.2. Chức năng “Định dạng câu hỏi” 100 3.3.2.2.3. Chức năng “Thực thi hệ thống” 101 3.3.2.2.4. Chức năng “Định dạng kết quả” 102 3.3.2.2.5. Chức năng “Định dạng file index” 103 3.3.2.2.6. Chức năng “Đánh giá hiện thi kết quả đánh giá” 103 3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” 104 3.3.2.3. Thiết kế dữ liệu – tổ chức l ưu trữ .105 3.3.2.3.1. Mô hình dữ liệu 105 3.3.2.3.2. Sơ đồ logic dữ liệu 107 3.3.2.4. Tố chức lưu trữ dữ liệu 110 3.3.2.4.1. System 110 3.3.2.4.2. Topic 112 3.3.2.4.3. Index_topic .113 3.3.2.4.4. Document .114 3.3.2.4.5. Index_Doc 115 3.3.2.4.6. relevant_TT 115 3.3.2.4.7. relevant_LT 116 3.3.2.4.8. evaluation .117 3.3.2.5. Thiết kế giao diện 119 3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình .119 3.3.2.6. Thiết kế màn hình 122 3.3.2.6.1. Màn hình chính (TH_Main) 122 3.3.2.6.2. Màn hình định d ạng tài liệu (TH_DDTaiLieu) 122 3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) 124 3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi) 125 3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) 127 3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR 128 3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) 129 3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua) 130 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 9 3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex) .131 3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia) .133 3.3.2.6.11. Màn hình xem đồ thị của hệ thống 136 3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) .136 3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) 138 3.3.2.7. Thiết kế hệ thống lớp đối tượng .139 3.3.2.7.1. Các lớp đối tượng xử lý 139 3.3.2.7.2. Các lớp đối tượng lưu trữ 169 Chương 4 : KẾT QUẢ ĐÁNH GIÁ 171 4.1. Ngưỡng đánh giá 171 4.2. Đánh giá hệ thống tìm kiếm thông tin search4VN .171 4.3. So sánh hệ thống tìm kiếm search4VN hệ thống Lucene .177 4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thông tin 179 4.4.1. Ưu điểm .179 4.4.2. Khuyết điểm 179 Chương 5 : KẾT LUẬN 181 Chương 6 : HƯỚNG PHÁT TRIỂN 182 PHỤ LỤC .183 Tài liệu tham khảo 186 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 10 MỞ ĐẦU Tìm kiếm thông tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong bối cảnh bùng nổ thông tin như hiện nay, gồm có sự ra đời của internet sáng kiến về thư viện điện tử, nhu cầu tìm kiếm thông tin lại càng phát triển. Nhưng nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này một cách dễ dàng. Thật vậy, có rất nhiều hệ thống tìm kiếm thông tin ( Information Retrieval system hay IR system ) trên máy tính đang tồn tại để trợ giúp con người. Tuy nhiên, khả năng tìm kiếm thông tin của các hệ thống này chắc chắn khác nhau. Do đó, việc đánh giá các hệ thống tìm kiếm thông tin ( Evaluation of Information Retrieval systems) là một nhu cầu không thể thiếu nhằm xác định các hệ thống tìm kiếm thông tin hiệu quả. Việc đánh giá này có ý nghĩa rất lớn đối với sự tồn tại phát triển của các hệ thống tìm kiếm thông tin. Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ thố ng để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm thấy tin tưởng vào kết quả tìm kiếmhệ thống tìm được. Xa hơn nữa, việc đánh giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm kiếm thông tin vào trong thế giới thực của đời sống. Chẳng hạn, khi các hệ thống tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, những đại diện bán hàng của các sản phẩm thông tin mới như sách điện tử, các phương tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho những người sử d ụng người mua hàng tiềm năng các lợi thế cạnh tranh hay không, sẽ được thỏa mãn nhu cầu thông tin này một cách dễ dàng, chính xác. Khả năng tìm kiếm của hệ thống tìm kiếm thông tin chúng tôi vừa đề cập được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm kiếm không gian lưu trữ hay còn gọi là hiệu năng; thứ hai là về khả năng tìm [...]... hướng hệ thống trong nghiên cứu tìm kiếm thông tin Mô hình này mô hình đánh giá được sử dụng nhiều nhất hiệu quả nhất trên thế giới để xây dựng hệ thống đánh giá các hệ thống tìm kiếm thông tin tiếng Việt theo mô hình hướng hệ thống, trước hết, chúng tôi cần phải xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt (a Vietnamese Test collection) Bộ ngữ liệu dùng để đánh giá gồm có kho ngữ liệu. .. giới về Tìm kiếm Thông tin Tiếp theo, chúng tôi xây dựng chương trình trợ giúp đánh giá các hệ thống tìm kiếm thông tin, cho phép người dùng thao tác, thực hiện đánh giá các hệ thống một cách dễ dàng Kết quả trả về của chương trình đánh giá có được dựa vào bộ ngữ liệu mẫu được dùng đánh giá Kết quả trả về này gồm có kết quả truy vấn của hệ thống tìm kiếm thông tin kết quả đánh giá Kết quả đánh giá được... nghiên cứu đánh giá này, chúng tôi đã quyết định chọn đề tài đánh giá các hệ thống tìm kiếm thông tin Chúng tôi nghĩ rằng hệ thống đánh giá của chúng tôi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm thông tin, nhất là hệ thống tìm kiếm thông tin tiếng Việt Chúng tôi cũng hy vọng hệ thống của chúng tôi sẽ góp phần vào sự phát triển của các hệ thống tìm kiếm thông tin, của tìm kiếm thông tin của... chính của hệ thống tìm kiếm thông tintìm kiếm các thông tin hữu ích hay liên quan cho người sử dụng Trang 13 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Vậy có thể nói một cách tổng quát, hệ thống tìm kiếm thông tin là một hệ thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thông tin từ một kho ngữ liệu lớn Để tìm kiếm thông tin, hệ thống tìm kiếm phải thực hiện các công... biết, chưa có một hệ thống nào được dùng để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt Nhưng theo xu hướng phát triển của đất nước nhu cầu tìm kiếm thông tin thì các hệ thống tìm kiếm thông tin tiếng Việt bắt buộc phải tồn tại phát triển Vì vậy, Việt Nam chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các hệ thống tìm kiếm thông tin tiếng Việt Do ý nghĩa to... với cách biểu diễn đồ thị của các điểm bao phủ, chính xác từ đó dễ dàng thấy hiệu quả tìm kiếm của riêng từng hệ thống so sánh các hệ thống đánh giá với nhau 1.2.5 Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá Theo mô hình hướng hệ thống, trước hết phải xây dựng bộ ngữ liệu dùng để đánh giá (test collection) Bộ ngữ liệu dùng để đánh giá gồm có tập các tài liệu mẫu, tập câu truy vấn mẫu, và. .. với tiếng Việt, việc xây dựng bộ ngữ liệu đánh giá phức tạp hơn là xây dựng bộ ngữ liệu tiếng Anh, tiếng Pháp trong trường hợp dùng các hệ thống tìm kiếm phổ biến, nổi tiếng sẵn có cho tiếng Anh, Pháp để tìm kiếm thông tin tiếng Việt Bởi vì đặc thù loại hình ngôn ngữ khác nhau giữa tiếng Anh, Pháp tiếng Việt Chẳng hạn, trong tiếng Anh, Pháp mỗi từ là một từ đơn, cách nhau bởi Trang 20 Luận văn : Đánh. .. trình bày Trong phạm vi đề tài, chúng tôi chỉ giới hạn tìm kiếm thông tin trên văn bản 2.1.2 Hệ thống tìm kiếm thông tin 2.1.2.1 Khái niệm về hệ thống tìm kiếm thông tin Theo lý thuyết, hệ thống tìm kiếm thông tin là một hệ thống thông tin Nó được sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, phổ biến các yếu tố thông tin đến người sử dụng Hệ thống tìm kiếm thông tin thường thao tác với các dữ liệu. .. đo: độ bao phủ (Recall) độ chính xác (Precision) Từ kết quả trả về, chúng ta có thể biết được khả năng tìm kiếm của riêng từng hệ thống tìm kiếm thông tin so sánh khả năng của các hệ thống tìm kiếm với nhau Trang 12 Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Chương 1 : TỔNG QUAN 1.1 Tổng quan về tìm kiếm thông tin hệ thống tìm kiếm thông tin Tìm kiếm thông tin liên quan đến việc biểu...Luận văn : Đánh giá các hệ thống tìm kiếm thông tin kiếm hay hiệu quả của kết quả trả về; thứ ba là khả năng về hệ thống tức hệ thống có thỏa mãn nhu cầu thông tin của người dùng hay không Hiện nay, trên thế giới đã có rất nhiều hệ thống đánh giá các hệ thống tìm kiếm thông tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thông tin tiếng Anh, tiếng Pháp Đối với tiếng Việt, theo chúng tôi . bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây. đề tài luận văn Xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thố ng tìm kiếm thông tin . Chúng em

Ngày đăng: 12/04/2013, 14:30

Hình ảnh liên quan

Hình 1. - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

Hình 1..

Xem tại trang 26 của tài liệu.
Hình 2. - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

Hình 2..

Xem tại trang 28 của tài liệu.
Bảng dưới đây biểu diễn sự khác biệt giữa các hệ thống tìm kiếm thông tin cổ điển (IR cổđiển) và các hệ thống tìm kiếm thông tin Web (Web IR) - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

Bảng d.

ưới đây biểu diễn sự khác biệt giữa các hệ thống tìm kiếm thông tin cổ điển (IR cổđiển) và các hệ thống tìm kiếm thông tin Web (Web IR) Xem tại trang 29 của tài liệu.
Ta có bảng nội suy các giá trị P cho câu hỏi thứ k như sau: N Doc  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

a.

có bảng nội suy các giá trị P cho câu hỏi thứ k như sau: N Doc Xem tại trang 46 của tài liệu.
Nhìn bảng giá trị trên, ta thấy tại giá trị R=0.6 có 2 giá trị P (P=0.75 và P=0.6) và ng ược lại tại giá trị P=1.0 có 2 giá trị R (R=0.2, R=0.4)  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

h.

ìn bảng giá trị trên, ta thấy tại giá trị R=0.6 có 2 giá trị P (P=0.75 và P=0.6) và ng ược lại tại giá trị P=1.0 có 2 giá trị R (R=0.2, R=0.4) Xem tại trang 46 của tài liệu.
-L ần lượt tính bảng giá trị RP nội suy như trên (tính P dựa trên 11 điểm chu ẩn của R)  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

n.

lượt tính bảng giá trị RP nội suy như trên (tính P dựa trên 11 điểm chu ẩn của R) Xem tại trang 47 của tài liệu.
2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

2.2.3.3.4..

Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị Xem tại trang 48 của tài liệu.
Phương pháp đánh giá hệ thống dựa vào bảng giá trị RP nội suy không - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

h.

ương pháp đánh giá hệ thống dựa vào bảng giá trị RP nội suy không Xem tại trang 48 của tài liệu.
bảng đánh giá độ liên quan của mỗi tài liệu với mỗi chủ đề - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

b.

ảng đánh giá độ liên quan của mỗi tài liệu với mỗi chủ đề Xem tại trang 49 của tài liệu.
Từ màn hình chính, chúng ta có th ể thực thi tất cả  các  ch ức năng của  chương trình  2 TH_DDTaiLieu  Đị nh d ạ ng tài li ệ u  T ấ t c ả  tài li ệ u c ủ a ch ươ ng  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

m.

àn hình chính, chúng ta có th ể thực thi tất cả các ch ức năng của chương trình 2 TH_DDTaiLieu Đị nh d ạ ng tài li ệ u T ấ t c ả tài li ệ u c ủ a ch ươ ng Xem tại trang 88 của tài liệu.
Tại màn hình xem kết quả đ ánh giá (TH_Kq_DanhGia),  khi mu ốn xem chi tiết sự  liên  quan c ủa một tài liệu cụ thể - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

i.

màn hình xem kết quả đ ánh giá (TH_Kq_DanhGia), khi mu ốn xem chi tiết sự liên quan c ủa một tài liệu cụ thể Xem tại trang 91 của tài liệu.
Để thực hiện việc kiểm tra chương trình có sẵn bảng liên quan của tập dữ - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

th.

ực hiện việc kiểm tra chương trình có sẵn bảng liên quan của tập dữ Xem tại trang 106 của tài liệu.
Từ màn hình chính chọn: -Th ực thi hệ thống IR:  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

m.

àn hình chính chọn: -Th ực thi hệ thống IR: Xem tại trang 120 của tài liệu.
Từ màn hình chính chọn: - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

m.

àn hình chính chọn: Xem tại trang 121 của tài liệu.
3.3.2.6. Thiết kế màn hình - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6..

Thiết kế màn hình Xem tại trang 122 của tài liệu.
Tiếp tục Đóng màn hìnhDOCMENT - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

i.

ếp tục Đóng màn hìnhDOCMENT Xem tại trang 124 của tài liệu.
3 btnXoa Button Xoá một dòng của bảng tblThuocTinh  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.

btnXoa Button Xoá một dòng của bảng tblThuocTinh Xem tại trang 125 của tài liệu.
5 btnThem Button Thêm một dòng của bảng tblCauHoi 6 btnXoa Button  Xoá m ột dòng của bảng tblCauHoi  7 btnTiepTuc  Button  N ếu là file text không có khái ni ệ m  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

5.

btnThem Button Thêm một dòng của bảng tblCauHoi 6 btnXoa Button Xoá m ột dòng của bảng tblCauHoi 7 btnTiepTuc Button N ếu là file text không có khái ni ệ m Xem tại trang 126 của tài liệu.
3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) Ký hiệu: fraTTCauHoi  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6.5..

Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) Ký hiệu: fraTTCauHoi Xem tại trang 127 của tài liệu.
6 btnDong Button Đóng màn hình - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

6.

btnDong Button Đóng màn hình Xem tại trang 128 của tài liệu.
3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) Ký hiệu: fraThucThiHT  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6.7..

Màn hình thực thi hệ thống (TH_ThucThiHT) Ký hiệu: fraThucThiHT Xem tại trang 129 của tài liệu.
3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua) Ky hiệu: fraDDKetQua  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6.8..

Màn hình định dạng kết quả (TH_DDKetQua) Ky hiệu: fraDDKetQua Xem tại trang 130 của tài liệu.
3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia) Ký hiệu: fraKq_DanhGia  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6.10..

Màn hình đánh giá hệ thống (TH_KqDanhGia) Ký hiệu: fraKq_DanhGia Xem tại trang 133 của tài liệu.
17 btnDong Button Đóng màn hình - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

17.

btnDong Button Đóng màn hình Xem tại trang 136 của tài liệu.
Đóng màn hìnhCâu hỏi:   …. - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

ng.

màn hìnhCâu hỏi: … Xem tại trang 137 của tài liệu.
3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) Ký hiệu: fraSoSanhHT  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

3.3.2.6.13..

Màn hình so sánh hệ thống (TH_SoSanhHT) Ký hiệu: fraSoSanhHT Xem tại trang 138 của tài liệu.
Mỗi bảng liên quan thực tế của hệ thống sẽ được lưu thành 1 file riêng bi ệt có tên là “rel_” + sysID + “.xml”  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

i.

bảng liên quan thực tế của hệ thống sẽ được lưu thành 1 file riêng bi ệt có tên là “rel_” + sysID + “.xml” Xem tại trang 157 của tài liệu.
Mỗi bảng liên quan thực tế của hệ thống sẽ được lưu thành 1 file riêng bi ệt có tên là “rel_” + sysID + “.xml”  - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

i.

bảng liên quan thực tế của hệ thống sẽ được lưu thành 1 file riêng bi ệt có tên là “rel_” + sysID + “.xml” Xem tại trang 165 của tài liệu.
Để thực hiện đánh giá hệ thống tìm kiếm thông tin chương trình xây dựng bảng - xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin

th.

ực hiện đánh giá hệ thống tìm kiếm thông tin chương trình xây dựng bảng Xem tại trang 171 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan