Đồ án tốt nghiệp xây DỰNG bộ NGỮ LIỆU để ĐÁNH GIÁ BẰNG TIẾNG VIỆT và CHƯƠNG TRÌNH TRỢ

203 793 0
Đồ án tốt nghiệp xây DỰNG bộ NGỮ LIỆU để ĐÁNH GIÁ BẰNG TIẾNG VIỆT và CHƯƠNG TRÌNH TRỢ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN TSÀN QUẾ HƯƠNG – 0112385 VÕ HỒ BẢO KHANH – 0112387 XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN T.S HỒ BẢO QUỐC NIÊN KHÓA 2001 - 2005 Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nhận của GVPB Luận văn : Đánh giá các hệ thống tìm kiếm thông tin Trang 2 Thông tin chung về đề tài: ĐỀ CƯƠNG CHI TIẾT Tên đề tài: Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin GVHD: Tiến sĩ Hồ Bảo Quốc Sinh viên thực hiện: 1. MSSV: 0112385 Họ và tên: Tsàn Quế Hương 2. MSSV: 0112387 Họ và tên: Võ Hồ Bảo Khanh Tóm tắt nội dung luận văn: Đề tài gồm 2 phần : 1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng Việt _ Xây dựng một bảng đánh giá bằng thủ công 2. Xây dựng một hệ thống chương trình trợ giúp việc đánh giá các hệ thống tìm kiếm thông tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm thông tin ; các thành phần đầu ra : kết quả truy vấn, kết quả đánh giá, nội dung tập tài liệu, câu truy vấn Một số từ khóa chính liên quan đến nội dung đề tài: Đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) Lĩnh vực áp dụng: Đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài _ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation) _ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text REtrieval Conference) _ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier… _ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt _ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux, chương trình viết bằng ngôn ngữ Java Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài Borland Jbuider X Visual Studio . NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point Xác nhận của GVHD Lời cám ơn   Chúng em xin chân thành cảm ơn các Thầy Cô Khoa Công nghệ Thông tin đã hướng dẫn và giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em. Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hội cho chúng em được nghiên cứu học hỏi về lĩnh vực tìm kiếm thông tin bằng Tiếng Việt, một lĩnh vực tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thống tìm kiếm thông tin”. Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ chúng em để hoàn thành tốt đề tài luận văn này. Nhóm sinh viên thực hiện Tsàn Quế Hương – Võ Hồ Bảo Khanh MỤC LỤC M Ở ĐẦ U 10 Ch ươ ng 1 : T Ổ NG QUAN 13 1.1. T ổ ng quan v ề tìm ki ế m thông tin và h ệ th ố ng tìm ki ế m thông tin 13 1.2. T ổ ng quan v ề đ ánh giá các h ệ th ố ng tìm ki ế m thông tin 14 1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin 14 1.2.2. Các tiêu chu ẩ n đượ c dùng để đ ánh giá 15 1.2.3. Các mô hình đ ánh giá 15 1.2.4. Các độ đ o dùng để đ ánh giá 18 1.2.5. Các ph ươ ng pháp xây d ự ng b ộ ng ữ li ệ u dùng để đ ánh giá 18 1.2.6. Ph ươ ng pháp xây d ự ng b ộ ng ữ li ệ u đượ c ch ọ n 20 1.2.7. Ph ươ ng pháp đ ánh giá t ầ m quan tr ọ ng c ủ a k ế t qu ả tr ả v ề 21 Ch ươ ng 2 : C Ơ S Ở LÝ THUY Ế T 22 2.1. Tìm ki ế m thông tin và các h ệ th ố ng tìm ki ế m thông tin 22 2.1.1. L ị ch s ử tìm ki ế m thông tin và h ệ th ố ng tìm ki ế m thông tin 22 2.1.2. H ệ th ố ng tìm ki ế m thông tin 25 2.1.2.1. Khái ni ệ m v ề h ệ th ố ng tìm ki ế m thông tin 25 2.1.2.2. Cách th ứ c ho ạ t độ ng c ủ a h ệ th ố ng tìm ki ế m thông tin 25 2.1.2.3. Các ph ươ ng ti ệ n tìm ki ế m thông tin (Search Engines) 27 2.1.3. So sánh tìm ki ế m thông tin c ổ đ i ể n và tìm ki ế m thông tin trên Web 29 2.1.4. So sánh tìm ki ế m thông tin v ớ i tìm ki ế m d ữ li ệ u 30 2.1.5. Công th ứ c tr ừ u t ượ ng trong tìm ki ế m thông tin 31 2.1.6. Các mô hình tìm ki ế m thông tin c ổ đ i ể n để s ắ p th ứ t ự liên quan 32 2.1.6.1. Mô hình Đạ i s ố Bool 32 2.1.6.2. Mô hình không gian vec-t ơ 33 2.2. Đ ánh giá các h ệ th ố ng tìm ki ế m thông tin 36 2.2.1. N ề n t ả ng đ ánh giá các h ệ th ố ng tìm ki ế m thông tin 36 2.2.2. Mô hình đ ánh giá h ướ ng h ệ th ố ng 37 2.2.2.1. T ừ Cranfield đế n TREC 37 2.2.2.2. Th ủ t ụ c đ ánh giá 39 2.2.2.3. Đ ánh giá s ự liên quan 40 2.2.3. Th ự c hi ệ n đ o kh ả n ă ng tìm ki ế m 41 2.2.3.1. Các khái ni ệ m v ề độ đ o và liên quan 41 2.2.3.2. Cách tính độ bao ph ủ (R) và độ chính xác (P) 42 2.2.3.3. hương pháp tính độ chính xác dựa trên 11 điểm chuẩn của độ bao phủ 44 2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm 44 2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP 45 2.2.3.3.3. Đường cong RP cho tập truy vấn 47 2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị 48 2.2.3.4. ự liên quan gi ữ a câu h ỏ i và tài li ệ u 49 2.2.3.4.1. Các độ liên quan 49 2.2.3.4.2. Các vấn đề về độ liên quan 49 2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ 51 2.2.3.4.4. Phương pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên quan nhiều cấp độ 53 2.2.4. TREC và đ ánh giá theo chu ẩ n TREC 54 2.2.4.1. TREC là gì? 54 2.2.4.2. Cách xây d ự ng ng ữ li ệ u c ủ a TREC 56 2.2.4.2.1. Xây dựng tập hợp các tài liệu 57 2.2.4.2.2. Xây dựng các chủ đề 57 2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn 58 2.3. Ng ữ li ệ u ti ế ng Vi ệ t 59 2.3.1. T ừ 60 2.3.1.1. Quan ni ệ m v ề t ừ 60 2.3.1.2. Quan ni ệ m v ề hình v ị 61 2.3.1.3. Khái ni ệ m v ề c ấ u t ạ o t ừ 61 2.3.2. Ranh gi ớ i t ừ 62 Ch ươ ng 3 : THI Ế T K Ế VÀ CÀI ĐẶ T 63 3.1. Xây d ự ng b ộ ng ữ li ệ u dùng để đ ánh giá 63 3.1.1. Xây d ự ng kho ng ữ li ệ u b ằ ng ti ế ng Vi ệ t 63 3.1.1.1. Chu ẩ n hóa ng ữ li ệ u 63 3.1.1.1.1. Chuẩn hóa dạng ngữ liệu 63 3.1.1.1.2. Định dạng ngữ liệu 64 3.1.2. Xây d ự ng t ậ p câu h ỏ i b ằ ng ti ế ng Vi ệ t 64 3.1.3. Tách t ừ ti ế ng Vi ệ t 65 3.1.4. Xây d ự ng b ả ng đ ánh giá 65 3.1.4.1. H ệ th ố ng SMART 66 3.1.4.1.1. Giới thiệu hệ thống SMART 66 3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART 66 3.1.4.1.3. Mô hình vec-tơ của hệ thống SMART 67 3.1.4.1.4. Sử dụng mô hình vec-tơ 69 3.1.4.2. H ệ th ố ng Search4Vn 73 3.1.4.3. H ệ th ố ng TERRIER 73 3.1.4.4. H ệ th ố ng X-IOTA 74 3.1.4.5. H ệ th ố ng LUCENE 74 3.2. hân tích h ệ th ố ng đ ánh giá các h ệ th ố ng tìm ki ế m thông tin 74 3.2.1. Mô t ả h ệ th ố ng tr ợ giúp đ ánh giá 74 3.2.1.1. hát bi ể u bài toán 74 3.2.1.2. M ụ c tiêu 75 3.2.1.3. h ạ m vi 75 3.2.1.4. Ch ứ c n ă ng 75 3.2.1.5. Tính kh ả d ụ ng 76 3.2.1.6. Hi ệ u su ấ t 76 3.2.1.7. Tính b ả o m ậ t 76 3.2.2. Phân tích h ệ th ố ng đ ánh giá 76 3.2.2.1. Ch ứ c n ă ng c ủ a h ệ th ố ng 76 3.2.2.2. Ch ứ c n ă ng yêu c ầ u 77 3.2.2.2.1. Chức năng đánh giá một hệ thống IR 77 3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR 77 3.2.2.2.3. Sơ đồ use case 77 3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase 79 3.3. Thi ế t k ế h ệ th ố ng đ ánh giá 86 3.3.1. Các ch ứ c n ă ng c ủ a ch ươ ng trình 86 3.3.1.1. Ch ứ c n ă ng “ Đị nh d ạ ng c ơ s ở d ữ li ệ u tài li ệ u” 86 3.3.1.2. Ch ứ c n ă ng “ Đị nh d ạ ng k ế t qu ả tr ả v ề ” 86 3.3.1.3. Ch ứ c n ă ng “ Đị nh d ạ ng file index” 87 3.3.1.4. Ch ứ c n ă ng “Th ự c thi h ệ th ố ng IR” 87 3.3.1.5. Ch ứ c n ă ng “X ử lý k ế t qu ả tr ả v ề ” 87 3.3.1.6. Ch ứ c n ă ng ” Đ ánh giá m ộ t h ệ th ố ng IR” 87 3.3.1.7. Ch ứ c n ă ng “ Đ ánh giá nhi ề u h ệ th ố ng IR” 87 3.3.2. Thi ế t k ế h ệ th ố ng 88 3.3.2.1. ơ đồ ki ế n trúc t ổ ng th ể 88 3.3.2.1.1. Danh sách các l ớ p đối tượng 88 3.3.2.1.2. Lớp đối tượng thể hiện 88 3.3.2.1.3. Lớp đối tượng xử lý 91 3.3.2.1.4. Lớp đối tượng lưu trữ 99 3.3.2.2. ơ đồ ki ế n trúc t ổ ng quát cho t ừ ng ch ứ c n ă ng c ủ a ch ươ ng trình 99 3.3.2.2.1. Chức năng “Định dạng tài liệu” 99 3.3.2.2.2. Chức năng “Định dạng câu hỏi” 100 3.3.2.2.3. Chức năng “Thực thi hệ thống” 101 3.3.2.2.4. Chức năng “Định dạng kết quả” 102 3.3.2.2.5. Chức năng “Định dạng file index” 103 3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” 103 3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” 104 3.3.2.3. Thi ế t k ế d ữ li ệ u – t ổ ch ứ c l ư u tr ữ 105 3.3.2.3.1. Mô hình dữ liệu 105 3.3.2.3.2. Sơ đồ logic dữ liệu 107 3.3.2.4. T ố ch ứ c l ư u tr ữ d ữ li ệ u 110 3.3.2.4.1. System 110 3.3.2.4.2. Topic 112 3.3.2.4.3. Index_topic 113 3.3.2.4.4. Document 114 3.3.2.4.5. Index_Doc 115 3.3.2.4.6. relevant_TT 115 3.3.2.4.7. relevant_LT 116 3.3.2.4.8. evaluation 117 3.3.2.5. Thi ế t k ế giao di ệ n 119 3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình 119 3.3.2.6. Thi ế t k ế màn hình 122 3.3.2.6.1. Màn hình chính (TH_Main) 122 3.3.2.6.2. Màn hình định dạng tài liệu (TH_DDTaiLieu) 122 3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) 124 3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi) 125 3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi) 127 3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR 128 3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT) 129 3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua) 130 3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex) 131 3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia) 133 3.3.2.6.11. Màn hình xem đồ thị của hệ thống 136 3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) 136 3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT) 138 3.3.2.7. Thi ế t k ế h ệ th ố ng l ớ p đố i t ượ ng 139 3.3.2.7.1. Các lớp đối tượng xử lý 139 3.3.2.7.2. Các lớp đối tượng l ư u trữ 169 Ch ươ ng 4 : K Ế T QU Ả Đ ÁNH GIÁ 171 4.1. Ng ưỡ ng đ ánh giá 171 4.2. Đ ánh giá h ệ th ố ng tìm ki ế m thông tin search4VN 171 4.3. So sánh h ệ th ố ng tìm ki ế m search4VN và h ệ th ố ng Lucene 177 4.4. Nh ậ n xét ch ươ ng trình h ỗ tr ợ đ ánh giá h ệ th ố ng tìm ki ế m thông tin 179 4.4.1. Ư u đ i ể m 179 4.4.2. Khuy ế t đ i ể m 179 Ch ươ ng 5 : K Ế T LU Ậ N 181 Ch ươ ng 6 : H ƯỚ NG PHÁT TRI Ể N 182 PH Ụ L Ụ C 183 Tài li ệ u tham kh ả o 186 MỞ ĐẦU Tìm kiếm thông tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong bối cảnh bùng nổ thông tin như hiện nay, gồm có sự ra đời của internet và sáng kiến về thư viện điện tử, nhu cầu tìm kiếm thông tin lại càng phát triển. Nhưng nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này một cách dễ dàng. Thật vậy, có rất nhiều hệ thống tìm kiếm thông tin (Information Retrieval system hay IR system) trên máy tính đang tồn tại để trợ giúp con người. Tuy nhiên, khả năng tìm kiếm thông tin của các hệ thống này chắc chắn khác nhau. Do đó, việc đánh giá các hệ thống tìm kiếm thông tin (Evaluation of Information Retrieval systems) là một nhu cầu không thể thiếu nhằm xác định các hệ thống tìm kiếm thông tin hiệu quả. Việc đánh giá này có ý nghĩa rất lớn đối với sự tồn tại và phát triển của các hệ thống tìm kiếm thông tin. Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ thống để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm kiếm thông tin vào trong thế giới thực của đời sống. Chẳng hạn, khi các hệ thống tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại diện bán hàng của các sản phẩm thông tin mới như sách điện tử, và các phương tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho những người sử dụng và người mua hàng tiềm năng các lợi thế cạnh tranh hay không, sẽ được thỏa mãn nhu cầu thông tin này một cách dễ dàng, chính xác. Khả năng tìm kiếm của hệ thống tìm kiếm thông tin chúng tôi vừa đề cập được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm kiếm và không gian lưu trữ hay còn gọi là hiệu năng; thứ hai là về khả năng tìm [...]... dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt (a Vietnamese Test collection) Bộ ngữ liệu dùng để đánh giá gồm có kho ngữ liệu mẫu bằng tiếng Việt (a Vietnamese Corpus hay a set of Vietnamese documents), tập câu truy vấn mẫu bằng tiếng Việt (a set of Vietnamese queries), và bảng đánh giá liên quan chuẩn (Relevance Judgment) Chúng tôi tìm hiểu và thực hiện xây dựng bộ ngữ liệu dùng để đánh giá theo... để đánh giá Theo mô hình hướng hệ thống, trước hết phải xây dựng bộ ngữ liệu dùng để đánh giá (test collection) Bộ ngữ liệu dùng để đánh giá gồm có tập các tài liệu mẫu, tập câu truy vấn mẫu, và bảng đánh giá liên quan chuẩn • Tập tài liệu dùng để đánh giá được thu thập từ các nguồn khác nhau, gồm nhiều chủ đề khác nhau Tập tài liệu này phải là những tài liệu mẫu bao quát càng nhiều lĩnh vực càng tốt, ... hệ thống 1.2.3 Các mô hình đánh giá Theo chúng tôi được biết, trên thế giới có tất cả bốn mô hình đánh giá các hệ thống tìm kiếm thông tin Chúng bao gồm : đánh giá hộp kính, đánh giá hộp đen, đánh giá hướng hệ thống, đánh giá hướng người dùng hay còn gọi là đánh giá 2 nghiên cứu người dùng [ ] Đánh giá hộp kính (glass box evaluation) : đánh giá hệ thống dựa trên việc đánh giá tất cả mọi thành phần của... tin Tiếp theo, chúng tôi xây dựng chương trình trợ giúp đánh giá các hệ thống tìm kiếm thông tin, cho phép người dùng thao tác, thực hiện đánh giá các hệ thống một cách dễ dàng Kết quả trả về của chương trình đánh giá có được dựa vào bộ ngữ liệu mẫu được dùng đánh giá Kết quả trả về này gồm có kết quả truy vấn của hệ thống tìm kiếm thông tin và kết quả đánh giá Kết quả đánh giá được tính dựa trên sự... đánh giá khách quan mà nó mang lại và không phải tốn nhiều thời gian, chi phí Tuy nhiên, đối với tiếng Việt, việc xây dựng bộ ngữ liệu đánh giá phức tạp hơn là xây dựng bộ ngữ liệu tiếng Anh, tiếng Pháp trong trường hợp dùng các hệ thống tìm kiếm phổ biến, nổi tiếng sẵn có cho tiếng Anh, Pháp để tìm kiếm thông tin tiếng Việt Bởi vì đặc thù loại hình ngôn ngữ khác nhau giữa tiếng Anh, Pháp và tiếng Việt. .. tìm kiếm, đánh giá Tăng cường thêm bằng cách xem lại, điều chỉnh, đánh giá lại Nói chung, khi sử dụng phương pháp này, người đánh giá phải thao tác bằng tay rất nhiều, xem các tài liệu trả về có thật sự là liên quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn  Các đánh giá dựa trên những thành phần đã biết, phương pháp này tốn ít chi phí nhất Phương pháp này cho phép thay đổi câu hỏi để tìm ra... thống, chúng ta tiến hành đánh giá các thành phần đó Đánh giá hộp đen (black box evaluation) : đánh giá hệ thống bằng cách xem hệ thống như là một thực thể hợp nhất, không đánh giá chính xác các thành phần bên trong hệ thống Đánh giá hướng hệ thống (system-oriented evaluation) là xu hướng đánh giá chính từ khi các hệ thống tìm kiếm và lập chỉ mục tự động được phát triển vào những năm 1960 Một trong... phải tồn tại và phát triển Vì vậy, Việt Nam chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các hệ thống tìm kiếm thông tin tiếng Việt Do ý nghĩa to lớn của lĩnh vực nghiên cứu đánh giá này, chúng tôi đã quyết định chọn đề tài đánh giá các hệ thống tìm kiếm thông tin Chúng tôi nghĩ rằng hệ thống đánh giá của chúng tôi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm thông... ngữ liệu rất rõ ràng, và dễ tuân theo Vì vậy, chúng tôi quyết định chọn phương pháp xây dựng ngữ liệu theo tiêu chuẩn và cách làm của TREC Chúng tôi định dạng câu hỏi và tài liệu theo tiêu chuẩn định dạng mà TREC đưa ra, đồng thời làm bảng đánh giá liên quan chuẩn theo phương pháp Pooling hay phương pháp lấy một số tài liệu liên quan nhất để làm bảng Đánh giá liên quan giống TREC vì cách tạo bảng đánh. .. đánh giá các hệ thống tìm kiếm thông tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thông tin tiếng Anh, tiếng Pháp Đối với tiếng Việt, theo chúng tôi được biết, chưa có một hệ thống nào được dùng để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt Nhưng theo xu hướng phát triển của đất nước và nhu cầu tìm kiếm thông tin thì các hệ thống tìm kiếm thông tin tiếng Việt bắt buộc phải tồn tại và . : 1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây dựng bộ ngữ liệu gồm ba phần : _ Xây dựng ngữ liệu mẫu tiếng Việt _ Xây dựng tập câu truy vấn mẫu tiếng. hết, chúng tôi cần phải xây dựng bộ ngữ liệu dùng để đánh giá bằng tiếng Việt (a Vietnamese Test collection). Bộ ngữ liệu dùng để đánh giá gồm có kho ngữ liệu mẫu bằng tiếng Việt (a Vietnamese Corpus. thống đánh giá với nhau. 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá Theo mô hình hướng hệ thống, trước hết phải xây dựng bộ ngữ liệu dùng để đánh giá (test collection). Bộ ngữ liệu

Ngày đăng: 15/08/2014, 16:24

Từ khóa liên quan

Mục lục

  • TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN

  • KHÓA LUẬN CỬ NHÂN TIN HỌC GIÁO VIÊN HƯỚNG DẪN

    • T.S HỒ BẢO QUỐC

    • Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN

    • ĐỀ CƯƠNG CHI TIẾT

      • Nhóm sinh viên thực hiện

      • MỞ ĐẦU

      • Chương 1 : TỔNG QUAN

        • 1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin

        • 1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin

        • 1.2.2. Các tiêu chuẩn được dùng để đánh giá

        • 1.2.3. Các mô hình đánh giá

        • 1.2.4. Các độ đo dùng để đánh giá

        • 1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá

        • 1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn

        • 1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về

        • Chương 2 : CƠ SỞ LÝ THUYẾT

          • 2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin

          • 2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin

          • 2.1.2. Hệ thống tìm kiếm thông tin

          • 2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin

          • 2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thông tin

          • 2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines)

          • 2.1.3. So sánh tìm kiếm thông tin cổ điển và tìm kiếm thông tin trên Web

Tài liệu cùng người dùng

Tài liệu liên quan