Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

187 431 1
Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN B MÔN H TH NG THÔNG TIN TSÀN QU H NG – 0112385 VÕ H B O KHANH – 0112387 XÂY D NG B NG LI U ÁNH GIÁ B NG TI NG VI T VÀ CH NG TRÌNH TR GIÚP ÁNH GIÁ CÁC H TÌM KI M THƠNG TIN KHĨA LU N C NHÂN TIN H C GIÁO VIÊN H T.S H NG D N B O QU C NIÊN KHÓA 2001 - 2005 Lu n v n : ánh giá h th ng tìm ki m thơng tin Ý KI N C A GIÁO VIÊN PH N BI N ……………………………………………………………………………………… ….………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… Xác nh n c a GVPB Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin C NG CHI TI T Thông tin chung v tài: Tên tài: Xây d ng b ng li u ánh giá (test collection) b ng ti ng Vi t ch trình tr giúp ánh giá h tìm ki m thông tin ng GVHD: Ti n s H B o Qu c Sinh viên th c hi n: MSSV: 0112385 H tên: Tsàn Qu H ng MSSV: 0112387 H tên: Võ H B o Khanh Tóm t t n i dung lu n v n: tài g m ph n : Xây d ng b ng li u ánh giá h th ng tìm ki m thơng tin ti ng Vi t Vi c xây d ng b ng li u g m ba ph n : _ Xây d ng ng li u m u ti ng Vi t _ Xây d ng t p câu truy v n m u ti ng Vi t _ Xây d ng m t b ng ánh giá b ng th công 2.Xây d ng m t h th ng ch ng trình tr giúp vi c ánh giá h th ng tìm ki m thơng tin v i thành ph n u vào : ng li u m u, câu truy v n m u, h th ng tìm ki m thông tin ; thành ph n u : k t qu truy v n, k t qu ánh giá, n i dung t p tài li u, câu truy v n M t s t khóa liên quan n n i dung tài: ánh giá h th ng tìm ki m thơng tin (information retrieval systems evaluation) L nh v c áp d ng: ánh giá h th ng tìm ki m thơng tin ti ng Vi t Các thu t toán, ph ng pháp, quy trình c nghiên c u, ng d ng tài _ Tìm hi u v tìm ki m thông tin (information retrieval), ánh giá h th ng tìm ki m thơng tin (information retrieval systems evaluation) _ Tìm hi u c u trúc c a b ng li u, ph ng pháp xây d ng b ng li u c a TREC (Text REtrieval Conference) _ Tìm hi u s d ng h th ng tìm ki m : SMART, IOTA ,Lucene,Terrier… _ Xây d ng b ng li u ki m tra b ng ti ng Vi t Trang Lu n v n : ánh giá h th ng tìm ki m thông tin _ Xây d ng m t h ch ng trình ph c v vi c ki m tra ánh giá h th ng tìm ki m thơng tin Ch ng trình ph i ch y c hai h i u hành : Windows Linux, ch ng trình vi t b ng ngơn ng Java Các cơng c , cơng ngh Borland Jbuider X Visual Studio NET Microsoft Visio 2003 Rational Rose Microsoft Word, Power Point c nghiên c u, ng d ng tài Xác nh n c a GVHD Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin L i cám n Chúng em xin chân thành c m n Th y Cô Khoa Công ngh Thông tin ã h Tr ng d n gi ng d y r t nhi t tình cho chúng em su t b n n m h c ng i h c Khoa h c T nhiên Nh ng ki n th c mà chúng em ã h c gi ng ng s hành trang quý báu b c ng c i c a chúng em Chúng em xin c m n Th y H B o Qu c ã t o c h i cho chúng em c nghiên c u h c h i v l nh v c tìm ki m thơng tin b ng Ti ng Vi t, m t l nh v c t ng i m i h p d n Th y ã t n tình h Vi t Nam M t l n n a chúng em xin c m n Th y ng d n chúng em ánh giá b ng ti ng Vi t ch tài lu n v n “Xây d ng b ng li u dùng ng trình tr giúp ánh giá h th ng tìm ki m thơng tin” Chúng em xin c m n gia ình, anh ch , b n bè ã chúng em hoàn thành t t ng viên, giúp tài lu n v n Nhóm sinh viên th c hi n Tsàn Qu H Trang ng – Võ H B o Khanh Lu n v n : ánh giá h th ng tìm ki m thông tin M CL C M Ch U 10 ng : T NG QUAN 13 1.1 T ng quan v tìm ki m thơng tin h th ng tìm ki m thơng tin 13 1.2 T ng quan v ánh giá h th ng tìm ki m thơng tin 14 1.2.1 Lý ti n hành ánh giá h th ng tìm ki m thông tin 14 1.2.2 Các tiêu chu n c dùng ánh giá 15 1.2.3 Các mơ hình ánh giá 15 1.2.4 Các o dùng ánh giá 18 1.2.5 Các ph ng pháp xây d ng b ng li u dùng ánh giá 18 1.2.6 Ph ng pháp xây d ng b ng li u c ch n .20 1.2.7 Ph ng pháp ánh giá t m quan tr ng c a k t qu tr v .21 Ch ng : C S LÝ THUY T 22 2.1 Tìm ki m thơng tin h th ng tìm ki m thơng tin .22 2.1.1 L ch s tìm ki m thơng tin h th ng tìm ki m thông tin 22 2.1.2 H th ng tìm ki m thơng tin .25 2.1.2.1 Khái ni m v h th ng tìm ki m thơng tin .25 2.1.2.2 Cách th c ho t ng c a h th ng tìm ki m thông tin 25 2.1.2.3 Các ph ng ti n tìm ki m thơng tin (Search Engines) 27 2.1.3 So sánh tìm ki m thơng tin c i n tìm ki m thơng tin Web .29 2.1.4 So sánh tìm ki m thơng tin v i tìm ki m d li u 30 2.1.5 Công th c tr u t ng tìm ki m thơng tin 31 2.1.6 Các mơ hình tìm ki m thơng tin c i n s p th t liên quan 32 2.1.6.1 Mơ hình i s Bool .32 2.1.6.2 Mơ hình khơng gian vec-t 33 2.2 ánh giá h th ng tìm ki m thơng tin 36 2.2.1 N n t ng ánh giá h th ng tìm ki m thông tin 36 2.2.2 Mơ hình ánh giá h ng h th ng 37 2.2.2.1 T Cranfield n TREC 37 2.2.2.2 Th t c ánh giá 39 2.2.2.3 ánh giá s liên quan 40 2.2.3 Th c hi n o kh n ng tìm ki m 41 2.2.3.1 Các khái ni m v o liên quan .41 2.2.3.2 Cách tính bao ph (R) xác (P) 42 2.2.3.3 Ph ng pháp tính xác d a 11 i m chu n c a bao ph 44 2.2.3.3.1 th bi u di n hi u su t th c thi h th ng tìm ki m .44 2.2.3.3.2 ng cong bao ph xác RP 45 2.2.3.3.3 ng cong RP cho t p truy v n 47 2.2.3.3.4 ánh giá h th ng tìm ki m thông tin d a vào th 48 2.2.3.4 S liên quan gi a câu h i tài li u 49 2.2.3.4.1 Các liên quan .49 2.2.3.4.2 Các v n v liên quan .49 2.2.3.4.3 ánh giá v i liên quan nhi u c p 51 2.2.3.4.4 Ph ng pháp o bao ph (R), xác (P) d a liên quan nhi u c p 53 Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin 2.2.4 TREC ánh giá theo chu n TREC 54 2.2.4.1 TREC gì? 54 2.2.4.2 Cách xây d ng ng li u c a TREC 56 2.2.4.2.1 Xây d ng t p h p tài li u 57 2.2.4.2.2 Xây d ng ch .57 2.2.4.2.3 Xây d ng b ng ánh giá liên quan chu n 58 2.3 Ng li u ti ng Vi t .59 2.3.1 T 60 2.3.1.1 Quan ni m v t 60 2.3.1.2 Quan ni m v hình v 61 2.3.1.3 Khái ni m v c u t o t 61 2.3.2 Ranh gi i t 62 Ch ng : THI T K VÀ CÀI T 63 3.1 Xây d ng b ng li u dùng ánh giá 63 3.1.1 Xây d ng kho ng li u b ng ti ng Vi t 63 3.1.1.1 Chu n hóa ng li u .63 3.1.1.1.1 Chu n hóa d ng ng li u 63 3.1.1.1.2 nh d ng ng li u 64 3.1.2 Xây d ng t p câu h i b ng ti ng Vi t 64 3.1.3 Tách t ti ng Vi t 65 3.1.4 Xây d ng b ng ánh giá .65 3.1.4.1 H th ng SMART 66 3.1.4.1.1 Gi i thi u h th ng SMART 66 3.1.4.1.2 Quá trình tìm ki m thông tin c a SMART 66 3.1.4.1.3 Mơ hình vec-t c a h th ng SMART 67 3.1.4.1.4 S d ng mơ hình vec-t 69 3.1.4.2 H th ng Search4Vn .73 3.1.4.3 H th ng TERRIER 73 3.1.4.4 H th ng X-IOTA 74 3.1.4.5 H th ng LUCENE .74 3.2 Phân tích h th ng ánh giá h th ng tìm ki m thơng tin 74 3.2.1 Mô t h th ng tr giúp ánh giá 74 3.2.1.1 Phát bi u toán 74 3.2.1.2 M c tiêu 75 3.2.1.3 Ph m vi 75 3.2.1.4 Ch c n ng .75 3.2.1.5 Tính kh d ng .76 3.2.1.6 Hi u su t .76 3.2.1.7 Tính b o m t 76 3.2.2 Phân tích h th ng ánh giá 76 3.2.2.1 Ch c n ng c a h th ng 76 3.2.2.2 Ch c n ng yêu c u 77 3.2.2.2.1 Ch c n ng ánh giá m t h th ng IR 77 3.2.2.2.2 Ch c n ng so sánh nhi u h th ng IR .77 3.2.2.2.3 S use case 77 3.2.2.2.4 S tu n t ho t ng usecase .79 Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin 3.3 Thi t k h th ng ánh giá 86 3.3.1 Các ch c n ng c a ch ng trình 86 3.3.1.1 Ch c n ng “ nh d ng c s d li u tài li u” 86 3.3.1.2 Ch c n ng “ nh d ng k t qu tr v ” 86 3.3.1.3 Ch c n ng “ nh d ng file index” .87 3.3.1.4 Ch c n ng “Th c thi h th ng IR” 87 3.3.1.5 Ch c n ng “X lý k t qu tr v ” 87 3.3.1.6 Ch c n ng ” ánh giá m t h th ng IR” .87 3.3.1.7 Ch c n ng “ ánh giá nhi u h th ng IR” 87 3.3.2 Thi t k h th ng 88 3.3.2.1 S ki n trúc t ng th 88 3.3.2.1.1 Danh sách l p i t ng 88 3.3.2.1.2 L p i t ng th hi n 88 3.3.2.1.3 L p i t ng x lý 91 3.3.2.1.4 L p i t ng l u tr .99 3.3.2.2 S ki n trúc t ng quát cho t ng ch c n ng c a ch ng trình 99 3.3.2.2.1 Ch c n ng “ nh d ng tài li u” 99 3.3.2.2.2 Ch c n ng “ nh d ng câu h i” 100 3.3.2.2.3 Ch c n ng “Th c thi h th ng” 101 3.3.2.2.4 Ch c n ng “ nh d ng k t qu ” 102 3.3.2.2.5 Ch c n ng “ nh d ng file index” 103 3.3.2.2.6 Ch c n ng “ ánh giá hi n thi k t qu ánh giá” 103 3.3.2.2.7 Ch c n ng ”So sánh h th ng IR ã c th c thi” 104 3.3.2.3 Thi t k d li u – t ch c l u tr 105 3.3.2.3.1 Mơ hình d li u 105 3.3.2.3.2 S logic d li u 107 3.3.2.4 T ch c l u tr d li u 110 3.3.2.4.1 System 110 3.3.2.4.2 Topic 112 3.3.2.4.3 Index_topic 113 3.3.2.4.4 Document 114 3.3.2.4.5 Index_Doc 115 3.3.2.4.6 relevant_TT 115 3.3.2.4.7 relevant_LT 116 3.3.2.4.8 evaluation 117 3.3.2.5 Thi t k giao di n 119 3.3.2.5.1 S liên h gi a hình 119 3.3.2.6 Thi t k hình 122 3.3.2.6.1 Màn hình (TH_Main) 122 3.3.2.6.2 Màn hình nh d ng tài li u (TH_DDTaiLieu) 122 3.3.2.6.3 Màn hình t o thu c tính cho tài li u (TH_TTTaiLieu) 124 3.3.2.6.4 Màn hình nh d ng câu h i (TH_DDCauHoi) 125 3.3.2.6.5 Màn hình t o thu c tính cho câu h i (TH_TTCauHoi) 127 3.3.2.6.6 Màn hình x lý i u ki n th c thi h th ng IR 128 3.3.2.6.7 Màn hình th c thi h th ng (TH_ThucThiHT) 129 3.3.2.6.8 Màn hình nh d ng k t qu (TH_DDKetQua) 130 Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin 3.3.2.6.9 Màn hình nh d ng thơng tin index (TH_DDIndex) 131 3.3.2.6.10 Màn hình ánh giá h th ng (TH_KqDanhGia) 133 3.3.2.6.11 Màn hình xem th c a h th ng 136 3.3.2.6.12 Màn hình xem chi ti t (TH_XemChiTiet) 136 3.3.2.6.13 Màn hình so sánh h th ng (TH_SoSanhHT) 138 3.3.2.7 Thi t k h th ng l p i t ng 139 3.3.2.7.1 Các l p i t ng x lý 139 3.3.2.7.2 Các l p i t ng l u tr 169 Ch ng : K T QU ÁNH GIÁ 171 4.1 Ng ng ánh giá 171 4.2 ánh giá h th ng tìm ki m thơng tin search4VN 171 4.3 So sánh h th ng tìm ki m search4VN h th ng Lucene 177 4.4 Nh n xét ch ng trình h tr ánh giá h th ng tìm ki m thơng tin 179 4.4.1 u i m 179 4.4.2 Khuy t i m 179 Ch ng : K T LU N 181 Ch ng : H NG PHÁT TRI N 182 PH L C 183 Tài li u tham kh o 186 Trang Lu n v n : ánh giá h th ng tìm ki m thơng tin M U Tìm ki m thông tin nhu c u thi t th c c a t t c m i ng b i c nh bùng n thông tin nh hi n nay, g m có s i c bi t i c a internet sáng ki n v th vi n i n t , nhu c u tìm ki m thơng tin l i phát tri n Nh ng nh có s tr giúp c a cơng ngh thơng tin ng i có th th a mãn nhu c u m t cách d th ng tìm ki m thơng tin dàng Th t v y, có r t nhi u h (Information Retrieval system hay IR system) máy tính ang t n t i giúp ng tr i Tuy nhiên, kh n ng tìm ki m thơng tin c a h th ng ch c ch n khác Do ó, vi c ánh giá h th ng tìm ki m thơng tin (Evaluation of Information Retrieval systems) m t nhu c u không th thi u nh m xác nh h th ng tìm ki m thông tin hi u qu Vi c ánh giá có ý ngh a r t l n Nó giúp xác i v i s t n t i phát tri n c a h th ng tìm ki m thơng tin nh kh n ng tìm ki m c a h th ng tìm ki m thông tin t t ch c, công ty, tr th ng ng h c t o h th ng có th phát tri n, thay a kh n ng tìm ki m thơng tin t t nh t Ngoài ra, vi c xác h th ng tìm ki m thơng tin hi u qu r t h u ích th y tin t ó mà i v i ng ng vào k t qu tìm ki m mà h th ng tìm ih nh i dùng, h s c m c Xa h n n a, vi c ánh giá s t o m t cu c cách m ng l nh v c tìm ki m thơng tin; giúp ki m thông tin vào th gi i th c c a a tìm i s ng Ch ng h n, h th ng tìm ki m thơng tin ti n b chuy n t nghiên c u sang th gi i th c c a c nh tranh th ng m i nh ng nhà thi t k , nhà phát tri n, ng i bán hàng, nh ng di n bán hàng c a s n ph m thông tin m i nh sách i n t , ph i ng ti n tìm ki m (Search engines) … mu n bi t s n ph m c a h có cung c p cho nh ng ng không, s i s d ng ng i mua hàng ti m n ng l i th c nh tranh hay c th a mãn nhu c u thông tin m t cách d dàng, xác Kh n ng tìm ki m c a h th ng tìm ki m thông tin v a c nghiên c u nhi u c p c p : th nh t v kh n ng x lý t c th i gian tìm ki m khơng gian l u tr hay g i hi u n ng; th hai v kh n ng tìm Trang 10 Lu n v n : ánh giá h th ng tìm ki m thơng tin 36 0.2 0.2 0.28 0.14 0.88 0.044 37 0.62 0.62 0.74 0.37 0.86 0.043 38 0.48 0.48 0.62 0.31 0.86 0.064 39 0.34 0.34 0.46 0.23 0.8 0.04 40 0.32 0.32 0.48 0.24 0.76 0.038 41 0.46 0.46 0.72 0.36 0.82 0.051638 42 0.3 0.3 0.74 0.37 0.8 0.09195 43 0.68 0.68 0.8 0.4 0.82 0.041 44 0.36 0.36 0.46 0.23 0.74 0.037 45 0.46 0.46 0.76 0.38 0.82 0.041 46 0.5 0.5 0.6 0.3 0.84 0.042 47 0.28 0.28 0.42 0.21 0.74 0.037 48 0.48 0.48 0.8 0.4 0.86 0.043 49 0.22 0.22 0.24 0.12 0.76 0.038 50 0.48 0.48 0.66 0.33 0.78 0.039 51 0.48 0.48 0.66 0.33 0.84 0.042 52 0.6 0.6 0.66 0.33 0.86 0.043 53 0.52 0.52 0.74 0.37 0.88 0.044 54 0.64 0.64 0.7 0.35 0.88 0.079855 55 0.72 0.72 0.82 0.41 0.9 0.045 56 0.38 0.38 0.58 0.29 0.86 0.043 57 0.46 0.46 0.66 0.33 0.86 0.043 58 0.2 0.2 0.34 0.17 0.88 0.0538 59 0.5 0.5 0.74 0.37 0.88 0.044 60 0.22 0.22 0.38 0.19 0.78 0.039 61 0.6 0.6 0.72 0.36 0.88 0.044 62 0.2 0.2 0.36 0.18 0.58 0.029 63 0.5 0.5 0.72 0.36 0.9 0.045 Trang 173 Lu n v n : ánh giá h th ng tìm ki m thơng tin 64 0.7 0.7 0.78 N N Ri R= 0.39 i =1 N N Pi P= i =1 N Ri i =1 R= N 0.86 N 0.043 N Pi P= i =1 N N Ri R= i =1 N Pi i =1 P= N =0.45096 =0.44999 =0.61480 =0.306718 =0.83320 =0.049851 034 996 77 24 95 14 Nh n xét: V i ng ng ánh giá 50 Do chi u dài pool 50 b ng v i ng ng ánh giá nên bao ph xác b ng Xét câu h i th 18: s tài li u liên quan th c s l y ph n giao h th ng nh h n chi u dài pool 50 nên dùng ph ng pháp pooling v i chi u dài pool l12 50 s tài li u liên quan theo lý thuy t s nh h n chi u dài pool (50) th c t ch có 41 tài li u liên quan theo lý thuy t ó s tài li u tr v 50 ng xác nh h n ng ánh giá 50 nên bao ph V i ng ng ánh giá 100 Do ng ng ánh giá (s tài li u tr v ) g p ôi chi u dài pool (s tài li u liên quan theo lý thuy t) nên bao ph g n nh l n g p xác V i ng ng ánh giá 1000: Do ng ng ánh giá l n t c s tài li u h th ng search4VN tr v l n (1000) tài li u nên xác so v i xác khác ng ng 50 100 V i câu h i: Cùng m t câu h i n u ng ng ánh giá cao (có ngh a s tài tr v c a h th ng tìm ki m bên t ng), nên s tài li u liên quan v có th s t ng nên bao ph c a ng xác Trang 174 c tr ng ánh giá cao s cao h n Lu n v n : ánh giá h th ng tìm ki m thơng tin Tính tốn xác t i 11 i m chu n c a bao ph : R P (c=50) P (c=100) P (c=1000) 0.0 0.92311794 0.9234109 0.9234109 0.1 0.7882654 0.78855836 0.78855836 0.2 0.69403636 0.6889597 0.6889597 0.3 0.63090414 0.6179958 0.6106299 0.4 0.5820023 0.55077547 0.53635085 0.5 0.5450672 0.49265072 0.46107948 0.6 0.5310865 0.4223546 0.3832133 0.7 0.5289436 0.39856696 0.29289013 0.8 0.5289436 0.39096713 0.1897545 0.9 0.5289436 0.39096713 0.18582451 1.0 0.5289436 0.39096713 0.18582451 Nh n xét : N u t ng ng mà s tài li u liên quan ng ánh giá xác gi m s tài li u tr v t ng c tr v t ng không k ng cong RP c a h th ng search4VN nh sau: Trang 175 Lu n v n : ánh giá h th ng tìm ki m thơng tin c= 50 c=100 Trang 176 Lu n v n : ánh giá h th ng tìm ki m thơng tin c=1000 4.3 So sánh h th ng tìm ki m search4VN h th ng Lucene So sánh h th ng search4VN Lucene ng ng 50, 1000 c=50 R P (searchVN) c=1000 P (Lucene) P (searchVN) P (Lucene) 0.0 0.92311794 0.9883535 0.9234109 0.9883535 0.1 0.7882654 0.9370161 0.78855836 0.9370161 0.2 0.69403636 0.8891043 0.6889597 0.88669646 0.3 0.63090414 0.8682885 0.6106299 0.86513025 0.4 0.5820023 0.8526954 0.53635085 0.8495781 0.5 0.5450672 0.8452069 0.46107948 0.84239674 0.6 0.5310865 0.8401279 0.3832133 0.83736676 0.7 0.5289436 0.83058465 0.29289013 0.828869 0.8 0.5289436 0.8242704 0.1897545 0.77039164 Trang 177 Lu n v n : ánh giá h th ng tìm ki m thông tin 0.9 0.5289436 0.8242704 0.18582451 0.29168567 1.0 0.5289436 0.8242704 0.18582451 0.29168567 c=50 c=1000 Nh n xét : ta th y th c a search4VN n m d i th Lucene nên h th ng search4VN có hi u su t th c thi th p h n so v i h th ng Lucene Trang 178 Lu n v n : ánh giá h th ng tìm ki m thơng tin 4.4 Nh n xét ch ng trình h tr ánh giá h th ng tìm ki m thơng tin 4.4.1 u i m • Có th ánh giá c h th ng ti ng Anh Ti ng Vi t • Khơng ph thu c vào c u trúc nh d ng c a b ng li u dùng ánh giá • So sánh • c h th ng tìm ki m ánh giá h th ng tìm ki m d a ng cong RP tr c quan d hi u • M c dù h n ch v c thù c a ngôn ng ti ng Vi t v i ngơn ng khác Ví d ti ng Vi t lo i hình n l p phi hình thái, cịn ti ng Anh lo i hình bi n cách hay cịn g i lo i hình khu t chi t ó xác nh ranh gi i t không ph i d a vào kho ng tr ng nh th ti ng bi n hình khác, nh ng ã gi i quy t cách chu n hóa l i t ti ng Vi t th hi u cv n b ng h th ng tìm ki m ti ng Anh có c ranh gi i t ti ng Vi t tìm ki m c v i ti ng Vi t 4.4.2 Khuy t i m H th ng tr giúp ánh giá th t s cho k t qu tin c y b ng ánh giá liên quan chu n xác khách quan Do ó ánh giá h th ng tr giúp ánh giá ph thu c vào b ng ánh giá liên quan chu n Ti ng Vi t m t ngơn ng có d u nên vi c mã hoá Ti ng Vi t c ng gây nhi u khó kh n vi c l p ch m c c a h th ng tim ki m ti ng Anh v i kho ng li u ti ng Vi t Do ó vi c ch y h th ng tìm ki m thông tin v n ch dành cho ti ng Anh không th ti n hành cho Ti ng Vi t Trong lu n v n này, ã nghiên c u h th ng tìm ki m thông tin ti ng Anh nh SMART, IOTA, TERRIER, LUCENE ã g p r t nhi u khó kh n v i vi c l p ch m c cho Trang 179 Lu n v n : ánh giá h th ng tìm ki m thơng tin kho ng li u Ti ng Vi t m c dù ã c g ng h t s c ch nh s a mã ngu n cho t t c h th ng Nh ng cu i cùng, ch có h th ng LUCENE có th tìm ki m c v i Ti ng Vi t B ng ánh giá liên quan chu n c trích t ph n giao c a hai h th ng LUCENE Search4VN Vì v y b ng ánh giá liên quan chu n lúc u có m t s ch ch a xác có h th ng tìm ki m thơng tin ti ng Vi t Chúng ã c g ng kh c ph c v n b ng cách xem l i b ng liên quan chu n b ng th công l y nh ng tài li u th t s liên quan n câu h i nh t hoàn thi n b ng Cách làm ch gi i pháp t m th i cho b ng li u dùng ánh giá hi n t i c a chúng tơi N u có nhu c u phát tri n thêm b ng li u dùng ánh giá, b n nên xây d ng thêm b ng ánh giá b ng cách ch y nhi u h th ng tìm ki m thơng tin ti ng Vi t h n mà không c n thay i v mơ hình c a h th ng Trang 180 Lu n v n : ánh giá h th ng tìm ki m thơng tin Ch ng : K T LU N Công tác ánh giá (evaluation) m t mơ hình, m t h th ng nói chung c ng quan tr ng khơng so v i vi c xây d ng m t mơ hình hay m t h th ng tài c a chúng tơi nh m t ng hố cơng tác ánh giá h th ng tìm ki m thơng tin (IR systems) V i vi c t ng hoá ó, có th ánh giá m t cách nhanh chóng, xác quan tr ng khách quan kh n ng hi u su t tìm ki m c a h th ng tìm ki m thông tin.Nh s nh ng ng i xây d ng h th ng IR có chóng k p th i, h v a cài ánh giá ó, c s ph n h i (feedback) nhanh h k p i u ch nh (setting) l i mơ hình, ph t, th nghi m cho m t h th ng IR Chính nh s ng pháp mà i u ch nh k p th i phù h p thông s c a mơ hình h th ng IR ó, t m i có th Nh có s a n m t h th ng IR t i u (optimal IR system) ánh giá k p th i nhanh chóng nh v y mà nhà xây d ng h th ng IR s c khích l v m t tinh th n, ti t ki m v m t th i gian, công s c, thay ph i th cơng nh tr r i m i nh n i m t th i gian dài ch c ây (ph i is cho nhi u ng c ý ki n ph n h i t phía ng xác mà c ng có th ch quan) T cơng s c óh ánh giá b ng ph ng pháp i s d ng th i gian dài i s d ng, ý ki n có th ó, h có tinh th n, th i gian u t vào vi c c i thi n mơ hình/ph ng pháp c a c nhi u h n Vi c ánh giá bi t mà t c h th ng IR t i u ph c v cho nhu c u tìm ki m ó ta ch n c i m m nh, i m y u c a t ng h th ng IR thông tin m t cách có hi u qu Chúng tơi hy v ng tài s m t óng góp nh có ý ngh a cho vi c nghiên c u v l nh v c tìm ki m thơng tin Trang 181 Lu n v n : ánh giá h th ng tìm ki m thơng tin Ch ng : H NG PHÁT TRI N Vi c nghiên c u ánh giá h th ng tìm ki m thông tin r t a d ng v i nhi u ph ng pháp, mơ hình ánh giá khác Nh ng mơ hình, ph ang c ti p t c nghiên c u, bàn lu n th gi i Trên c s nh ng ph n ã nghiên c u th c hi n, h ng pháp tài c a chúng tơi có ng phát tri n sau : H h ng phát tri n v mơ hình ánh giá t ng qt: mơ hình ánh giá ng ng H giá, i dùng ng phát tri n v ph c bi t ph ng pháp xây d ng b ng li u dùng ánh ng pháp xây d ng b ng ánh giá liên quan chu n nh m t o b ng ánh giá khách quan xác H ng phát tri n v ph vào 11 i m chu n c a ph ng pháp ánh giá: Ngoài cách ánh giá d a bao ph , ng pháp ánh giá khác nh ph tài có th phát tri n thêm ng pháp ánh giá d a xác trung bình nghiêm ng t (Mean Average Precision – MAP), o d a giá tr n Swet’s E-Measure (Single-valued Measure) ho c chi u dài tìm ki m trung bình Trang 182 Lu n v n : ánh giá h th ng tìm ki m thơng tin PH L C Câu h i m u: 1 kinh t tri th c n n kinh t tri th c gì, ý ngh a c a n n kinh t tri th c, tình hình xây d ng n n kinh t tri th c? Các tài li u liên quan ph i có nh ngh a ý ngh a c a kinh t tri th c,các y u t hình thành n n kinh t tri th c, nhu c u xây d ng n n kinh t tri th c t i Vi t Nam, tình hình n n kinh t tri th c t i Vi t Nam 2 v án tham nh ng l n thông tin v v án tham nh ng l n Các tài li u liên quan ph i ch a thông tin v v án tham nh ng l n,các t i danh liên quan nh nh n h i l , bi n th công qu , nguyên nhân h u qu c a tham nh ng, ý ki n c a nhân dân báo chí, bi n pháp ch ng tham nh ng b máy công quy n 3 an tồn giao thơng t i Vi t Nam v n an tồn giao thơng t i Vi t Nam Trang 183 Lu n v n : ánh giá h th ng tìm ki m thơng tin Các tài li u liên quan ph i nói v tình hình an tồn giao thơng t i Vi t Nam g m có sách c a ph v an tồn giao thơng, tình tr ng vi ph m tr t t an tồn giao thơng, ùn t c giao thông ,tai n n giao thông Tài li u m u 1 Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i Tác gi : Bình Ngày :01/12/2000 Tên t báo : Tu i tr S báo : 155/2000 Th lo i : Trang : trang 1, 14 Thanh niên VN: ng l c cho nh ng ý t ng m i, t m nhìn m i (TT-Hà N i) - T i l khai m c Di n àn niên (TN) VN v i ch “S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN VN ph i h p v i c quan LHQ t i VN t ch c), ông Edouard Wattez, i u ph i viên th m nh: “V i 60% dân s n tu i d c tr ây m t th i i m b n - th i i m c a hịa bình b t ng trú LHQ t i VN, ã nh n i 30, VN th t s m t c bi t l ch s tn t c i m i, th i i m c a VN ã u m c a v i th gi i ti n hành hi n i hóa, th i i m c a VN có vai trị to l n h i ngh toàn c u, t ch c Trang 184 Lu n v n : ánh giá h th ng tìm ki m thơng tin qu c t vai trò c a VN ngày tr nên quan tr ng h n TN VN có vai trị quan tr ng q trình m c a v i th gi i Bình B ng ánh giá liên quan chu n B ng ánh giá liên quan chu n g m hai thành ph n chính: câu h i tài li u liên quan th t s c a câu h i ó C u trúc DTD c a file ch a b ng ánh giá liên quan chu n c t ch c nh sau: Di n gi i: : ch s c a topic : ch s c a tài li u có liên quan v i câu h i có ch s TOPID Ví d m t ph n b ng ánh giá liên quan chu n: 10456 3407 2476 6689 1582 12854 Trang 185 Lu n v n : ánh giá h th ng tìm ki m thơng tin Tài li u tham kh o [ ] Ricardo Beaza-Yates & Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Press, Anh, 1999 [ ] Wessel Kraaij, Variations on Language Modeling for Information Retrieval, Thesis Enschede, Print Partners Ipskamp, Enschede, 2004 [ ] Mei-Mei Wu & Danie H SonnenWald, Reflections on Information Retrieval Evaluation, H i ngh TREC, 2004 [ ] F C Johnson, J R Griffiths, R J Hartley, A framework for the evaluation of Internet search engines, The Council of Museums, Archives and Libraries, Anh, 2001 [ ] Van Rijsbergen C.J., Information Retrieval, Tái b n l n 2, ButterWorths, Ln ơn, 1979, Ch ng có t i http://www.dcs.gla.ac.uk/Keith/Chapter.7/Ch7.html [ ] Gerard Salton, Micheal J McGrill, Introduction to Modern Information Retrieval, International Student Edition, New York, 1983 [ ] Pia Borlund , The IIR evaluation model: a framework for evaluation of interactive information retrieval systems, Information Research, 2003 [ ] H i ngh TREC : http://trec.nist.gov [9 ] Ellen M Voorhees, Overview of TREC 2003, National Institute of Standards and Technology, 2003 [ 10 ] inh i n, giáo trình X lý Ngơn ng T nhiên, i h c Khoa h c T nhiên Tp H Chí Minh, 2004 [ 11 ] Nguy n V n Tu, T v n t ti ng Vi t hi n i, NXB i h c & THCN, Hà N i , 1978 [ 12 ] a ch ftp c a SMART : ftp://ftp.cs.cornell.edu/pub/smart/ [ 13 ] Jean-Pierre Chevallet, XIOTA: An open XML framework for IR Experimentation, H i ngh CLEF, 2004 [ 14 ] a ch trang Web c a Terrier : http://ir.dcs.gla.ac.uk/terrier/ Trang 186 Lu n v n : ánh giá h th ng tìm ki m thông tin [ 15 ] a ch trang Web c a Lucene : http://lucene.apache.org/java/docs/index.html Trang 187 ... : ánh giá h th ng tìm ki m thơng tin C NG CHI TI T Thông tin chung v tài: Tên tài: Xây d ng b ng li u ánh giá (test collection) b ng ti ng Vi t ch trình tr giúp ánh giá h tìm ki m thông tin ng... a vào b ng giá tr RP n i suy khơng ánh giá m t cách xác hi u su t tìm ki m thơng tin c a h th ng tìm ki m thơng tin b i giá tr c a R,P giá tr n i suy 2.2.3.3.4 ánh giá h th ng tìm ki m thông tin. .. thơng tin, c a tìm ki m thơng tin c a công ngh thông tin n c ta Th c hi n ánh giá kh n ng tìm ki m, t p trung vào ánh giá hi u qu c a k t qu tìm ki m h th ng thông tin c tr v (c p th hai kh n ng tìm

Ngày đăng: 16/02/2014, 09:20

Hình ảnh liên quan

Hình 1. - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

Hình 1..

Xem tại trang 26 của tài liệu.
Hình 2. - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

Hình 2..

Xem tại trang 28 của tài liệu.
T màn hình chính, chúng ta có th  th c thi t t c  các  ch c n ng c a  chng trình  2 TH_DDTaiLieu  nh d ng tài li u  T t c  tài li u c a ch ng  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

m.

àn hình chính, chúng ta có th th c thi t t c các ch c n ng c a chng trình 2 TH_DDTaiLieu nh d ng tài li u T t c tài li u c a ch ng Xem tại trang 88 của tài liệu.
Màn hình này ch dùng khi ngi dùng không  đnh d ng  tài li u và câu h i và mu n  th c thi h  th ng IR - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

n.

hình này ch dùng khi ngi dùng không đnh d ng tài li u và câu h i và mu n th c thi h th ng IR Xem tại trang 90 của tài liệu.
11 TH_XemChiTiet Màn hình cho phép xem thông  tin c  th  c a m t  tài li u liên quan  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

11.

TH_XemChiTiet Màn hình cho phép xem thông tin c th c a m t tài li u liên quan Xem tại trang 91 của tài liệu.
T màn hình chính ch n: - Th c thi h  th ng IR:  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

m.

àn hình chính ch n: - Th c thi h th ng IR: Xem tại trang 120 của tài liệu.
T màn hình chính ch n: - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

m.

àn hình chính ch n: Xem tại trang 121 của tài liệu.
3.3.2.6. Thi tk màn hình - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6..

Thi tk màn hình Xem tại trang 122 của tài liệu.
Ti■p t∝c Aóng màn hình - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

i.

■p t∝c Aóng màn hình Xem tại trang 124 của tài liệu.
4 btnTroLai Button tr li màn hình fraDDTaiLieu 5 btnTiepTuc  Button  th c hi n vi c t o các file tài li u  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

4.

btnTroLai Button tr li màn hình fraDDTaiLieu 5 btnTiepTuc Button th c hi n vi c t o các file tài li u Xem tại trang 125 của tài liệu.
3.3.2.6.5. Màn hình to thuc tính cho câu hi (TH_TTCauHoi) - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6.5..

Màn hình to thuc tính cho câu hi (TH_TTCauHoi) Xem tại trang 127 của tài liệu.
6 btnDong Button óng màn hình - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

6.

btnDong Button óng màn hình Xem tại trang 128 của tài liệu.
3.3.2.6.7. Màn hình th c th ih th ng (TH_ThucThiHT) - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6.7..

Màn hình th c th ih th ng (TH_ThucThiHT) Xem tại trang 129 của tài liệu.
3.3.2.6.8. Màn hình đ nh d ng kt qu (TH_DDKetQua) Ky hi u: fraDDKetQua  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6.8..

Màn hình đ nh d ng kt qu (TH_DDKetQua) Ky hi u: fraDDKetQua Xem tại trang 130 của tài liệu.
3.3.2.6.10. Màn hình đánh giá h th ng (TH_KqDanhGia) Ký hi u: fraKq_DanhGia  - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6.10..

Màn hình đánh giá h th ng (TH_KqDanhGia) Ký hi u: fraKq_DanhGia Xem tại trang 133 của tài liệu.
17 btnDong Button óng màn hình - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

17.

btnDong Button óng màn hình Xem tại trang 136 của tài liệu.
Aóng màn hình - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

ng.

màn hình Xem tại trang 137 của tài liệu.
3.3.2.6.13. Màn hình so sánh h th ng (TH_SoSanhHT) - Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx

3.3.2.6.13..

Màn hình so sánh h th ng (TH_SoSanhHT) Xem tại trang 138 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan