Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép

138 314 0
Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p IC M N Chúng em xin g i l i c m n chân thành nh t n th y H B o Qu c, ng i ã n tình h ng d n, giúp chúng em trong su t th i gian th c hi n lu n v n này. Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con nghiên c u h c t p. Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c qua. m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n a chúng tôi. c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót , mong nh n c s thông c m và góp ý c a th y cô và các b n. Tháng 7 n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p C L C DANH SÁCH CÁC B NG 8 DANH SÁCH CÁC HÌNH V 8 Ph n 1 : TÌM HI U LÝ THUY T 11 Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN 11 1. Gi i thi u v tìm ki m thông tin 11 1.1 Khái ni m v tìm ki m thông tin 11 1.2 M t s v n trong vi c tìm ki m thông tin: 11 2. H tìm ki m thông tin – IRS 12 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] 13 4. So sánh IRS v i các h th ng thông tin khác 14 4.1 H qu n tr c s d li u (DBMS) 15 4.2 H qu n lý thông tin (IMS) 15 4.3 H h tr ra quy t nh (DSS) 16 4.4 H tr l i câu h i (QAS) 16 4.5 So sánh IRS v i các h th ng thông tin khác 17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 18 1. Ki n trúc c a h tìm ki m thông tin. [1.3] 18 2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2] 19 2.1 Mô hình không gian vector 19 2.2 Tìm ki m Boolean 21 2.3 Tìm ki m Boolean m r ng 22 2.4 M r ng trong vi c thêm vào tr ng s c a câu h i 23 2.4.1 M r ng cho s t tu ý 23 2.4.2 Thêm toán t t ng 24 2.5 Mô hình xác su t 24 2.6 ánh giá chung v các mô hình 25 3. Các b c xây d ng m t h tìm ki m thông tin. [3.2] 25 3.1 Tách t t ng cho t p các tài li u 25 3.2 L p ch m c cho tài li u 25 3.3 Tìm ki m 26 3.4 S p x p các tài li u tr v (Ranking) 26 4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t 26 4.1 Khó kh n trong vi c tách t ti ng Vi t 27 4.2 V n b ng mã ti ng Vi t 27 Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p 4.3 Các khó kh n khác 27 Ch ng 3: TÁCH T T NG 29 1. Tách t trong Ti ng Anh 29 2. Tách t trong Ti ng Vi t 29 2.1 M t s c m chính v t ti ng Vi t [2.2] 29 2.1.1 Ti ng 29 2.1.2 T 30 2.2 Tách t t ng ti ng Vi t 30 3. Các ph ng pháp tách t ti ng Vi t 30 3.1 fnTBL (Fast Transformation-based learning) [3.1] 30 3.1.1 Mô t 30 3.1.2 Áp d ng tách t ti ng Vi t 31 3.2 Longest Matching [1.4] 37 3.3 K t h p gi a fnTBL và Longest Matching 37 Ch ng 4: L P CH M C 38 1. Khái quát v h th ng l p ch m c 38 2. Ph ng pháp l p ch m c [1.1] 38 2.1 Xác nh các t ch m c 38 2.2 Các ph ng pháp tính tr ng s c a t 40 2.2.1 T n s tài li u ngh ch o 40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) 40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) 42 2.3 L p ch m c t ng cho tài li u ti ng Anh 43 3. L p ch m c cho tài li u ti ng Vi t 45 4. T p tin ngh ch o tài li u 46 4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p 46 4.2 T i sao s d ng t p tin ngh ch o l p ch m c 47 Ph n 2 : PHÂN TÍCH VÀ THI T K 49 Ch ng 5: PHÂN TÍCH 49 1. S UseCase h th ng 49 2. S L p 51 2.1 S các l p th hi n 51 2.2 S các l p x lý 52 3. Tách t 53 3.1 S UseCase 53 3.2 S Tu n t 53 Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p 3.3 S C ng tác 54 3.4 S L p 54 4. L p ch m c 55 4.1 S UseCase 55 4.2 S Tu n t 56 4.2.1 T o m i ch m c 56 4.2.2 C p nh t ch m c 57 4.3 S C ng tác 58 4.3.1 T o m i ch m c 58 4.3.2 C p nh t ch m c 59 4.4 S L p 60 5. Tìm ki m 61 5.1 S UseCase 61 5.2 S Tu n t 61 5.3 S C ng tác 62 5.4 S L p 63 Ch ng 6: THI T K VÀ CÀI T 64 1. C u trúc l u tr d li u 64 1.1 T p tin l u n i dung tài li u 64 1.1.1 C u trúc DTD / XSD 64 1.1.2 Tài li u XML 66 1.2 T p tin sau khi tách t tài li u 67 1.2.1 C u trúc DTD / XSD 67 1.2.2 Tài li u XML 68 1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) 70 1.3.1 C u trúc DTD / XSD 70 1.3.2 Tài li u XML 71 1.4 T p tin ch m c o ( Inverted ). 71 1.4.1 C u trúc DTD / XSD 71 1.4.2 Tài li u XML 73 1.5 T p tin sau khi tách t câu h i 74 1.5.1 C u trúc DTD / XSD 74 1.5.2 Tài li u XML 75 1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList 76 1.6.1 C u trúc DTD / XSD 76 1.6.2 Tài li u XML 77 1.7 T p tin ch a các t trong câu h i và các tài li u liên quan 77 1.7.1 C u trúc DTD / XSD 77 Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p 1.7.2 Tài li u XML 79 1.8 T p tin ch a t ng quan gi a câu h i và các tài li u 8 0 1.8.1 C u trúc DTD / XSD 80 1.8.2 Tài li u XML 82 2. Chi ti t các l p it ng 83 2.1 Các l p trong quá trình tách t 83 2.1.1 S các l p 83 2.1.2 L p tách t ghép 83 2.1.3 L p tách t 86 2.1.4 L p giao di n tách t 89 2.2 Các l p trong quá trình l p ch m c 91 2.2.1 S các l p 91 2.2.2 L p l p ch m c 92 2.2.3 L p giao di n t o m i ch m c 94 2.2.4 L p giao di n c p nh t ch m c 96 2.3 Các l p trong quá trình tìm ki m 98 2.3.1 S các l p 98 [...]... m thông tin – IRS Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1] Salton (1989): “H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin Vi c truy tìm nh ng thông tin c thù ph thu c vào s t ng t gi a các thông tin c l u tr và các yêu c u, c ánh giá b ng cách so sánh các. .. TÌM KI M THÔNG TIN 1 Gi i thi u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà ng i tìm ki m quan tâm 1.2 ts v n trong vi c tìm ki m thông tin: t nh ng n m 40, các v n thông trong vi c l u tr thông tin và tìm ki m tin ã thu hút s chú ý r t l n V i m t l ng thông tin kh ng l thì vi c tìm ki m chính xác và nhanh chóng... t d a trên các ch m c là các t ghé p 4.5 So sánh IRS v i các h th ng thông tin khác ng 1-1 So sánh IRS v i các h th ng thông tin khác Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p Ch ng 2: XÂY D NG M TH TH THÔNG TIN 1 Ki n trúc c a h tìm ki m thông tin [1.3] t h th ng thông tin tiêu bi u nh sau: NG TÌM KI... c a các thu c tính i v i thông tin c l u tr và các yêu c u v thông tin. ” Kowalski (1997) : “H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và duy trì thông tin Thông tin trong nh ng tr ng h p này có th bao g m v n b n, hình nh, âm thanh, video và nh ng Hi u n gi n it ng a ph ng ti n khác.” th ng tìm ki m thông tin là m t h th ng h tr cho ng i d ng tìm ki m thông tin m t cách... này nh m xây d ng m t h th ng tìm ki m thông tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t ng xác nh c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p Ph n 1 : TÌM HI Ch ng 1: U LÝ THUY T NG QUAN V TÌM KI M THÔNG TIN 1 Gi... h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u (DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i (QAS) và h tìm ki m thông tin (IR) Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p 4.1 qu n tr c s d li u (DBMS) t c h th ng thông tin t ng nào c ng d a trên m t t p các m c... Hi u 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i các h th ng thông tin khác 17 ng 4-1 Cách t p tin ngh ch o l u tr 47 ng 4-2 Cách t p tin tr c ti p l u tr 47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o 48 ng 5-1 Danh sách các Actor 50 ng 5-2 Danh sách các UseCase... Giao di n các tài li u tr v sau khi tìm ki m 113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u 114 Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p U máy Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u... th ng s tìm ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã c l u tr tìm ra nh ng Nguy n Th Thanh Hà - 0112215 0112216 12 Nguy n Trung Hi u - Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p tài li u có liên quan, sau ó s s p x p các tài li u theo m c liên quan gi m d n và tr v cho ng i s d ng 3 Các thành ph n c a m t h tìm ki m thông tin [1.1] m: t p các tài li... kh n g mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c tìm ki m (search engine) t t Các h th ng tìm ki m thông tin thông d ng nh Google, Yahoo Search ã áp ng c ph n nào nhu c u ó c a m i ng i Tuy nhiên, các h th ng này c xây d ng x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho các v n b n ti ng Vi t Do ó nhu c u ph i có m t công c tìm ki m “hi u” . u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u l y ra các thông tin mà ng i tìm ki . ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghé p DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i các h th ng thông tin khác 17 ng 4-1 Cách t p tin. tin l u tr và nh ng yêu c u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin. Vi c truy tìm nh ng thông tin

Ngày đăng: 03/10/2014, 23:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan