Xử lý văn bản tiếng việt theo mô hình tập thô dung saii

127 260 1
Xử lý văn bản tiếng việt theo mô hình tập thô dung saii

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

X bn ting Vit theo mụ hỡnh thụ dung sai giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học Xử VĂN BảN TIếNG VIệT THEO HìNH TậP THÔ DUNG SAI ngành : công nghệ THÔNG TIN m số:23.04.3898 TRầN QUANG Ngi hng dn khoa hc : PGS TS NGUYN NGC BèNH Hà Nội 2010 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 1/127 X bn ting Vit theo mụ hỡnh thụ dung sai LI CAM OAN Tụi Trn Quang cam oan Lun ny l cụng trỡnh nghiờn cu ca bn thõn tụi di s hng dn ca PGS.TS.Nguyn Ngc Bỡnh Cỏc kt qu nờu Lun l trung thc, khụng phi l chộp ton ca bt k cụng trỡnh no khỏc H Ni, ngy thỏng nm 2010 Tỏc gi Lun Trn Quang Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 2/127 X bn ting Vit theo mụ hỡnh thụ dung sai MC LC DANH MC CC THUT NG DANH MC CC BNG BIU DANH MC CC HèNH LI NểI U Chng Tng quan v khai phỏ d liu 1.1 Khai phỏ d liu Data Mining 1.2 Tin x d liu 12 1.3 Phõn lp v d bỏo Classification and Prediction 12 1.3.1 Gii thiu 12 1.3.2 Support Vector Machines 15 1.3.2.1 SVMs vi d liu kh tỏch tuyn tớnh (linearly separable) 15 1.3.2.2 SVMs vi d liu khụng kh tỏch tuyn tớnh (linearly inseparable) 20 1.4 Phõn nhúm d liu 22 1.4.1 Gii thiu 22 1.4.2 Phõn loi cỏc phng phỏp phõn nhúm 24 1.4.3 Mt s phng phỏp phõn nhúm 26 1.5 Cỏc ng dng v xu hng khai phỏ d liu 30 Chng Tp thụ v ng dng 33 2.1 thuyt thụ 33 2.1.1 H thụng tin 34 2.1.2 Quan h bt kh phõn 36 2.1.3 Xp x hp 37 2.1.4 Thnh viờn thụ Rough Membership 41 2.1.5 Ph thuc gia cỏc thuc tớnh 42 2.1.6 Rỳt gn thuc tớnh 43 2.1.7 Ma trn phõn bit c v hm phõn bit c 49 2.1.8 S quan trng ca cỏc thuc tớnh v cỏc rỳt gn xp x 52 2.2 Cỏc ng dng ca thụ 55 2.3 Mụ hỡnh thụ dung sai 56 Chng Mt s k thut khai phỏ d liu bn 59 3.1 Cỏc mụ hỡnh biu din bn 59 3.1.1 Mụ hỡnh khụng gian vector Vector Space Model 59 3.1.1.1 Document Indexing 60 3.1.1.2 Feature Weighting 62 3.1.1.3 Similarity Coefficients .63 3.1.2 Mụ hỡnh m - Fuzzy Set Model 64 3.1.2.1 thuyt m 64 3.1.3 Mụ hỡnh xỏc sut Probabilistic Model 65 3.2 Cụng thc xỏc nh hiu nng x bn 68 3.3 Phõn nhúm bn Text Clustering 69 3.3.1 Gii thiu 69 3.3.2 Cỏc ng dng ca phõn nhúm bn 70 3.4 Phõn loi bn Text Classification 70 3.4.1 Gii thiu bi toỏn phõn loi bn 70 3.4.1.1 Tng quan phõn loi bn 70 3.4.1.2 Nn tng hc mỏy bi toỏn phõn loi bn .71 3.4.2 Mt s phng phỏp phõn loi bn 73 3.4.2.1 Decision Tree 73 3.4.2.2 K - Nearnest Neighbor .73 3.4.2.3 Naùve Bayes .74 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 3/127 X bn ting Vit theo mụ hỡnh thụ dung sai 3.4.2.4 Support Vector Machines 75 3.5 Túm tt bn Text Summarization 75 3.6 Phỏt hin xu hng bn Text Trend Detection 76 3.7 Tỡm kim bn Text Retrieval 76 Chng Mụ hỡnh thụ dung sai x c s d liu bn 77 4.1 B khung ca h thng khai phỏ d liu bn da trờn mụ hỡnh TRSM 77 4.2 X bn ting Anh 78 4.2.1 Mụ hỡnh thụ dung sai biu din bn 78 4.2.2 Nonhierarchical Document Clustering da trờn mụ hỡnh thụ dung sai 81 4.2.2.1 Gii thut 81 4.2.2.2 Biu din cluster cluster representation 82 4.2.2.3 tng t gia cỏc ti liu v gia cỏc biu din cluster 84 4.2.3 Hierarchical Document Clustering da trờn mụ hỡnh thụ dung sai 85 4.3 X bn ting Vit 86 4.3.1 Mt s chung x bn Ting Vit 86 4.3.1.1 Mt s c trng ca Ting Vit .86 4.3.1.2 Cỏc bc tin x bn 87 4.3.1.3 Mt s phng phỏp tỏch thut ng bn Ting Vit 88 4.3.1.4 Mt s k thut gim chiu bn 91 4.3.2 p dng mụ hỡnh TRSM x ng ngha Ting Vit da trờn tớnh ng xut hin ca cỏc thut ng 93 4.3.2.1 t 93 4.3.2.2 Mt s k thut liờn quan n tng t v ng ngha (semantic similarity) 94 4.3.2.2.1 Latent Sematic Analyis (LSA) 94 4.3.2.2.2 Pointwise Mutual Information (PMI) .96 4.3.2.2.3 Generalized Latent Semantic Analysis (GLSA) 96 4.3.2.2.4 Probabilistic Latent Semantic Analysis (PLSA) 96 4.3.2.3 xut hai gii phỏp x ng ngha ting Vit 100 4.3.2.4 Ci t th nghim 102 4.3.2.4.1 Cỏc bc ca chng trỡnh 102 4.3.2.4.2 Minh vớ d tớnh tay 107 4.3.2.4.3 Cỏc kt qu thc nghim .115 Chng Kt lun v hng phỏt trin 121 TI LIU THAM KHO 124 TểM TT LUN VN 126 ABSTRACT OF THESIS 127 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 4/127 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC THUT NG STT T vit tt Thut ng Ting Anh DM Data Mining Khai phỏ d liu DT Decision Tree Cõy quyt nh EM Expectation Maximization Cc i húa k vng ERSM Equivalence Rough Sets Model Mụ hỡnh thụ tng ng IDF Inverse Document Frequency Tn s ti liu ngc KDD KE K-NN ML 10 Knowledge Discovery Thut ng Ting Vit in Databases Khai phỏ tri thc c s d liu Keyword Extraction Trớch chn t khoỏ K- Nearest Neighbour K lỏng ging gn nht Machine Learning Hc mỏy MMH Maximum Marginal Hyperplane Siờu phng l cc i 11 RSM Rough Sets Model Mụ hỡnh thụ 12 SVMs Support Vector Machines Mỏy vector h tr 13 TF Term Frequency Tn s thut ng 14 TRSM Tolerance Rough Sets Model Mụ hỡnh thụ dung sai 15 TSR Term Space Reduction Gim khụng gian thut ng 16 VSM Vector Space Model Mụ hỡnh khụng gian vector Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 5/127 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC BNG BIU Bng 2.1: Vớ d v h thụng tin 35 Bng 2.2: Walk vớ d v bng quyt nh 35 Bng 2.3: Vớ d bng thụng tin cú thuc tớnh d tha 43 Bng 2.4: Bng d liu thu c bng cỏch loi b ct thuc tớnh Muscle-pain 46 Bng 2.5: Bng d liu thu c bng cỏch loi b ct thuc tớnh Headache 47 Bng 2.6: n gin húa Bng 2.4 48 Bng 2.7: n gin húa bng 2.5 48 Bng 2.8: Vớ d ma trn phõn bit c 52 Bng 4.1: Mt s hm tớnh giỏ tr c lng thụng tin ca thut ng 92 Bng 4.2: Vớ d minh cỏch tớnh cỏc ma trn chng trỡnh 107 Bng 4.3: Danh sỏch cỏc thut ng thu c t cỏc ti liu 107 Bng 4.4: Ma trn tn sut ti liu-thut ng 108 Bng 4.5: Ma trn ng xut hin cỏc thut ng 109 Bng 4.6: Ma trn dung sai ca cỏc thut ng, ngng =2 110 Bng 4.7: Ma trn dung sai ca cỏc thut ng, ngng =3 110 Bng 4.8: Ma trn xp x trờn ca cỏc ti liu, ngng =2 111 Bng 4.9: Ma trn trng s ca cỏc thut ng nm cỏc ti liu, ngng =2 112 Bng 4.10: Ma trn trng s ca cỏc thut ng thuc xp x trờn ca cỏc ti liu 113 Bng 4.11: Ma trn trng s cui cựng, ó chun húa chiu di vector, ngng = 114 Bng 4.12: : Ma trn trng s cui cựng, ó chun húa chiu di vector, ngng = 114 Bng 4.13: Danh sỏch cỏc t cn xem xột ng ngha 115 Biu 4.1: So sỏnh tng t vi thut ng Cu_th 116 Biu 4.2: So sỏnh tng t vi thut ng Cụng_an 116 Biu 4.3: So sỏnh tng t vi thut ng Bỏc_s 116 Biu 4.4: So sỏnh tng t vi thut ng Ti_sn 117 Biu 4.5: So sỏnh tng t vi thut ng Mc_ỏn 117 Biu 4.6: So sỏnh tng t vi thut ng Dng_cm 117 Biu 4.7: So sỏnh s chiu c rỳt gn gia phng phỏp 120 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 6/127 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC HèNH Hỡnh 1.1: Data mining tỡm kim tri thc d liu Hỡnh 1.2: Data mining l mt bc quỏ trỡnh phỏt hin tri thc 10 Hỡnh 1.3: D liu 2-D kh tỏch tuyn tớnh 16 Hỡnh 1.4: Vớ d v siờu phng cựng vi l tng ng 17 Hỡnh 1.5: Support vectors 18 Hỡnh 1.6: D liu khụng kh tỏch tuyn tớnh 20 Hỡnh 1.7: Clustering da trờn gii thut k-means 28 Hỡnh 1.8: Mi cluster c biu din bi mt phõn b xỏc sut 29 Hỡnh 2.1: Minh xp x trờn, xp x di 38 Hỡnh 2.2: Xp x i tng bng cỏc thuc tớnh iu kin Age v LEMS 39 Hỡnh 2.3: Lp cỏc t ph lờn 57 Hỡnh 3.1: Ma trn ti liu-thut ng 61 Hỡnh 3.2: Minh cỏch tớnh precision v recall 68 Hỡnh 3.3: Minh ho gii thut KNN lỏng ging gn nht vi K = 74 Hỡnh 4.1: B khung h thng khai phỏ d liu da trờn mụ hỡnh TRSM 77 Hỡnh 4.2: Gii thut hierarchical agglomerative clustering da trờn mụ hỡnh TRSM 85 Hỡnh 4.3: Vớ d tỡnh nhp nhng th phõn tỏch cõu 90 Hỡnh 4.4: Tớnh toỏn SVD 94 Hỡnh 4.5: Gii thiu mụ hỡnh PLSA 97 Hỡnh 4.6: Mụ hỡnh trc quan biu din aspect model 98 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 7/127 X bn ting Vit theo mụ hỡnh thụ dung sai LI NểI U Hng ngy chỳng ta tip xỳc vi rt nhiu cỏc loi d liu khỏc nhau: õm thanh, hỡnh nh, cỏc d liu s, cỏc d liu lu di dng cỏc ti liu Cỏc d liu ớt nhiu u n cha bờn mt phn tri thc no ú m ta cha bit Khi cỏc d liu tr nờn nhiu hn m ta khụng th kim soỏt nú di dng lit kờ c thỡ ú s n cha mt lng tri thc ln v cn cú cỏc phng phỏp t ng nhn bit cỏc quy lut, cỏc tri thc ang n cha phc v cho li ớch ca chỳng ta Khai phỏ d liu l bi toỏn tỡm tri thc n cha bờn mt d liu ln v ó cú nhiu phng phỏp, nhiu hng tip cn khỏc cho bi toỏn ny, chng hn s dng thuyt thụ, thuyt m, thuyt xỏc sut, hc mỏy Trong lun ny tỏc gi s s dng hng tip cn mụ hỡnh thụ dung sai cho bi toỏn khai phỏ d liu bn nhm gii quyt ng ngha bn ting Vit Trong quỏ trỡnh nghiờn cu, tỏc gi nhn thy hng tip cn ny cú rt nhiu ng dng thit thc khỏc cng nh mt s thuyt liờn quan khỏc v cú th phỏt trin tip V mt b cc, lun gm nm chng vi ni dung chớnh nh sau: Chng 1: Trỡnh by tng quan v lnh vc phỏt hin tri thc v khai phỏ d liu cng nh cỏc bi toỏn, cỏc phng phỏp in hỡnh thng c s dng Cỏc ng dng v xu hng lnh vc ny Chng 2: Trỡnh by v thuyt thụ v cỏc ng dng ca nú, c bit l lnh vc khai phỏ d liu ó trỡnh by chng Mụ hỡnh thụ dung sai (TRSM) cng c trỡnh by õy, mụ hỡnh biu din bn ny s c s dng Chng Chng 3: Trỡnh by mt s k thut x bn v cỏc mụ hỡnh biu din bn Cỏc bi toỏn, cỏc phng phỏp c trỡnh by tng quan chng s c s dng õy vi d liu c th l d liu bn Chng 4: Mụ hỡnh thụ dung sai x c s d liu bn núi chung v bn ting Vit núi riờng p dng thc t x ng ngha ting Vit Chng 5: Trỡnh by cỏc kt lun, cỏc hn ch ca lun v xut cỏc hng phỏt trin tng lai Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 8/127 X bn ting Vit theo mụ hỡnh thụ dung sai Chng Tng quan v khai phỏ d liu Ni dung chớnh s trỡnh by: Cỏc khỏi nim c bn khai phỏ d liu Mt s k thut khai phỏ d liu Cỏc ng dng v xu hng khai phỏ d liu 1.1 Khai phỏ d liu Data Mining Khai phỏ d liu [1] l quỏ trỡnh trớch rỳt cỏc thụng tin n cha cỏc kho d liu ln, ụi cũn c gi l khai phỏ tri thc t d liu (knowledge mining from data) Cú nhiu thut ng khỏc cú ngha tng ng hoc khỏc bit ụi chỳt vi thut ng Data Mining, chng hn knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, data dredging Hỡnh 1.1: Data mining tỡm kim tri thc d liu Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 9/127 X bn ting Vit theo mụ hỡnh thụ dung sai Nhiu ngi ó xem Data mining l ng ngha vi thut ng tng i ph bin Knowledge Discovery from Data KDD, ú l mt bc quan trng ton b quy trỡnh phỏt hin tri thc, quy trỡnh ny bao gm cỏc bc nh sau [1]: Hỡnh 1.2: Data mining l mt bc quỏ trỡnh phỏt hin tri thc Lm sch d liu (Data cleaning): loi b nhiu v cỏc d liu khụng ng nht Tớch hp d liu (Data integration): tớch hp d liu t cỏc ngun khỏc Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 10/127 X bn ting Vit theo mụ hỡnh thụ dung sai Bng 4.10: Ma trn trng s ca cỏc thut ng thuc xp x trờn ca cỏc ti liu t[0] t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] d[0] d[1] d[2] d[3] d[4] 0,377815 0,040709 0,223144 0,223144 0,223144 0,864903 0,075447 0,075447 0,510826 0,510826 0,510826 0,075447 0,075447 0,510826 0,510826 0,510826 0,864903 0,075447 1,072025 0,075447 0,916291 1,551415 0,000000 0,106698 0,000000 0,068926 0,223144 0,223144 0,582279 0,377815 0,000000 0,916291 0,106698 0,106698 0,916291 0,180655 2,699310 0,106698 0,916291 0,106698 0,180655 0,106698 1,551415 0,106698 0,916291 0,127743 0,075447 0,510826 0,510826 1,072025 0,000000 0,000000 1,609438 0,000000 0,000000 Sau ú chun húa chiu di vector, chng hn: w[0][0] = 0,377815 / sqrt(0,377815^2 + 0,864903^2 + 0,510826^2 + 0,510826^2 + 0,916291^2 + 0,068926^2 + 0,0^2 + 0,180655^2 + 0,180655^2 + 0,127743^2 + 0,0^2 ) = 0,247058 Tớnh toỏn tng t cho cỏc phn t khỏc, cui cựng ta thu c ma trn trng s ó chun húa chiu di vector sau: Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 113/127 X bn ting Vit theo mụ hỡnh thụ dung sai Bng 4.11: Ma trn trng s cui cựng, ó chun húa chiu di vector, ngng t[0] t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] =2 d[0] d[1] d[2] d[3] d[4] 0,247058 0,012078 0,096047 0,124845 0,118267 0,565572 0,022384 0,032475 0,285799 0,270740 0,334036 0,022384 0,032475 0,285799 0,270740 0,334036 0,256605 0,032475 0,599782 0,039987 0,599175 0,460283 0,000000 0,059696 0,000000 0,045072 0,066204 0,096047 0,325776 0,200244 0,000000 0,271851 0,045926 0,059696 0,485639 0,118133 0,800848 0,045926 0,512651 0,056551 0,118133 0,031656 0,667774 0,059696 0,485639 0,083533 0,022384 0,219874 0,285799 0,568179 0,000000 0,000000 0,692749 0,000000 0,000000 Tớnh toỏn tng t i vi = ta thu c bng sau: Bng 4.12: : Ma trn trng s cui cựng, ó chun húa chiu di vector, ngng t[0] t[1] t[2] t[3] t[4] t[5] t[6] t[7] t[8] t[9] t[10] =3 d[0] d[1] d[2] d[3] d[4] 0,250580 0,012090 0,096302 0,125518 0,118552 0,573634 0,000000 0,032561 0,287339 0,271392 0,338797 0,000000 0,032561 0,287339 0,271392 0,338797 0,256862 0,000000 0,603014 0,000000 0,607716 0,460745 0,000000 0,000000 0,000000 0,045714 0,066270 0,096302 0,327532 0,200726 0,000000 0,272123 0,000000 0,000000 0,486808 0,000000 0,801651 0,000000 0,515413 0,000000 0,000000 0,000000 0,669542 0,000000 0,486808 0,084724 0,022407 0,220456 0,287339 0,569547 0,000000 0,000000 0,694582 0,000000 0,000000 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 114/127 X bn ting Vit theo mụ hỡnh thụ dung sai Cỏc kt qu va tớnh c trờn cng hon ton phự hp vi kt qu chy chng trỡnh Phn tip theo, ta s trỡnh by mt s kt qu thc nghim 4.3.2.4.3 Cỏc kt qu thc nghim lm thc nghim, tỏc gi lun ó su tm cỏc bi bỏo t trang vnexpress.net Cỏc bi bỏo c ly t cỏc chuyờn mc: sc khe, tõm lý, th thao, phỏp lut, xó hi v th gii; kớch thc trung bỡnh mi bi bỏo l 1KB Sau ú cỏc bi bỏo c chia nh to thnh 500 file bn (dng txt) phc v cho quỏ trỡnh thc nghim, mi file txt ny thng cha ni dung liờn quan n ch ca cỏc bi bỏo ó thu thp c Tỏc gi ó lm thc nghim xem xột ng ngha gia cỏc thut ng theo cỏc hng sau: p dng phng ỏn th nht nh ó xut phn trờn p dng phng phỏp LSA p dng phng phỏp GLSA (cú th xem phng phỏp ny l s kt hp gia LSA v PMI) Vi phng phỏp LSA, tỏc gi s dng ma trn tn sut thut ng-ti liu lm tham s u vo cho quỏ trỡnh SVD, ma trn ny trc thc hin SVD ó c chuyn thnh dng ma trn tha Vi phng phỏp GLSA, tỏc gi s dng ma trn u vo l ma trn thut ng thut ng (term-by-term) vi cỏc phn t l PMI ca thut ng Sau ú ma trn ny cng c chuyn v dng ma trn tha v ỏp dng phõn tớch SVD cho nú Vi d liu ó thu thp c (gm 500 file bn), chng trỡnh chy tỏch c 5934 thut ng Tỏc gi ó lp danh sỏch mt s thut ng (problem words) v danh sỏch cỏc thut ng thay th tng ng (alternative words) Sau ú so sỏnh cỏc phng phỏp vi Bng 4.13: Danh sỏch cỏc t cn xem xột ng ngha T gc (Problem Word) Cỏc t cn xem xột ng ngha (Alternatives Words) Cu_th Cụng_an Bỏc_s Ti_sn Mc_ỏn Dng_cm Tin_v, hu_v, th_mụn, tha_th Cnh_sỏt, lut s, ti_phm, mu_mc Y_tỏ, bnh_nhõn, cuc_sng, bnh_vin Ca_ci, tin_lng, n_ung, hc_hnh Hỡnh_pht, cỏo_trng, truy_t, phỏp_lut Anh_hựng, qu_cm, trng_phũng, xut_sc Sau thc hin cỏc bc cn thit, ta cú mt s kt qu sau (tỏc gi chy chng trỡnh vi ngng =3 ỏp dng mụ hỡnh TRSM): Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 115/127 X bn ting Vit theo mụ hỡnh thụ dung sai 0.8 0.6 TRSM1 LSA GLSA 0.4 0.2 -0.2 Cu_thTin_v Cu_thHu_v Cu_thTh_mụn Cu_thTha_th Biu 4.1: So sỏnh tng t vi thut ng Cu_th Cụng_anMu_mc Cụng_anTi_phm Cụng_anLut_s TRSM1 LSA GLSA Cụng_anCnh_sỏt 0.8 0.6 0.4 0.2 -0.2 Biu 4.2: So sỏnh tng t vi thut ng Cụng_an Bỏc_sBnh_vin Bỏc_sCuc_sng Bỏc_sBnh_nhõn TRSM1 LSA GLSA Bỏc_sY_tỏ 1.2 0.8 0.6 0.4 0.2 -0.2 Biu 4.3: So sỏnh tng t vi thut ng Bỏc_s Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 116/127 X bn ting Vit theo mụ hỡnh thụ dung sai 0.8 0.6 0.4 TRSM1 LSA GLSA 0.2 Ti_snHc_hnh Ti_snn_ung -0.4 Ti_snTin_lng -0.2 Ti_snCa_ci Biu 4.4: So sỏnh tng t vi thut ng Ti_sn 0.8 0.6 0.4 0.2 Mc_ỏnPhỏp_lut Mc_ỏnTruy_t Mc_ỏnCỏo_trng Mc_ỏnHỡnh_pht TRSM1 LSA GLSA Biu 4.5: So sỏnh tng t vi thut ng Mc_ỏn Dng_cmXut_sc Dng_cmTrng_phũ ng Dng_cmQu_cm TRSM1 LSA GLSA Dng_cmAnh_hựng 0.25 0.2 0.15 0.1 0.05 -0.05 Biu 4.6: So sỏnh tng t vi thut ng Dng_cm Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 117/127 X bn ting Vit theo mụ hỡnh thụ dung sai Mt iu lu ý cỏc biu trờn ú l: Sau thc hin vic phõn tớch SVD v tớnh cỏc h s tng t cn thit thỡ mt s cp thut ng cú xut hin tng t hn khụng L cỏc giỏ tr ny sau ú phi c gỏn v (tc l khụng cú tng t õm), nhiờn, cho d hỡnh dung v d quan sỏt s khỏc bit gia ba phng phỏp, tỏc gi gi nguyờn giỏ tr õm õy hin th lờn biu Nhn xột: Trong a phn cỏc trng hp, c ba phng phỏp u la chn c mt thut ng ging vi thut ng ban u nht v cỏc thut ng c la chn ny phn ln u ging Phng phỏp da trờn mụ hỡnh TRSM a phn cỏc trng hp u cho tng t vi thut ng gn nú nht vi giỏ tr ln hn hai phng phỏp c bit biu 4.6, so sỏnh cỏc thut ng gn ging vi thut ng dng_cm thỡ phng phỏp da trờn TRSM cho cỏc kt qu tt hn hn hai phng phỏp Vi ngng = 3, theo phng phỏp TRSM1 trờn, sau phõn tớch SVD, ta thu c tr riờng ca ma trn u vo l mt ma trn ng chộo cú kớch thc 42 ì 42 vi cỏc phn t trờn ng chộo chớnh ln lt nh sau: {4,20368; 2,87269; 2,28576; 1,81236; 1,71596; 1,69537; 1,68519; 1,66298; 1,6557; 1,63808; 1,60962; 1,59825; 1,56492; 1,54318; 1,53361; 1,52176; 1,50813; 1,49514; 1,48473; 1,46787; 1,4528; 1,45122; 1,43449; 1,42894; 1,41244; 1,4087; 1,40653; 1,39497; 1,38546; 1,38286; 1,37014; 1,36726; 1,36259; 1,3509; 1,34244; 1,33995; 1,33516; 1,32915; 1,32247; 1,31896; 1,31244; 1,30468} Phng phỏp LSA cho ma trn riờng l ma trn ng chộo cú kớch thc 50 ì 50, cỏc phn t trờn ng chộo chớnh cú giỏ tr nh sau: {475,854; 89,8162; 71,1228; 58,0882; 55,4056; 45,0931; 42,0184; 39,2259; 37,0395; 33,1329; 31,3362; 30,3303; 29,7424; 28,7521; 28,425; 28,0228; 27,7136; 26,6236; 26,4951; 25,8727; 25,5147; 24,8801; 24,5526; 24,2917; 24,1133; 23,5951; 23,3504; 23,1085; 22,679; 22,4573; 22,0948; 22,0569; 21,7104; 21,41; 21,3215; 21,0348; 20,954; 20,7313; 20,6094; 20,3905; 20,2259; 19,949; 19,9015; 19,7584; 19,5685; 19,4536; 19,198; 19,0038; 18,8892; 18,8079} Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 118/127 X bn ting Vit theo mụ hỡnh thụ dung sai Phng phỏp GLSA cho ma trn riờng l ma trn ng chộo cú kớch thc 300 ì 300, cỏc phn t trờn ng chộo chớnh cú giỏ tr nh sau: {21,9323; 20,5777; 20,1531; 19,5589; 19,1566; 18,8119; 18,4014; 17,8116; 17,681; 17,401; 17,1516; 16,8362; 16,7469; 16,556; 16,4155; 16,2122; 16,1129; 15,945; 15,7726; 15,6851; 15,3703; 15,2556; 15,206; 15,1532; 15,1317; 14,928; 14,7689; 14,7292; 14,5123; 14,4894; 14,4537; 14,307; 14,2553; 14,1617; 14,0063; 13,8479; 13,7174; 13,7063; 13,6462; 13,5561; 13,5342; 13,4398; 13,3512; 13,3106; 13,2676; 13,1606; 13,0592; 12,8353; 12,8068; 12,732; 12,7006; 12,6481; 12,635; 12,4866; 12,4509; 12,3828; 12,3442; 12,2078; 12,1941; 12,0429; 12,0254; 11,9931; 11,933; 11,9142; 11,9064; 11,8399; 11,7744; 11,6922; 11,6729; 11,6482; 11,5631; 11,4949; 11,4681; 11,4635; 11,4425; 11,4099; 11,3877; 11,333; 11,2941; 11,2877; 11,2834; 11,257; 11,2224; 11,2082; 11,1696; 11,1556; 11,1269; 11,1096; 11,0875; 11,0565; 11,0134; 10,9879; 10,969; 10,9436; 10,9187; 10,8529; 10,8226; 10,7516; 10,6877; 10,6047; 10,5785; 10,5509; 10,495; 10,4856; 10,4731; 10,4444; 10,4159; 10,4065; 10,3992; 10,3468; 10,3252; 10,2586; 10,2037; 10,185; 10,1635; 10,0901; 10,0659; 9,97848; 9,95978; 9,85733; 9,80982; 9,78103; 9,73032; 9,69518; 9,66389; 9,60546; 9,58525; 9,5597; 9,53483; 9,45679; 9,43732; 9,40828; 9,39159; 9,35129; 9,34625; 9,30965; 9,25371; 9,22686; 9,2078; 9,18667; 9,15263; 9,13941; 9,11118; 9,07771; 9,02788; 9,0093; 8,92762; 8,86916; 8,82131; 8,79254; 8,77403; 8,75171; 8,74999; 8,73468; 8,7023; 8,69634; 8,681; 8,66357; 8,63935; 8,6027; 8,59782; 8,54648; 8,53463; 8,50047; 8,49012; 8,4606; 8,45875; 8,41853; 8,40503; 8,39239; 8,37936; 8,36009; 8,3427; 8,30813; 8,29768; 8,28753; 8,2523; 8,23369; 8,22263; 8,21772; 8,19891; 8,19181; 8,18151; 8,17411; 8,15559; 8,12666; 8,11009; 8,0833; 8,07504; 8,05516; 7,98559; 7,98098; 7,93917; 7,93349; 7,92464; 7,90057; 7,84456; 7,80225; 7,74585; 7,73063; 7,68844; 7,64915; 7,63434; 7,62886; 7,61372; 7,60389; 7,599; 7,58622; 7,56415; 7,52793; 7,51043; 7,49311; 7,48585; 7,46197; 7,44648; 7,42448; 7,41416; 7,37446; 7,35316; 7,33472; 7,32654; 7,29555; 7,27916; 7,27809; 7,25167; 7,21928; 7,20183; 7,20139; 7,18755; 7,16949; 7,12498; 7,1122; 7,0911; 7,07893; 7,04877; 7,02958; 7,00258; 6,98184; 6,95687; 6,93982; 6,93251; 6,91999; 6,89639; 6,88338; 6,85505; 6,82986; 6,82011; 6,81177; 6,7905; 6,75067; 6,68552; 6,66038; 6,65185; 6,63391; 6,62461; 6,6172; 6,59686; 6,57059; 6,56221; 6,53677; 6,52148; 6,49795; 6,48063; 6,43925; 6,42162; 6,37627; 6,34586; 6,33441; 6,29643; 6,24729; 6,24005; 6,2143; 6,20203; 6,19679; 6,18981; 6,18475; 6,16986; 6,15437; 6,146; 6,12579; 6,11868; 6,10765; 6,09472; 6,07916; 6,06884; 6,0556; 6,04505; 6,04104; 6,01655; 6,01169; 5,99893; 5,98439; 5,97186; 5,95841; 5,95125; 5,94556; 5,93855; 5,88998; 5,86626; 5,85837} Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 119/127 X bn ting Vit theo mụ hỡnh thụ dung sai 300 250 200 150 TRSM1 LSA GLSA 100 50 S chiu ma trn S Biu 4.7: So sỏnh s chiu c rỳt gn gia phng phỏp Nhn xột: s chiu biu din cỏc thut ng ó c gim i ỏng k t 500 xung cũn 42 i vi phng phỏp TRSM1 (ngng = 3), gim xung cũn 50 i vi phng phỏp LSA v 300 i vi phng phỏp GLSA; cỏc phng phỏp cho s chớnh xỏc nh Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 120/127 X bn ting Vit theo mụ hỡnh thụ dung sai Chng Kt lun v hng phỏt trin Lun ó t c nhng kt qu cng nh gp phi nhng hn ch sau: Kt qu t c: Tỡm hiu mt s bi toỏn, mt s quy trỡnh v cỏc phng phỏp dựng lnh vc khai phỏ d liu Tỡm hiu v mt s bi toỏn v gii thut ỏp dng khai phỏ d liu bn, ú cú xem xột bn ting Vit Tỡm hiu thuyt thụ v cỏc ng dng ca nú Tỡm hiu mt s mụ hỡnh biu din bn v mt s k thut x da trờn cỏc mụ hỡnh ny Nghiờn cu v mụ hỡnh thụ dung sai biu din v phõn nhúm bn cng nh cỏc gii thut liờn quan S dng mụ hỡnh thụ dung sai x bn ting Vit nhm gii quyt ng ngha ting Vit Tỏc gi ó lm thc nghim so sỏnh cỏc kt qu bng cỏch ỏp dng mt phng ỏn ó xut trờn vi cỏc hng tip cn khỏc nh LSA, GLSA vic xem xột ng ngha Cỏc hn ch: Lun ch mi xoay quanh vic c hiu, tng hp ri trỡnh by li mt s ni dung thuyt mt s bi bỏo v sỏch liờn quan n ti lun D liu ca phn thc nghim chớnh bn thõn tỏc gi lun thu thp c t trang vnexpress.net nờn cú th cũn thiu tớnh khỏch quan Tuy nhiờn tỏc gi cng ó c gng xem xột nhiu hng tip cn khỏc trờn d liu ny S lng 500 bn u vo cho quỏ trỡnh thc nghim cú th cha ln Cha gii quyt c trỏi ngha Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 121/127 X bn ting Vit theo mụ hỡnh thụ dung sai Hng phỏt trin: Phn lun ny trung ch yu vo bi toỏn xem xột s tng ng v ng ngha (da trờn tớnh cht ng xut hin) gia cỏc thut ng ting Vit s dng mụ hỡnh TRSM bng xut trờn v mt s k thut khỏc nh: phõn tớch SVD, k thut LSA, GLSA Tuy nhiờn mụ hỡnh TRSM cú th ỏp dng vo rt nhiu bi toỏn khỏc nhng thi gian hn ch nờn tỏc gi khụng th thc hin c õy, du vy xin nờu mt s hng phỏt trin ỏp dng mụ hỡnh ny v cỏc liờn quan khỏc: Xõy dng mt cụng thc kiu quy np cho phộp nhanh chúng tớnh toỏn li trng s ca cỏc thut ng cỏc ti liu cú mt ti liu mi c thờm vo Vic tớnh toỏn trng s cho cỏc thut ng ti liu theo mụ hỡnh TRSM ũi hi phi duyt qua tt c cỏc ti liu, duyt qua tt c cỏc thut ng xõy dng nờn ma trn trng s thut ng-ti liu, cụng vic ny ũi hi mt lng tớnh toỏn tng i ln, chim nhiu ti nguyờn h thng Nu mi ln thờm vo ti liu mi m phi tớnh toỏn li t u thỡ chi phớ thng tn kộm Vỡ vy, vic a mt gii thut, mt cụng thc kiu quy cho phộp xỏc nh trng s ca cỏc thut ng thụng qua cỏc trng s thut ng ó cú trc ú l mt vic lm cn thit t cng cn cú mt phng phỏp gn ỳng cho phộp tớnh toỏn li cỏc trng s vi sai s chp nhn c Web search result clustering s dng mụ hỡnh TRSM: nh ta thng thy mi ln gừ mt truy vo search engine no ú (chng hn Google, Bing) thỡ kt qu tr v thng rt ln (cú th l hng ngn, hng triu ti liu); nhiờn cỏi m ngi s dng cn thng l mt s ớt cỏc ti liu ú Vy bng cỏch no giỳp ngi dựng nhanh chúng tỡm cỏi m h cn? Vi c im m search engine tr v thng l mu tin rt (snip) nhng cú ni dung rt cụ ng mụ t v ti liu, ta nhn thy nu s dng mụ hỡnh TRSM m cỏc ti liu mụ hỡnh chớnh l cỏc mu tin tr v t search engine thỡ ta cú th thc hin clustering trờn cỏc mu tin ny Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 122/127 X bn ting Vit theo mụ hỡnh thụ dung sai TRSM ỏp dng õy t rt hp bi vỡ kớch thc ca mi mu tin l khụng ln (thng t n dũng bn), vy cú th ỏp dng cỏc gii thut clustering (chng hn non-hierarchical hoc hierarchical clustering) vi cỏc bn ú s dng xp x trờn (vic tớnh xp x trờn i vi bn ton vi s lng thut ng ln thng chim rt nhiu ti nguyờn, nu bn ó c rỳt gn thỡ cụng vic tớnh toỏn tn ti nguyờn hn rt nhiu) Mt khỏc, vic s dng xp x trờn s to s liờn kt v mt ng ngha gia cỏc ti liu cho dự chỳng khụng chia s hoc chia s rt ớt cỏc thut ng dựng chung Sau ó cú cỏc cluster nh vic ỏp dng cỏc gii thut clustering, cỏc ti liu cú ni dung tng t s thuc v cựng mt cluster, nu bng mt cỏch no ú ta cú th gỏn nhón cho cỏc cluster ny mụ t ni dung chung ca cluster thỡ sau ú ngi dựng ch vic tỡm kim thụng tin m h cn cluster ú thay vỡ vic phi duyt qua rt nhiu cỏc ti liu m search engine tr v tỡm cỏi m h cn n bc ca phng ỏn th nht ó cp trờn, nu thc hin quỏ trỡnh word clustering thỡ cú th t ng xp cỏc t cú ngha tng t vo cỏc cluster, sau ú, cú th xý ng ngha da trờn cỏc cluster ny Mụ hỡnh TRSM hin ti ỏp dng xem xột ng xut hin (cooccurence) l ch ca thut ng, vy nu m rng khỏi nim co-occurrence cho nhiu thut ng hn thỡ s thu c cỏc kt qu gỡ? Tin hnh lm thc nghim chớnh xỏc ỏp dng cho phng ỏn th hai ó nờu trờn phng ỏn ny cn thc hin Clustering vi s lng bn phi ln (ln hn nhiu so vi s 500 bn) X trỏi ngha ting Vit Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 123/127 X bn ting Vit theo mụ hỡnh thụ dung sai TI LIU THAM KHO [1] Jiawei Han, Michiline Kamber Data Ming: Concepts and Techniques, Second Edition Morgan Kaufmann, 2006 [2] Jan Komorowski, Lech Polkowsli, Andrzej Skowron Rough Sets: A Tutorial [3] Zdzislaw Pawlak Some Issuses on Rough Sets Transactions on Rough Sets I, 2004, pp 11-41 [4] Ricardo Baeza-Yates Modern Information Retrieval Complete [5] Ho Tu Bao, Nguyen Ngoc Binh Nonhierarchical document clustering based on a tolerance rough set model International Journal of Intelligent Systems [6] Ho Tu Bao, Nguyen Ngoc Binh, Saori Kawasaki Hierarchical document clustering based on tolerance rough set model In Principles of Data Mining and Knowledge Discovery, 4th European Conference, PKDD 2000, Lyon, France 2000 [7] Ngo Chi Lang A tolerance rough set approach to clustering web search results Master thesis in Computer Science December 2003 [8] Dawid Weiss Descriptive Clustering as a method for exploring text collections A dissertation submitted to the Council of the Faculty of Computer Science and Management in partial fulfillment of the requirements for the degree of Doctor of Philosophy, 2006 [9] Nguyn Th Kim Ngõn Phõn loi bn Ting Vit bng phng phỏp Support Vector Machines Lun Thc S ngnh CNTT, HBK HN, 2004 [10] Nello Cristianini, John Shawe-Taylor An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge University Press Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 124/127 X bn ting Vit theo mụ hỡnh thụ dung sai [11] Shusaku Tsumoto, Roman Slowinski, Jan Komorowski, Jerry W.GrzymalaBusse Rough Sets and Current Trend in Computing 4th International Conference, RSCTC 2004, Uppsala, Sweden, June 2004, Springer [12] Walter Daelemans, Bart Goethals, Katharina Morik Machine Learning and Knowledge Discovery in Databases European Conference, ECML PKDD 2008, Part II [13] Rough Sets, Fuzzy Sets, Data Mining and Granular Computing: 11th International Conference, RSFDGrC 2007, Toronto, Canada, May 14-16, 2007 (Lecture Notes in Computer Science) [14] Helen J Peat and Peter Willett Journal of the American Society for Information Science pp 378-383, June 1991 [15] Landauer, T K and Dumais, S A solution to Platos problem: The Latent Semantic Analysis theory of acquision, induction and representation of knowledge Psychological Review, 104 (1997), 211-240 [16] Manning, C and Schutze, H Foundations of statistical natural language processing MIT, 1999 [17] Turney, P Mining the web for synonyms: PMI-IR versus LSA on TOEFL Proc ECML 2001 [18] Matveeva, I., Levow, G., Farahat, A and Royer, C Term representation with Generalized Latent Semantic Analysis Proc RANLP 2005 [19] Rada Mihalcea, Courtney Corley, Carlo Strapparava Corpus-based and Knowledge-based Measures of Text Semantic Similarity [20] Thomas Hofmann Probabilistic Latent Semantic Indexing Proceeding of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 125/127 X bn ting Vit theo mụ hỡnh thụ dung sai TểM TT LUN VN Lun ny trung vo nhng ni dung chớnh sau õy: Quy trỡnh phỏt hin tri thc v khai phỏ d liu núi chung, cỏc phng phỏp, cỏc gii thut, cỏc bi toỏn liờn quan lnh vc ny Khai phỏ d liu bn núi riờng l mt phm trự hp ca lnh vc khai phỏ d liu d liu x l cỏc bn Nghiờn cu thuyt thụ v cỏc ng dng ca nú Nghiờn cu mt s gii thut liờn quan n bi toỏn phõn lp, phõn nhúm Tin hnh ci t th nghim mt s gii thut phõn nhúm (clustering) Tỡm hiu mt s c trng ca ting Vit, mt s phng phỏp tỏch t loi ting Vit Nghiờn cu mụ hỡnh thụ dung sai (TRSM) biu din v x bn, ỏp dng thc t x ng ngha ting Vit Lm thc nghim gii quyt mt bi toỏn liờn quan n ng ngha nh ó nờu trờn Trỡnh by nhng hn ch ca lun v xut mt s hng phỏt trin tng lai T khúa: Rough Sets, Tolerance Roughset Model (TRSM), Singular Value Decomposition (SVD), Latent Semantic Analysis (LSA), Clustering Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 126/127 X bn ting Vit theo mụ hỡnh thụ dung sai ABSTRACT OF THESIS This thesis aims at these main points: The process of data mining and knowledge discovery in general, methods, algorithms, mathematic problems incident to this field Text mining in particular is a narrow category of data mining used when processed data are in text form Studying rough set theories and its applications Studying some algorithms related to classification and clustering Conducting installation test of some clustering algorithms Studying some Vietnamese characteristics and methods of term extraction in Vietnamese Studying Tolerance Rough Set Model (TRSM) in text representation and processing, applying to reality to handle matters related to antonyms in Vietnamese Conducting installation experiments to process texts by using TRSM Presenting restrictions of the thesis and recommending some directions for development in the future Key words: Rough Sets Theory, Tolerance Roughset Model (TRSM), Singular Value Decomposition (SVD), Latent Semantic Analysis (LSA), Clustering Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 127/127 ... thuật xử lý văn mô hình biểu diễn văn Các toán, phương pháp trình bày tổng quan chương sử dụng với liệu cụ thể liệu văn Chương 4: Mô hình tập thô dung sai xử lý sở liệu văn nói chung văn tiếng Việt. .. Clustering dựa mô hình tập thô dung sai 85 4.3 Xử lý văn tiếng Việt 86 4.3.1 Một số vấn đề chung xử lý văn Tiếng Việt 86 4.3.1.1 Một số đặc trưng Tiếng Việt ... Model Mô hình không gian vector Học viên thực hiện: Trần Quang – Lớp CH CNTT 2007-2009 5/127 Xử lý văn tiếng Việt theo mô hình tập thô dung sai DANH MỤC CÁC BẢNG BIỂU Bảng 2.1: Ví dụ hệ thông

Ngày đăng: 27/07/2017, 20:33

Từ khóa liên quan

Mục lục

  • TRANG BÌA

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC THUẬT NGỮ

  • DANH MỤC CÁC BẢNG BIỂU

  • DANH MỤC CÁC HÌNH

  • LỜI NÓI ĐẦU

  • Chương 1

  • Chương 2

  • Chương 3

  • Chương 4

  • Chương 5

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan