Xử lý văn bản tiếng việt theo mô hình tập thô dung sai

118 325 0
Xử lý văn bản tiếng việt theo mô hình tập thô dung sai

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trần quang giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học công nghệ thông tin ngành : công nghệ thông tin Xử văn tiếng việt Theo hình tập thô dung sai Trần quang 2007 - 2009 Hà Nội 2010 Hà Nội 2010 X bn ting Vit theo mụ hỡnh thụ dung sai giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học Xử VĂN BảN TIếNG VIệT THEO HìNH TậP THÔ DUNG SAI ngành : công nghệ THÔNG TIN m số:23.04.3898 TRầN QUANG Ngi hng dn khoa hc : PGS TS Nguyễn ngọc bình Hà Nội 2010 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 1/117 X bn ting Vit theo mụ hỡnh thụ dung sai LI CAM OAN Tụi Trn Quang cam oan Lun ny l cụng trỡnh nghiờn cu ca bn thõn tụi di s hng dn ca PGS.TS.Nguyn Ngc Bỡnh Cỏc kt qu nờu Lun l trung thc, khụng phi l chộp ton ca bt k cụng trỡnh no khỏc H Ni, ngy thỏng nm Tỏc gi Lun Trn Quang Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 2/117 X bn ting Vit theo mụ hỡnh thụ dung sai MC LC DANH MC CC THUT NG DANH MC CC BNG DANH MC CC HèNH LI NểI U Chng Tng quan v khai phỏ d liu 1.1 Khai phỏ d liu Data Mining 1.2 Tin x d liu 12 1.3 Phõn lp v d bỏo Classification and Prediction 12 1.3.1 Gii thiu 12 1.3.2 Support Vector Machines 15 1.3.2.1 SVMs vi d liu kh tỏch tuyn tớnh (linearly separable) 16 1.3.2.2 SVMs vi d liu khụng kh tỏch tuyn tớnh (linearly inseparable) 20 1.4 Phõn nhúm d liu 22 1.4.1 Gii thiu 22 1.4.2 Phõn loi cỏc phng phỏp Clustering 24 1.4.3 Mt s phng phỏp Clustering 27 1.5 Cỏc ng dng v xu hng khai phỏ d liu 31 Chng Tp thụ v ng dng 34 2.1 thuyt thụ 34 2.1.1 H thụng tin 35 2.1.2 Quan h bt kh phõn 37 2.1.3 Xp x hp 38 2.1.4 Thnh viờn thụ Rough Membership 42 2.1.5 Ph thuc gia cỏc thuc tớnh 43 2.1.6 Rỳt gn thuc tớnh 44 2.1.7 Ma trn phõn bit c v hm phõn bit c 50 2.1.8 S quan trng ca cỏc thuc tớnh v cỏc rỳt gn xp x 53 2.2 Cỏc ng dng ca thụ 56 2.3 Mụ hỡnh thụ dung sai 57 Chng Mt s k thut khai phỏ d liu bn 60 3.1 Cỏc mụ hỡnh biu din bn 60 3.1.1 Mụ hỡnh khụng gian vector Vector Space Model 60 3.1.1.1 Document Indexing 61 3.1.1.2 Feature Weighting 63 3.1.1.3 Similarity Coefficients .64 3.1.2 Mụ hỡnh m - Fuzzy Set Model 65 3.1.2.1 thuyt m 65 3.1.2.2 Biu din bn da trờn khỏi nim m .66 3.1.3 Mụ hỡnh xỏc sut Probabilistic Model 68 3.2 Cụng thc xỏc nh hiu nng x bn 71 3.3 Phõn nhúm bn Text Clustering 72 3.3.1 Gii thiu 72 3.3.2 Cỏc ng dng ca lp nhúm bn 73 3.4 Phõn loi bn Text Classification 73 3.4.1 Gii thiu bi toỏn phõn loi bn 73 3.4.1.1 Tng quan phõn loi bn 73 3.4.1.2 Nn tng hc mỏy bi toỏn phõn loi bn .74 3.4.2 Mt s phng phỏp phõn loi bn 76 3.4.2.1 Decision Tree 76 3.4.2.2 K - Nearnest Neighbor .76 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 3/117 X bn ting Vit theo mụ hỡnh thụ dung sai 3.4.2.3 Naùve Bayes .78 3.4.2.4 Support Vector Machines 80 3.5 Túm tt bn Text Summarization 81 3.6 Phỏt hin xu hng bn Text Trend Detection 81 3.7 Tỡm kim bn Text Retrieval 81 Chng Mụ hỡnh thụ dung sai x c s d liu bn 83 4.1 B khung ca h thng khai phỏ d liu bn da trờn mụ hỡnh TRSM 83 4.2 X bn ting Anh 85 4.2.1 Mụ hỡnh thụ dung sai biu din bn 85 4.2.2 Nonhierarchical Document Clustering da trờn mụ hỡnh thụ dung sai 87 4.2.2.1 Gii thut 87 4.2.2.2 Biu din cluster cluster representation 88 4.2.2.3 tng t gia cỏc ti liu v gia cỏc biu din cluster 90 4.2.3 Hierarchical Document Clustering da trờn mụ hỡnh thụ dung sai 91 4.3 X bn ting Vit 92 4.3.1 Mt s chung x bn Ting Vit 92 4.3.1.1 Mt s c trng ca Ting Vit .92 4.3.1.2 Cỏc bc tin x bn 94 4.3.1.3 Mt s phng phỏp tỏch thut ng bn Ting Vit 95 4.3.1.4 Mt s k thut gim chiu bn 98 4.3.1.4.1 Loi b t dng .98 4.3.1.4.2 La chn c trng cho khụng gian bn 99 4.3.2 p dng mụ hỡnh TRSM x ng ngha, trỏi ngha Ting Vit 100 4.3.2.1 t 100 4.3.2.2 c trng tn sut ca cỏc thut ng v cỏc lõn cn 101 4.3.2.3 Ci t th nghim 102 Chng Kt lun v hng phỏt trin 110 TI LIU THAM KHO 114 TểM TT LUN VN 116 ABSTRACT OF THESIS 117 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 4/117 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC THUT NG STT T vit tt Thut ng Ting Anh DM Data Mining Khai phỏ d liu DT Decision Tree Cõy quyt nh EM Expectation Maximization Mt phng phỏp clustering ERSM Equivalence Rough Sets Model Mụ hỡnh thụ tng ng IDF Inverse Document Frequency Mụ hỡnh nghch o tn s bn KDD KE K-NN ML 10 Knowledge Discovery Thut ng Ting Vit in Databases Khai phỏ tri thc c s d liu Keyword Extraction Bi toỏn trớch trn t khoỏ K- Nearest Neighbour K lỏng ging gn nht Machine Learning Hc mỏy MMH Maximum Marginal Hyperplane Siờu phng l cc i 11 RSM Rough Sets Model Mụ hỡnh thụ 12 SVMs Support Vector Machines Mỏy vector h tr 13 TF Term Frequency Mụ hỡnh tn s thut ng 14 TRSM Tolerance Rough Sets Model Mụ hỡnh thụ dung sai 15 TSR Term Space Reduction Gim khụng gian thut ng 16 VSM Vector Space Model Mụ hỡnh khụng gian vector Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 5/117 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC BNG Bng 2.1: vớ d v h thụng tin 36 Bng 2.2: Walk vớ d v bng quyt nh .36 Bng 2.3: Vớ d bng thụng tin cú thuc tớnh d tha .44 Bng 2.4: Bng d liu thu c bng cỏch loi b ct thuc tớnh Muscle-pain 47 Bng 2.5: Bng d liu thu c bng cỏch loi b ct thuc tớnh Headache 48 Bng 2.6: n gin húa Bng 2.4 .49 Bng 2.7: n gin húa bng 2.5 .49 Bng 3.1: Vớ d phõn loi theo s ụng .77 Bng 3.2: Vớ d li phõn loi theo s ụng 78 Bng 4.1: Mt s hm tớnh giỏ tr c lng thụng tin ca thut ng .100 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 6/117 X bn ting Vit theo mụ hỡnh thụ dung sai DANH MC CC HèNH Hỡnh 1.1: Data mining tỡm kim tri thc d liu .9 Hỡnh 1.2: Data mining l mt bc quỏ trỡnh phỏt hin tri thc 10 Hỡnh 1.3: D liu 2-D kh tỏch tuyn tớnh 16 Hỡnh 1.4: Vớ d v siờu phng cựng vi l tng ng .17 Hỡnh 1.5: Support vectors 18 Hỡnh 1.6: D liu khụng kh tỏch tuyn tớnh .20 Hỡnh 1.7: Clustering da trờn gii thut k-means 28 Hỡnh 1.8: Mi cluster c biu din bi mt phõn b xỏc sut 29 Hỡnh 2.1: Minh xp x trờn, xp x di 39 Hỡnh 2.2: Xp x i tng bng cỏc thuc tớnh iu kin Age v LEMS 40 Hỡnh 2.3: Lp cỏc t ph lờn 58 Hỡnh 3.1: Ma trn ti liu-thut ng 62 Hỡnh 3.2: Minh cỏch tớnh precision v recall 71 Hỡnh 3.3: Minh ho gii thut KNN lỏng ging gn nht vi K = 77 Hỡnh 4.1: B khung h thng khai phỏ d liu da trờn mụ hỡnh TRSM 83 Hỡnh 4.2: Gii thut hierarchical agglomerative clustering da trờn mụ hỡnh TRSM .91 Hỡnh 4.5: Vớ d tỡnh nhp nhng th phõn tỏch cõu 97 Hỡnh 4.6: Cỏc bc ca chng trỡnh 103 Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 7/117 X bn ting Vit theo mụ hỡnh thụ dung sai LI NểI U Hng ngy chỳng ta tip xỳc vi rt nhiu cỏc loi d liu khỏc nhau: õm thanh, hỡnh nh, cỏc d liu s, cỏc d liu lu di dng cỏc ti liu Cỏc d liu ớt nhiu u n cha bờn mt phn tri thc no ú m ta cha bit Khi cỏc d liu tr nờn nhiu hn m ta khụng th kim soỏt nú di dng lit kờ c thỡ ú s n cha mt lng tri thc ln v cn cú cỏc phng phỏp t ng nhn bit cỏc quy lut, cỏc tri thc ang n cha phc v cho li ớch ca chỳng ta Khai phỏ d liu l bi toỏn tỡm tri thc n cha bờn mt d liu ln v ó cú nhiu phng phỏp, nhiu hng tip cn khỏc cho bi toỏn ny, chng hn s dng thuyt thụ, thuyt m, thuyt xỏc sut, hc mỏy Trong lun ny tỏc gi s s dng hng tip cn mụ hỡnh thụ dung sai cho bi toỏn khai phỏ d liu bn nhm gii quyt ng ngha, trỏi ngha bn ting Vit Trong quỏ trỡnh nghiờn cu, tỏc gi nhn thy hng tip cn ny cú rt nhiu ng dng thit thc khỏc cng nh mt s thuyt liờn quan khỏc Tuy nhiờn, hn ch v mt thi gian, tỏc gi ch nờu cỏc ng dng, cỏc bi toỏn liờn quan ú nh l nhng hng phỏt trin kh thi m thụi V mt b cc, lun gm nm chng vi ni dung chớnh nh sau: Chng 1: Trỡnh by tng quan v lnh vc phỏt hin tri thc v khai phỏ d liu cng nh cỏc bi toỏn, cỏc phng phỏp in hỡnh thng c s dng Cỏc ng dng v xu hng lnh vc ny Chng 2: Trỡnh by v thuyt thụ v cỏc ng dng ca nú, c bit l lnh vc khai phỏ d liu ó trỡnh by chng Mụ hỡnh thụ dung sai (TRSM) cng c trỡnh by õy, mụ hỡnh biu din bn ny s c s dng Chng Chng 3: Trỡnh by mt s k thut x bn v cỏc mụ hỡnh biu din bn Cỏc bi toỏn, cỏc phng phỏp c trỡnh by tng quan chng s c s dng õy vi d liu c th l d liu bn Chng 4: Mụ hỡnh thụ dung sai x c s d liu bn núi chung v bn ting Vit núi riờng p dng thc t x ụng ngha, trỏi ngha ting Vit Chng 5: Trỡnh by cỏc kt lun, cỏc hn ch ca lun v xut cỏc hng phỏt trin tng lai Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 8/117 X bn ting Vit theo mụ hỡnh thụ dung sai Chng Tng quan v khai phỏ d liu Ni dung chớnh s trỡnh by: Cỏc khỏi nim c bn khai phỏ d liu Mt s k thut khai phỏ d liu Cỏc ng dng v xu hng khai phỏ d liu 1.1 Khai phỏ d liu Data Mining Khai phỏ d liu[1] l quỏ trỡnh trớch rỳt cỏc thụng tin n cha cỏc kho d liu ln, ụi cũn c gi l khai phỏ tri thc t d liu (knowledge mining from data) Cú nhiu thut ng khỏc cú ngha tng ng hoc khỏc bit ụi chỳt vi thut ng Data Mining, chng hn knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, data dredging Hỡnh 1.1: Data mining tỡm kim tri thc d liu Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 9/117 X bn ting Vit theo mụ hỡnh thụ dung sai Tin x bn To cỏc lp dung sai cho cỏc thut ng Tớnh xp x trờn, xp x di cho cỏc ti liu Xõy dng mụ t cho cỏc ti liu Clustering X ng ngha, trỏi ngha Hỡnh 4.4: Cỏc bc ca chng trỡnh Chi tit ca tng bc c gii thớch nh sau: Bc tin x bn: Cỏc bn u vo c hp li mt th mc trờn a cng, sau o s thc hin quỏ trỡnh tỏch thut ng cho cỏc bn, õy tỏc gi lun s dng chng trỡnh vnTokenizer c vit bi tỏc gi Lờ Hụng Phng, õy l chng trỡnh tỏch thut ng ting Vit tng i tt Trc tỏch t, cỏc bn c chuyn v dng ch in thng, nh vy cỏc thut ng c tỏch s Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 103/117 X bn ting Vit theo mụ hỡnh thụ dung sai l ch thng Cỏc t dng ting Vit cng c loi b Khi kt thỳc bc ny, ta s cú ma trn tn s- ti liu dựng biu din s ln xut hin ca mt thut ng mt ti liu, ký hin ma trn ny l TF Tớnh cỏc lp dung sai ca cỏc thut ng: Vi mt ngng cho trc, ta s tớnh cỏc lp dung sai cho cỏc thut ng Kt thỳc quỏ trỡnh ny ta thu c mt ma trn nh phõn biu din cỏc lp dung sai ca cỏc thut ng; õy l mt ma trn kớch thc N ì N vi N l tng s thut ng, phn t (i, j) =1 núi lờn rng thut ng j thuc v lp dung sai ca thut ng i, bng nu ngc li, ký hiu ma trn ny l TOL Tớnh xp x trờn, xp x di ca cỏc ti liu: Da vo ma trn tn sut v ma trn biu din lp dung sai ca cỏc thut ng ó thu c t bc trờn, ta tin hnh tớnh cỏc xp x trờn v xp x di cho cỏc ti liu Kt thỳc bc ny ta cú mt ma trn nh phõn kớch thc N ì M vi N l tng s thut ng, M l tng s ti liu, ký hiu ma trn ny l UPPER, nu phn t UPPER[i, j] = thỡ cú ngha l thut ng i thuc v xp x trờn ca ti liu j, nu ngc li UPPER[i, j] = Tng t, ta cú LOWER l ma trn nh phõn biu din xp x di cho cỏc ti liu Xõy dng mụ t cho cỏc ti liu: Cn c vo cỏc kt qu ó cú cỏc bc trờn, ta s biu din cỏc bn theo mụ hỡnh TRSM, nh vy kt thỳc bc ny ta cú ma trn trng s, ký hiu l WEIGHT Mi phn t WEIGHT[i, j] s cho bit trng s ca thut ng i ti liu j Clustering: õy ta ỏp dng mt s gii thut clustering (chng hn Non-hierarchical clustering) phõn nhúm M bn ban u thnh K lp Kt thc bc ny, ta cú K cluster Xỏc nh ng ngha, trỏi ngha: Vn ng ngha, trỏi ngha c xem xột thụng qua khỏi nim co-occurrence nh ó cp trờn Nu thut ng ng ngha vi thỡ chỳng phi cựng xut hin cỏc ti liu, ngc li cú th l trỏi ngha Vn ng ngha, trỏi ngha cũn c xem xột thụng qua vic phõn tớch cỏc cluster c to bc Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 104/117 X bn ting Vit theo mụ hỡnh thụ dung sai trờn Cỏc cluster thng cha cỏc bn thuc cựng mt ch , vy cỏc thut ng dựng biu din mt cluster s cú kh nng ng ngha cao hn cỏc thut ng biu din cỏc cluster khỏc õy ta gp li khỏi nim co-occurrence xem xột cỏc thut ng biu din cluster gii quyờt ng ngha õy ta cn da vo o tng t gia cỏc thut ng nh ó trỡnh by phn 4.3.2.2 v mt giỏ tr ngng dựng quyt nh tng t, ký hiu ngng ny l Ta nhn thy rng sau quỏ trỡnh clustering cỏc bn u vo ta s thu c cỏc cluster m biu din ca cỏc cluster ú cú cỏc c im: th nht, mi ti liu mt cluster s cú mt s hoc nhiu thut ng chung vi biu din cluster; th hai, cỏc thut ng biu din ca cluster thuc v mt s lng ln cỏc ti liu ca cluster; th ba, khụng cú thut ng no biu din ca cluster phi thuc v tt c cỏc ti liu ca cluster Nh vy ta s tớnh tng t gia hai thut ng thụng qua cỏc cluster v biu din ca cỏc cluster ú Ta i n cỏc o sau: COSINE(X, Y) = DICE(X, Y) = TANIMOTO(X, Y) = F ( X ,Y ) , F ( X ) ì F (Y ) ì F ( X ,Y ) , F ( X ) + F (Y ) F ( X ,Y ) F ( X ) + F (Y ) F ( X , Y ) Trong ú: - F(X) l s cluster cha thut ng X, - F(Y) l s cluster cha thut ng Y, - F(X, Y) l s cluster cha ng thi hai thut ng X v Y Vi mt ngng cho trc v ỏp dng mt o tng ng ỏnh giỏ mc ng ngha gia hai thut ng X v Y, nu tng t ln hn ngng , cú th coi hai thut ng ú l cú kh nng ng ngha, ngc li, chỳng cú kh nng trỏi ngha Chng trỡnh cú cỏc lp c bn sau: Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 105/117 X bn ting Vit theo mụ hỡnh thụ dung sai Lp IndexTerm dựng lu tr mt thut ng, lp ny cú mt member lu li danh sỏch cỏc ti liu cha thut ng ny cựng vi cỏc c trng thng kờ khỏc chng hn nh s ln xut hin ca thut ng ti liu hay trng s ca thut ng ti liu class IndexTerm { public: IndexTerm(const std::wstring&); ~IndexTerm(void); // Toan tu so sanh thuat ngu bool operator == (const std::wstring&); bool operator == (const IndexTerm&); // Toan tu lay ve so cua thuat ngu tai lieu // nIndex double& operator [](int nIndex); // Phuong thuc lay so lan xuat hien cua thuat ngu tai // lieu int GetNumOccurrence(int iDocIndex); public: // Tong so thuat ngu static int N; // Index cua thuat ngu int m_nIndex; // Thuat ngu std::wstring m_sTerm; // Danh sach cac tai lieu chua thuat ngu cung cac dac // trung thong ke khac std::vector m_vDocList; // Lop dung sai cua thuat ngu std::vector m_vToleranceClass; }; Lp Document: Dựng lu tr mt ti liu, nú cú mt thuc tớnh lu tr tt c cỏc thut ng xut hin ti liu, mt khỏc cng cú cỏc thnh viờn lu tr cỏc xp x trờn v xp x di ca ti liu class Document { public: Document(const std::string& strFileName); ~Document(void); // Toan tu tinh so lan xuat hien cua thuat ngu pTerm // tai lieu int operator [] (IndexTermPtr_t pTerm); // Dua them mot thuat ngu vao danh sach void AddTerm(IndexTermPtr_t pTerm); public: // Tong so tai lieu thu thap duoc static int M; // Chi so cua tai lieu int m_nIndex; Hc viờn thc hin: Trn Quang Lp CH CNTT 2007-2009 106/117 X bn ting Vit theo mụ hỡnh thụ dung sai }; // Ten file tuong ung voi tai lieu std::string m_sFileName; // Danh sach thuat ngu xuat hien tai lieu std::vector m_vTerms; // Xap xi tren cua tai lieu std::vector m_vUpperApproximation; // Xap xi duoi cua tai lieu std::vector m_vLowerApproximation; Lp DocCollection: Dựng lu tr ton b cỏc bn u vo, nú cú cỏc phng thc tớnh toỏn cỏc lp dung sai, tớnh giỏ tr cho ma trn tn sut, ma trn trng s ti liu-thut ng class DocCollection { public: DocCollection(const std::string& sPath); DocCollection(std::string sPath, int iThreshold); ~DocCollection(void); // Doc thu muc chua tap cac van ban dau vao, trich xuat noi // dung cac file void Init(); // Tach cac thuat ngu chuoi std::vector ExtractTerms(std::wstring wStr); // Ghi stream friend std::wofstream& operator

Ngày đăng: 27/07/2017, 20:36

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC THUẬT NGỮ

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH

  • LỜI NÓI ĐẦU

  • Chương 1

  • Chương 2

  • Chương 3

  • Chương 4

  • Chương 5

  • TÀI LIỆU THAM KHẢO

  • TÓM TẮT LUẬN VĂN

  • ABSTRACT OF THESIS

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan