ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

72 661 0
ỨNG DỤNG CÁC PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HC VIN CễNG NGH BU CHNH VIN THễNG - NGUYN NGC MINH NG DNG CC PHNG PHP HC NA GIM ST VO BI TON PHN LOI VN BN LUN VN THC S K THUT HNINM2013 HC VIN CễNG NGH BU CHNH VIN THễNG - NGUYN NGC MINH NG DNG CC PHNG PHP HC NA GIM ST VO BI TON PHN LOI VN BN CHUYấNNGNH:HTHNGTHễNGTIN MS:60.48.01.04 LUN VN THC S K THUT NGI HNG DN KHOA HC: PGS TS ON VN BAN HNI-NM2013 LI CAM OAN Tụicamoanõylcụngtrỡnhnghiờncucariờngtụi. Cỏcsliu,ktqunờutronglunvnltrungthcvchatngcai cụngbtrongbtkcụngtrỡnhnokhỏc. Tỏc gi lun Nguyn Ngc Minh LI CM N Liutiờnemxingilicmnntonthcỏcthy,cụgiỏoHcvin CụngnghBuchớnhVinthụngótntỡnhchboemtrongsutthigianhc tptinhtrng. Emxingilicm nsõuscnPGS.TS.onVnBan,ngiótrc tiphngdn,tomiiukinthunlivtntỡnhchbochoemtrongsut thigianlmlunvnttnghip. Bờncnhú,honthnhỏnny,emcngónhncrtnhius giỳp,nhnglingviờnquýbỏucacỏcbnbố,giaỡnhvngnghip.Em xinchõnthnhcmn. Tuynhiờn,dothigianhnhp,mcdựónlchtscmỡnh,nhngchc rngỏnkhútrỏnhkhithiusút.Emrtmongnhncsthụngcmvch botntỡnhcaquýthycụvcỏcbn. HCVIấN Nguyn Ngc Minh i MC LC LI CAM OAN i MC LC i DANH MC CC THUT NG V T VIT TT v DANH MC CC HèNH vi DANH MC CC BNG vii M U CHNG - TNG QUAN V PHNG PHP HC MY 1.1 Khỏi nim hc mỏy 1.2 Mt s khỏi nim c bn hc mỏy 1.2.1.Khụnggianbiudincadliu .4 1.2.2.Bnchtcacỏcdliu .4 1.2.3.Tinxlýdliu .4 1.2.4.Quỏtrỡnhrirchúadliu 1.2.5.Tpmu .5 1.2.6.Quỏtrỡnhtỡmkimtrongkhụnggiangithuyt 1.3 Hc cú giỏm sỏt 1.3.1.Khỏinim 1.3.2.Cỏchgiimtbitoỏnhccúgiỏmsỏt 1.4 Hc khụng cú giỏm sỏt 1.4.1.Khỏinim 1.4.2.Mụhỡnhtoỏnhc .9 1.5 Hc na giỏm sỏt 1.5.1.Khỏinim ii 1.5.2.Mụhỡnhtoỏnhc .10 1.6 Tng kt chng 10 CHNG - MT S THUT TON HC NA GIM ST 11 2.1 Mụ hỡnh sinh v thut toỏn k vng cc i 11 2.1.1.Giithiuvmụhỡnhsinh .11 2.1.2.Mụhỡnhsinhtronghcnagiỏmsỏt .11 2.1.3.Thuttoỏnkvngcci 12 2.1.3.1.Giithiuthuttoỏn 12 2.1.3.2.Nidungthuttoỏn 12 2.1.3.3.ỏnhgiỏthuttoỏn 14 2.2 Thut toỏn t hun luyn 15 2.2.1.Giithiuthuttoỏnthunluyn 15 2.2.2.ỏnhgiỏthuttoỏn 16 2.3 Thut toỏn S3VM 16 2.3.1.ThuttoỏnSVM 16 2.3.2.GiithiuthuttoỏnS3VM 21 2.3.3.NidungthuttoỏnS3VM .22 2.3.4.NhnxộtvS3VM 23 2.4 Thut toỏn K - lỏng ging gn nht 23 2.4.1.Giithiuthuttoỏn 23 2.4.2.pdngKNNvobitoỏnphõnloivnbn 24 2.5 Thut toỏn Naive Bayes 26 2.5.1.Thuttoỏn 26 2.5.2.pdngvobitoỏnphõnloi 27 iii 2.5.3.ngdngNaiveBayestrongphõnlpvnbn .30 2.6 Thut toỏn cõy quyt nh 32 2.6.1.Giithiuthuttoỏn .32 2.6.2.ThuttoỏnID3 36 2.6.2.1.Entropy 36 2.6.2.2.InformationGain .36 2.6.2.3.PhỏtbiuthuttoỏnID3 37 2.6.3.ỏnhgiỏthuttoỏncõyquytnh 37 2.7 Tng kt chng 38 CHNG - PHN LOI VN BN DA VO PHNG PHP HC NA GIM ST 39 3.1 Phỏt biu bi toỏn phõn loi bn 39 3.1.1.Mụhỡnhtngquỏt 41 3.1.1.1.Giaionhunluyn 41 3.1.1.2.Giaionphõnlp 43 3.1.2.Quỏtrỡnhtinxlývnbn .44 3.1.3.Phngphỏpbiudinvnbn .44 3.1.3.1.Mụhỡnhkhụnggianvộct 45 3.1.3.2.Khỏinimtrngs 45 3.1.4.ỏnhgiỏbphõnlp .47 3.1.4.1.Macro-Averaging 48 3.1.4.2.Micro-Averaging .49 3.2 Gii thiu bi toỏn thc nghim 49 3.3 Mụi trng thc nghim 49 iv 3.3.1.Dliusdng 49 3.3.2.Trớchchnctrng 51 3.3.3.Phngphỏpỏnhgiỏ 52 3.3.4.Cụngcphõnlp .53 3.3.5.Ktquthnghimvỏnhgiỏ .54 3.4 Tng kt chng 57 KT LUN 58 TI LIU THAM KHO 59 v DANH MC CC THUT NG V T VIT TT Thut ng Vit tt í ngha Cụngnghthụngtin CNTT Cụngnghthụngtin Csdliu CSDL Csdliu Self-training Self-training Thunluyn EM ExpectationMaximization Kvngcci Machinelearning Machinelearning Hcmỏy Supervisedlearning Supervisedlearning Hccúgiỏmsỏt Unsupervisedlearning Unsupervised learning Hckhụnggiỏmsỏt K-NearestNeighbors algorithm KNN Klỏngginggnnht Semi-supervised learning Semi-supervised learning Hcnagiỏmsỏt NaiveBayes NaiveBayes Bayesngõyth Decisiontree Decisiontree Cõyquytnh Supportvectormachine SVM Mỏyvộcthtr Semi-supervised supportvectormachine S3VM Mỏyvộcthtrna giỏmsỏt vi DANH MC CC HèNH Hỡnh1.1:Mụhỡnhhccúgiỏmsỏt .6 Hỡnh1.2:Mụhỡnhhcnagiỏmsỏt Hỡnh2.1:Dliucúnhón 11 Hỡnh2.2:Dliucúnhónvchacúnhón .12 Hỡnh2.3PhõnlpSVM 17 Hỡnh2.4:Cõyquytnh 34 Hỡnh3.1:Mụhỡnhgiaionhunluyn 41 Hỡnh3.2:Chititgiaionhunluyn .42 Hỡnh3.3:Mụhỡnhgiaionphõnlp .43 Hỡnh3.4:Chititgiaionphõnlp 43 Hỡnh3.5:Sosỏnhchớnhxỏcvbaophbdliubanu 57 Hỡnh3.6:Sosỏnhchớnhxỏcvbaophbdliusaukhistemming 57 47 weight(i,j)= ( ) nu tf =0 Trong ú, N l tng s vnbn.Biuthc th nhtỏp dngcho cỏct cú xuthintrongvnbn,cũnbiuthcthhaichocỏctkhụngxuthintrongvn bn. 3.1.4 ỏnh giỏ b phõn lp Saukhiótỡmchcỏcthamstiuchobphõnlp(haycúthnúil b phõn lp ó c hun luyn xong), nhim v tip theo l cn phi ỏnh giỏ (kimtra)bphõnlpúchoktqunhthno?Tuynhiờn,quỏtrỡnhkimtra phicthchintrờnmttpdliukhỏcvitpdliuhunluyn,cũnc givicỏitờnltpdliukimtra(atestset).Vickimtrabphõnlplmt sỏnhgiỏtrờnmttpdliuchacbitvỡthúlsolng,ỏnhgiỏ duynhtchobitkhnngthcscamtbphõnlp.ngin,tasxemxột mtbphõnlpnhphõn(phõnhailp). Trongú, a:lslngitngthucvlpangxộtvcbphõnlpgỏn volp b: l s lng i tng khụng thuc v lp ang xột nhng c b phõnlpgỏnvolp. c:lslngitngthucvlpangxộtnhngcbphõnlp loikhilp. d: l s lng i tng khụng thucv lp ang xột v c b phõn lploikhilp. ỏnhgiỏchtlngbphõnlp,hainvolngquantrngúl ỳngn(accuracy)cobngcụngthc tớnh bng cụng thc ad vsaili(Error)c abcd cb o ny phn ỏnh y cht lng ca b abcd phõnlp.Tuynhiờn,khiỏnhgiỏbphõnlp,thngngitachxemxộtnhng 48 itngthucvlpvcphõnlpỳng,cũnnhngitngkhụngthuc vlpthngsớtcquantõm.Doú,mtsokhỏcócnhngha. Cỏcobaogm: Precision(chớnhxỏc): a ab Recall(baoph,y): Fallout(loib): a ac Tuy nhiờn, mt s trng hp thc t, nu tớnh precision v recallriờngrschoktqukhụngcõni.Doú,thuntin,ngitakthp haionyvomtnvotngquỏtduynht.lmiuny,ngitas dngnvolngFcnhnghanhsau: F= 1 (1 ) P R Trongú: PlchớnhxỏcPrecision RlbaophRecall lmthsxỏcnhscõnbngcaquytnhvbaoph. Giỏtr thngcchnchoscõnbnggiaPvR.Vigiỏtr nyoctớnhnginl2PR/(P+R). Nhngo trờncdựng ỏnhgiỏchonhngbphõnlp nhphõn (phõn hai lp). Tuy nhiờn, thc t, thng cỏc b phõn lp phi phõn chia nhiulp,chớnhvỡvyỏnhgiỏtngthtonbcỏclpphõnloi,saukhilp bngthngkờchotnglp,haiphngphỏpnaócỏpdngỏnhgiỏú lmicro-averagingvmacro-averaging. 3.1.4.1.Macro-Averaging õy l phng phỏp tớnh trung bỡnh cỏc o precious v recall ca tng lp.Cỏclpsaukhiólpbngthngkờvtớnhcỏcopreciousvrecallcho tnglp.Cỏconysctớnhtrungbỡnhli. 49 Pmacro |C| | C | i bi Rmacro Trongú:|C|lslpcnphõnloi |C| | C | i ci 3.1.4.2.Micro-Averaging õylphngphỏptớnhtrungbỡnhcỏcktquthngkờcatnglp.Cỏc lpsaukhiólpbngthngkờ.Cỏcbngnysccngnylitngngtheo tngụ.Sauú,stớnhoPrecisionvRecallchobngthngkờlnú. Pmicro |C | a i i C| Rmicro ( bi ) i |C | |C | a i i ( a ci ) i i 3.2 Gii thiu bi toỏn thc nghim Phõnlpvnbnhinnaylmtchginhcnhiusquantõm.õy cngchớnhlmttrongnhngnglcthỳcysphỏttrincỏcphngphỏphc cú giỏm sỏt. Trongthc t hiờn ngycng cú mt slungln cỏcthụng tin trờncỏctrangwebcncphõntớch.Viclmnynhiukhimtrtnhiucụng scvthigiancangicntỡmkim. Trong lun ny tụi tin hnh thuthp mt lng nh b d liu email DBWorld[18]vsdngnúhunluynvphõnloiriờngvchthụngbỏo cahinghvcỏcnidungkhỏc. 3.3 Mụi trng thc nghim 3.3.1 D liu s dng Dliubaogmmttp64emailthũmthDBWORLD.Dliuthuc chac phõn loinờn ta cn gỏn nhónphõn loi mtcỏch th cụng chochỳng baogmthụngbỏocahingh vcỏcnidungkhỏc.Bd liuc biu dinbngmtmatrn[20].Mimtemailcbiudinnhlmtvộcttrng schaNgiỏtrnhphõn,trongúNlkớchcbtvng.Giỏtrnhphõnl1 nuttngnglthucvdliulthụngbỏohingh,vmanggiỏtr0nu 50 ngcli.Mithuctớnhlmttctrngcabdliuemailnyvimtvi rngbuc:cỏctphicúớtnht3kýtvtiacúdi30kýt. Bc tip theo l o to b phõn loi da trờn b d liu hun luyn ó chunbsn.Vicphõnloivnbndatrờnchthụngbỏocahinghnờn cỏctliờnquannchnyrtlquantrng.Dliuõygm242thuctớnh ócchnlav64emailmu.Mithuctớnhchralpcamimu:1nu mu ú l mt thụng bỏo ca hi ngh, nu ngc li. Bng 3.1 túm tt c im ca b d liu. Bng 3.2 ch 20 t dựng nhiu nht v tn sut lp ca chỳng. Bng 3.1: B d liu th nghim ban u Dliu Ch Thuctớnh 242 Mu 64 #Lpỳng 29 #Lpsai 35 Trungbỡnh 97.38% Bng 3.2: Danh sỏch 20 t c trng TT 10 11 12 13 14 15 16 17 18 19 20 Ch(#) cfp(16) position(14) call(12) university(7) data(7) international(6) web(5) systems(5) research(5) phd(5) network(5) management(5) faculty(5) special(4) social(4) papers(4) mining(4) issue(4) conference(4) workshop(3) 51 3.3.2 Trớch chn c trng Saukhiphõnloicúgiỏmsỏtclachn,mtquytnhquantrngkhỏc cnthchinltrớchchnctrng[19].Trongphõnloivnbn,ctrngch c tớnh ca d liu bn cú th o c phõn loi bn, nh n gram (ungam, bgam, trigram, ), bag-of-words (tỳi ca t) [21,22]. Cỏc k thut trớch chnctrngcúmcớchlgimscỏcthuctớnhnhmtngchớnhxỏctrong vichunluyn. õytỏcgichnctrngbag-of-wordscựngvi2kthutlloibcỏc tdngstopwordvlytgcstemming.TinWikipedianhngha:T dng l nhng t xut hin thng xuyờn nhng li khụng cú ớch ỏnh ch mctỡmkimkhỏc.Thụngthng,cỏctrngt,giit,liờntlcỏct dng. Stemminglbclmgimcỏckýtcatbngcỏcloibcỏctint,hut intgc.Chnghntnhlcompute,computervcomputersuthnh comput.Bcxlýnylmbtcỏcthuctớnh,bdliuógimc13thuc tớnh(xembng3.3)nhngvngicquanhngnghacat.Ngoiranúcũn lmgimcỏctvngvgimsthathttrongbdliu. Bng 3.3: B d liu sau stemming Dliu Thuctớnh Ch 229 Trungbỡnh 97.23% Bng 3.4: Danh sỏch 20 stem c trng TT 10 11 Ch(#) posit(17) cfp(16) call(12) univers(7) research(7) data(7) paper(6) network(6) manag(6) intern(6) web(5) 52 12 13 14 15 16 17 18 19 20 system(5) phd(5) faculti(4) workshop(4) special(4) social(4) propos(4) mine(4) issu(4) Chngtrỡnhlytgcstemmingcvitbngjavabngcỏchsdng thuttoỏncaPorter[25]. Saukhicỏcctrngphựhpcchn,bphõnloicotovitp dliuhunluyn.Quỏtrỡnhhunluynthngclpilplinhiulncú cmtmụhỡnhttnht.Hiunngcamụhỡnhphõnloisauúcỏnhgiỏ bitpdliukimtraóchunbriờng. 3.3.3 Phng phỏp ỏnh giỏ Sauquỏtrỡnhxõydngbphõnlp,cnphiỏnhgiỏktquphõnlp xemxộtkhnng s dngcỏcphngphỏpóchntrongvictrinkhai mth thngchyc.Cngnhmththngtỡmkimhayphõnloivnbn,mth thngphõnloiýkincngcỏnhgiỏthụngquathcnghimhnlsdng phõntớchhotngcathuttoỏn. Phng phỏp ỏnh giỏ:nidungnyóctrỡnhbychititmc3.1.4 (ỏnhgiỏphõnlp). Cỏch tin hnh ỏnh giỏ chộo 10 ln (10-fold cross validation): Chiatpdliuthnh10phn. Sdnglnltphn1,2,,10lmtpkimth,9phncũnlilmtp hunluyn.Lychớnhxỏc,baophcatnglnthnghim. Tớnhcỏcobngcỏchlygiỏtrtrungbỡnhcattccỏcln. D liu s dng Dliulunvnsdnglmttp64email[18]mtỏcgióthuthpv phõnloithuchaichthụngbỏocahithovcỏcnidungkhỏc.Vic 53 gỏnnhónnyhontonthcụng,tclgỏnnhóncvphõnloichỳng.Tpd liuchacỏccõuchacúnhónphõnloitngng. Tpdliusauquỏtrỡnhdỏnnhónnhsau: -Tngs:64mu -Btvng:243thuctớnhcúthxuthintrongmu. 3.3.4 Cụng c phõn lp LunvnsdngcụngcphõnlplphnmmWeka[17]phõnlpvn bn. Wekalmtphnmmngunmvkhaiphỏdliucphỏttrinbii hcUniversityofWaikatoncNewZealand.Wekaltvitttchocm tWaikatoEnvironmentforKnowledgeAnalysis.Wekacúthcsdng nhiucpkhỏcnhau.Cpngincanúltacúthỏpdngcỏc thut toỏn ca Weka x lý d liu t dũng lnh. Nú bao gm nhiu cỏc cụng c dựng cho vic bini dliu, nh cỏcthut toỏndựng ri rc húadliu Wekacungcpttccỏcchcnngcbncakhaiphỏdliubaogmcỏc thuttoỏnvphõnlp(classifier),cỏcthuttoỏnvtinxlýdliu(filter), cỏc thut toỏn v phõn cm (cluster), cỏc thut toỏn v kt lut (associationrule). 54 3.3.5 Kt qu th nghim v ỏnh giỏ Bng3.5lktquthcnghimvicỏcphngphỏpóctrỡnhby trờn vi b d liu gc. Bng 3.6 trỡnh by kt qu vi b d liu sau stemming.Tacúthtngktlingngnnhsau: -Tp d liu hun luyn v kim th:BdliuvemailcaDBWORLD[17] -Cỏc thut toỏn phõn lp:NaùveBayes,KNN(Klỏngginggnnht),Decision Tree(cõyquytnh),S3VM(Semi-supervisedsupportvectormachine) -Phng phỏp ỏnh giỏ:ỏnhgiỏchộo10ln(10-foldcrossvalidation)vi o:baophvchớnhxỏc -Th vin v cụng c:weka,snowball(cụngctrớchchnctrng) 55 Bng 3.5: Kt qu kim nghim b d liu ban u Phng S S mu mu phõn phõn loi loi sai ỳng phỏp Tng chớnh xỏc bao ph TB TB KNN 13 51 64 0,923 0,711 0,827 0,686 0,931 0,797 Naive Bayes 07 57 64 0,912 0,867 0,891 0,886 0,897 0,891 quyt 10 54 64 0,857 0,828 0,844 0,857 0,828 0,844 56 64 0,886 0,862 0,875 0,886 0,862 0,875 Cõy nh S3VM Bng 3.6: Kt qu kim nghim b d liu sau stemming Phng phỏp S S mu mu phõn phõn loi loi sai ỳng Tng chớnh xỏc bao ph TB TB 11 53 64 0,962 0,737 0,860 0,714 0,966 0,828 Naive Bayes 09 55 64 0,882 0,833 0,860 0,857 0,862 0,859 Cõy 50 64 0,839 0,727 0,788 0,743 0,828 0,781 56 64 0,909 0,839 0,877 0,857 0,897 0,875 KNN quyt 14 nh S3VM Bng3.5,Bng3.6tngktslngcngnhchớnhxỏc,vbaoph cacỏcphngphỏpphõnloivnbn.Ctthnhtlitkờcỏcphngphỏpc kim th. Ct th hai lmụ hỡnh ngụn ng c ỏp dng cho phng phỏpphõn 56 loiKlỏngginggnnht(K-NearestNeighbors),Bayesngõyth(NaùveBayes), cõy quyt nh (Decisiontree) s dng thut toỏn ID3 vthut toỏn na giỏm sỏt S3VM (Semi-supervised support vector machine). Hai ct k tip l thng kờ s lngcõuphõnloiỳngvphõnloisaichotngloi.Cũnlilchớnhxỏcv baophcatngphngphỏpivi miloiclassv giỏtr trungbỡnhthu c.Giỏtrtrungbỡnhctớnhtheotl2loilptrongú:1llpcỏcemail thucchthụngbỏocahingh,cũn0llpcỏcemailcũnli. Theo bng kt qu trờn, ta thy vic phõn loi bng phng phỏp Naive Bayesuchoktqu(chớnhxỏcvbaoph)tthnhaiphngphỏpcũn li. Trong ú, chớnh xỏc ca b phõn loi Naive Bayes khỏ tt, lờn ti xp x 89%,baophcngtmccao. i vi phng phỏp Bayes ngõy th (Naive Bayes) v Cõy quyt nh (Decisiontree)ddngnhnthychớnhxỏcvbaophcachỳngubng nhau.Nhvycỏcphngphỏpphõnloiuchoktqurtkhquan. Theo bng 3.6 trờn, ta thy trờn cựng mt loi c trng, hu ht cỏc trnghpbphõnloiS3VMchoktqutthnbphõnloiNaùveBayesv chớnhxỏc.iunykhỏhplývỡnhiucụngtrỡnhnghiờncutrcúcngara ktlunrngS3VMchoktqutthnNaùveBayes.Trongú,õychớnhxỏc cabphõnloiS3VMkhỏtt,lờntixpx88%vibdliusaukhilytgc stemming,baophcaS3VMcngcaohnNaùveBayes. Vihaithuttoỏnphõnloiny,chớnhxỏcvbaophcachỳngu khụngchờnhlchỏngk. Tuy nhiờn, cỏc phng phỏp ny cng cũn nhng im hn ch. Hiu nngcaphngphỏpphõnloi(NaiveBayesvKNN)phthucnhiuvoquỏ trỡnhtrớchchnctrng,btvngcxõydngthcụngnờnkhụngthtrỏnh khinhngcmnhnthiutớnhkhỏchquan.Nhcimnychcúthcithin bngcỏchxõydngmtbtvngcnthn,phongphỳvchớnhxỏchn. 57 0.9 0.8 0.7 0.6 0.5 Precision 0.4 Recall 0.3 0.2 0.1 KNN Naive Bayes Decision tree S3VM Hỡnh 3.5: So sỏnh chớnh xỏc v bao ph b d liu ban u 0.9 0.8 0.7 0.6 0.5 Precision 0.4 Recall 0.3 0.2 0.1 KNN Naive Bayes Decision tree S3VM Hỡnh 3.6: So sỏnh chớnh xỏc v bao ph b d liu sau stemming 3.4 Tng kt chng Chng3ótrinkhaithnghimmtsphngphỏpphõnloivnbn. D liu l ni dung ca cỏc email ca DBWORLD [18]. Cỏc k thut phõn loi ucỏpdnglphngphỏpK-lỏngginggnnht(K-NearestNeighbors),Naive Bayes(Bayesngõyth),cõyquytnh(Decisiontree)vS3VM(Semi-supervised supportvectormachine). 58 KT LUN Nhng kt qu t c ca lun vn: Trongquỏtrỡnhnghiờncuvthchin,lunvnótcnhngktqu nhsau: -Giithiumtskhỏinimcbntronglnhvchcmỏy,hccúgiỏm sỏt,hckhụnggiỏmsỏtvhcnagiỏmsỏt. -Trỡnhbymtsthuttoỏntronghccúgiỏmsỏtnhthutthoỏnkvng cci(EM),thuttoỏnK-lỏngginggnnht(K-NearestNeighborsalgorithm), thut toỏn Bayes ngõy th (Naive Bayes) v thut toỏn cõy quyt nh (Decision tree)vhcnagiỏmsỏtnhthuttoỏnthunluyn(selftraining),thuttoỏnk vng cc i (Expectation Maximization), thut toỏn SVM (Support vector machine),S3VM(Semi-supervisedsupportvectormachine). -Giithiumtskthutphõnlpdliuvvicsdnghccúgiỏm sỏt,hcnagiỏmsỏtngdngtrongcỏcbitoỏnphõnlpcbitlbitoỏnphõn lpvnbn. -ChyvkimnghimtrờnbdliuemailDbworld[18]. Nhng hn ch: Tỏcgichmitptrungtinhnhthnghimbitoỏnphõnlpvibd liucúsn,thnghimcũnngin. Hng phỏt trin tng lai: Vinhng kt qu ó t c,tỏc gi xut mt s cụngvic tip theo trongthigiantinhsau:Tiptcnghiờncungdngcỏcthuttoỏnhcna giỏmsỏtsangmtslnhvckhỏcnh:Bitoỏnphõnloiprotein,bitoỏnnhn dnghỡnhnh, 59 TI LIU THAM KHO Danh mc ti liu ting Vit [1] Nguyn Tõn n (2011), Bi ging mng noron nhõn to, Trng i hc SphmHNi,HNi. [2] onVnBan,NguynHinTrinh(2009),Ngụn ng hỡnh thc v ụtụmỏt, NXBihcThỏiNguyờn. [3] LờHut,LờPhngLan,HongcHi(2000),Lp trỡnh Windows, NXBgiỏodc [4] HQuangThy(2011),Bi ging nhp mụn khai phỏ d liu, Trngi hcCụngnghihcQucgiaHNi,HNi. Danh mc ti liu ting Anh [5] Alex Smola, S.V.N. Vishwanathan (2008), Introduction to Machine Learning, Departments of Statistics and Computer Science Purdue University, College of Engineering and Computer Science Australian NationalUniversity. [6] Alexander Zien (2006), Semi-Supervised Support Vector Machines and Application to Spam Filtering, Empirical Inference Department, Bernhard Scholkopf,MaxPlanckInstituteforBiologicalCybernetics. [7] C. Leslie, E. Eskin, J. Weston, and W. S. Noble (2002), Mismatch string kernels for SVM protein classification, Neural Information Processing Systems15. [8] Istvỏn Pilỏszy (2005), Text Categorization and Support Vector Machines, DepartmentofMeasurementandInformationSystemsBudapestUniversity ofTechnologyandEconomics. [9] JasonWeston,ChristinaLeslie,EugeneIe,DengyongZhou,AndreElisseeff and William Stafford Noble (2005), Semi-supervised protein classication using cluster kernels,Bioinformatic,Vol.21,Iss.15,pp.32413247. 60 [10] Linli Xu, Dale Schuurmans (2005), Unsupervised and Semi-Supervised Multi- Class Support Vector Machines,AAAI2005:904-910. [11] M. Craven and S.Slattery (2001), Relational learning with statistical predicate invention: Better models for hypertext, Machine Learning, 43(12):97-119. [12] T. Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines, International Conference on Machine Learning (ICML). [13] Vikas Sindhwani (2006), Newton Methods for Fast Solution of Semi- supervised Linear SVMs, Department of Computer Science, University of Chicago,Chicago,IL60637,USA [14] X. Zhu and Z. Ghahramani (2002), Learning from labeled and unlabeled data with label propagation,Technicalreport,CMU. [15] XiaojinZhu(2006),Semi-Supervised Learning Literature Survey, Computer Sciences TR 1530,UniversityofWisconsinMadison [16] XiaojinZhu(2008),Semi-Supervised Learning Literature Survey,Computer SciencesTR1530,UniversityofWisconsinMadisonLastmodified. [17] Weka.ach:http://www.cs.waikato.ac.nz/ml/weka/, [Truycp:04/11/2013]. D liu email. a ch: http://archive.ics.uci.edu/ml/datasets/DBWorld+emails[Truycp:04/11/2013]. [18] Guyon and A. Elissee, An introduction to variable and feature selection. JournalofMachineLearningResearch,3:1157-1182,Mar.2003. [19] D. Zeimpekis and E. Gallopoulos. Design of a matlab toolbox for termDocument matrix generation. Technical report, Computer Engineering & InformaticsDept.,UniversityofPatras,Patras,Greece,2005. [20] C. Manning and H. Schutze. Foundations of statistical natural language processing.MITPress,Cambridge,MA,1999. 61 [21] T. M. Mitchell. Machine Learning. McGraw-Hill. Series in Computer Science.WCB/McGraw-Hill,Boston,MA,1997. [22] MicheleFilannino.DBWorld e-mail classication using a very small corpus Centre for Doctoral Training, The University of Manchester, lannim@cs.man.ac.uk[Truycp04/11/2013] [23] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification.PhDthesis,UniversityofMinnesota,October1999 [24] M. F. Porter. An algorithm for sux stripping. In K. Sparck Jones and P. Willett, editors, Readings in information retrieval, pages 313{316. Morgan KaufmannPublishersInc.,SanFrancisco,CA,USA,1997. [25] vi.wikipedia.org/wiki/[Truycp04/11/2013].

Ngày đăng: 21/11/2016, 02:40

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

  • DANH MỤC CÁC HÌNH

  • DANH MỤC CÁC BẢNG

  • MỞ ĐẦU

  • CHƯƠNG 1 - TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC MÁY

    • 1.1. Khái niệm học máy

    • 1.2. Một số khái niệm cơ bản trong học máy

      • 1.2.1. Không gian biểu diễn của dữ liệu

      • 1.2.2. Bản chất của các dữ liệu

      • 1.2.3. Tiền xử lý dữ liệu

      • 1.2.4. Quá trình rời rạc hóa dữ liệu

      • 1.2.5. Tập mẫu

      • 1.2.6. Quá trình tìm kiếm trong không gian giả thuyết

      • 1.3. Học có giám sát

        • 1.3.1. Khái niệm

          • Hình 1.1: Mô hình học có giám sát

          • 1.3.2. Cách giải một bài toán học có giám sát

          • 1.4. Học không có giám sát

            • 1.4.1. Khái niệm

            • 1.4.2. Mô hình toán học

            • 1.5. Học nửa giám sát

              • 1.5.1. Khái niệm

                • Hình 1.2: Mô hình học nửa giám sát

                • 1.5.2. Mô hình toán học

                • 1.6. Tổng kết chương

Tài liệu cùng người dùng

Tài liệu liên quan