THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

I HC QUC GIA H NI TRNG I HC CễNG NGH Trn Th Oanh THUT TON SELF-TRAINING V CO-TRAINING NG DNG TRONG PHN LP VN BN KHO LUN TT NGHIP I HC H CHNH QUI Ngnh: Cụng ngh thụng tin H NI 2006 I HC QUC GIA H NI TRNG I HC CễNG NGH Trn Th Oanh THUT TON SELF-TRAINING V CO-TRAINING NG DNG TRONG PHN LP VN BN KHO LUN TT NGHIP I HC H CHNH QUI Ngnh: Cụng ngh thụng tin Cỏn b hng dn: TS H Quang Thu Cỏn b ng hng dn: NCS Lờ Anh Cng H NI 2006 Li cm n Trc tiờn, tụi xin gi li cm n chõn thnh v s bit n sõu sc ti Tin s H Quang Thu (trng i hc Cụng ngh) v NCS Lờ Anh Cng (Japan Advanced Institute of Science and Technology) ó tn tỡnh hng dn tụi sut quỏ trỡnh thc hin khoỏ lun ny Tụi xin by t li cm n sõu sc n cỏc thy cụ giỏo ó ging dy tụi sut bn nm hc qua, ó cho tụi nhng kin thc quớ bỏu tụi cú th vng bc trờn ng i ca mỡnh Tụi xin gi li cm n cỏc anh ch nhúm seminar v khai phỏ d liu: anh Nguyn Vit Cng, anh ng Thanh Hi, ch Nguyn Cm Tỳ, ó nhit tỡnh ch bo quỏ trỡnh tụi tham gia nghiờn cu khoa hc v lm khoỏ lun Tụi xin gi li cm n ti cỏc bn lp K47CC, K47CA ó ng h, khuyn khớch tụi sut quỏ trỡnh hc ti trng V li cui cựng, tụi xin by t lũng chõn thnh v bit n vụ hn ti cha m, v cỏc anh ch tụi, nhng ngi luụn bờn cnh tụi nhng lỳc tụi khú khn nht, giỳp tụi vt qua khú khn hc cng nh cuc sng H Ni, ngy 24 thỏng 05 nm 2006 Sinh viờn Trn Th Oanh ii TểM TT NI DUNG Hin nay, tn ti mt s thut toỏn hc phõn lp bn thc hin cú kt qu rt tt c xõy dng da trờn mt vớ d hc ln Tuy nhiờn, thi hnh thc t thỡ iu kin ny ht sc khú khn vỡ vớ d hc thng c gỏn nhón bi ngi nờn ũi hi rt nhiu thi gian v cụng sc Trong ú, cỏc d liu cha gỏn nhón (unlabeled data) thỡ li rt phong phỳ Do vy, vic xem xột cỏc thut toỏn hc khụng cn nhiu d liu gỏn nhón, cú kh nng tn dng c ngun rt phong phỳ cỏc d liu cha gỏn nhón nhn c s quan tõm ca nhiu nh khoa hc trờn th gii Vic hc ny c cp n vi tờn gi l hc bỏn giỏm sỏt Trong khúa lun ny, chỳng tụi kho sỏt hai thut toỏn hc bỏn giỏm sỏt in hỡnh nht, ú l self-training v co-training v xut mt s k thut lm trn Khúa lun cng tin hnh ng dng cỏc nghiờn cu núi trờn vo bi toỏn phõn lp bn v cho kt qu rt kh quan iii MC LC M U .1 Chng TNG QUAN V PHN LP VN BN V HC BN GIM ST .3 1.1 Phõn lp bn 1.2 Thut toỏn phõn lp bn in hỡnh 1.2.1 Thut toỏn Naive Bayes 1.3 Tng quan v hc bỏn giỏm sỏt 1.3.1 Hc giỏm sỏt v hc khụng giỏm sỏt 1.3.2 Phm vi s dng hc bỏn giỏm sỏt .11 1.4 Mt s phng phỏp hc bỏn giỏm sỏt 12 1.4.1 Thut toỏn cc i k vng toỏn 12 1.4.2 Hc SVM truyn dn 13 1.4.3 Phõn hoch th quang ph .15 CHNG THUT TON SELF-TRAINING V CO-TRAINING.16 2.1 Thut toỏn self-training 16 2.2 Thut toỏn co-training 17 2.3 So sỏnh hai thut toỏn 21 2.4 Cỏc k thut lm trn 23 2.4.1 m bo phõn phi lp .24 2.4.2 Kt hp b phõn lp 26 2.4.3 Thut toỏn self-training v co-training vi cỏc k thut lm trn .27 Chng THC NGHIM TRONG BI TON PHN LP VN BN .29 3.1 Gii thiu bi toỏn thc nghim 29 3.2 Cỏc lp bn 31 3.3 Mụi trng thc nghim 31 iv 3.4 B d liu thc nghim .35 3.5 Quỏ trỡnh tin hnh thc nghim 35 3.5.1 Xõy dng cỏc c trng .35 3.5.2 Thit lp tham s cho mụ hỡnh 36 3.6 Kt qu ca cỏc b phõn lp 37 3.7 Mt s nhn xột kt qu t c 40 KT LUN V HNG PHT TRIN 41 Ti liu tham kho .42 v Bng cỏc ký hiu v ch vit tt EM: Expectation-Maximization i.i.d : independent and identically distributed random variables PAC: Probably Approximately Correct SAE: Selected Added Examples TSVM: Transductive Support Vector Machine WSD: Word Sense Disambiguation vi Danh mc hỡnh v Hỡnh Siờu phng cc i (thut toỏn TSVM) Hỡnh th trng s da trờn cỏc mu d liu gỏn nhón v cha gỏn nhón (thut toỏn Spectral Graph Partition) Hỡnh Biu din trc quan ca thut toỏn self-training Hỡnh S thut toỏn self-training Hỡnh Biu din trc quan thit lp co-training Hỡnh S thit lp co-training cho bi toỏn hai lp Hỡnh S th tc SAE trỡ phõn phi lp Hỡnh Thut toỏn co-training vi k thut lm trn c xut Hỡnh 9: Hai khung nhỡn ca mt trang web Hỡnh 10: th biu din o F1 ca b phõn lp giỏm sỏt Naùve Bayes da trờn content Hỡnh 11: th biu din o F1 ca b phõn lp bỏn giỏm sỏt selftraining gc v self-training ci tin vii Danh mc cỏc bng biu Bng 1: Bng so sỏnh hai thit lp self-training v co-training (trang 22) Bng Bng mụ t cỏc phõn lp Bng 3: Cu hỡnh mỏy tớnh Bng 4: Bng cụng c phn mm h tr Bng 5: Bng cụng c phn mm x lý d liu Bng 6: Bng cỏc lp thc hin hc bỏn giỏm sỏt Bng 7: Danh sỏch cỏc n-gram Bng 8: Cỏc o ca b phõn lp giỏm sỏt Naùve Bayes da trờn content Bng 9: Cỏc o ca self-training (ban u/ci tin MAX/ ci tin MEDIAN) da trờn content viii ix Thc nghim bi toỏn phõn lp bn Anchor Text Hỡnh 9: Hai khung nhỡn ca mt trang web 30 Thc nghim bi toỏn phõn lp bn 3.2 Cỏc lp bn H thng phõn lp ni dung Web ca khoỏ lun c xõy dng da trờn cõy phõn lp tin tc ca Bỏo in t VnExpress (http://vnexpress.net) ca cụng ty truyn thụng FPT Chỳng tụi la chn cỏc phõn lp sau t cõy phõn lp ca VnExpress: Vi tớnh, Phng tin, Sc kho, Th thao, Phỏp lut, Vn hoỏ Vic chỳng tụi quyt nh la chn cỏc phõn lp ny l vỡ nhng phõn lp ny cú cỏc c trng cú tớnh chuyờn bit cao Bng mụ t ni dung liờn quan n tng lp Bng Bng mụ t cỏc phõn lp STT Tờn phõn lp Vnexpress Mụ t cỏc ni dung liờn quan Cụng ngh Vi tớnh Cụng ngh thụng tin v truyn thụng Phỏp lut Phỏp lut Cỏc v ỏn, v vic, cỏc bn mi, Phng tin ễtụ Xe mỏy Ch yu l gii thiu cỏc loi ụtụ, xe mỏy mi Sc kho Sc kho Sc kho, gii tớnh, chm súc sc p, Th thao Th thao Búng ỏ, tennis, ; cỏc cu th, trn u, Vn hoỏ Vn hoỏ m nhc, thi trang, in nh, m thut, 3.3 Mụi trng thc nghim 3.3.1 Mụi trng phn cng Ton b thc nghim c tin hnh trờn cu hỡnh mỏy lit kờ bng 31 Thc nghim bi toỏn phõn lp bn Bng 3: Cu hỡnh mỏy tớnh Thnh phn Ch s CPU PIV, 2.26GHz RAM 384 MB OS Linux Fedora 2.6.11 3.3.2 Cụng c phn mm Khoỏ lun s dng mt s cụng c phn mm h tr quỏ trỡnh thc nghim nh lit kờ bng Bng 4: Bng cụng c phn mm h tr STT Tờn cụng c Mụ t Tỏc gi HTML Parser B phõn tớch HTML html2text.ph p Cụng c lc nhiu theo tng trang web c th cho ton b cỏc file html text2telex.ph p Cụng c chuyn bn b mó hoỏ unicode ting Vit sang nh dng ting Vit kiu telex cho ton b cỏc file m html2text sinh Jose Solorzan o Nguyn Vit Cng K46CA Ngun http://jexpert.us http://203.113.130.205/ ~cuongnv/thesis/code/tools tar.gz Ngoi ra, quỏ trỡnh chun b d liu, chỳng tụi vit mt s cụng c chy trờn nn Linux v Win vi b biờn dch tng hp GNU GCC v b thụng dch PHP nh lit kờ bng 32 Thc nghim bi toỏn phõn lp bn Bng 5: Bng cụng c phn mm x lý d liu STT Tờn cụng c Mụ t reject_stop_word.php Cụng c loi b cỏc t dng ca mt bn sau ó a v dng telex format_feature.php Cụng c thng kờ mi bn thỡ mt t xut hin bao nhiờu ln text2telex.php Cụng c chuyn bn b mó hoỏ unicode ting Vit sang nh dng ting Vit kiu telex cho toỏn b cỏc file m html2text sinh get_AnchorText.php Cụng c dựng ly cỏc AnchorText ca mt trang web Vic ci t thut toỏn, chỳng tụi s dng mt s lp sau c lit kờ bng 6: 33 Thc nghim bi toỏn phõn lp bn Bng 6: Bng cỏc lp thc hin hc bỏn giỏm sỏt STT Tờn lp Mụ t BigNumber.h, BigNumber.cpp Thc hin cỏc phộp tớnh toỏn vi s ln cú chiu di tu ý KeyWord.h, KeyWord.cpp Lu tr KeyWord ca tng lp theo dng t th i xut hin lp j bao nhiờu ln Lib.h, Lib.cpp Mt s hm phc v cho cỏc lp get_AnchorText.php Cụng c dựng ly cỏc AnchorText ca mt trang web Random_Division.h, Random_Division.cpp Phõn chia ngu nhiờn bn cỏc lp vo cỏc test, train v cha gỏn nhón Random_file.h, Random_file.cpp To mt b U t mt cỏc bn cha gỏn nhón Processing_pool.h X lý b U va to ra: gỏn nhón lp, ly cỏc mu tin cy vo hun luyn v thc hin th tc SAE vi cỏc lp cú chờnh lch phõn phi vt quỏ tham s Processing_pool.cpp Test.h, Test.cpp T thụng tin KeyWord cú c sau mt s vũng lp, thc hin gỏn nhón cho kim th Main.cpp Chng trỡnh chớnh thc hin cỏc thut toỏn bootstrapping 10 Improve.h, Improve.cpp Thc hin cỏc th tc ci tin v kt hp cỏc b phõn lp 34 Thc nghim bi toỏn phõn lp bn 3.4 B d liu thc nghim Vi mi phõn lp c ly t trang tin in t Vnexpress, chỳng tụi la chn mi lp l 140 tin Sau ú tin hnh phõn chia d liu ú nh sau: Tp d liu hun luyn ban u: Mi lp ly 20 tin lm d liu hun luyn mụ hỡnh ban u Tp d liu kim tra: Mi lp ly 20 tin lm d liu kim tra Cũn li 100 tin mi lp a vo d liu cha gỏn nhón ri trn u Vic ly s lng d liu cha gỏn nhón bng cho mi lp nhm m bo tớnh phõn phi ng u v ngu nhiờn (tho iu kin i.i.d) 3.5 Quỏ trỡnh tin hnh thc nghim 3.5.1 Xõy dng cỏc c trng Sau thu c cỏc trang web dng html, chỳng tụi tin hnh trớch chn cỏc anchor text tng ng cho tng trang web ú vic x lý cỏc t ting Vit c thun tin v d dng, chỳng ta s bin i cỏc t tng ng sang dng ch gm cỏc ký hiu bng ch cỏi v ch s iu ny c thc hin bng cụng c text2telex.php Cỏc d liu text v anchor text ny s c x lý loi b cỏc t dng vic la chn cỏc c trng cho tng lp cú tớnh chuyờn bit cao Cỏc c trng ca bn quyt nh phõn lp ca bn ú Trong phõn lp bn thỡ cỏc c trng ca bn chớnh l cỏc t xut hin cỏc bn ú Vic xõy dng cỏc c trng da trờn cỏc mnh mụ t thụng tin ng cnh Trong khoỏ lun ny chỳng tụi s dng cu trỳc n-grams, vi n = 1, 2, vỡ thc t vi cỏc giỏ tr trờn ca n l chỳng ta cú th bao quỏt cỏc thụng tin ng cnh i vi bi toỏn phõn lp bn ting Vit Chỳng tụi tin hnh xõy dng cỏc n-gram nh sau: u tiờn, chỳng ta tin hnh loi b cỏc t dng cỏc bn: i vi ting Vit cha cú mt danh sỏch cỏc t dng chun nờn vic loi b cỏc t dng ch l tng i theo mt danh sỏch cỏc t dng ting Vit chỳng tụi t thit k 35 Thc nghim bi toỏn phõn lp bn Sau ú, chỳng ta tin hnh xõy dng n-gram: Xột vớ d vi mnh thụng tin ng cnh l d bỏo cụng ngh thụng tin Vit Nam nm 2005 thỡ danh sỏch cỏc n-gram l: n-gram Kt qu 1-gram d, bỏo, cụng, ngh, thụng, tin, Vit, Nam, nm, 2005 2-gram d_bỏo, bỏo_cụng, cụng_ngh, ngh_thụng, thụng_tin, tin_Vit, Vit_Nam, Nam_nm, nm_2005 3-gram d_bỏo_cụng, bỏo_cụng_ngh, cụng_ngh_thụng, ngh_thụng_tin, thụng_tin_Vit, tin_Vit_Nam, Vit_Nam_nm, Nam_nm_2005 Bng 7: Danh sỏch cỏc n-gram Vi cỏc n-gram c sinh nh trờn (xem bng 7), chỳng tụi tin hnh xõy dng cỏc mnh thụng tin ng cnh nh sau, vớ d mt mnh ch bn th di cú cha cm t wt no ú n ln: [ cha : n ln] Do thut toỏn hc bỏn giỏm sỏt self-training v co-training l mt tin trỡnh lp nờn vic thu c tng c trng mt bn mi l rt cú ý ngha Do vy, chỳng tụi quyt nh la chn tt c cỏc c trng tin hnh phõn lp m khụng loi b mt c trng no c 3.5.2 Thit lp tham s cho mụ hỡnh Cỏc tham s cho mụ hỡnh c thit lp nh sau: |U| = 150, s vũng lp bng 10, tham s chp nhn li = 0.03 S mu thờm vo sau mi vũng lp: numOfAdded = 15 Do hai b phõn lp trờn hai view d liu cú th d oỏn khụng trựng khp cho cựng mt mu d liu ( v thc t thc nghim trờn khung nhỡn anchor text chỳng tụi 36 Thc nghim bi toỏn phõn lp bn thy rng b phõn lp anchor text ) cho nờn d oỏn mi lp ta nh ngha mt b phõn lp liờn kt P (c j x) = P(c j x1 ) P(c j x2 ) (11) 3.6 Kt qu ca cỏc b phõn lp B phõn lp giỏm sỏt Naùve Bayes da trờn ni dung ca mt ti liu: Bng biu din kt qu b phõn lp ny vi cỏc o: chớnh xỏc, hi tng, o F1 Bng 8: Cỏc o ca b phõn lp giỏm sỏt Naùve Bayes da trờn content chớnh xỏc hi tng o F1 cong_nghe 0.944 0.85 0.895 phap_luat 0.714 0.833 phuong_tien 0.857 0.9 0.878 suc_khoe 0.778 0.7 0.737 the_thao 0.65 0.788 van_hoa 0.727 0.8 0.762 Trung bỡnh 0.837 0.817 0.815 Da vo kt qu bng 8, ta thy cỏc o ca b phõn lp giỏm sỏt Naùve Bayes l khỏ cao o F1 trng hp cao nht lờn n 89.5% Do ú, ta hon ton cú th tin cy vo d oỏn ca b phõn lp ny tin hnh cỏc bc lp selftraining T bng kt qu ú, chỳng ta biu din th o F1 i vi tng lp nh hỡnh 10 37 87.8 su c_ kh oe ph uo ng _t ie n 73.7 78.8 76.2 va n_ ho a 83.3 th e_ th ao 89.5 ph ap _l ua t 100 90 80 70 60 50 40 30 20 10 co ng _n gh e o F1 Thc nghim bi toỏn phõn lp bn Hỡnh 10: th biu din o F1 ca b phõn lp giỏm sỏt Naùve Bayes da trờn content B phõn lp bỏn giỏm sỏt self-training gc v self-training ci tin da trờn ni dung ca mt bn: Cỏc o c lit kờ bng 38 Thc nghim bi toỏn phõn lp bn Bng 9: Cỏc o ca self-training (ban u/ci tin MAX/ ci tin MEDIAN) da trờn content Ban u Precis Recall ion cong_nghe MAX F1 Precis Recall ion MEDIAN F1 Precis Recall ion F1 0.9 0.9 0.9 0.858 0.9 0.878 0.857 0.9 0.878 phap_luat 0.667 0.8 0.714 0.833 0.69 0.816 phuong_tien 0.818 0.9 0.857 0.818 0.9 0.857 0.818 0.9 0.857 0.7 0.824 0.7 0.824 0.7 0.824 the_thao 0.929 0.65 0.765 0.933 0.7 0.8 0.929 0.65 0.765 van_hoa 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 Trung bỡnh 0.86 0.83 0.833 0.862 0.842 0.840 0.857 0.833 0.832 suc_khoe T bng cỏc o kt qu, ta biu din th o F1 trung bỡnh ca cỏc b phõn lp bỏn giỏm sỏt self-training (ban u/ MAX/ MEDIAN) nh hỡnh v 11 39 90 87.8 87.8 83.3 81.6 85 85 85 82.4 82.4 82.4 80 76.5 76.5 Ban u oa va n_ h o th e_ th a e c_ kh o su n g_ tie p_ lu at MAX MEDIAN ph uo n co 85.7 85.7 85.74 71.4 ph a 100 90 80 70 60 50 40 30 20 10 ng _n gh e o F1 Thc nghim bi toỏn phõn lp bn Hỡnh 11: th biu din o F1 ca b phõn lp bỏn giỏm sỏt self-training gc v self-training ci tin 3.7 Mt s nhn xột kt qu t c T kt qu thu c trờn chỳng tụi cú mt s nhn xột sau: - Self-training ó nõng chớnh xỏc so vi cỏc thut toỏn hc giỏm sỏt thụng thng: o F1 trung bỡnh trng hp hc giỏm sỏt l 81.5%, ú o F1 trung bỡnh trng hp hc bỏn giỏm sỏt self-training ban u l 83.3%, self-training vi qui tc lm trn MAX l 84%, self-training vi qui tc lm trn MEDIAN l 83.2% - T ú, chỳng tụi nhn thy vic ỏp dng cỏc qui tc lm trn c xut khoỏ lun ny thc s ó em li hiu qu trng hp ca bi toỏn phõn lp bn ny 40 Ti liu tham kho KT LUN V HNG PHT TRIN Khoỏ lun ó nghiờn cu v tỡm hiu mt s thut toỏn hc bỏn giỏm sỏt ú c bit chỳ trng xem xột, ỏnh giỏ hai thut toỏn hc bỏn giỏm sỏt self-training v co-training Khúa lun ó t c mt s kt qu nh sau: V lý thuyt, ó tỡm hiu c chng minh tớnh ỳng n ca thit lp cotraining da trờn mt s gi thit ca Blum v Mitchel [2] Nhm ci tin hng mc tiờu thu nhn c d oỏn phõn lp chớnh xỏc hn, khúa lun ó xut vic trỡ phõn phi lp vi s chp nhn li , kt hp cỏc b phõn lp trung gian cho thut toỏn hc self-training v co-training nhm tn dng li im ca cỏc b phõn lp trung gian c to V thc nghim, ó tin hnh v th nghim cỏc thc nghim v self-training trờn bi toỏn phõn lp trang web ting Vit v thu c kt qu kh quan: o F1 trung bỡnh ca thut toỏn bỏn giỏm sỏt self-training so vi trng hp ch hc giỏm sỏt trờn mu d liu hun luyn ớt i tng lờn t 81.5% lờn 83%; o F1 trung bỡnh sau thc hin cỏc ci tin trỡ phõn phi lp v ỏp dng qui tc kt hp b phõn lp MAX tng lờn l 84% Do cũn nhiu hn ch v thi gian v kin thc, khoỏ lun ny cũn mt s phi tip tc hon thin v phỏt trin thi gian ti: Xõy dng danh sỏch hon thin cỏc t dng ting Vit nhm loi b nhiu quỏ trỡnh d oỏn phõn lp Tip tc tin hnh th nghim co-training trờn d liu thc Thc hin th nghim trờn s lng ln hn cỏc trang web cha gỏn nhón Th nghim thờm ý tng vi gi thit cú thut toỏn supervised learning A v B, ta to c b phõn lp Ca v Cb - oỏn nhn nhón (class) cho mt example e, thụng thng thỡ ta dựng mỡnh Ca, vi xỏc xut oỏn nhn nhón La > ngng, chng hn 0.9 thỡ ta chp nhn nhón y Bõy gi ta dựng thờm Cb oỏn nhn c nhón Lb, nu La = Lb thỡ ta mi chp nhn a vo labeled data Khi ú ta cú th gim ngng La l 0.8 chng hn, ngng cho Lb cng 0.8 chng hn m kt qu chớnh xỏc hn v nhn dng c nhiu mu hn 41 Ti liu tham kho Ti liu tham kho Ting Vit [1] Nguyn Vit Cng, Bi toỏn lc v phõn lp ni dung Web ting Vit theo hng tip cn entropy cc i Khúa lun tt nghip i hc 2005, i hc Cụng ngh - i hc Quc gia H Ni [2] ng Thanh Hi,Thut toỏn phõn lp bn Web v thc nghim mỏy tỡm kim VietSeek Khúa lun tt nghip i hc 2004, i hc Cụng ngh - i hc Quc gia H Ni Ting Anh [3] Andrew McCallum, Kamal Nigam, A Comparison of Event Model for Naive Bayes Text Classification, Working Notes of the 1998 AAAI/ICML Workshop on Learning for Text Categorization, 1998 [4] Avrim Blum and Tom Mitchell, Combining labeled and unlabeled data with cotraining In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98), 1998 [5] A P Dempster, N M Laird, and D B Rubin, Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):138, 1977 [6] Chapelle, O., Zien, A., & Schăolkopf, B (Eds.), Semi supervised learning MIT Press, 2006 [7] Cozman, F., Cohen, I., & Cirelo, M., Semi-supervised learning of mixture models ICML-03, 20th International Conference on Machine Learning, 2003 [8] David Yarrowsky, Unsupervised Word Sense Disambiguation Rivaling Supervised Methods, In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189-196 [9] E Riloff and R Jones, Learning Dictionaries for Information Extraction by MultiLevel Bootstrapping.In Proceedings of the 16th National Conference on Artificial Intelligence, 1999 42 Ti liu tham kho [10] Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using Extraction Pattern Bootstrapping 2003 Conference on Natural Language Learning (CoNLL-03), ACL SIGNLL, 2003 [11] F G Cozman, and I Cohen, Unlabeled data can degrade classification performance of generative classifiers, Intl Florida Artificial Intell Society Conf., 327-331, 2002 [12] Joachims, T Transductive learning via spectral graph partitioning In Proceeding of The Twentieth International Conference on Machine Learning (ICML2003), 290-297, 2003 [13] Joachims T., Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 [14] Le C A., Huynh V N., and Shimazu A., Combining Classifiers with MultiRepresentation of Context in Word Sense Disambiguation In Proc PAKDD, 262 268, 2005 [15] McCallum, A and Nigam K "A Comparison of Event Models for Naive Bayes Text classification" In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp 41-48 Technical Report WS-98-05 AAAI Press 1998 [16] Michael Collins and Yoram Singer, Unsupervised Model for Name Entity Recognition, In EMNLP [17] Michael Thelen and Ellen Riloff, A bootstrapping method for Learning Semantic Lexicons using Extraction Pattern Contexts 2002 Conf on Empirical Methods in Natural Language Processing, Philadelphia, PA, July 2002, 214-221 [18] Nigam, K., Ghani, R., Analyzing the effectiveness and applicability of cotraining In Proceedings of Ninth International Conference on Information and Knowledge Management (CIKM-2000), 8693, 2000 [19] Nigam, K., Ghani, R., Understanding the behavior of co-training In Proceedings of KDD-2000 Workshop on Text Mining,.2000 [20] Nigam K., McCallum A., Thrun S., Mitchell T Text Classification from Labeled and Unlabeled Documents using EM Machine Learning, 39(2/3):103-134, 2000 43 Ti liu tham kho [21] Rosie Jones, Andrew McCallum, Kamal Nigam, Ellen Rillof, Bootstrapping for text learning Tasks, IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications, 1999 [22] Susana Eyheramendy, David D Lewis, David Madigan, On the Naive Bayes Model for Text Classification, to appear in Artificial Intelligence & Statistics 2003 [23] Xiaojin Zhu, Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin Madison, February 22, 2006 [24] http://en.wikipedia.org/wiki/ 44

THUẬT TOÁN SELF-TRAINING VÀ CO-TRAINING ỨNG DỤNG TRONG PHÂN LỚP VĂN BẢN

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan