Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

59 648 0
Xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LI CM N Trc tiờn, tụi xin c gi li cm n v lũng bit n sõu sc nht ti Thy giỏo, PGS TS Nguyn Trớ Thnh ó tn tỡnh ch bo, hng dn, ng viờn v giỳp tụi sut quỏ trỡnh thc hin lun tt nghip Tụi xin gi li cm n ti cỏc thy cụ trng i Hc Cụng Ngh - i Hc Quc Gia H Ni nhng ngi ó tn tỡnh giỳp , c v, v gúp ý cho tụi sut thi gian tụi hc v nghiờn cu ti trng Tụi xin gi li cm n ti cỏc anh ch, cỏc bn hc viờn cựng hc nghiờn cu ti Trng i hc Cụng ngh ó h tr tụi rt nhiu quỏ trỡnh hc cng nh thc hin lun Cui cựng, tụi mun gi li cm n ti gia ỡnh v bn bố, nhng ngi thõn yờu luụn bờn cnh, quan tõm, ng viờn tụi sut quỏ trỡnh hc v thc hin lun tt nghip ny Tụi xin chõn thnh cm n! H Ni, thỏng 05 nm 2016 Hc viờn Cn Mnh Cng ii LI CAM OAN Tụi xin cam oan gii phỏp X lý trựng lp, phõn loi, xỏc nh t khúa quan trng v sinh túm tt cho bn mt h thng thu thp tin tc t ng c trỡnh by lun ny tụi thc hin di s hng dn ca PGS TS Nguyn Trớ Thnh Tụi ó trớch dn y cỏc ti liu tham kho, cụng trỡnh nghiờn cu liờn quan nc v quc t Tt c nhng tham kho t cỏc nghiờn cu liờn quan u c nờu ngun gc mt cỏch rừ rng t danh mc ti liu tham kho lun H Ni, thỏng nm 2016 Tỏc gi lun Cn Mnh Cng MC LC LI CM N i LI CAM OAN ii MC LC .1 DANH MC CC Kí HIU, CC CH VIT TT DANH MC CC HèNH .5 DANH MC CC BNG Chng GII THIU TI 10 1.1 Tng quan v h thng thu thp tin tc t ng 10 1.1.1 Tng quan v Crawler 10 1.1.2 H thng thu thp tin tc t ng 12 1.2 Cỏc bi toỏn khuụn kh ti 14 1.2.1 Bi toỏn x lý trựng lp tin tc 14 1.2.2 Bi toỏn phõn loi tin tc 14 1.2.3 Bi toỏn xỏc nh t khúa quan trng v chn túm tt 15 1.3 í ngha ca cỏc bi toỏn c gii quyt ti .16 1.3.1 í ngha khoa hc 16 1.3.2 í ngha thc tin 16 1.4 Kt lun 16 Chng MT S PHNG PHP TIP CN BI TON 17 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc 17 2.1.1 Bag of Words .17 2.1.2 Shingling 18 2.1.3 Hashing 20 2.1.4 MinHash 20 2.1.5 SimHash 22 2.2 Cỏc phng phỏp tip cn bi toỏn phõn loi tin tc 24 2.2.1 Tip cn da trờn phng phỏp cõy quyt nh 25 2.2.2 Phõn loi d liu Naùve Bayes 26 2.2.3 Tip cn theo phng phỏp SVM 29 2.3 Tip cn bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt 33 2.3.1 Phng phỏp TF-IDF 33 2.3.2 Phng phỏp Edmundson 34 2.4 Tng kt 36 Chng XUT GII PHP V CI TIN P DNG GII QUYT CC BI TON TRONG THC T 37 3.1 H thu thp tin tc t ng m rng 37 3.2 Gii quyt bi toỏn trựng lp tin tc 39 3.2.1 Yờu cu thc t bi toỏn x lý trựng lp tin tc 39 3.2.2 Mụ hỡnh gii phỏp thc t 39 3.3 Gii quyt bi toỏn phõn loi tin tc 40 3.3.1 Yờu cu bi toỏn thc t 40 3.3.2 Mụ hỡnh gii phỏp thc t 41 3.4 Gii quyt bi toỏn xỏc nh t khúa quan trng v chn cõu túm tt .42 3.4.1 Yờu cu bi toỏn thc t 42 3.4.2 Mụ hỡnh gii phỏp thc t 43 3.5 Tng kt 44 Chng THC NGHIM V NH GI KT QU 46 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim 46 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 47 4.2.1 Thu thp d liu tin tc .47 4.2.2 Tin x lý d liu 47 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 48 4.3.1 Phng phỏp ỏnh giỏ 48 4.3.2 Kt qu ỏnh giỏ .48 4.4 ỏnh giỏ b phõn loi tin tc .49 4.4.1 Phng phỏp ỏnh giỏ 49 4.4.2 Kt qu ỏnh giỏ .51 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 52 4.5.1 Phng phỏp ỏnh giỏ 52 4.5.2 Kt qu ỏnh giỏ .52 4.6 Tng kt 53 TNG KT 54 Kt qu t c 54 Hn ch .54 Hng phỏt trin 55 TI LIU THAM KHO .56 PH LC 57 DANH MC CC Kí HIU, CC CH VIT TT S th t Ký hiu, vit tt Chỳ gii Crawler Trỡnh thu thp ni dung trang web WebBrowser Trỡnh duyt web HTTP Giao thc truyn ti siờu bn URL a ch liờn kt ca trang web Seed URL Tp hp cỏc URL ht nhõn xut phỏt ca Crawler Frontier Kho cha cỏc URL cha c thm Finger print Du võn, i din cho ti liu c lp Front End Phn x lý giao din tng tỏc vi ngi dựng ID nh danh ca ti liu 10 IP Giao thc kt ni Internet 11 Hashing Bm ti liu 12 Search Engine Mỏy tỡm kim 13 SEO Ti u húa trang web h tr mỏy tỡm kim 14 TF Tn s t 15 IDF Tn s ti liu o ngc DANH MC CC HèNH Hỡnh 1.1 Kin trỳc cỏc thnh phn c bn ca Web Crawler 10 Hỡnh 1.2 Biu trng thỏi ca Web Crawler .12 Hỡnh 1.3 Mụ hỡnh tng quan h tng hp tin t ng c bn 13 Hỡnh 2.1 Mụ phng BagofWords 18 Hỡnh 2.2 Vớ d v hashing .20 Hỡnh 2.3 Mụ phng minhash 21 Hỡnh 2.3 Vớ d v minhash 21 Hỡnh 2.4 Mụ phng vic ly simhash 22 Hỡnh 2.5 Mụ phng vic tớnh trựng lp bng simhash 23 Hỡnh 2.6 Mụ phng vic chia simhash theo bucket(khi) 23 Hỡnh 2.7 Vớ d hoỏn v cỏc vi simhash 24 Hỡnh 2.10 H2 l mt phng tt nht 29 Hỡnh 2.11 Cỏc im d liu c biu din trờn R+ .30 Hỡnh 2.12 Cỏc vector h tr (support vector) c chn 30 Hỡnh 2.13: Siờu phng c biu din trờn R+ 32 Hỡnh 3.1 Mụ hỡnh tng quan h tng hp tin t ng 37 Hỡnh 3.2 Mụ hỡnh dch v x lý phc v ngi dựng thụng qua API 39 Hỡnh 3.3 Minh thc t ng dng bi toỏn x lý trựng lp .39 Hỡnh 3.4 Minh thc t trin khai bi toỏn x lý trựng lp .40 Hỡnh 3.5 Minh thc t ng dng bi toỏn phõn loi tin tc 40 Hỡnh 3.6 Mụ hỡnh trin khai thc t trin khai bi toỏn phõn loi tin tc 41 Hỡnh 3.7 Minh thc t ng dng xỏc nh t khúa quan trng .42 Hỡnh 3.8 Minh thc t ng dng chn cõu túm tt 43 Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng 43 Hỡnh 3.10 Mụ hỡnh thc t bi toỏn xỏc nh cõu túm tt 44 Hỡnh 4.1 So sỏnh tc simhash v shingling .49 DANH MC CC BNG Bng 0.1 Thng kờ s lng tin tc bỏo mi thỏng u 2016 .8 Bng 4.1 Cu hỡnh phn cng thc nghim 46 Bng 4.2 Cỏc cụng c phn mm c s dng 46 Bng 4.3 Thng kờ thi gian chy vi simhash v shingling 48 Bng 4.4 Kt qu phõn loi cha c ci tin .51 Bng 4.5 Kt qu phõn loi c ci tin .51 Bng 4.6 Thng kờ t l tag v túm tt t yờu cu .52 M U Bỏo in t ó khụng cũn l khỏi nim xa l vi mi chỳng ta, nú ang dn thay th cỏc hỡnh thc phỏt hnh bỏo, truyn thng bi cỏc c im u vit nh: tớnh thi s - kh nng cp nht trc tip, kh nng truyn ti a phng tin, kh nng lu tr v tỡm kim thụng tin, kh nng tng tỏc vi ngi dựng cao, bỏo in t ó khc phc nhng hn ch ca cỏc loi hỡnh bỏo truyn thng tr thnh loi hỡnh bỏo u vit thi im hin Tớnh n ngy 25/12/2014, c nc cú 838 c quan bỏo in vi 1.111 n phm bỏo (trong ú cỏc c quan Trung ng cú 86 bỏo in v 507 chớ; a phng cú 113 bỏo in v 132 chớ); 90 bỏo v in t, 215 trang tin in t tng hp ca cỏc c quan bỏo S bỏo v in t ó tng gp gn 1.5 ln so vi s 62 bỏo in t vo nm 2012 [1] Cng theo thng kờ ca mt trang tng hp thụng tin in t ln l Baomoi.com1 thỏng t thỏng 12/2015 n thỏng 2/2016, v s lng tin bi trờn bỏo, in t, trang thụng tin in t thỡ: Bng 0.1 Thng kờ s lng tin tc bỏo mi thỏng u 2016 Tng s tin 583827 Tng s tin ng li 137823 Tng s tin gc b ng li 123805 Tng s tin gc khụng b ng li 446004 Vi lng thụng tin khng l t hn 300 trang bỏo v tin in t nh hin thỡ vic tng hp chn lc mt cỏch th cụng mang li ngun thụng tin hu ớch dng nh l mt iu khụng th, vic thu thp thụng tin t ng xõy dng mt h thng c tin t ng thụng minh bng mỏy tớnh khụng cũn l ch mi, xong vic ci tin, ng dng cỏc cụng ngh mi vo h thng h thng hnh tt bi cnh d liu ln dn l c mt bi toỏn khụng h n gin xõy dng c mt h thng nh vy ta cú nhiu bc cn phi s dng cỏc gii thut x lý bn c nghiờn cu nhiu khai phỏ d liu bn, d liu web nh: Thu thp ni dung tin tc, x lý trựng lp tin tc, phõn loi bn tin theo danh mc, xỏc nh t khúa quan trng ca ni dung tin tc v sinh túm tt cho bn tin, kim li chớnh t tin tc, phỏt hin ch núng, ch nhy cm, xu hng c tin thi http://www.baomoi.com/Statistics/Report.aspx 43 Hỡnh 3.8 Minh thc t ng dng chn cõu túm tt i vi mt s ni dung khụng ly c on trớch dn túm tt ni dung, h thng cú th t túm tt mt on trớch dn ni dung túm tt cho bi vit Hoc h tr biờn viờn, phúng viờn xut cõu dựng lm cõu túm tt mụ t ca bn tin 3.4.2 Mụ hỡnh gii phỏp thc t Bi toỏn xỏc nh t khúa quan trng Hỡnh 3.9 Mụ hỡnh thc t bi toỏn xỏc nh t khúa quan trng Cỏc úng gúp quan trng b xỏc nh t khúa quan trng: 44 - Tham chiu v trớ cõu, v trớ tiờu , phn mụ t v ni dung, s dng thờm trng s Tf-idf - Tham chiu t b t khúa(Tags) cú sn thu thp d liu t internet, v b cỏc t khúa t vic phõn tớch xu hng thụng tin - Tham chiu kt qu Google Suggestion v Search Volumne ly lng tỡm kim, lng tỡm kim cng cao cú ngha l t khúa cú mc quan trng cng cao Bi toỏn chn cõu túm tt Hỡnh 3.10 Mụ hỡnh thc t bi toỏn xỏc nh cõu túm tt Bi toỏn chn cõu túm tt ti s dng kt hp phng phỏp Tf-idf v Edmundson, va cú im trng s cho t khúa, cõu cú nhiu t khúa quan trng, va xỏc nh tng quan gia v trớ ca cõu, nm tiờu , phn mụ t, ni dung, cui on u on c tớnh toỏn hp lý xut danh sỏch cõu quan trng bi tin Vic chn t l cõu xut trờn tng s cõu bn tin cng l quyt nh n chớnh xỏc ca bn tin Vi h thng hin ti sau cỏc kt qu kim nghim thc t cõu s ly i din mt cõu quan trng phự hp vi d liu tin tc 3.5 Tng kt T nhng kt qu nghiờn cu t chng 2, lun ch phng phỏp phự hp cho bi toỏn thc t c chn la a vo thc nghim Sau ú, phỏt biu, mụ t mụ hỡnh chi tit v cỏch gii quyt cho cỏc bi toỏn, cng nh mt s úng gúp quan trng ci thin chớnh xỏc kt qu Phn tip theo ca lun s tin hnh ỏnh giỏ 45 cỏc kt qu thc nghim t c sau ỏp dng cỏc mụ hỡnh 46 Chng THC NGHIM V NH GI KT QU chng ny, lun s tin hnh quỏ trỡnh thc nghim v ỏnh giỏ kt qu xut da trờn cỏc bi toỏn Vi c im riờng ca mi bi toỏn s cú nhng cỏch ỏnh giỏ, so sỏnh riờng phự hp vi yờu cu thc t, ng thi m bo ý ngha khoa hc ca bi toỏn 4.1 Mụi trng thc nghim v cỏc cụng c s dng thc nghim Cu hỡnh phn cng, phn mm cỏc gúi i kốm thc nghim c s dng lun c mụ t hai bng sau õy: Cụng c phn cng c s dng: Bng 4.1 Cu hỡnh phn cng thc nghim Thnh phn Stt Ch s CPU Intel Core i5 4460 3.4GHZ RAM 8GB H iu hnh Ubuntu 14.04 B nh ngoi 500GB Bng 4.2 Cỏc cụng c phn mm c s dng STT Tờn phn mm Chc nng Ngun http://nutch.apache.org/ Apache Nutch 1.11 Ti d liu t cỏc website Elasticsearch Index, lu tr d liu https://github.com/elastic/elasticsearch Eclipse Java EE Luna To mụi trng vit https://eclipse.org/downloads/ chng trỡnh 47 Readability Trớch xut ni dung https://github.com/mozilla/readability vnSentDetector 2.0.0 PhngLH Trớch xut cõu on bn http://mim.hus.vnu.edu.vn/phuonglh/so ftwares/vnSentDetector vn.hus.nlp.tokenizer4.1.1 PhngLH - Tỏch t http://mim.hus.vnu.edu.vn/phuonglh/so bn ftwares/vnTokenizer LibSVM 3.21 Redis Chih-Chung Chang https://www.csie.ntu.edu.tw/~cjlin/libs and Chih-Jen Lin vm/ Phc v phõn loi bn Cache Simhash vo memory, share gia http://redis.io/ cỏc cm 4.2 Quỏ trỡnh thu thp d liu tin tc v tin x lý 4.2.1 Thu thp d liu tin tc D liu c thu thp vi phn mm mó ngun m Apache Nutch 1.11 cu hỡnh chy phõn tỏn, Nutch c tựy bin thờm plugin k tha vic trớch xut d liu v vic ỏnh ch mc d liu lờn Elasticsearch ( mt dng mỏy tỡm kim linh ng vi mc tựy bin tỡm kim cao ) - - Plugin trớch xut d liu c implement t Readability code, tựy bin trớch xut c cỏc hng mc chớnh ca tin l: tiờu , phn mụ t (túm tt), ni dung tin, tờn tỏc gi v ngy ng tin Plugin index tựy bin giỳp index thờm cỏc trng cn thit mi lờn ElasticSearch D liu c thu thp cng c chun húa li font ch, lc cỏc tin ni dung nh, video, m bo d liu text ó c chun húa ( normalizefilter) phc v cho vic x lý d liu 4.2.2 Tin x lý d liu Vi d liu c ly v s c cỏc dch v t ng tin hnh x lý tỏch t, tỏch 48 cõu bng hai cụng c mó ngun m l vnSentDetector 2.0.0 v vnTokenizer 4.1.1, tip ú bn tin s c ly du i din simhash simhash c lu tr riờng di dng c bit phc v vic phỏt hin trựng lp, ngoi bn tin cũn c x lý ly t khúa quan trng(tags) v chn mt vi cõu xut túm tt nu bn tin ly v khụng cú cõu túm tt Vi t khúa ó c tỏch, v URL gc bn tin cng c phõn loi mt cỏch t ng Mụ hỡnh gii quyt chi tit cho mi bi toỏn lun ó c nờu chi tit chng 3, phn tip theo s nờu lờn phng phỏp ỏnh giỏ v kt qu ỏnh giỏ ca tng bi toỏn 4.3 ỏnh giỏ phỏt hin trựng lp tin tc 4.3.1 Phng phỏp ỏnh giỏ Trong thc t cú nhng thut gii kim tra trựng lp cho kt qu tt hn vic s dng hm bm Simhash to i din Tuy nhiờn khuụn kh lun tỏc gi ỏnh giỏ vic s dng Simhash trờn phng din phc v cho Crawler kim tra trựng lp nờn tc kim tra trựng lp l yu t c u tiờn hng u 4.3.2 Kt qu ỏnh giỏ Trong thớ nghim ỏnh giỏ, chỳng ta s so sỏnh tc ca hai thut toỏn Simhash v Shingling trờn d liu vi s lng d liu tng dn t 100 bn ghi lờn n 1500 bn ghi, Simhash õy c ly di dng Simhash 32bit v Shingling ly dng token sau ó tỏch t, kt qu thu c cho di bng 4.3: Bng 4.3 Thng kờ thi gian chy vi simhash v shingling NumRecords Simhash(ms) Shingling(ms) 100 2466 5389 200 2692 12851 300 3052 25841 400 3253 43918 500 3437 66225 600 3664 94262 700 3869 127710 800 4140 166124 900 4419 209418 1000 4697 258469 1100 4985 307823 1200 5261 366019 1300 5575 429911 49 1400 5935 498562 1500 6240 570506 Mụ hỡnh húa di dng biu : SIMHASH VS SHINGLING SPEEDS Simhash Shingling 600000 500000 400000 300000 200000 100000 0 200 400 600 800 1000 1200 1400 1600 Hỡnh 4.1 So sỏnh tc simhash v shingling Thut toỏn Shingling th hin rừ phc tớnh toỏn theo thi gian l O(n2) ỏp dng Simhash cho thy kt qu tt rừ rt ỳng vi lý thuyt thi gian chy logarit Hon ton phự hp vi vic ỏp dng vo thc t 4.4 ỏnh giỏ b phõn loi tin tc 4.4.1 Phng phỏp ỏnh giỏ Trc tiờn cn núi thờm v quỏ trỡnh thu thp d liu ca crawler, cỏc danh mc thuc din tin bn c ly v c ỏnh du riờng nm 12 danh mc bao gm:{"cong-nghe","giai-tri","giao-duc","kham-pha","kinh-te","phap-luat","quansu","suc-khoe","tam-su","the-gioi","the-thao","xe-360"} Vic ỏnh giỏ thut toỏn phõn loi s s dng o precision/recall v F1 ỏnh giỏ b hc d liu s bao gm 56400 bn c chn sn danh mc hc da trờn ngun VNExpress, 54000 bn thuc 12 ch ( tng ng vi 4500 bn tin/1 ch ) s c dựng hun luyn(train), v 2400 bn s c dựng kim nh (test), khuụn kh lun thc hin ỏnh giỏ trờn phng din vic s dng SVM thun tỳy vi ni dung bn tin v vic ci tin cho kt qu thc t sao, chi tit s c nờu ti phn kt qu 50 Sau õy l mt s o c s dng ỏnh giỏ: Ma trn nhm ln (Confusion Matrix) TPi : S lng cỏc bn tin thuc lp ci c phõn loi chớnh xỏc vo lp ci FPi: S lng cỏc bn tin khụng thuc lp ci b phõn loi nhm vo lp ci TNi: S lng cỏc bn tin khụng thuc lp ci c phõn loi (chớnh xỏc) FNi: S lng cỏc bn tin thuc lp ci b phõn loi nhm (vo cỏc lp khỏc ci) o Precision v recall Hay cũn gi l chớnh xỏc v bao ph, Precision l vic th hin tỡm c thỡ bao nhiờu cỏi (phõn loi) ỳng Recall l vic th hin s cỏc tn ti, tỡm c bao nhiờu cỏi (phõn loi) õy l hai o ph bin, rt hay c s dng ỏnh giỏ cỏc h thng phõn loi bn - Precision i vi lp ci l mt lp cỏc lp C ={c1, c2, , cn} = + Tng s cỏc bn tin thuc lp ci c phõn loi chớnh xỏc chia cho tng s cỏc bn tin c phõn loi vo lp ci - Recall i vi lp ci = + Tng s cỏc bn tin thuc lp ci c phõn loi chớnh xỏc chia cho tng s cỏc vớ d thuc lp ci Recall cng c gi l True Positive Rate hay Sensitivity ( nhy), v precision cng c gi l Positive predictive value (PPV); ngoi ra, ta cú cỏc o khỏc nh True Negative Rate v Accuracy True Negative Rate cng c gi l Specificity o F1 Tiờu ỏnh giỏ F1 l s kt hp ca hai tiờu ỏnh giỏ Precision v Recall =2 F1 l mt trung Precision v Recall bỡnh + iu hũa (harmonic mean) ca cỏc tiờu 51 F1 cú xu hng ly giỏ tr gn vi giỏ tr no nh hn gia hai giỏ tr Precision v Recall, F1 cú giỏ tr ln nu c hai giỏ tr Precision v Recall u ln 4.4.2 Kt qu ỏnh giỏ Kt qu sau tin hnh phõn loi s dng SVM kernel linear vi d liu bn bao gm ni dung bn thun tỳy cha cú ci tin Bng 4.4 Kt qu phõn loi cha c ci tin CatNo Category Precison Recall F1 cong-nghe 75.5 82.51 78.85 giai-tri 66 75.43 70.4 giao-duc 79 92.4 85.18 kham-pha 65 71.43 68.06 kinh-te 66.5 73.08 69.63 phap-luat 76.5 83.61 79.9 quan-su 46.5 93.94 62.21 suc-khoe 67.5 87.66 76.27 tam-su 89 84.36 86.62 10 the-gioi 88.5 40.69 55.75 11 the-thao 83 91.71 87.14 12 xe-360 81.5 66.8 73.42 Avg 73.71 78.64 74.45 p dng cỏc ci tin vo phõn loi xỏc nh ch bn, bng cỏc bin phỏp ó c nờu chng 3, kt qu t c c cho bng 4.5: Bng 4.5 Kt qu phõn loi c ci tin CatNo Category Precison Recall F1 cong-nghe 80.9 90.58 85.47 giai-tri 81.7 83.29 82.49 giao-duc 82.1 93.26 87.32 kham-pha 73.5 81.4 77.25 kinh-te 76.9 77.25 77.07 phap-luat 77.6 88.92 82.88 quan-su 73.2 95.97 83.05 52 suc-khoe 84.9 94.04 89.24 tam-su 91.2 93.58 92.37 10 the-gioi 88.7 93.41 90.99 11 the-thao 92.6 92.62 92.61 12 xe-360 73.9 88.24 80.44 Avg 81.43 89.38 85.1 Kt qu bng trờn cho thy, ton b kt qu phõn loi ó c ci thin c v chớnh xỏc v hi tng, chớnh xỏc Precision trung bỡnh t 73.71% lờn n 81.43%, hi tng Recall cng tng t 78.64% lờn ti 89.38%, kộo theo ú o F1 cng tng khỏ rừ rt 4.5 ỏnh giỏ kt qu xỏc nh t khúa quan trng v chn cõu túm tt 4.5.1 Phng phỏp ỏnh giỏ Vic ỏnh giỏ bi toỏn ny c thc hin mt cỏch th cụng mt phn da trờn ý kin chuyờn gia (expert judgment) bi c im c bit ca bi toỏn: ỏnh giỏ bi toỏn xỏc nh t khúa quan trng (tags) phc v nờu bt ch ca bn tin cng nh h tr vic phc v ti u mỏy tỡm kim (SEO) v chn cõu túm tt cho ch bn tin nu bn tin thiu phn túm tt khỏ phc ũi hi ngi ỏnh giỏ va cú kinh nghim v SEO v va cú kinh nghim biờn bn tin Lun s dng vic tng hp kt qu ỏnh giỏ t ba ngi ban biờn viờn ó c o to k nng SEO thc hin ỏnh giỏ vi mi bn 100 bn tin Tng s bn tin c ly t khúa quan trng, v chn cõu túm tt l 300 bn tin, t l chn (nộn cõu túm tt l 5:1)[2] Chi tit kt qu thu c cú phn kt qu ỏnh giỏ 4.5.2 Kt qu ỏnh giỏ Kt qu ỏnh giỏ th cụng ba ln ba biờn viờn cú kinh nghim SEO c o to bi bn c v mng biờn ln kinh nghim v ỏnh giỏ ni dung c cho bng 4.6 Bng 4.6 Thng kờ t l tag v túm tt t yờu cu T l tags t Gii thớch: T l túm tt t Ln (100 tin) 73% 71% Ln (100 tin) 76% 69% Ln (100 tin) 78% 64% Bỡnh Quõn 76% 68% 53 T l Tags t 76% tc l 100 bn tin c ly Tags t ng thỡ cú 76 bn tin t yờu cu theo ý kin ca ngi ỏnh giỏ, cú ngha l phn tags cha cỏc t khúa ny cú th thay th ngi s dng phn tag ni dung t ng khụng cn ngi biờn phi can thip, dựng lm tags phn ỏnh ni dung chớnh ca bn tin T l túm tt t 68% tc l 100 bn tin ly t hp cõu túm tt t ng thỡ cú 68% t hp cõu cú cha mt cõu cú th chn i din h tr biờn viờn t lm cõu túm tt ca bn tin Qua ỏnh giỏ ly ý kin, sau ba ln vi kt qu bỡnh quõn cho vic chn tags t ng l 76% v vic xut cõu túm tt t ng l 68% c ỏnh giỏ cao v cú kh nng trin khai thc t, ng dng vo h thng CMS tin tc tng lai 4.6 Tng kt Chng ny tỏc gi ó trỡnh by cỏc kt qu thc nghim chng minh phng phỏp xut chng Kt qu thc nghim trung vo ba bi toỏn chớnh ú l kim tra trựng lp, phõn loi tin tc v sinh cỏc t khúa ni dung chớnh, sinh cõu xut túm tt ca bn Kt qu thc nghim cho thy phng phỏp xut phự hp mc chp nhn c v ó cú nhng phn kt qu kh quan hn sau thi c úng gúp ci tin 54 TNG KT Kt qu t c Lun ó trỡnh by cỏc kin thc c bn v phỏt hin trựng lp, phõn loi tin tc, xỏc nh t khúa quan trng v xut cõu túm tt cho tin tc trờn d liu ting Vit Bờn cnh ú, lun ó trỡnh by chi tit cỏc phng phỏp tip cn bi toỏn, cng nh hng gii quyt v kt qu thc t Vi bi toỏn phỏt hin trựng lp tin tc t phớa Crawler lun ó cp phõn tớch u nhc im ca mt s phng phỏp ph bin phỏt hin trựng lp v sau ú xut mụ hỡnh gii quyt bi toỏn vi gii thut SimHash t ú ỏnh giỏ v so sỏnh vi thut toỏn phỏt hin trựng lp ph bin l shingling Vi bi toỏn phõn loi lun cng a mt vi bi toỏn phõn loi cng nh lý s dng hc mỏy bỏn giỏm sỏt vi SVM, Cui cựng l bi toỏn xỏc nh t khúa quan trng, v xut cõu i din chn túm tt cho tin tc c gii quyt bng vic tng hp cỏc bin phỏp Edmundson v TF-IDF Cỏc kt qu cho thy phng phỏp s dng Simhash kim tra trựng lp cú tc tớnh toỏn tng theo hm loragit ci thin hn rt nhiu so vi O(n2) ca phng phỏp shingling, c th d liu ch lờn ti 1500 bn tin tc ca SimHash ó nhanh hn tc ca Shingling ti 91,4 ln Phng phỏp SVM tớch hp vo mụ un phõn loi cng cho kt qu tt sau úng gúp mt s ci tin so vi s dng SVM thun tỳy trờn d liu, vi kt qu tt S dng o chớnh xỏc (precision), o hi tng (recall), v o F-1 (F-1 measured) o lng kt qu cho thy: o chớnh xỏc (89.38%), o hi tng (89.3%), v o F-1 (85.1%) Vi bi toỏn t ng xut tags bao gm cỏc t khúa quan trng v xut mt nhng cõu cú th chn lm túm tt cng cho mt kt qu tớch cc sau ỏp dng cỏc bin phỏp ci tin chng 3, t l chp nhn c gúc ỏnh giỏ ca ngi c o to (expert) lnh vc biờn v SEO cho thy t l tags t 76% v t l chn cõu túm tt chp nhn c t 68% Hn ch Mc dự kt qu t c kh quan nhiờn cỏc gii phỏp lun cng khụng trỏnh mt s hn ch v nhc im cn khc phc chng hn nh: Vic ly hm i din Simhash l vic ỏnh x t vụ hn sang hu hn vy nờn xut hin t l trựng Simhash vi hai bn khỏc nhau, iu ny khin b kim tra trựng lp mt thờm thi gian kim nh thờm cỏc trng hp k trờn ú tc kim tra trựng lp b gim xung mt phn Vic phõn loi hin ti phi thit t lut cho Crawler gii hn danh mc 55 c th ca bn tin phc v vic phõn danh mc cú chớnh xỏc cao, cỏc tin vn, tin cú cht lng thp cha c h tr Vic chn t khúa túm tt(tags) v chn cõu túm tt cũn ph thuc nhiu vo vic tham chiu kho t c, kho t xu hng cú sn tng cao chớnh xỏc, m cha t ch c t vic da vo bn thõn ca bn Hng phỏt trin Trong thi im tng lai gn, hng phỏt trin trc mt ca lun l khc phc nhng hn ch khuyt im ca cỏc mụ un hin ti v nõng cao kh nng chớnh xỏc ca cỏc thut toỏn, c th l: ci thin tc hn na vic ỏp dng Simhash ng phú vi mụi trng d liu ln hn, ci thin chớnh xỏc phõn loi vi ngun tin tc a dng hn ng thi nõng cao chớnh xỏc vic sinh t khúa, v xut cõu túm tt 56 TI LIU THAM KHO Ting Vit B Thụng tin v Truyn thụng (2015), Tỡnh hỡnh phỏt trin lnh vc bỏo nm 2015, H Ni Trn Mai V (2009), Túm Tt a Vn Bn Da Vo Trớch Xut Cõu, i Hc Quc Gia H Ni, Trng i Hc Cụng Ngh, 2009, tr.4 Ting Anh Christopher D Manning, Prabhakar Raghavan and Hinrich Schỹtze (2009), Introduction to Information Retrieval, Cambridge University Press 2009 Martin Law (2011), A Simple Introduction to Support Vector Machines, Michigan State University, Lecture for CSE 802 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 Jin Huang, Jingjing Lu, Charles X Ling (2003) Comparing Naive Bayes, Decision Trees, and SVM with AUC and Accuracy The Third IEEE International Conference on Data Mining (ICML2003) Sarini, Sarini, McGree, James, White, Nicole, Mengersen, Kerrie, & Kerr, Graham (2015), Comparison of decision tree, support vector machines, and Bayesian network approaches for classification of falls in Parkinsons disease International Journal of Applied Mathematics and Statistics, 53(6), pp 145-151 A Sopharak, B Uyyanonvara, S Barman, World Academy of Science, Engineering and Technology International Journal of Computer, Electrical, Automation, Control and Information Engineering Vol:8, No:5, 2014 Ranjeeta Rana, Vaishali Kolhe (2015) Analysis of Students Emotion for Twitter Data using Naùve Bayes and Non Linear Support Vector Machine Approachs International Journal on Recent and Innovation Trends in Computing and Communication ISSN: 2321-8169 10 HP Luhn (1958), The Automatic Creation of Literature Abstracts, IBM JOURNAL, pp 159-161 57 PH LC CHNG NHN PHT TRIN V TRIN KHAI THC T [...]... gian gn, ú cng chớnh l lý do m tỏc gi chn v nghiờn cu ti: X lý trựng lp, phõn loi, xỏc nh t khúa quan trng v sinh túm tt cho vn bn trong mt h thng thu thp tin tc t ng Lun vn c chia thnh 4 phn nh sau: Chng 1 Gii thiu ti Chng ny trỡnh tng quan v h thng thu thp tin tc t ng ng thi gii thiu mt s bi toỏn khai phỏ d liu trong h thu thp tin tc t ng, v gii thiu c bn v cỏc bi toỏn trong khuụn kh ti Chng... cựng l nh hng phỏt trin trong tng lai 10 Chng 1 GII THIU TI Trong chng ny, lun vn tp trung gii quyt cỏc vn sau: gii thiu tng quan v h thng thu thp tin tc t ng, cỏc bi toỏn trong khuụn kh ti, ý ngha khoa hc v ý ngha thc tin ca bi toỏn ú 1.1 Tng quan v h thng thu thp tin tc t ng 1.1.1 Tng quan v Crawler H thu thp tin tc t ng cú thnh phn ct lừi l trỡnh thu thp ni dung trang tin tc t Internet (gi l... quyt hp lý Phỏt biu bi toỏn: Input: - Tp cỏc tin tc c thu thp trờn web ó c chn d liu mu phõn ỳng theo cỏc danh mc - Tin tc mi c thu thp, cn kim tra xem thuc danh mc no Output: Danh mc ca bn tin mi c thu thp 1.2.3 Bi toỏn xỏc nh t khúa quan trng v chn túm tt Vic xỏc nh t khúa quan trng, nờu lờn trng tõm ca bn tin úng gúp cc kỡ quan trng n vic hỡnh thnh xu hng tin phc v bn c, v nú cú ý ngha ln trong vic... tt trong ni dung tin cng cú th giỳp ngi c hiu c ý chớnh ca bn tin, cỏc t khúa cng h tr vic hỡnh thnh mt ch con (tag, hashtag) ca tin tc phc v truy vn d liu theo lung thụng tin Vy lm sao phỏt hin t khúa quan trng v xu hng ca tin trong bn tin? õy cng l mt bi toỏn s c lm rừ trong ni dung ca ti Phỏt biu bi toỏn chn t khúa quan trng: Input: - Tp d liu cỏc tin tc - Ni dung tin tc Output: Cỏc t khúa quan. .. ca tng phng phỏp to tin phc v vic la chn, xut gii phỏp trong chng tip theo Cỏc bi toỏn kốm theo phng phỏp tip cn c trỡnh by trong chng ny bao gm: Bi toỏn x lý trựng lp tin tc, bi toỏn phõn loi tin tc, bi toỏn xỏc nh t khúa quan trng ca tin tc 2.1 Cỏc phng phỏp tip cn bi toỏn trựng lp tin tc V c bn tin tc sau khi thu thp d liu v tin x lý loi b cỏc phn tha, cng nh chun húa d liu tin u vo thỡ bi toỏn... Vic tng hp tin tc, cp nht liờn tc, phỏt hin c xu hng mi trong tin, túm lc t khúa cha ni dung chớnh trong tin giỳp ngi c tip cn nhanh nht n ngun tin tc khng l ú l mt trong nhng ý ngha thc tin quan trng ca ti Ngoi ra vic cung cp cỏc API cng cho phộp bờn th ba tip cn ngun tin phc v cỏc mc ớch riờng ca mỡnh nh thng kờ, phõn tớch, khai phỏ d liu khỏc cng l ý ngha thc tin khụng nh 1.4 Kt lun Trong chng... web ó c ti tựy chn ca ngi qun lý Crawler hoc cho ti khi khụng cũn ng dn i thm tip theo Chng trỡnh crawler s khụng cú trang web mi ti v dng li 1.1.2 H thng thu thp tin tc t ng H thng thu thp tin tc t ng vi kỡ vng d liu tin tc ly c t Crawler s c ỏnh ch mc v phc v cỏc mc ớch khỏc nhau th hin bi hỡnh 1.3 di õy: 13 Hỡnh 1.3 Mụ hỡnh tng quan h tng hp tin t ng c bn Tin tc sau khi thu thp bi trỡnh thu thp c... Trong chng ny, lun vn trỡnh tng quan v h thng thu thp tin tc t ng ng thi gii thiu mn s bi ton khai phỏ d liu trong h thu thp tin tc t ng, v gii thiu c bn v cỏc bi toỏn trong khuụn kh ti, ng thi núi lờn ý ngha khoa hc v ý ngha thc tin, mt s khú khn v cỏc vn cn gii quyt vi mi bi toỏn 17 Chng 2 MT S PHNG PHP TIP CN BI TON Trong chng ny lun vn s cp n c s lý thuyt cỏc thut toỏn cng nh mt s phng phỏp... sau: - S lng tin tc b trựng lp do cỏc trang tin dn ngun ng li khỏ nhiu Cỏc tin tc khụng c phõn loi dn n khú khn trong vic tra cu theo lnh vc, ch Nhiu tin khụng cú phn túm tt, khụng cú t khúa quan trng nờu bt ch , gõy khú khn trong vic tra cu, tỡm hiu ni dung chớnh ca tin mt cỏch nhanh chúng Vi Crawler thụng thng ch gii quyt c nhu cu c bn nht ú l vic thu thp d liu H thng thu thp tin tc t ng trong thc... ỏp ng c nhu cu tng hp tin tc khụng trựng lp, phõn loi, xỏc nh cỏc t khúa quan trng v cõu quan trng, ca ni dung tin tc, cỏc phn tip theo ca lun vn s thc hin vic xõy dng cỏc mụ-un x lý d liu tin tc m rng h thng Chi tit cỏc bi 14 toỏn v cỏch gii quyt vn tng bi toỏn trong thc t s c gii thiu trong cỏc chng tip ca lun vn 1.2 Cỏc bi toỏn trong khuụn kh ti 1.2.1 Bi toỏn x lý trựng lp tin tc Vi crawler phõn

Ngày đăng: 14/09/2016, 23:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan