CÔNG CỤ X.ENT CHO TRÍCH XUẤT DỮ LIỆU THỰC THỂ, QUAN HỆ GIỮA THỰC THỂ VÀ HỖ TRỢ PHÂN TÍCH DỮ LIỆU TRONG CÁC TẠP CHÍ VỀ PHÒNG CHỐNG DỊCH BỆNH TRONG NÔNG NGHIỆP CỦA PHÁP

13 287 0
CÔNG CỤ X.ENT CHO TRÍCH XUẤT DỮ LIỆU THỰC THỂ, QUAN HỆ GIỮA THỰC THỂ VÀ HỖ TRỢ PHÂN TÍCH DỮ LIỆU TRONG CÁC TẠP CHÍ VỀ PHÒNG CHỐNG DỊCH BỆNH TRONG NÔNG NGHIỆP CỦA PHÁP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

J Sci & Devel 2015, Vol 13, No 6: 976-988 Tp Khoa hc v Phỏt trin 2015, 13, s 6: 976-988 www.vnua.edu.vn CễNG C X.ENT CHO TRCH XUT D LIU THC TH, QUAN H GIA THC TH V H TR PHN TCH D LIU TRONG CC TP CH V PHềNG CHNG DCH BNH TRONG NễNG NGHIP CA PHP Phan Trng Tin*, Ngụ Cụng Thng Khoa Cụng ngh Thụng tin, Hc vin Nụng nghip Vit Nam Email*: ptgtien@vnua.edu.vn Ngy gi bi: 22.07.2015 Ngy chp nhn: 03.09.2015 TểM TT Trớch xut thc th l cụng vic trớch xut thụng tin v phõn loi thụng tin bn theo nhng loi xỏc nh trc nh tờn ngi, t chc, a im, thi gian, v mt bc cao hn l tỡm mi quan h gia cỏc thc th vớ d nh mi quan h gia tờn ngi vi tờn t chc Cụng c x.ent c xõy dng lm cụng vic nh vy, cụng c s dng cỏc t in cho thc th v cỏc lut trớch xut Trong trớch xut quan h gia cỏc thc th chỳng tụi ỏp dng hai phng phỏp: phõn tớch cu trỳc ca bn v s dng mụ hỡnh hc khụng giỏm sỏt ú l phõn tớch tn sut xut hin ca cỏc thc th Cụng c x.ent cú sn trờn trang ch R theo ng dn: http: //cran.r project.org/web/packages/x.ent/index.html T khoỏ: Automat hu hn, nhn bit thc th nh danh, Perl, R, trớch xut thụng tin, trớch xut thc th, trớch xut quan h X.ent Package for Extraction of Entities, Relationships between Entities and Support Data Analysis in Epidemiological Journals in French Agriculture ABSTRACT Entity extraction is a task of information extraction and element classification in text such as the names of persons, organizations, locations, times, etc and to find relationship between entities such as the relationship between the names of persons with the organizations The X.ent tool was built solve this task It uses dictionaries matching and hand - crafted rules to extract In extracting the relationship between the entities, we applied two methods: analysis of text structures and unsupervised learning approach called coo ccurrence analysis This tool is available on the site of R at the links: http: //cran.r - project.org/web/packages/x.ent/index.html Keywords: Entity Extraction, Information Extraction (IE), Named entity recognition (NER), Perl, Relation Extraction, R T VN Chỳng ta ang sng thi i bựng n v cụng ngh thụng tin, theo thng kờ, mi ngy cú 540 triu tin nhn bn c gi i trờn ton th gii, 143 t email c trao i, 40.000 gigabyte d liu c to bi Mỏy gia tc ht ln (LHC - Large Hadron Collider), 400 triu cp nht trng thỏi trờn trang mng xó hi Twitter c ng, 104.000 gi video c thờm 976 vo YouTube, v.v (theo NASATI) v nú cũn tip tc tng lờn thi gian ti Vic x lý v phõn tớch d liu ln da trờn nhng nghiờn cu nhiu lnh vc bao gm khoa hc mỏy tớnh, thng kờ, toỏn hc, k thut d liu, nhn dng mu, trc quan húa, trớ tu nhõn to, mỏy hc v tớnh toỏn hiu nng cao Vi lng d liu rt ln, nú cú th cha c nhng thụng tin d tha, vỡ vy vic trớch xut Cụng c x.ent cho trớch xut d liu thc th, quan h gia thc th v h tr phõn tớch d liu cỏc v phũng chng dch bnh nụng nghip ca Phỏp thụng tin (IE) l mt bc rt quan trng ly c nhng thụng tin cn thit cho vic phõn tớch d liu Hin trớch xut thụng tin c s dng rt nhiu lnh vc ng dng nh tỡm hiu v xu hng kinh doanh ch yu ca ngi dựng, ngn nga bnh tt, phũng chng ti phm, lnh vc tin sinh hc, phõn tớch chng khoỏn, v.v khuyn khớch ngi nụng dõn s dng cỏc phng phỏp iu tr chng li cỏc sinh vt gõy hi n bn u tiờn c i vo nm 1946 v u l cỏc bn ỏnh mỏy (bn in), t nm 2001 tt c cỏc n bn c xut bn theo nh dng PDF Phỏp c chia lm 22 vựng v cỏc vựng nc ngoi, mi vựng s xut bn cỏc bỏo cỏo riờng X.ent l mt cụng c c chỳng tụi xõy dng cho vic trớch xut d liu bn (trớch xut thc th v quan h gia cỏc thc th), ngoi chỳng tụi cũn xõy dng mt s tớnh nng bng ho c vit trờn R cung cp cho ngi s dng cỏc tớnh nng phõn tớch d liu sau trớch xut Cụng c ny l s kt hp cỏc ngụn ng lp trỡnh khỏc nhau: Perl cho phn trớch xut d liu, R cho vic h tr phõn tớch kt qu Sau hon thnh chỳng tụi ó gi cụng c ca chỳng tụi lờn trang ch ca CRAN (l mt trang cha cỏc gúi ng dng ca R) v c cỏc chuyờn gia thng kờ hc õy chp nhn, hin ti ngi s dng cú th ti v v ci t trc tip t mỏy ch CRAN õy l sn phm c tụi hon thnh quỏ trỡnh hc cao hc ti Phỏp nm 2012 - 2014 Ngun d liu ca d ỏn cú 50.000 bn bỏo cỏo, ú cú khong 20.000 l dng cỏc trang in Chỳng tụi cn scan cỏc bn giy ny v nú c chia s ti th vin BNF (Bibliothốque Franỗois - Mitterrand) v sau ú c chuyn i sang dng text nh k thut OCR (Optical Character Recoginition) bi Jouve Corp VT LIU V PHNG PHP 2.1 Vt liu D liu c chỳng tụi trớch xut l cỏc bỏo cỏo v phũng chng dch bnh cho cõy trng ca Phỏp, cú 12 thc th chỳng tụi quan tõm l cõy trng (crops), bnh (diseases), sinh vt phỏ hoi (pests), cỏc sinh vt cú li khỏc (auxiliaries), v trớ a lý (regions, towns), ngy thỏng ca bỏo cỏo (date), s ca bỏo cỏo (issues), hoỏ cht s dng (chemicals), cỏc giai on phỏt trin cõy trng (developmental stage), s gõy hi vi cõy trng (crop damage), khớ hu (climate), mc tiờu cc (negative) Cỏc quan h gia cỏc thc th m chỳng tụi quan tõm: cõy trng vi bnh v cõy trng vi sinh vt phỏ hoi Phỏp, hng tun cỏc nh nụng hc s to cỏc bỏo cỏo thụng tin cho ngi nụng dõn v cỏc tn cụng ca dch bnh v cụn trựng i vi cõy trng Mc tiờu ca cỏc bỏo cỏo ny l õy l d ỏn c ti tr bi B Nụng nghip v Nghiờn cu Phỏp, d ỏn bao gm cỏc chuyờn gia sinh vt hc v sinh thỏi hc nghiờn cu cỏc tỏc nhõn gõy bnh: dch t hc v khoa hc mụi trng (cỏc d bỏo v sõu bnh) vi mt mng li gi l PIC (Intergrated Crop Protection) Cú chuyờn gia v khoai tõy v lỳa mỡ t PIC ng hnh cựng chỳng tụi d ỏn ny, d ỏn cú tờn VESPA (Valeur et optimisation des dispositifs depidemiosurveillance dans une strategie durable de protection des cultures - c lng v ti u hoỏ cỏc thit b giỏm sỏt dch t hc chin lc bo v s bn vng cho cõy trng) 2.2 Phng phỏp Trớch xut thụng tin (IE) l mt tỏc v t ng trớch xut cú c thụng tin cú cu trỳc t cỏc ti liu khụng cu trỳc hoc bỏn cu trỳc m mỏy tớnh cú th c c Trong hu ht cỏc trng hp, hot ng ny liờn quan n x lý cỏc bn ngụn ng ngi hay núi cỏch khỏc l x lý ngụn ng t nhiờn (Natural Language Processing) Mc tiờu chớnh ca chỳng tụi l trớch xut quan h gia thc th cõy trng vi cỏc tỏc nhõn gõy hi cho cõy trng cựng vi mc gõy hi ca chỳng Trớch xut thụng tin l mt cụng c tt x lý ngụn ng t nhiờn Cỏc bc thc hin x lý d liu trớch xut thụng tin: 977 Phan Trng Tin, Ngụ Cụng Thng Hỡnh Bỏo cỏo v dch bờnh cõy trng vựng Bourgogne v Franche - Comtộ Bc 1: Nhn bit cỏc thc th nh danh (Named Entity Recognition - NER) Bc 2: Trớch xut quan h Bc 3: Trớch xut thụng tin ng cnh nh mc gõy hi, giai on phỏt trin ca cõy trng, khớ hu, a lý Cú rt nhiu gii thut v phng phỏp thc hin trớch xut thc th nh danh (NER) nh: cỏc thut toỏn v phõn loi theo partern based (da theo cỏc quy lut trớch xut ca cỏc chuyờn gia), cỏc thut toỏn v thng kờ nh HMM (Hidden Markov Model), MaXent (Maximum Entropy Modeling) hay CRF (Conditional Random Fields) 2.2.1 Trớch xut thc th nh danh a S dng t in c s Khi trớch xut d liu, cú nhng thc th chỳng ta cú th xõy dng cỏc t in ca thc th thc hin cho vic trớch xut, vớ d t 978 in v cõy trng (crops), bnh (diseases), sinh vt phỏ hoi (pets), cỏc sinh vt cú li khỏc (auxiliaries), v trớ a lý (regions, towns), hoỏ cht iu tr (chemicals) Cỏc t in c chỳng tụi xõy dng theo nguyờn tc sau: t u l t khoỏ gc, sau ú phõn loi ca t ú, N l gc (node) ca cỏc loi khỏc, L l lỏ ca t loi ú (leaf), vi mt t khoỏ gc cú th cú cỏc dng bin i ca nú nh dng s ớt, s nhiu, khụng du, t ng ngha, t vit tt, v.v b S dng cỏc lut trớch xut Cú nhng loi thc th m chỳng ta khụng th xõy dng c t in cho thc th ú, vớ d nh cỏc giai on phỏt trin ca cõy trng, hay ỏnh giỏ mc gõy hi vi cõy trng hay l d liu kiu ngy thỏng, v.v Vỡ vy chỳng tụi phi xõy dng cỏc lut trớch xut s dng cụng c Unitex, cú th xem ti a ch http: //www igm.univ mlv.fr/~unitex/ (Paumier et al.), c phỏt trin bi i hc Paris Est Cỏc lut trớch Cụng c x.ent cho trớch xut d liu thc th, quan h gia thc th v h tr phõn tớch d liu cỏc v phũng chng dch bnh nụng nghip ca Phỏp Hỡnh Cu trỳc t in v thng kờ t in m chỳng tụi ó xõy dng xut ny chớnh l cỏc automat hu hn, c xõy dng bng giao din ho Vớ d trớch xut d liu ngy thỏng nm bỏo cỏo, chỳng tụi da theo cu trỳc d liu ngy thỏng cỏc bn mu vớ d chỳng cú nh dng xx {January|February} xxxx thỡ chỳng ta cú th xõy dng quy lut nh hỡnh Trong d ỏn ny, vi s h tr ca cỏc chuyờn gia v nụng nghip chỳng tụi xõy dng cỏc lut trớch xut hay chớnh l ng phỏp khỏc cho vic lut trớch xut, cú mt s quy tc ly c d liu nh sau: - < cỏc t t in> - < t khoỏ ỏnh du bt u> < kt thỳc cõu> - < t khoỏ ỏnh du bt u> < t khoỏ ỏnh du kt thỳc> - < t t in> < t khoỏ ỏnh du kt thỳc> - < t khoỏ ỏnh du bt u> < t t in> 2.2.2 Trớch xut quan h Trớch xut quan h gia cỏc thc th l bi toỏn tng i phc tp, cú nhiu phng phỏp trớch xut khỏc ó c xut nh xõy dng lut trớch xut quan h, cỏc phng phỏp Bootstraping, Supervised, Distant Suppervision hay cỏc phng phỏp Unsupervised (Zettlemoyer, 2013) Chỳng tụi xut hai phng phỏp trớch xut quan h: phng phỏp phõn tớch cu trỳc ti liu v phng phỏp mụ hỡnh hc khụng giỏm sỏt s dng tn sut xut hin d liu ca cỏc thc th (co occurrence) Hỡnh Lut trớch xut ngy thỏng c xõy dng bng cụng c Unitex 979 Phan Trng Tin, Ngụ Cụng Thng Hỡnh Ng phỏp trớch xut ỏnh giỏ mc gõy hi vi cõy trng a Phõn tớch cu trỳc ti liu T chc ca mt ti liu (tiờu , tiờu con, phn tham chiu, cỏc phõn on, cỏc bng, cỏc nh, phn gii thiu, phn tng kt, phn tho lun) cú th nh hng ti vic trớch xut Chỳng tụi gi õy l kin trỳc ca mt ti liu Tuy nhiờn nhiu kin trỳc l cú sn v cỏc heuristics l khụng gii hn Heuristics 1: Thc th chớnh Thc th chớnh xy v trớ tiờu hoc tiờu ca on hoc ca mt phn ca on Trong hỡnh chỳng ta nhỡn thy rng thc th chớnh xy u ca mi on, vớ d ny l thc th cõy trng (blộ, betterave) Heuristics 2: Ly giỏ tr u tiờn Vi cỏc thc th khỏc nhau, cú th d liu chỳng ta tỡm thy nhiu giỏ tr ca thc th ú, nhng chỳng ta ch ly giỏ tr u tiờn bỏo cỏo ú Trong hỡnh chỳng ta nhỡn thy cỏc thc th nh v trớ a lý, ngy xut bn ca bỏo cỏo, s ca bỏo cỏo Heuristics 3: Vựng khụng tỡm kim 980 Mt vi on bn cú th cha cỏc tiờu m on ú cú th cú cha cỏc thc th nhng nú khụng cú liờn kt vi thc th chớnh hoc thụng tin ca ng cnh Vớ d nh thụng tin ph tr, hoc chỳ thớch hoc thụng tin c chớch t mt ngun d liu khỏc b Mụ hỡnh hc khụng giỏm sỏt s dng tn sut xut hin nh ngha 1: n v bn v thc th Mt n v bn (TU) l mt danh sỏch liờn kt m cha cỏc t W v cỏc thc th E Mt thc th cú th l mt t hoc mt cỏc t liờn tip nh ngha 2: V trớ thc th t Ei l mt thc th gc Mt ti liu c chia thnh cỏc n v bn (TU) Mt n v bn cú th l mt phn ca mt on, mt cõu hoc mt on Gi l v trớ ca cỏc t khoỏ v l tiờu ca thc th Ei ti liu Chỳng ta nh ngha mt ca s m WL l s t ti v trớ bờn trỏi t v WR l s t bờn phi ca WR cú giỏ tr l ngha l ca s s bt u ti u ca bn, tng t nh võy WL cú giỏ tr l , ca s s ti cui ca bn Cụng c x.ent cho trớch xut d liu th c th, quan h gia thc th v h tr phõn tớch d li u cỏc v phũng chng dch bnh nh nụng nghi nghip ca Phỏp Hỡnh Chỳ thớch bng tay mt ti liu ca d ỏn Ghi chỳ: Mu vng: cõy trng, mu xanh lỏ cõy: cỏc giai on phỏt tri trin n cõy trng, mu nõu: bnh cõy trng, mu : v trớ a lý, mu xanh da tri: sinh vt gõy hi, mu tớa: cỏc sinh vt cú li, mu xanh en: thi gian Kiu 1: Tn sut xut hin ca n v bn t Ei l thc th gc v Ej l mt thc th cooc(Ei,Ej) = Kiu 2: Tn sut xut hin ca ca s, ging nh kiu 1, nhng tho món: ( - WL) cooc(Ei,Ej) = nu ( +WR) Kiu 3: Cỏc rng buc tn sut xut hin, ging nh kiu hoc kiu Nhng t mt danh sỏch cỏc im ỏnh du mk, ớt nht mt im ỏnh du mk cn nm gia a Ei v Ej, vỡ vy ta cú: cooc(Ei, Ej ) = nu u 2.2.3 nh dng d liu u u vo v u Kt qu trớch xut c lu tr theo nh dng ging nh dng CSV (hỡnh b bờn phi), u tiờn l tờn ca bỏo cỏo, tip theo l ký khỏc Chỳng ta nh nh ngha tn t xut xut hin bi mt hm nh phõn cooc(Ei,Ej) nh sau: ó ũ 1, 3 hiu ca thc th (r cho vựng, p cho cõy trng ) hoc quan h (p: m l quan h gia cõy trng v bnh ), tip theo ú l d liu trớch xut gn vi thc th hoc quan h m chỳng ta trớch xut ut c theo loi no ú Ngoi ỏnh giỏ hiu qu ca cụng c x.ent, chỳng tụi so sỏnh kt qu trớch xut vi cỏc cụng c khỏc (http8, http9, 2014), chỳng tụi phi bin i d liu theo chun ca CoNLL (Conference on Natural Language Learning) cho ch cỏc mụ hỡnh mỏy hc s dng phng phỏp thng kờ Chỳng tụi phi thc hin s hoỏ bng tay 37 ỏnh giỏ kt qu nh dng d liu (hỡnh bờn trỏi) gm hai ct: ct u tiờn l cỏc t c ct theo ỳng th t ca cỏc cõu, ct th l phõn loii ca t ú, O l t khụng thuc phõn loi no, PLA l t thuc phõn loi tờn cõy trng, v.v 981 Phan Trng Tin, Ngụ Cụng Thng Hỡnh nh dng u vo v u theo chun CONLL v nh dng u ca x.ent KT QU V THO LUN 3.1 nh giỏ kt qu trớch xut ỏnh giỏ hiu qu cụng c x.ent, chỳng tụi so sỏnh kt qu trớch xut vi cỏc cụng c trớch xut khỏc Trc ht, v trớch xut thc th nh danh, chỳng tụi so sỏnh vi cụng c LingPipe (http9, 2014) s dng trớch xut bng so khp vi d liu t in v cụng c SNER (http8, 2014) s dng mụ hỡnh hc mỏy cú giỏm sỏt CRF Cỏc tham s cho vic nh giỏ kt qu ú l F - score hay F1 (cụng thc 3), Recall (cụng thc 2) v Precision (cụng thc 1) Kt qu trớch xut ca x.ent cho kt qu tt nh cụng c Lingpipe Lingpipe cng cú cỏch cỏc cỏch tip cn trờn c s mụ hỡnh Hidden markov nhng nú cho kt qu ớt tt hn Tip theo, chỳng tụi so sỏnh kt qu trớch xut ca x.ent s dng phõn tớch cu trỳc vi cỏch tip cn Coo - currence vi cỏc tham s ca s khỏc nhau, tc l rng ca ca s ca mt 982 n v bn s thay i v bờn trỏi v bờn phi so vi thc th gc Hỡnh hin th kt qu m chỳng tụi thay i s ca n v bn t thc th gc, chỳng tụi th nghim ca s bờn trỏi v bờn phi thay i t n 500 t Chỳng tụi nhn thy kt qu tt nht s t bờn trỏi tin dn ti (gn ti thc th gc) v s t bờn phi tin dn ti 500 Bng cho chỳng ta bit kt qu trớch xut quan h d liu ny thỡ phng phỏp phõn tớch cỳ phỏp s hiu qu hn F - score khong 55%, phng phỏp Coo ccurrence khong 42% Vi dng d liu cú cu trỳc, vic s dng phng phỏp phõn tớch cu trỳc tỡm mi quan h s hiu qu hn Ngc li phng phỏp Coo - currence s hiu qu hn vi d liu khụng cú cu trỳc Trong cỏc bng di, PET l t vit tt ca thc th sinh vt gõy hi cõy trng, MAL l bnh ca cõy trng, PLA l thc th tờn ca cõy trng, REG l thc th v v trớ a lý, TOT l kt qu trung bỡnh ca cỏc thc th PLA - MAL v PLA - PET l mi quan h ca cỏc thc th c nờu trờn Cụng c x.ent cho trớch xut d liu thc th, quan h gia thc th v h tr phõn tớch d liu cỏc v phũng chng dch bnh nụng nghip ca Phỏp Hỡnh So sỏnh kt qu trớch xut quan h s dng Coo - currence bng vic thay th tham s cỏc ca s khỏc # P 1, P = # R 1, R = # # ỳ ụ (1) ỡ ỳ ỳ ú (2) F1 1, F1 = ( (3) ) Bng nh giỏ kt qu trớch xut thc th nh danh X.ENT SNER LINGPIPE P R F1 P R F1 P R F1 PET 96.46 95.52 95.98 92.66 71.41 80.52 96.45 95.53 95.99 MAL 96.97 95.53 96.24 95.46 77.38 85.38 96.97 95.52 96.24 PLA 88.80 98.67 93.47 93.99 82.68 87.94 88.80 98.67 93.47 REG 100 100 100 93.20 73.73 81.92 100 100 100 TOT 94.33 96.67 95.48 93.68 76.85 84.41 94.34 96.65 95.48 Bng nh giỏ kt qu trớch xut quan h gia cỏc thc th X.ENT COOCCURRENCE P R F1 P R F1 PLA - PET 53.4 75.8 52.7 36.4 50.5 42.3 PLA - MAL 58.1 69.5 63.3 41.3 38.7 40.0 TOT 55.3 73.1 62.9 38.1 45.4 41.4 983 Phan Trng Tin, Ngụ Cụng Thng 3.2 Phõn tớch v thng kờ d liu sau trớch xut Cụng c x.ent c phỏt trin bng ngụn ng Perl cho phn chc nng trớch xut d liu v quan h v c úng gúi thnh mt gúi R v cú sn trờn R platform (R Development Core Team) Gúi cụng c ny cng cung cp cỏc hm trờn R h tr cho ngi s dng phõn tớch v thm dũ kt qu sau trớch xut nh: cỏc th hin th s xut hin ng thi, biu tn xut, biu Venn, biu chng xp lờn v s dng cỏc gi thuyt thng kờ kim tra mi liờn h gia cỏc quan h Trờn hỡnh chỳng ta nhỡn thy mt vớ d hin th song song ng thi gia hai thc th (e1 v e2), e1 l thc th gc m chỳng ta tỡm kim quan h vi chỳng, e2 l mt thc th khỏc loi vớ d "mouche du chou" l mt trng hp ca thc th sinh vt gõy hi cho cõy trng, "mildiou" l mt trng hp ca thc th bnh Trong R, bn cú th ỏnh nh sau: xplot(e1 = colza,e2 = c(mouche du chou, mildiou)) Chỳng ta cú th thờm cỏc rng buc v thi gian nh: xplot(e1 = colza,e2 = c(mouche du chou, mildiou),t = c(09.2010,02.2011)) Nhỡn vo biu , ngi s dng cú th bit c tn ti quan h bỏo cỏo no v ngc li Biu tng mu ch tn ti, mu tớm l khụng tn ti bỏo cỏo Hỡnh Biu so sỏnh s xut hin ng thi hay khụng ca cỏc thc th ti liu Hỡnh Biu hin th tn xut theo thi gian ca cỏc bỏo cỏo 984 Cụng c x.ent cho trớch xut d liu thc th, quan h gia thc th v h tr phõn tớch d liu cỏc v phũng chng dch bnh nụng nghip ca Phỏp Biu tn xut (histogram) thc hin thng kờ cú bao nhiờu bỏo cỏo cha thc th, hoc cha mt quan h no ú theo thi gian Trong hỡnh l cõu lnh: xhist("colza: mildiou"), nhỡn vo th, ngi s dng cú th bit c giai on no xut hin nhiu bnh "mildiou" vi cõy "colza" th dng chng xp l mt trng hp khỏc ngi s dng cú th phõn tớch c quan h gia cỏc thc th, vớ d nh quan h vi cõy trng, da vo d liu trớch xut, ngi s dng cú th bit c cõy trng no thng b tn cụng bi sinh vt phỏ hoi no, cũn loi khỏc thỡ khụng Trong hỡnh 10 l cõu lnh: xprop(c("blộ","maùs","tournesol","colza"),c(" mouche du chou", "puceron")) Nhỡn vo th kt qu, chỳng ta bit rng cõy "colza" l cõy c ci ng cú th b tn cụng bi "mouche du chou" l rui dm v "puceron" l rp Trong cỏc loi cõy khỏc nh "tournesol" l cõy hng dng, "maùs" l cõy ngụ, "blộ" l cõy lỳa mỡ ch b tn cụng bi "puceron" Mt bi toỏn khỏc t sau trớch xut ú l phõn tớch s xut hin ng thi ca cỏc thc th hoc cỏc quan h cỏc bỏo cỏo Trong hỡnh 11 l vớ d so sỏnh s xut hin ng thi ca cỏc cõy blộ, orge de printepmps v cõy tournesol, chỳng ta cú th thc hin R nh sau: xvenn(c(blộ,orge de printemps,tournesol) Hỡnh 10 Biu dng chng xp Hỡnh 11 Biu dng Venn 985 Phan Trng Tin, Ngụ Cụng Thng Bng So sỏnh cỏc cp quan h Relation KOLMOGOROV WILCOXON STUDENT GrowthCurves 700 blộ: mộligốthe/blộ: thrips 1.00 0.13 0.13 0.02 543 blộ: cicadelle/blộ: pyrale 1.00 0.00 0.00 0.02 613 blộ: criocốre/blộ: thrips 1.00 0.00 0.00 0.02 689 blộ: mộligốthe/blộ: puceron des ộpis de cộrộales 0.91 0.00 0.00 0.02 ỏnh giỏ kh nng xut hin ng thi ca cỏc quan h ca cỏc thc th khỏc nhau, chỳng tụi cng xut s dng cỏc phõn b xỏc sut ỏnh giỏ tng ng ca cỏc quan h hay bi toỏn ỏnh giỏ v cõy trng vi dch bnh, dựng cỏc phõn b xỏc sut ỏnh giỏ xem cỏc bnh no cú th xy cựng thi im Chỳng tụi xut s dng cỏc phõn b xỏc sut: Kolmogorov, Wilcoxon, Student, GrowthCurves tớnh tng ng ca cỏc quan h vi Cỏc giỏ tr p - value ny s giỳp ngi s dng ỏnh giỏ cỏc cp quan h ny cú xy ti cựng mt thi im hay khụng 3.3 Tớch hp kt qu trớch xut Cụng c x.ent thc hin trớch xut thụng tin, kt qu l mt nh dng theo kiu CSV, vỡ vy thng s gõy khú khn cho ngi s dng thụng thng Chỳng tụi ó xõy dng mt ng dng Web cú tờn PESTOBSERVER, ti a ch http: //www.pestobserver.eu, tớch hp kt qu trớch xut d liu v cú liờn kt vi ti liu gc ca bỏo cỏo cõy trng ú Trờn giao din ny cho phộp tỡm cõy trng, quan h cõy trng vi bnh v sinh vt gõy hi vi cõy trng mt khong thi gian no ú Sau ú nú s tỡm kim a tt c cỏc bi bỏo cỏo liờn quan n ch m ngi s dng cung cp Hỡnh 12 Giao din ngi dựng cui tớch hp kt qu x.ent 986 Cụng c x.ent cho trớch xut d liu thc th, quan h gia thc th v h tr phõn tớch d liu cỏc v phũng chng dch bnh nụng nghip ca Phỏp KT LUN Chỳng tụi ó xõy dng thnh cụng mt cụng c cú tờn l x.ent v ó ỏp dng cụng c ny cho trớch xut thụng tin vo cỏc d liu l cỏc bỏo cỏo v phũng chng dch bnh cho cõy trng ca Phỏp Cụng c ny trớch xut quan h crops/diseases v crops/pests cú chớnh xỏc F score 62% Ngoi ra, chỳng tụi cũn xõy dng c mt platform giao din thõn thin vi ngi s dng m tớch hp kt qu trớch xut kt hp cựng vi v trớ a lý ni xy dch bnh v liờn kt vi bỏo cỏo gc Chỳng tụi cng quan tõm ti vic tr giỳp ngi s dng khỏm phỏ cỏc mi quan h tim nng gia cỏc thc th Hai hng m chỳng tụi ó v ang tip tc thc hin: Th nht, cung cp giao din trc quan di dng ho (cỏc th, bng biu) cho ngi s dng d dng so sỏnh c kt qu v a cỏc ỏnh giỏ nh th so sỏnh ng thi, th tn xut, biu Venn, biu chng xp v ỏp dng cỏc phõn b thng kờ ỏnh giỏ kt qu Th hai l tớch hp kt qu trớch xut vo mt platform thõn thin vi ngi dựng kt hp vi cỏc thụng tin thc t ú, ngi s dng cú th duyt qua liu thụng qua quan h cỏc thụng tin ph tr (v trớ a lý, mc thit hi) s dng bn a lý v cú th phn hi li vi cỏc ti liu gc Ngụn ng ting vit khỏ l phc so vi ngụn ng ting anh nh cu trỳc t, ng phỏp Chỳng tụi ang tip tc nghiờn cu nhm ci tin cụng c ny cú th x lý vi ngụn ng ting vit LI CM N Tụi xin gi li cỏm n c bit ti ngi ó hng dn tụi Dr Nicolas Turenne (Paris - Est University), ngi ó cựng sỏt cỏnh vi tụi thi gian thc hin d ỏn; Prof Kurt Hornik (Vienna University), ngi a nhng phn bin v khớa cnh k thut; Roselyne Corbiốre (INRA - Rennes center) v Vincent Cellier (INRA - Dijon center) v nhng gúp ý cho ý tng giao din, chc nng ngi dựng cui, v ti Jean - Noel Aubertot (INRA - Toulouse center) v ý tng cho vic xõy dng b d liu v phũng chng dch bnh cho cõy trng Cm n nhng ng nghip lm vic ti labo INRA LIGM ó tr giỳp v cụng ngh, k thut thi gian tụi thc hin d ỏn ca tụi õy TI LIU THAM KHO Abacha A.B., Zweigenbaum P et Max A (2012) Extraction dinformation automatique en domaine mộdical par projection inter - langue: vers un passage lộchelle (Automatic Information Extraction in the Medical Domain by Cross - Lingual Projection) [in French] La confộrence JEP - TALN - RECITAL 2012, volume 2: TALN, p 15 - 28 Carpenter B (2007) LingPipe for 99.99% Recall of Gene Mentions Proceedings of the 2nd BioCreative workshop, Valencia, Spain Constant M., Tellier I., Duchier D., Dupont Y., Sigogne A et Billot S (2011) Intộgrer des connaissances linguistiques dans un CRF: application lapprentissage dun segmenteur - ộtiqueteur du franỗais TALN Montpellier, p - 12 Faure C., Delprat S., Mille A et Boulicaut J - F (2006) Utilisation des rộseaux bayộsiens dans le cadre de lextraction de rốgles dassociation Actes 6ốme Journộes Francophones Extraction et Gestion de Connaissances EGC06, p 569 - 580 Finkel J.R., Grenager T and Manning C (2005) Incorporating Non - local Information into Information Extraction Systems by Gibbs Sampling Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (Stroudsburg, PA, USA, 2005), p 363 - 370 http1 Stackoverflow (2014) http: //stackoverflow.com http2 Manuel dUtilisateur ô Writing R Extentions ằ (2014) http://cran.r-project.org/doc/manuals/Rexts.html http3 O beautiful code, ô How R Searches and Finds Stuff ằ (2014) http://obeautifulcode.com/R/HowR-Searches-And-Finds-Stuff/ http4 Prộcision et rappel (2007) http://benhur.teluq.ca/SPIP/inf6104/article.php3?id _article = 98&id_rubrique = 10&sem = Semaine%208 http5 Wilkipedia (2014) http://fr.wikipedia.org http6 Les Rộsaux Bayộsiens (2014) http://w3.jouy.inra.fr/unites/miaj/public/matrisq/Co ntacts/abari.07_ 03_12 expo2.pdf 987 Phan Trng Tin, Ngụ Cụng Thng http7 Traitement Automatique du Langage Naturel (2014) http://lipn.univparis13.fr/~audibert/pages/enseignement /TAL_ITCN.pdf http8 Stanford Named Entity Recognizer (2014).http://nlp.stanford.edu/software/CRFNER.shtml http9 LingPipe (2014)http://alias-i.com/lingpipe/ http10 Information Extraction And Named Entity Recognition (2014) https://web.stanford.edu/class/cs124/lec/ Information_Extraction_and_Named_Entity_Reco gnition.pdf http11 Les Rộseaux Bayộsienes http://www.bayesia.com/fr/technologie/reseauxbayesiens.php Lafferty J., McCallum A et Pereira F C N (2001) Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data Dep Pap CIS 988 Moncla L (2013) Automatic Annotation of Motion Expressions and Place Named Entities 2nd Unitex/GramLab Paumier S et Martineau C (2006) Manuel dUtilisateur Unitex 3.1 Beta Universitộ Paris - Est Marne - la - Vallộe version 1.2 Sutton C et McCallum A (2010) An Introduction to Conditional Random Fields for Relational Learning 1011.4088 [stat], p - 32 R Development Core Team, R (2015) A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN - 900051 - 07 - (2015).URL http: //www.R - project.org/ Tannier X (2012) Traitement Automatique des Langue Universitộ Paris - Sud Turenne N (2013) Knowledge Needs and Information Extraction Wiley - ISTE Zettlemoyer L (2012) Relation Extraction University of Washington

Ngày đăng: 04/11/2016, 13:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan