Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 05

21 454 7
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 05

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 54 Chng 4 HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING VIT (ViKEa) PHNG PHÁP SO TRÙNG MU DA TRÊN ONTOLOGY 4.1 Gii thiu Nh ã tho lun trong chng 3, mc dù các CTTNN c rút trích t ng theo hng xác nh CTTNN có  chính xác khá cao nh Hulth ã công b (Hulth, 2004). Nhng  t c kt qu ó, hng tip cn này cn mt c s tri thc hay Ontology có tính khái quát, chính xác và có các mi quan h trên chúng Mô hình rút trích cm t c trng ng ngha trong ting Vit 55  tng tính hiu qu cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên cu và phát trin mt c s tri thc hay ontology ting Vit là rt quan trng và cn thit. Trong chng này, lun án ch trình bày hình rút trích cm danh t c trng ng ngha theo hng xác nh CTTNN da trên c s tri thc và phng pháp so trùng mu c gi là ViKEa (Hình 4.1). Phn còn li ca chng c t chc thành ba phn: Phn 4.2 trình bày công on rút trích cm danh t d tuyn b ng phng pháp so trùng mu da trên tp mu nhn dng các cm danh t c s; Phn 4.3 t công on xác nh cm danh t c trng ng ngha (CDTTNN); Phn cui cùng là kt chng. 4.2 Rút trích cm danh t d tuyn Trong phn này, lun án trình bày hng gii quyt cho công on rút trích cm danh t c s. Các phng pháp tip cn c!ng nh các thc nghim ánh giá ã c trình bày trong công trình (Chau Q. Nguyen và Tuoi T. Phan, 2007), và (Nguy"n Quang Châu và Phan Th Ti, 2008). Hình 4.1 hình rút trích cm danh t c trng theo hng xác nh. Ti#n x$ lý Câu ting Vit Gán nhãn t loi Phân on t Các cm danh t c trng ng ngha Xác nh cm danh t c trng ng ngha Tp lut cu trúc cm danh t Rút trích các cm danh t Ontology ViO Mô hình rút trích cm t c trng ng ngha trong ting Vit 56 4.2.1. Xây dng c s tri thc cho các dng cu trúc cm danh t Theo nh hình (Hình 4.1), vic xây dng mt c s tri thc cho các mu cu trúc cm danh t  da vào ó nhn din c các cm danh t trong câu ting Vit. Trc tiên cn phi nghiên cu v# cu trúc c!ng nh các c tính ng pháp ca cm danh t. nh ngha 4.1: Cm danh t là loi t hp t do danh t vi mt s t ng ph thuc to thành, nó có ý ngha y  và có cu to phc tp hn mt danh t, nhng hot ng trong câu có chc nng ca mt danh t (Dip Quang Ban, 2004; Nguy"n Tài C%n, 1996). Cu to ca cm danh t có ba dng tng quát nh sau: 1. Dng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau} Ví d: {Tt c nhng}{ em hc sinh}{ chm ngoan y}. 2. Dng th hai: { Phn ph trc}{ Phn trung tâm } Ví d: {Toàn th các}{ ging viên} 3. Dng th ba: { Phn trung tâm }{ Phn ph sau} Ví d: { ngi chng}{ hnh phúc y} a. Phn ph trc: - Ph t ch toàn th (t1): nh tt c, ht thy, toàn b, toàn th,… - Ph t ch s lng (t2): nh mi, các, tng, nhng, mi; hai, ba, bn, nm, … b. Phn ph sau: - Tính t (s1) - Ch nh t (s2) c. Phn trung tâm: B phn ghép g&m hai t: - n v tính toán, chng loi khái quát (T1) - i tng em ra tính toán, i tng c th (T2) Ví d: + em hc sinh (này) + em (này) + hc sinh (này) Mô hình rút trích cm t c trng ng ngha trong ting Vit 57 Da trên các cu trúc ca cm danh t, xây dng tp mu phc v cho vic xác nh cm danh t nh sau: 1. t1 t2 T1 T2 s1 s2 2. t1 T1 T2 s1s2 3. t2 T1 T2 s1s2 4. t1 t2 T1 s1 s2 5. t1 T1 s1 s2 6. t2 T1 s1 s2 7. t1 t2 T2 s1 s2 8. t1 T2 s1 s2 9. t2 T2 s1 s2 10. t1 t2 T1 T2 s1 11. t1 T1 T2 s1 12. t2 T1 T2 s1 13. t1 t2 T1 s1 14. t1 T1 s1 15. t2 T1 s1 16. t1 t2 T2 s1 17. t1 T2 s1 18. t2 T2 s1 19. t1 t2 T1 T2 s2 20. t1 T1 T2 s2 21. t2 T1 T2 s2 22. t1 t2 T1 s2 23. t1 T1 s2 24. t2 T1 s2 25. t1 t2 T2 s2 26. t1 T2 s2 27. t2 T2 s2 Các nhãn trong b nhãn 48 t loi ca t c t  bng 4.1. Bng 4.1: B nhãn t loi ca t. Nhãn t loi Loi t Nhãn t loi Loi t Np danh t riêng Vts ng t ngoi ng tn ti Nc danh t n th Vtm ng t ngoi ng chuyn ng Ng danh t tng th Vtv ng t ngoi ng ý chí Nt danh t loi th Vitim ng t ni ng cm ngh Nu danh t ch n v Vitb ng t ni ng bin hoá Na danh t tru tng Vits ng t ni ng tn ti Nn danh t s lng Vitc ng t ni ng so sánh Nl danh t v trí Vitm ng t ni ng chuyn ng Vt ng t ngoi ng Aa tính t hàm cht Vit ng t ni ng An tính t hàm lng Vim ng t cm ngh Pp i t xng hô Vo ng t ch hng Pd i t không gian, thi gian Vs ng t tn ti Pn i t s lng Vb ng t bin hoá Pa i t hot ng, tính cht Vv ng t ý chí Pi i t nghi vn Va ng t tip th Jt ph t ch thi gian Vc ng t so sánh Jd ph t ch mc  Vm ng t chuyn ng Jr ph t so sánh Vla ng t "là" Ja ph t khng nh, ph nh Vtim ng t ngoi ng cm ngh Ji ph t mnh lnh Vta ng t ngoi ng tip th Cm gii t Vtc ng t ngoi ng so sánh Cc liên t Vtb ng t ngoi ng bin hoá E cm t Vto ng t ngoi ng ch hng I tr t Mô hình rút trích cm t c trng ng ngha trong ting Vit 58 Ta có các tr'ng hp tng ng: a. Phn ph trc:  Ph t ch toàn th (t1): Ng hoc Nt  Ph t ch s lng (t2): Nu hoc Nn b. Phn ph sau:  Tính t (s1): Aa hoc An  Ch nh t (s2): Nl hoc Pd c. Phn trung tâm: B phn ghép g&m hai t  n v tính toán, chng loi khái quát (T1): Nu hoc Nn, Ng hoc Nt  i tng em ra tính toán, i tng c th (T2): Np hoc Nc hoc Na Nh vy da vào 27 mu trên và các t loi có th ca chúng, lun án ã xây dng c tp lut nhn din cm danh t c s bao g&m 434 mu có dng nh sau: - Lut 1: <KNP> → ((<Ng>|<Nt>|<Pp>) (<Nu> |<Nn>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 2: <KNP> → (( <Nu> |<Nn>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 3: <KNP> → ((<Ng>|<Nt>|<Pp>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) Mô hình rút trích cm t c trng ng ngha trong ting Vit 59 (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 4: <KNP> → ((<Ng>|<Nt>|<Pp>)* (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>) (<Nl>|<Pd>)) - Lut 5: <KNP> -> ((<Ng>|<Nt>|<Pp>) * (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)) - Lut 6: <KNP> → ((<Ng>|<Nt>|<Pp>)* (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Nl>|<Pd>)) Trong ó: | - hoc * - 0 hoc nhi#u. 4.2.2. Bài toán rút trích cm danh t bng phng pháp so trùng mu V# phng pháp, hình rút trích cm danh t b ng phng pháp so trùng mu, da vào tp mu cu trúc các cm danh t và các t có gán nhãn t loi nhn c t công on trc,  nhn din các cm danh t trong câu n ting Vit ang xét. Ý tng ca phng pháp là da vào cu trúc vn phm ting Vit  xây dng mt tp các mu, c x$ lý bi máy trng thái hu hn. Kt qu, lun án ã xây dng c 434 mu nhn din các cm danh t bao g&m c các mu nhn Mô hình rút trích cm t c trng ng ngha trong ting Vit 60 din các danh t riêng. Tp mu này c hin thc b ng Java Annotation Patterns Engine (JAPE) (Ph lc B). B phân tích trên c s máy trng thái hu hn to ra các chú gii có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa (nh ‘type’, ‘POS’, ‘string’,…). Tp mu dùng kt qu u ra ca công on gán nhãn t loi c!ng nh các thông tin nhn din các t ting Vit  nhn din các cm danh t trong câu n ting Vit ang xét. T tng ca gii thut nhn din các cm danh t c quy v# vic so trùng mu có trong c s tri thc. Trong thc t quá trình so trùng thu c rt nhi#u mu. ây là tr'ng hp nhp nh ng và phng án gii quyt ca lun án là mu có  dài cc i s( c chn, c th c trình bày trong gii thut 4.1. GI)I THU*T 4.1 So trùng mu - Nhp: Cho mt chu+i các t w1, ., wT, vi các nhãn t loi c1, ., cN tng ng, tp 434 mu nhn din các cm danh t. - Xut: Các cm danh t. - Phng pháp: 1. StartNode = Nút trái nht 2. To mt instance u tiên ca FSM và thêm nó vào danh sách active instances; 3. for FSM instance này t nút hin hành là nút trái nht; 4. while(startNode != last node) do 5. while (not over) do 6. for m+i Fi active instance ca FSM do 7. if instance này  mt trng thái kt thúc then ct mt bn sao ca nó vào tp accepting FSMs (instances ca FSM mà chúng t trng thái kt thúc); 8. c tt c các annotations b,t u t nút hin hành; 9. Chn tt c các tp annotation mà c dùng trong bc trc ca & th chuyn trng thái FSM; 10. for m+i tp nh vy to mt new instance ca FSM, t nó vào danh sách active list và loi b- tp annotation này; Mô hình rút trích cm t c trng ng ngha trong ting Vit 61 11. loi b- Fi; 12. end for; 13. if tp active instances ca FSM là r+ng then over = true; 14. end while; 15. if tp accepting FSMs là r+ng then 16. T tt c accepting FSMs chn * là mu có chi#u dài cc i; nu có nhi#u mu có cùng chi#u dài thì lúc ó gii pháp là chn mu so trùng u tiên; 17. Thc hin a v# trng thái kt thúc cho FSM instance ã c chn; 18. StartNode =selectedFSMInstance.getLastNode.getNextNode(); 20. else //s so trùng tht bi b,t u li t nút k tip // StartNode = StartNode.getNextNode(); 21. end while; Ví d vi câu “Máy tính này có dung lng RAM là bao nhiêu?”, sau khi ã qua công on gán nhãn t loi thu c nh sau: Máy tính [Nc] | này [Pd] | có [Vs] | dung lng [Nc] | RAM [Np] | là [Vla] | bao nhiêu [Na]? Trong công on rút trích cm danh t này, da trên c s tri thc các mu cu trúc cm danh t, hình s( so trùng c hai mu: [NounPhrase] . [Nc] [Pd] [NounPhrase] . [Nc] [Np] Do ó, kt qu thu c trong giai on này là hai cm danh t [Máy tính này] và [dung lng RAM] tng ng vi hai mu trên. *: Nu chúng ta so trùng úng theo kiu ca Brill, thì chúng ta phi x lý cho tng accepting instances. Mô hình rút trích cm t c trng ng ngha trong ting Vit 62 4.3 Công on xác nh cm danh t c trng ng ngha da trên ontology 4.3.1. Khai thác Wikipedia C s tri thc vi n#n tng là ontology ngày càng c s$ dng rng rãi vi s ra 'i và phát trin ca Web có ng ngha. Mt ontology, theo (Swartout và CS, 1996) là mt tp hp có cu trúc phân cp các thut ng dùng  t mt lnh vc nào ó và có th c dùng nh mt b khung cho mt c s tri thc. Nói mt cách n gin, ontology là mt h thng phân cp các khái nim, còn c s tri thc bao g&m n#n tng là mt ontology cng vi thông tin c th ca tng khái nim. Các hng nghiên cu tp trung i xây dng và khai thác các Ontology hay c s tri thc nh KIM1, OpenCyc2, Wikipedia3,… Trong ó, Wikipedia c nhi#u nghiên cu quan tâm bi tính a ngôn ng (bao g&m 253 ngôn ng) và là kho giàu tri thc nht hin nay (Zesch và CS, 2008). Wikipedia là mt bách khoa toàn th trc tuyn vi ni dung m b ng nhi#u ngôn ng, c vit và xây dng do nhi#u ng'i dùng cùng cng tác vi nhau. Wikipedia và Wiktionary c xem nh là mt tài nguyên mi v# ng ngha t vng do tính nng c cp nht liên tc nên nó tr thành ngu&n tham kho hu ích vi hàng triu ng'i. c bit, ti#m nng ca Wikipedia c khai thác gn ây nh mt c s tri thc ng ngha t vng. Nó c ng dng trong các công vic x$ lý ngôn ng t nhiên nh phân loi vn bn (Ruiz-Casado và CS, 2005), truy h&i thông tin (Gurevych và CS, 2007), h thng h-i áp (Ahn và CS, 2004), tính toán quan h ng ngha (Zesch và CS, 2007). Mt lý do quan trng là Wikipedia có phiên bn ting Vit, ó là Vi.Wikipedia và Vi.Wiktionary gi là Vi.wiki4. Theo thng kê xp hng ca Zesch (2008), Vi.Wiktionary ng th 3 trong danh sách xp hng 10 ngôn ng có s u mc cao nht vi 225.000 u 1 www.ontotext.com/kim/ 2 www.opencyc.org/ 3 www.wikipedia.org/ 4 www.vi.wikipedia.org/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 63 mc (nh trong Bng 4.2). Vi.wiki thc s là mt kho tri thc ting Vit rt hu ích cn c khai thác cho cng &ng nghiên cu x$ lý ngôn ng ting Vit b ng máy tính (nh Bng 4.3) Bng 4.2: Các phiên bn Wiktionary(29/1/2008). Ngôn ng Xp hng S u mc French 1 730.193 English 2 682.982 Vietnamese 3 225.380 Turkish 4 185.603 Russian 5 132.386 Ido 6 128.366 Chinese 7 115.318 Greek 8 102.198 Arabic 9 95.020 Polish 10 85.494 Bng 4.3: S trang thông tin (# danh hiu), th loi, và trang i hng ca phiên bn Vi.Wikipedia(4/2/2009). Ngôn ng # trang # th loi # trang  i hng Ting Vit 157.994 322.631 36.301 Vi nhn nh trên, trong phn này lun án nghiên cu khai thác Vi.Wiki nh mt ontology ting Vit  phc v cho vic rút trích cm danh t c trng ng ngha cho câu ting Vit. Trong Vi.wiki1, u vào c bn là các trang thông tin. Mt trang thông tin có th là mt bài vit bình th'ng nói v# mt khái nim hay mt thc th. Mt trang thông tin c!ng có th là mt trang i hng - trang cha liên kt n trang có tên khác (có th thông dng hn) nói v# cùng mt # tài. Mt trang thông tin c!ng có th là mt trang nh hng - mt bài vit gii thích v# ý ngha ph bin nht ca thut ng, bên di lit kê các liên kt n các bài vit có ta # (tên bài vit) [...]... án rút ra i n c t p tính ch t ng ngh a T p tính ch t c t hình ViKEa, lu n c tr ng v# m t ngôn ng c a c m danh t c tr ng này quy t c tr ng nh tính c tr ng ng ngh a c a c m danh t này so v i các c m danh t khác trong câu ây chính là ti#n # góp 73 hình rút trích c m t ph n xác c tr ng ng ngh a trong ti ng Vi t nh t p tính ch t ViKEe theo h c tr ng nh n di n CDT TNN trong hình ng ti p c n rút trích. .. n l c các c m danh t c m danh t d tuy n nh n c tr ng ng ngh a trong các c, lu n án s$ d ng Ontology ViO nh m t cây phân c p c a các th lo i cho bài toán rút trích c m danh t trong câu ti ng Vi t hình c a bài toán c a hình là các câu ã c tr ng ng ngh a c trình bày trong Hình 4.1 c ti#n x$ lý (nh phân o n t , gán nhãn t lo i) và rút trích các c m danh t d tuy n, cu i cùng là giai o n xác Giai o... qu t c c trình bày trong B ng 4.4 B ng 4.4: K t qu rút trích CT TNN c a hình ViKEa E A E#A Precision Recall F 3236 3072 2293 74.6% 70.8% 72,65% K t qu ban u t c là khá cao, tuy nhiên theo kh o sát c a lu n án thì h u h t các CDT TNN c nh n d ng sai t hình ViKEa #u thu c vào tr 'ng h p khái ni m ch a t&n t i trong ontology ViO, mà c th là trong t ViDic h ây là m t h n ch c a hình ViKEa và c!ng... m t CDT TNN có nhi#u danh hi u ch chi m t l 52 trong t ng 152450 u m c trong t Trong ph Wikipedia i n ViDic ng pháp ti p c n này, m c dù lu n án s$ d ng các thông tin t t o ra m t t i n ViDic, nh ng ph d ng cho các Ontology hay các c s tri th c khác 65 ng pháp này còn có th áp hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t 4.3.3 Bài toán rút trích c m danh t c tr ng ng ngh a gi i quy t khâu... ngh a Trong th t c tìm khái ni m t t ng t trong ViO Nhi m v chính là xác nh ng t v# ng ngh a cho c m danh t , xem xét ng ngh a c a chúng phù h p v i khái ni m nào trong ontology Nói cách khác, t ng t v# ngh a c a chúng g n v i khái ni m nào trong ontology nh t Ng ngh a c a các t , c m t 70 c hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t th hi n m t ph n thông qua ng c nh tài li u trong. .. t: N u th lo i C1 và C2 có quan h CDT TNN là c m danh t t &ng ngh a trong ViO thì ng ng c a C1 và C2 Trong tr 'ng h p th lo i C1 có quan h thành ph n hay isa v i C2 thì CDT TNN là c m t t c a C1 69 ng ng hình rút trích c m t B c tr ng ng ngh a trong ti ng Vi t c hai: Trong tr 'ng h p C1 và C2 không có các m i quan h v i nhau nh trong B c m t, thì quá trình ph i i tìm th lo i t tiên chung g n nh.. .Mô hình rút trích c m t t c tr ng ng ngh a trong ti ng Vi t ng t ho c có khái ni m t bài vi t mà h ng t , giúp nh h ng cho ng 'i c ang tìm M+i trang thông tin c nh danh b ng danh hi u duy nh t, danh hi u t phù h p v i n i dung t it ng trang, ngoài thông tin t v# it ng nó còn ch a nhi#u liên k t ph n, &ng ngh a, hay ph n ngh a v i ih ng có th c c # c p trong trang này Trong m+i liên... v i các t wi và tính nh công th c 4.1: f wi w vi = N f wi f w N N (4.1) Trong ó: f wi w : t n su t &ng xu t hi n c a wi và w trong t p ng li u f wi : t n su t xu t hi n c a wi trong t p ng li u fw : t n su t xu t hi n c a w trong t p ng li u N : kích th c t p ng li u tính theo t 71 c hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Vect ng c nh c a c m danh t c n chú thích c xây d ng d a... s$ d ng trong ph n này 4/2/2009 64 c l y t ngu&n Vietnamese Wikipedia database dump hình rút trích c m t B c tr ng ng ngh a trong ti ng Vi t c hai: Rút trích các danh hi u c a các trang thông tin cùng v i các danh hi u c a các trang ih ng v i chúng t om tt Vietnamese Dictionary) Vì m c tiêu là xác i n ti ng Vi t (ViDic – nh c m danh t c tr ng ng ngh a nên lu n án xem m+i trang thông tin trong Wikipedia... trên c s hình rút trích c m t - Ph c tr ng ng ngh a trong ti ng Vi t ng pháp : Begin 1 If C1 & C2 t&n t i trong ViO then FindSpecificity(C1,C2) 2 else if C1& C2 không t&n t i trong ViO then FindSpecificity(FindSim (C1), FindSim (C2)) else if C1 không t&n t i trong ViO then 3 FindSpecificity(FindSim (C1), C2) else FindSpecificity(C1, FindSim (C2)) 4 End FindSim (C) // Hàm tìm khái ni m trong ViO . Mô hình rút trích cm t c trng ng ngha trong ting Vit 54 Chng 4 MÔ HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING. ngha Tp lut cu trúc cm danh t Rút trích các cm danh t Ontology ViO Mô hình rút trích cm t c trng ng ngha trong ting Vit 56 4.2.1. Xây

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan