Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 54 Chng 4 MÔ HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING VIT (ViKEa) PHNG PHÁP SO TRÙNG MU DA TRÊN ONTOLOGY 4.1 Gii thiu Nh ã tho lun trong chng 3, mc dù các CTTNN c rút trích t ng theo hng xác nh CTTNN có chính xác khá cao nh Hulth ã công b (Hulth, 2004). Nhng t c kt qu ó, hng tip cn này cn mt c s tri thc hay Ontology có tính khái quát, chính xác và có các mi quan h trên chúng Mô hình rút trích cm t c trng ng ngha trong ting Vit 55 tng tính hiu qu cho vic xác nh CTTNN. Nói mt cách khác, vic nghiên cu và phát trin mt c s tri thc hay ontology ting Vit là rt quan trng và cn thit. Trong chng này, lun án ch trình bày mô hình rút trích cm danh t c trng ng ngha theo hng xác nh CTTNN da trên c s tri thc và phng pháp so trùng mu c gi là ViKEa (Hình 4.1). Phn còn li ca chng c t chc thành ba phn: Phn 4.2 trình bày công on rút trích cm danh t d tuyn b ng phng pháp so trùng mu da trên tp mu nhn dng các cm danh t c s; Phn 4.3 mô t công on xác nh cm danh t c trng ng ngha (CDTTNN); Phn cui cùng là kt chng. 4.2 Rút trích cm danh t d tuyn Trong phn này, lun án trình bày hng gii quyt cho công on rút trích cm danh t c s. Các phng pháp tip cn c!ng nh các thc nghim ánh giá ã c trình bày trong công trình (Chau Q. Nguyen và Tuoi T. Phan, 2007), và (Nguy"n Quang Châu và Phan Th Ti, 2008). Hình 4.1 Mô hình rút trích cm danh t c trng theo hng xác nh. Ti#n x$ lý Câu ting Vit Gán nhãn t loi Phân on t Các cm danh t c trng ng ngha Xác nh cm danh t c trng ng ngha Tp lut cu trúc cm danh t Rút trích các cm danh t Ontology ViO Mô hình rút trích cm t c trng ng ngha trong ting Vit 56 4.2.1. Xây dng c s tri thc cho các dng cu trúc cm danh t Theo nh mô hình (Hình 4.1), vic xây dng mt c s tri thc cho các mu cu trúc cm danh t da vào ó nhn din c các cm danh t trong câu ting Vit. Trc tiên cn phi nghiên cu v# cu trúc c!ng nh các c tính ng pháp ca cm danh t. nh ngha 4.1: Cm danh t là loi t hp t do danh t vi mt s t ng ph thuc to thành, nó có ý ngha y và có cu to phc tp hn mt danh t, nhng hot ng trong câu có chc nng ca mt danh t (Dip Quang Ban, 2004; Nguy"n Tài C%n, 1996). Cu to ca cm danh t có ba dng tng quát nh sau: 1. Dng th nht: { Phn ph trc}{ Phn trung tâm }{ Phn ph sau} Ví d: {Tt c nhng}{ em hc sinh}{ chm ngoan y}. 2. Dng th hai: { Phn ph trc}{ Phn trung tâm } Ví d: {Toàn th các}{ ging viên} 3. Dng th ba: { Phn trung tâm }{ Phn ph sau} Ví d: { ngi chng}{ hnh phúc y} a. Phn ph trc: - Ph t ch toàn th (t1): nh tt c, ht thy, toàn b, toàn th,… - Ph t ch s lng (t2): nh mi, các, tng, nhng, mi; hai, ba, bn, nm, … b. Phn ph sau: - Tính t (s1) - Ch nh t (s2) c. Phn trung tâm: B phn ghép g&m hai t: - n v tính toán, chng loi khái quát (T1) - i tng em ra tính toán, i tng c th (T2) Ví d: + em hc sinh (này) + em (này) + hc sinh (này) Mô hình rút trích cm t c trng ng ngha trong ting Vit 57 Da trên các cu trúc ca cm danh t, xây dng tp mu phc v cho vic xác nh cm danh t nh sau: 1. t1 t2 T1 T2 s1 s2 2. t1 T1 T2 s1s2 3. t2 T1 T2 s1s2 4. t1 t2 T1 s1 s2 5. t1 T1 s1 s2 6. t2 T1 s1 s2 7. t1 t2 T2 s1 s2 8. t1 T2 s1 s2 9. t2 T2 s1 s2 10. t1 t2 T1 T2 s1 11. t1 T1 T2 s1 12. t2 T1 T2 s1 13. t1 t2 T1 s1 14. t1 T1 s1 15. t2 T1 s1 16. t1 t2 T2 s1 17. t1 T2 s1 18. t2 T2 s1 19. t1 t2 T1 T2 s2 20. t1 T1 T2 s2 21. t2 T1 T2 s2 22. t1 t2 T1 s2 23. t1 T1 s2 24. t2 T1 s2 25. t1 t2 T2 s2 26. t1 T2 s2 27. t2 T2 s2 Các nhãn trong b nhãn 48 t loi ca t c mô t bng 4.1. Bng 4.1: B nhãn t loi ca t. Nhãn t loi Loi t Nhãn t loi Loi t Np danh t riêng Vts ng t ngoi ng tn ti Nc danh t n th Vtm ng t ngoi ng chuyn ng Ng danh t tng th Vtv ng t ngoi ng ý chí Nt danh t loi th Vitim ng t ni ng cm ngh Nu danh t ch n v Vitb ng t ni ng bin hoá Na danh t tru tng Vits ng t ni ng tn ti Nn danh t s lng Vitc ng t ni ng so sánh Nl danh t v trí Vitm ng t ni ng chuyn ng Vt ng t ngoi ng Aa tính t hàm cht Vit ng t ni ng An tính t hàm lng Vim ng t cm ngh Pp i t xng hô Vo ng t ch hng Pd i t không gian, thi gian Vs ng t tn ti Pn i t s lng Vb ng t bin hoá Pa i t hot ng, tính cht Vv ng t ý chí Pi i t nghi vn Va ng t tip th Jt ph t ch thi gian Vc ng t so sánh Jd ph t ch mc Vm ng t chuyn ng Jr ph t so sánh Vla ng t "là" Ja ph t khng nh, ph nh Vtim ng t ngoi ng cm ngh Ji ph t mnh lnh Vta ng t ngoi ng tip th Cm gii t Vtc ng t ngoi ng so sánh Cc liên t Vtb ng t ngoi ng bin hoá E cm t Vto ng t ngoi ng ch hng I tr t Mô hình rút trích cm t c trng ng ngha trong ting Vit 58 Ta có các tr'ng hp tng ng: a. Phn ph trc: Ph t ch toàn th (t1): Ng hoc Nt Ph t ch s lng (t2): Nu hoc Nn b. Phn ph sau: Tính t (s1): Aa hoc An Ch nh t (s2): Nl hoc Pd c. Phn trung tâm: B phn ghép g&m hai t n v tính toán, chng loi khái quát (T1): Nu hoc Nn, Ng hoc Nt i tng em ra tính toán, i tng c th (T2): Np hoc Nc hoc Na Nh vy da vào 27 mu trên và các t loi có th ca chúng, lun án ã xây dng c tp lut nhn din cm danh t c s bao g&m 434 mu có dng nh sau: - Lut 1: <KNP> → ((<Ng>|<Nt>|<Pp>) (<Nu> |<Nn>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 2: <KNP> → (( <Nu> |<Nn>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 3: <KNP> → ((<Ng>|<Nt>|<Pp>) (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) Mô hình rút trích cm t c trng ng ngha trong ting Vit 59 (<Aa>|<An>)* (<Nl>|<Pd>)*) - Lut 4: <KNP> → ((<Ng>|<Nt>|<Pp>)* (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>) (<Nl>|<Pd>)) - Lut 5: <KNP> -> ((<Ng>|<Nt>|<Pp>) * (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Aa>|<An>)) - Lut 6: <KNP> → ((<Ng>|<Nt>|<Pp>)* (<Nu> |<Nn>)* (<Nu>|<Nn>|<Ng>|<Nt>) (<Np>|<Nc>|<Na>) (<Nl>|<Pd>)) Trong ó: | - hoc * - 0 hoc nhi#u. 4.2.2. Bài toán rút trích cm danh t bng phng pháp so trùng mu V# phng pháp, mô hình rút trích cm danh t b ng phng pháp so trùng mu, da vào tp mu cu trúc các cm danh t và các t có gán nhãn t loi nhn c t công on trc, nhn din các cm danh t trong câu n ting Vit ang xét. Ý tng ca phng pháp là da vào cu trúc vn phm ting Vit xây dng mt tp các mu, c x$ lý bi máy trng thái hu hn. Kt qu, lun án ã xây dng c 434 mu nhn din các cm danh t bao g&m c các mu nhn Mô hình rút trích cm t c trng ng ngha trong ting Vit 60 din các danh t riêng. Tp mu này c hin thc b ng Java Annotation Patterns Engine (JAPE) (Ph lc B). B phân tích trên c s máy trng thái hu hn to ra các chú gii có tên là ‘KNP’ vi thuc tính và giá tr c mã hóa (nh ‘type’, ‘POS’, ‘string’,…). Tp mu dùng kt qu u ra ca công on gán nhãn t loi c!ng nh các thông tin nhn din các t ting Vit nhn din các cm danh t trong câu n ting Vit ang xét. T tng ca gii thut nhn din các cm danh t c quy v# vic so trùng mu có trong c s tri thc. Trong thc t quá trình so trùng thu c rt nhi#u mu. ây là tr'ng hp nhp nh ng và phng án gii quyt ca lun án là mu có dài cc i s( c chn, c th c trình bày trong gii thut 4.1. GI)I THU*T 4.1 So trùng mu - Nhp: Cho mt chu+i các t w1, ., wT, vi các nhãn t loi c1, ., cN tng ng, tp 434 mu nhn din các cm danh t. - Xut: Các cm danh t. - Phng pháp: 1. StartNode = Nút trái nht 2. To mt instance u tiên ca FSM và thêm nó vào danh sách active instances; 3. for FSM instance này t nút hin hành là nút trái nht; 4. while(startNode != last node) do 5. while (not over) do 6. for m+i Fi active instance ca FSM do 7. if instance này mt trng thái kt thúc then ct mt bn sao ca nó vào tp accepting FSMs (instances ca FSM mà chúng t trng thái kt thúc); 8. c tt c các annotations b,t u t nút hin hành; 9. Chn tt c các tp annotation mà c dùng trong bc trc ca & th chuyn trng thái FSM; 10. for m+i tp nh vy to mt new instance ca FSM, t nó vào danh sách active list và loi b- tp annotation này; Mô hình rút trích cm t c trng ng ngha trong ting Vit 61 11. loi b- Fi; 12. end for; 13. if tp active instances ca FSM là r+ng then over = true; 14. end while; 15. if tp accepting FSMs là r+ng then 16. T tt c accepting FSMs chn * là mu có chi#u dài cc i; nu có nhi#u mu có cùng chi#u dài thì lúc ó gii pháp là chn mu so trùng u tiên; 17. Thc hin a v# trng thái kt thúc cho FSM instance ã c chn; 18. StartNode =selectedFSMInstance.getLastNode.getNextNode(); 20. else //s so trùng tht bi b,t u li t nút k tip // StartNode = StartNode.getNextNode(); 21. end while; Ví d vi câu “Máy tính này có dung lng RAM là bao nhiêu?”, sau khi ã qua công on gán nhãn t loi thu c nh sau: Máy tính [Nc] | này [Pd] | có [Vs] | dung lng [Nc] | RAM [Np] | là [Vla] | bao nhiêu [Na]? Trong công on rút trích cm danh t này, da trên c s tri thc các mu cu trúc cm danh t, mô hình s( so trùng c hai mu: [NounPhrase] . [Nc] [Pd] [NounPhrase] . [Nc] [Np] Do ó, kt qu thu c trong giai on này là hai cm danh t [Máy tính này] và [dung lng RAM] tng ng vi hai mu trên. *: Nu chúng ta so trùng úng theo kiu ca Brill, thì chúng ta phi x lý cho tng accepting instances. Mô hình rút trích cm t c trng ng ngha trong ting Vit 62 4.3 Công on xác nh cm danh t c trng ng ngha da trên ontology 4.3.1. Khai thác Wikipedia C s tri thc vi n#n tng là ontology ngày càng c s$ dng rng rãi vi s ra 'i và phát trin ca Web có ng ngha. Mt ontology, theo (Swartout và CS, 1996) là mt tp hp có cu trúc phân cp các thut ng dùng mô t mt lnh vc nào ó và có th c dùng nh mt b khung cho mt c s tri thc. Nói mt cách n gin, ontology là mt h thng phân cp các khái nim, còn c s tri thc bao g&m n#n tng là mt ontology cng vi thông tin c th ca tng khái nim. Các hng nghiên cu tp trung i xây dng và khai thác các Ontology hay c s tri thc nh KIM1, OpenCyc2, Wikipedia3,… Trong ó, Wikipedia c nhi#u nghiên cu quan tâm bi tính a ngôn ng (bao g&m 253 ngôn ng) và là kho giàu tri thc nht hin nay (Zesch và CS, 2008). Wikipedia là mt bách khoa toàn th trc tuyn vi ni dung m b ng nhi#u ngôn ng, c vit và xây dng do nhi#u ng'i dùng cùng cng tác vi nhau. Wikipedia và Wiktionary c xem nh là mt tài nguyên mi v# ng ngha t vng do tính nng c cp nht liên tc nên nó tr thành ngu&n tham kho hu ích vi hàng triu ng'i. c bit, ti#m nng ca Wikipedia c khai thác gn ây nh mt c s tri thc ng ngha t vng. Nó c ng dng trong các công vic x$ lý ngôn ng t nhiên nh phân loi vn bn (Ruiz-Casado và CS, 2005), truy h&i thông tin (Gurevych và CS, 2007), h thng h-i áp (Ahn và CS, 2004), tính toán quan h ng ngha (Zesch và CS, 2007). Mt lý do quan trng là Wikipedia có phiên bn ting Vit, ó là Vi.Wikipedia và Vi.Wiktionary gi là Vi.wiki4. Theo thng kê xp hng ca Zesch (2008), Vi.Wiktionary ng th 3 trong danh sách xp hng 10 ngôn ng có s u mc cao nht vi 225.000 u 1 www.ontotext.com/kim/ 2 www.opencyc.org/ 3 www.wikipedia.org/ 4 www.vi.wikipedia.org/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 63 mc (nh trong Bng 4.2). Vi.wiki thc s là mt kho tri thc ting Vit rt hu ích cn c khai thác cho cng &ng nghiên cu x$ lý ngôn ng ting Vit b ng máy tính (nh Bng 4.3) Bng 4.2: Các phiên bn Wiktionary(29/1/2008). Ngôn ng Xp hng S u mc French 1 730.193 English 2 682.982 Vietnamese 3 225.380 Turkish 4 185.603 Russian 5 132.386 Ido 6 128.366 Chinese 7 115.318 Greek 8 102.198 Arabic 9 95.020 Polish 10 85.494 Bng 4.3: S trang thông tin (# danh hiu), th loi, và trang i hng ca phiên bn Vi.Wikipedia(4/2/2009). Ngôn ng # trang # th loi # trang i hng Ting Vit 157.994 322.631 36.301 Vi nhn nh trên, trong phn này lun án nghiên cu khai thác Vi.Wiki nh mt ontology ting Vit phc v cho vic rút trích cm danh t c trng ng ngha cho câu ting Vit. Trong Vi.wiki1, u vào c bn là các trang thông tin. Mt trang thông tin có th là mt bài vit bình th'ng nói v# mt khái nim hay mt thc th. Mt trang thông tin c!ng có th là mt trang i hng - trang cha liên kt n trang có tên khác (có th thông dng hn) nói v# cùng mt # tài. Mt trang thông tin c!ng có th là mt trang nh hng - mt bài vit gii thích v# ý ngha ph bin nht ca thut ng, bên di lit kê các liên kt n các bài vit có ta # (tên bài vit) [...]... án rút ra i n c t p tính ch t ng ngh a T p tính ch t c t mô hình ViKEa, lu n c tr ng v# m t ngôn ng c a c m danh t c tr ng này quy t c tr ng nh tính c tr ng ng ngh a c a c m danh t này so v i các c m danh t khác trong câu ây chính là ti#n # góp 73 Mô hình rút trích c m t ph n xác c tr ng ng ngh a trong ti ng Vi t nh t p tính ch t ViKEe theo h c tr ng nh n di n CDT TNN trong mô hình ng ti p c n rút trích. .. n l c các c m danh t c m danh t d tuy n nh n c tr ng ng ngh a trong các c, lu n án s$ d ng Ontology ViO nh m t cây phân c p c a các th lo i cho bài toán rút trích c m danh t trong câu ti ng Vi t Mô hình c a bài toán c a mô hình là các câu ã c tr ng ng ngh a c trình bày trong Hình 4.1 c ti#n x$ lý (nh phân o n t , gán nhãn t lo i) và rút trích các c m danh t d tuy n, cu i cùng là giai o n xác Giai o... qu t c c trình bày trong B ng 4.4 B ng 4.4: K t qu rút trích CT TNN c a mô hình ViKEa E A E#A Precision Recall F 3236 3072 2293 74.6% 70.8% 72,65% K t qu ban u t c là khá cao, tuy nhiên theo kh o sát c a lu n án thì h u h t các CDT TNN c nh n d ng sai t mô hình ViKEa #u thu c vào tr 'ng h p khái ni m ch a t&n t i trong ontology ViO, mà c th là trong t ViDic h ây là m t h n ch c a mô hình ViKEa và c!ng... m t CDT TNN có nhi#u danh hi u ch chi m t l 52 trong t ng 152450 u m c trong t Trong ph Wikipedia i n ViDic ng pháp ti p c n này, m c dù lu n án s$ d ng các thông tin t t o ra m t t i n ViDic, nh ng ph d ng cho các Ontology hay các c s tri th c khác 65 ng pháp này còn có th áp Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t 4.3.3 Bài toán rút trích c m danh t c tr ng ng ngh a gi i quy t khâu... ngh a Trong th t c tìm khái ni m t t ng t trong ViO Nhi m v chính là xác nh ng t v# ng ngh a cho c m danh t , xem xét ng ngh a c a chúng phù h p v i khái ni m nào trong ontology Nói cách khác, t ng t v# ngh a c a chúng g n v i khái ni m nào trong ontology nh t Ng ngh a c a các t , c m t 70 c Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t th hi n m t ph n thông qua ng c nh tài li u trong. .. t: N u th lo i C1 và C2 có quan h CDT TNN là c m danh t t &ng ngh a trong ViO thì ng ng c a C1 và C2 Trong tr 'ng h p th lo i C1 có quan h thành ph n hay isa v i C2 thì CDT TNN là c m t t c a C1 69 ng ng Mô hình rút trích c m t B c tr ng ng ngh a trong ti ng Vi t c hai: Trong tr 'ng h p C1 và C2 không có các m i quan h v i nhau nh trong B c m t, thì quá trình ph i i tìm th lo i t tiên chung g n nh.. .Mô hình rút trích c m t t c tr ng ng ngh a trong ti ng Vi t ng t ho c có khái ni m t bài vi t mà h ng t , giúp nh h ng cho ng 'i c ang tìm M+i trang thông tin c nh danh b ng danh hi u duy nh t, danh hi u t phù h p v i n i dung mô t it ng trang, ngoài thông tin mô t v# it ng nó còn ch a nhi#u liên k t ph n, &ng ngh a, hay ph n ngh a v i ih ng có th c c # c p trong trang này Trong m+i liên... v i các t wi và tính nh công th c 4.1: f wi w vi = N f wi f w N N (4.1) Trong ó: f wi w : t n su t &ng xu t hi n c a wi và w trong t p ng li u f wi : t n su t xu t hi n c a wi trong t p ng li u fw : t n su t xu t hi n c a w trong t p ng li u N : kích th c t p ng li u tính theo t 71 c Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Vect ng c nh c a c m danh t c n chú thích c xây d ng d a... s$ d ng trong ph n này 4/2/2009 64 c l y t ngu&n Vietnamese Wikipedia database dump Mô hình rút trích c m t B c tr ng ng ngh a trong ti ng Vi t c hai: Rút trích các danh hi u c a các trang thông tin cùng v i các danh hi u c a các trang ih ng v i chúng t om tt Vietnamese Dictionary) Vì m c tiêu là xác i n ti ng Vi t (ViDic – nh c m danh t c tr ng ng ngh a nên lu n án xem m+i trang thông tin trong Wikipedia... trên c s Mô hình rút trích c m t - Ph c tr ng ng ngh a trong ti ng Vi t ng pháp : Begin 1 If C1 & C2 t&n t i trong ViO then FindSpecificity(C1,C2) 2 else if C1& C2 không t&n t i trong ViO then FindSpecificity(FindSim (C1), FindSim (C2)) else if C1 không t&n t i trong ViO then 3 FindSpecificity(FindSim (C1), C2) else FindSpecificity(C1, FindSim (C2)) 4 End FindSim (C) // Hàm tìm khái ni m trong ViO . Mô hình rút trích cm t c trng ng ngha trong ting Vit 54 Chng 4 MÔ HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING. ngha Tp lut cu trúc cm danh t Rút trích các cm danh t Ontology ViO Mô hình rút trích cm t c trng ng ngha trong ting Vit 56 4.2.1. Xây