Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 102 Chng 6 MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKE) KT HP HNG TIP CN RÚT TRÍCH VÀ HNG TIP CN XÁC NH 6.1 Gii thiu Trong chng này, lun án trình bày Mô hình rút trích cm danh t c trng ng ngha trong ting Vit c gi là ViKE. ây là mô hình kt hp gia mô hình theo hng tip cn xác nh CDTTNN-ViKEa và mô hình theo hng tip cn rút trích CDTTNN-ViKEe. S kt hp ca hai mô hình này nhm mc tiêu Mô hình rút trích cm t c trng ng ngha trong ting Vit 103 phát huy u im, cng nh hn ch các nhc im ca c hng tip cn xác nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit. Phn còn li ca chng c t chc thành ba phn: Phn 6.2 trình bày mô hình kt hp gia hai mô hình ViKEa và ViKEe; Phn 6.3 mô t h thng rút trích CDTTNN trong ting Vit, cng nh mô hình kin trúc ba lp ca h thng; Phn 6.4 phân tích và ánh giá hiu sut rút trích CDTTNN ca h thng ViKE; Phn cui cùng là kt chng. 6.2 Mô hình rút trích CDTTNN trong ting Vit Mô hình tng quát ViKE là s kt hp hai mô hình ViKEa và ViKEe c trình bày Hình 6.1. Trong mô hình tng quát rút trích cm danh t c trng ng ngha trong ting Vit, quy trình c thc hin ln lt qua các công on sau: Hình 6.1 Mô hình tng quát rút trích cm danh t c trng ng ngha ViKE. Tin x lý Câu ting Vit Gán nhãn t loi Phân on t Xác nh CDTTNN Tp m u Rút trích các cm danh t d tuyn Ontology ViO Các CDTTNN Da vào Ontology Da vào hc máy Mô hình Mô hình rút trích cm t c trng ng ngha trong ting Vit 104 • Công on 1. Tin x lý các câu ting Vit bao g!m bài toán phân on t và gán nhãn t loi. • Công on 2. Rút trích các cm danh t d tuyn t các t có gán nhãn t loi công on 1 bng phng pháp so trùng m u. • Công on 3. Xác nh chính xác CDTTNN t các cm danh t d tuyn ln lt qua các bc sau: o Bc 1: Da vào các thông tin ng cnh là các t, hay cm t quan h nhn din các CDTTNN trong các cm danh t d tuyn thông qua mô hình ViKEa (ng vi tr"ng hp các câu có cha các t, hay cm t quan h gia các cm danh t d tuyn). o Bc 2: Trong tr"ng hp gia các cm danh t d tuyn không có các t, hay cm t quan h thì quá trình nhn din CDTTNN s# c truy vn da trên Ontology ViO thông qua mô hình ViKEa (ng vi tr"ng hp các câu mà không cha các t, hay cm t quan h gia các cm danh t d tuyn, nhng các cm danh t d tuyn có khái nim trong ViO). o Bc 3: Nu các cm danh t d tuyn cha t!n ti trong c s tri thc hay các cm danh t d tuyn không có khái nim trong ViO , thì vic xác nh cm danh t d tuyn nào là CDTTNN s# da vào phng pháp hc máy thông qua mô hình ViKEe (ng vi tr"ng hp các câu mà không cha các t, hay cm t quan h gia các cm danh t d tuyn và các cm danh t d tuyn không có khái nim trong ViO). V ý tng, gii thut xác nh các cm danh t c trng ng ngha trong mô hình ViKE c trình bày tng quát nh sau: GII THUT 6.1 Xác nh cm danh t c trng ng ngha trong ViKE - Nhp: Tp các câu {S1, ., SK },ViO - Xut: Cm danh t c trng ng ngha (CDTTNN) cho m$i câu - Phng pháp: 1. for i = 1 to K do Word_Segmentation(Si); /* phân on t */ 2. for i = 1 to K do POS_Tagger(Si); /* gán nhãn t loi cho m$i t */ Mô hình rút trích cm t c trng ng ngha trong ting Vit 105 3. for i = 1 to K do Candidate_Identification(Si); /* nhn din các cm t d tuyn tng ng cho m$i câu */ 4. for i = 1 to K do 5. If gia các cm danh t d tuyn có cha các cm t quan h hay có các khái nim t!n ti trong ViO then ExecViKEa() 6. else ExecViKEe(); /* ExecViKEa() : thc hin mô hình ViKEa */ /* ExecViKEe(): thc hin mô hình ViKEe */ 6.3 H thng rút trích CDTTNN trong ting Vit kim nghim các phng pháp xut cho bài toán rút trích CDTTNN cho câu ting Vit, lun án hin thc Mô hình rút trích cm danh t c trng ng ngha trong ting Vit –ViKE nh m%t h thng vi mô hình kin trúc ba lp c trình bày Hình 6.2. 1. Lp giao din (Presentation tier): cung cp m%t giao din cho phép ng"i s dng nhp các câu trc tip vào h thng hoc t m%t tp tin cha các câu. Kt qu tr v là các CDTTNN tng ng cho m$i câu nhp di dng XML. Vi dng XML, các CDTTNN có th d& dàng c s dng trong các ng dng khác. 2. Lp nghip v (Business tier): ây là thành phn th hin các qui t'c nghip v ca kin trúc h thng ViKE. Lp này g!m ba khi: • Khi th nht chu trách nhim tách t và gán nhãn t loi cho t (Word segmentation and POS tagger). • Khi th hai là mô hình ViKEa theo hng tip cn xác nh CDTTNN, dùng x lý các câu ca ng"i s dng có cha các t, hay cm t quan h gia các cm danh t d tuyn, hoc câu có cha các cm danh t d tuyn có khái nim trong ViO. • Khi th ba là mô hình ViKEe theo hng tip cn rút tích CDTTNN. Khi này x lý các câu không cha các t, hay cm t quan h gia các cm danh t d tuyn, và cng không cha các cm danh t d tuyn có khái nim trong ViO. Các khi này c thit k trong môi tr"ng Java thành bn công c %c lp Mô hình rút trích cm t c trng ng ngha trong ting Vit 106 là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe mà chúng d& dàng tích hp vào các h thng khác. 3. Lp c s d liu (Database tier): lp này cung cp các chc n(ng lu tr và truy xut d liu ca ViKE thông qua h qun tr c s d liu MySQL Server 5.1 và các tp tin ng liu dng XML. Lp nghip v Lp giao din Lp c s d liu Hình 6.2 Mô hình kin trúc ba lp ca h thng rút trích cm danh t c trng ng ngha trong ting Vit –ViKE. Các câu ting Vit Mô hình ViKEe (da vào hc máy) Tin x lý Gán nhãn t loi Phân on t Mô hình ViKEa Xác nh CDTTNN da vào ontology Xác nh CDTTNN da vào lut quan h Rút trích các cm DT d tuyn da vào lut cu trúc cm DT ViO Ontology & T in ViDic Tp lut quan h Kho ng liu hun luyn 2 Kho ng liu hun luyn 1 Tp lut kt hp Tp lut cu trúc cm danh t Các CDTTNN Mô hình rút trích cm t c trng ng ngha trong ting Vit 107 6.4 ánh giá hiu sut rút trích CDTTNN Phng pháp ánh giá hiu sut ca lun án là da vào thc nghim vi % chính xác, % y , và % trung bình iu hòa F c trình bày trong mc 3.4.2 ca Chng 3. ánh giá hiu sut ca h thng, chúng tôi cng xin lu ý rng các mô hình xut trong lun án u tha k kt qu ca công on tin x lý phân on t và gán nhãn t loi rút trích CDTTNN trong câu n ting Vit. Nên hiu sut rút trích CDTTNN ca h thng ph thu%c vào hiu sut ca công on tin x lý. Gia t(ng hiu sut ca công on tin x lý cng s# làm gia t(ng hiu sut ca h thng rút trích CDTTNN. Tuy nhiên, ây là hai vn tách bit. Trong lun án này ch) tp trung kho sát các mô hình rút trích CDTTNN và chp nhn các l$i tích ly ca công on tin x lý. V ng liu kim th, lun án chn lc các tp m u câu t"ng thut và câu h*i, c ly t các ngu!n ng liu sau: 1. TREC (Text REtrieval Conference) (http://trec.nist.gov/data/) (TREC, 2009) là: • TREC07: bao g!m 446 câu h*i ting Anh. • TREC06: bao g!m 492 câu h*i ting Anh. • TREC02: bao g!m 440 câu h*i ting Anh. 2. Trang web www.lexxe.com (Qiao, 2010): bao g!m 701 câu ting Anh. Tp m u thu c t hai ngu!n trên g!m 2079 câu ting Anh c H%i Nghiên Cu Dch Thut Tp. H! Chí Minh dch sang tp m u câu ting Vit tng ng, c gi là tp kim th C1. Vi 2079 câu ca tp kim th C1 ã c bn c nhân v ngôn ng hc nhn din các CDTTNN theo phng pháp th công, thu c các phiên bn (Ver) ln lt là V1 ,V2 ,V3 ,và V4. - Phiên bn V1 xác nh c 3072 CDTTNN, trong ó có 2692 CTTNN c nhn din t h thng ViKE. - Phiên bn V2 xác nh c 3050 CDTTNN, trong ó có 2293 CDTTNN c nhn din t h thng ViKE. Mô hình rút trích cm t c trng ng ngha trong ting Vit 108 - Phiên bn V3 xác nh c 2985 CDTTNN ít hn phiên bn V2, nhng có 2512 CDTTNN c nhn din t h thng ViKE nhiu hn phiên bn V2 . - Phiên bn V4 xác nh c ít nht trong 4 phiên bn và thu c 2079 CDTTNN, trong ó có 2003 CDTTNN c nhn din t h thng ViKE. Kt qu t c ca mô hình ViKE vi % chính xác, % y và % trung bình iu hòa F c trình bày trong Bng 6.1 và Hình 6.3. Bng 6.1: Kt qu rút trích CDTTNN trong mô hình ViKE. Ver E A EA Precision Recall F V1 3007 3072 2692 89,52% 87,63% 88,57% V2 3007 3050 2293 76,26% 75,18% 75,71% V3 3007 2985 2512 83,54% 84,15% 83,85% V4 3007 2079 2003 66,61% 96,34% 78,77% !ng th"i, ánh giá hiu sut rút trích CDTTNN ca mô hình ViKE t c so vi hai mô hình ViKEa và ViKEe v mt thc nghim, lun án thc hin ba kch bn trên cùng m%t tp kim th C1 vi cùng phiên bn V1 nh sau: • Kch bn 1: thc nghim trên mô hình ViKEa. • Kch bn 2: thc nghim trên mô hình ViKEe. Hình 6.3 ! th so sánh hiu sut rút trích CDTTNN gia các phiên bn. 87.63%84.15%96.34%88.57%75.71%83.85%78.77%66.61%83.54%76.26%89.52%75.18%V 1 V 2 V 3 V 4P rec is ion Re c all F Mụ hỡnh rỳt trớch cm t c trng ng ngha trong ting Vit 109 Kch bn 3: thc nghim trờn mụ hỡnh tng quỏt ViKE. Kt qu t c thng kờ trong Bng 6.2 v Hỡnh 6.4. Bng 6.2: So sỏnh hiu sut rỳt trớch CDTTNN gia cỏc mụ hỡnh. Mụ hỡnh E A EA Precision Recall F ViKEa 3236 3072 2293 74,6% 70,8% 72,65% ViKEe 3483 3072 2457 70,54% 80% 74,97% ViKE 3007 3072 2692 89,52% 87,63% 88,57% tớnh toỏn hiu sut ca h thng, ngoi vic kho sỏt cỏc thụng s v % chớnh xỏc, % bao ph cng nh % trung bỡnh iu hũa F, lun ỏn tin hnh kho sỏt th"i gian ỏp ng ca h thng nhm kim nh tớnh kh thi trong ng dng. Th"i gian ỏp ng c tớnh t lỳc ng"i dựng a cõu vo h thng cho n lỳc nhn c kt qu tr v. Vi thc nghim trờn tp kim th C1, th"i gian ỏp ng m lun ỏn ó kho sỏt trờn cựng m%t mỏy tớnh vi cu hỡnh (Intelđ Core Duo 1.8x2 GHz Processor, 2GB DDR2 SDRAM, 120GB HDD, Microsoftđ Windowsâ XP) cho ba kch bn trờn khụng chờnh lch nhau nhiu (khong chờnh lch l t 1 n 93 mi li giõy). Kt qu t c nh trỡnh by trong Bng 6.3 v Hỡnh 6.5 khi thc nghim trờn tp C1 vi 10 cõu ng u nhiờn. Hỡnh 6.4 ! th so sỏnh hiu sut rỳt trớch CDTTNN gia cỏc mụ hỡnh. 70.54%80%74.97%74.60%70.80%72.65%87.63%88.57%89.52%P re c is io n R e c a ll FV iK E a V iK E e V iK E Mô hình rút trích cm t c trng ng ngha trong ting Vit 110 Bng 6.3: Thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên. Th"i gian áp ng trên tp C1 (mi li giây) % chênh lch Câu (S) ViKEa ViKEe ViKE ViKE -ViKEe (*) (*)/ ViKEe ViKE -ViKEa (**) (**)/ ViKEa S1 110 117 124 7 5.98% 14 12.73% S2 61 69 63 -6 -8.70% 2 3.28% S3 20 30 25 -5 -16.67% 5 25.00% S4 5 9 8 -1 -11.11% 3 60.00% S5 113 110 114 4 3.64% 1 0.88% S6 86 83 96 13 15.66% 10 11.63% S7 83 95 84 -11 -11.58% 1 1.20% S8 737 812 830 18 2.22% 93 12.62% S9 138 156 140 -16 -10.26% 2 1.45% S10 796 814 847 33 4.05% 51 6.41% 0100200300400500600700800900S1 S2 S3 S4 S5 S6 S7 S8 S9 S10ViKEa ViKEe ViKE Hình 6.5 ! th biu th th"i gian áp ng khi thc nghim trên tp C1 vi 10 câu ng u nhiên. Mô hình rút trích cm t c trng ng ngha trong ting Vit 111 Câu S1: “H iu hành WinXP ca hãng nào?” i vi truy vn này, mô hình ViKEa có th"i gian áp ng nhanh hn mô hình ViKEe và ViKE. C ba mô hình u cho kt qu rút trích CDTTNN không chính xác là “H iu hành WinXP ”. Trong khi cm t “hãng” là CDTTNN ca câu truy vn Q1. Câu S2: “Tên các trng i hc TP H Chí Minh.” i vi câu này, mô hình ViKEa có th"i gian áp ng nhanh hn mô hình ViKEe và ViKE. C ba mô hình u rút trích chính xác CDTTNN là “tên các trng i hc ”. Câu S3: “Hãy cho bit quê hng ca Ch tch H Chí Minh?” i vi câu truy vn này, mô hình ViKEa có th"i gian áp ng nhanh hn mô hình ViKEe và ViKE. C ba mô hình u rút trích chính xác CDTTNN là “quê hng ”. Câu S4: “Tp. H Chí Minh có nhiu trng i hc.” i vi câu này, mô hình ViKEa và mô hình ViKE u rút trích chính xác cm t “nhiu trng i hc” là CDTTNN. Còn mô hình ViKEe thì cho kt qu rút trích CDTTNN là “TP H Chí Minh”. Th"i gian áp ng ca mô hình ViKEa nhanh hn hai mô hình ViKEe và ViKE. Câu S5: “Các trng i hc nào có khoa công ngh thông tin?” i vi câu S5 này, mô hình ViKEe có th"i gian áp ng nhanh hn mô hình ViKEa và ViKE. C ba mô hình u rút trích không chính xác CDTTNN là “khoa công ngh thông tin ”. Trong khi “Các trng i hc” là CDTTNN ca Q5. Câu S6: “Tên sách ca tác gi Cao Xuân Ho và Nguyn tài Cn.” i vi câu S6, mô hình ViKEe có th"i gian áp ng nhanh hn mô hình ViKEa và ViKE. C ba mô hình u rút trích chính xác CDTTNN là “Tên [...]... trên, mô hình ViKEa là mô hình có th"i gian áp ng trung bình nhanh nh t, k ti p là mô hình ViKE, cu i cùng là mô hình ViKEe Tuy nhiên, i v i m%t s câu (nh S4) mô hình ViKEe không rút trích c CDT TNN (ho c rút trích không chính xác) thì mô hình ViKEa và mô hình ViKE 112 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t cho k t qu rút trích chính xác Ng rút trích th rút trích c l i, m%t s câu mà mô. .. mô hình ViKEe và ViKE C ba mô hình u rút trích chính xác CDT TNN là “dung l !ng " c ng ” Câu S9: “Các nhóm bi t # Buffalo ã b gi i tán.” i i v i câu S9, mô hình ViKEe và mô hình ViKE u rút trích c 2 i CDT TNN là “Các nhóm bi t # Buffalo” và “gi i tán” Tuy nhiên, c m t “Các nhóm bi t # Buffalo” là chính xác, còn “gi i tán” không ph i là i CDT TNN (mô hình ViKEe và mô hình ViKE ã rút trích sai) Còn mô. .. trích sai) Còn mô hình ViKEa thì không rút trích c CDT TNN Do các c m t d tuy n không có các t quan h , c ng nh chúng không t!n t i trong Ontology ViO Th"i gian áp ng c a mô hình ViKEa nhanh h n hai mô hình ViKEe và ViKE Câu S10: “Hàng n$m có bao nhiêu gi i bida Snooker Th gi i? i v i câu truy v n S10, mô hình ViKEa có th"i gian áp ng nhanh h n mô hình ViKEe và ViKE C ba mô hình u rút trích chính xác.. .Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t sách” Câu S7: “Sách toán hay sách l ch s , b n thích sách nào?” i v i câu truy v n S7, mô hình ViKEa có th"i gian áp ng nhanh h n mô hình ViKEe và ViKE C ba mô hình u rút trích chính xác hai CDT TNN là “sách toán” và “sách l ch s ” Câu S8: “Máy tính này có dung l !ng " c ng là bao nhiêu?” i v i câu S8 này, mô hình ViKEa có th"i... câu mà mô hình ViKEa không c CDT TNN (nh câu S9) thì mô hình ViKEe và mô hình ViKE có c CDT TNN Nh v y, các k t qu phân tích các mô hình thông qua các câu th nghi m trên c ng nh toàn b% t p ki m th C1 ã minh ch ng hi u su t c a mô hình ViKE t c cao h n so v i hai mô hình ViKEa và ViKEe i u này ch ng t* mô hình k t h p hai h CDT TNN ã áp ng c m danh t c m c tiêu ng ti p c n xác nh và rút trích t ra... ViKE t c cao h n so v i hai mô hình ViKEa và ViKEe i u này ch ng t* mô hình k t h p hai h CDT TNN ã áp ng c m danh t c m c tiêu ng ti p c n xác nh và rút trích t ra c a lu n án cho bài toán rút trích c tr ng ng ngh a trong câu truy v n nói riêng và câu ti ng Vi t nói chung 113 . (nh S4) mô hình ViKEe không rút trích c CDTTNN (hoc rút trích không chính xác) thì mô hình ViKEa và mô hình ViKE Mô hình rút trích cm t. mô hình ViKEa và mô hình ViKE u rút trích chính xác cm t “nhiu trng i hc” là CDTTNN. Còn mô hình ViKEe thì cho kt qu rút trích