Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 07

12 510 6
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 07

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 102 Chng 6 HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKE) KT HP HNG TIP CN RÚT TRÍCH VÀ HNG TIP CN XÁC NH 6.1 Gii thiu Trong chng này, lun án trình bày hình rút trích cm danh t c trng ng ngha trong ting Vit c gi là ViKE. ây là hình kt hp gia hình theo hng tip cn xác nh CDTTNN-ViKEa và hình theo hng tip cn rút trích CDTTNN-ViKEe. S kt hp ca hai hình này nhm mc tiêu Mô hình rút trích cm t c trng ng ngha trong ting Vit 103 phát huy u im, cng nh hn ch các nhc im ca c hng tip cn xác nh và hng tip cn rút trích cm danh t c trng ng ngha trong ting Vit. Phn còn li ca chng c t chc thành ba phn: Phn 6.2 trình bày hình kt hp gia hai hình ViKEa và ViKEe; Phn 6.3 t h thng rút trích CDTTNN trong ting Vit, cng nh hình kin trúc ba lp ca h thng; Phn 6.4 phân tích và ánh giá hiu sut rút trích CDTTNN ca h thng ViKE; Phn cui cùng là kt chng. 6.2 hình rút trích CDTTNN trong ting Vit hình tng quát ViKE là s kt hp hai hình ViKEa và ViKEe c trình bày  Hình 6.1. Trong hình tng quát rút trích cm danh t c trng ng ngha trong ting Vit, quy trình c thc hin ln lt qua các công on sau: Hình 6.1 hình tng quát rút trích cm danh t c trng ng ngha ViKE. Tin x lý Câu ting Vit Gán nhãn t loi Phân on t Xác nh CDTTNN Tp m u Rút trích các cm danh t d tuyn Ontology ViO Các CDTTNN Da vào Ontology Da vào hc máy hìnhhình rút trích cm t c trng ng ngha trong ting Vit 104 • Công on 1. Tin x lý các câu ting Vit bao g!m bài toán phân on t và gán nhãn t loi. • Công on 2. Rút trích các cm danh t d tuyn t các t có gán nhãn t loi  công on 1 bng phng pháp so trùng m u. • Công on 3. Xác nh chính xác CDTTNN t các cm danh t d tuyn ln lt qua các bc sau: o Bc 1: Da vào các thông tin ng cnh là các t, hay cm t quan h  nhn din các CDTTNN trong các cm danh t d tuyn thông qua hình ViKEa (ng vi tr"ng hp các câu có cha các t, hay cm t quan h gia các cm danh t d tuyn). o Bc 2: Trong tr"ng hp gia các cm danh t d tuyn không có các t, hay cm t quan h thì quá trình nhn din CDTTNN s# c truy vn da trên Ontology ViO thông qua hình ViKEa (ng vi tr"ng hp các câu mà không cha các t, hay cm t quan h gia các cm danh t d tuyn, nhng các cm danh t d tuyn có khái nim trong ViO). o Bc 3: Nu các cm danh t d tuyn cha t!n ti trong c s tri thc hay các cm danh t d tuyn không có khái nim trong ViO , thì vic xác nh cm danh t d tuyn nào là CDTTNN s# da vào phng pháp hc máy thông qua hình ViKEe (ng vi tr"ng hp các câu mà không cha các t, hay cm t quan h gia các cm danh t d tuyn và các cm danh t d tuyn không có khái nim trong ViO). V ý tng, gii thut xác nh các cm danh t c trng ng ngha trong hình ViKE c trình bày tng quát nh sau: GII THUT 6.1 Xác nh cm danh t c trng ng ngha trong ViKE - Nhp: Tp các câu {S1, ., SK },ViO - Xut: Cm danh t c trng ng ngha (CDTTNN) cho m$i câu - Phng pháp: 1. for i = 1 to K do Word_Segmentation(Si); /* phân on t */ 2. for i = 1 to K do POS_Tagger(Si); /* gán nhãn t loi cho m$i t */ Mô hình rút trích cm t c trng ng ngha trong ting Vit 105 3. for i = 1 to K do Candidate_Identification(Si); /* nhn din các cm t d tuyn tng ng cho m$i câu */ 4. for i = 1 to K do 5. If gia các cm danh t d tuyn có cha các cm t quan h hay có các khái nim t!n ti trong ViO then ExecViKEa() 6. else ExecViKEe(); /* ExecViKEa() : thc hin hình ViKEa */ /* ExecViKEe(): thc hin hình ViKEe */ 6.3 H thng rút trích CDTTNN trong ting Vit  kim nghim các phng pháp  xut cho bài toán rút trích CDTTNN cho câu ting Vit, lun án hin thc hình rút trích cm danh t c trng ng ngha trong ting Vit –ViKE nh m%t h thng vi hình kin trúc ba lp c trình bày  Hình 6.2. 1. Lp giao din (Presentation tier): cung cp m%t giao din cho phép ng"i s dng nhp các câu trc tip vào h thng hoc t m%t tp tin cha các câu. Kt qu tr v là các CDTTNN tng ng cho m$i câu nhp di dng XML. Vi dng XML, các CDTTNN có th d& dàng c s dng trong các ng dng khác. 2. Lp nghip v (Business tier): ây là thành phn th hin các qui t'c nghip v ca kin trúc h thng ViKE. Lp này g!m ba khi: • Khi th nht chu trách nhim tách t và gán nhãn t loi cho t (Word segmentation and POS tagger). • Khi th hai là hình ViKEa theo hng tip cn xác nh CDTTNN, dùng  x lý các câu ca ng"i s dng có cha các t, hay cm t quan h gia các cm danh t d tuyn, hoc câu có cha các cm danh t d tuyn có khái nim trong ViO. • Khi th ba là hình ViKEe theo hng tip cn rút tích CDTTNN. Khi này x lý các câu không cha các t, hay cm t quan h gia các cm danh t d tuyn, và cng không cha các cm danh t d tuyn có khái nim trong ViO. Các khi này c thit k trong môi tr"ng Java thành bn công c %c lp Mô hình rút trích cm t c trng ng ngha trong ting Vit 106 là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe mà chúng d& dàng tích hp vào các h thng khác. 3. Lp c s d liu (Database tier): lp này cung cp các chc n(ng lu tr và truy xut d liu ca ViKE thông qua h qun tr c s d liu MySQL Server 5.1 và các tp tin ng liu dng XML. Lp nghip v Lp giao din Lp c s d liu Hình 6.2 hình kin trúc ba lp ca h thng rút trích cm danh t c trng ng ngha trong ting Vit –ViKE. Các câu ting Vit hình ViKEe (da vào hc máy) Tin x lý Gán nhãn t loi Phân on t hình ViKEa Xác nh CDTTNN da vào ontology Xác nh CDTTNN da vào lut quan h Rút trích các cm DT d tuyn da vào lut cu trúc cm DT ViO Ontology & T in ViDic Tp lut quan h Kho ng liu hun luyn 2 Kho ng liu hun luyn 1 Tp lut kt hp Tp lut cu trúc cm danh t Các CDTTNN Mô hình rút trích cm t c trng ng ngha trong ting Vit 107 6.4 ánh giá hiu sut rút trích CDTTNN Phng pháp ánh giá hiu sut ca lun án là da vào thc nghim vi % chính xác, % y , và % trung bình iu hòa F c trình bày trong mc 3.4.2 ca Chng 3.  ánh giá hiu sut ca h thng, chúng tôi cng xin lu ý rng các hình  xut trong lun án u tha k kt qu ca công on tin x lý phân on t và gán nhãn t loi  rút trích CDTTNN trong câu n ting Vit. Nên hiu sut rút trích CDTTNN ca h thng ph thu%c vào hiu sut ca công on tin x lý. Gia t(ng hiu sut ca công on tin x lý cng s# làm gia t(ng hiu sut ca h thng rút trích CDTTNN. Tuy nhiên, ây là hai vn  tách bit. Trong lun án này ch) tp trung kho sát các hình rút trích CDTTNN và chp nhn các l$i tích ly ca công on tin x lý. V ng liu kim th, lun án chn lc các tp m u câu t"ng thut và câu h*i, c ly t các ngu!n ng liu sau: 1. TREC (Text REtrieval Conference) (http://trec.nist.gov/data/) (TREC, 2009) là: • TREC07: bao g!m 446 câu h*i ting Anh. • TREC06: bao g!m 492 câu h*i ting Anh. • TREC02: bao g!m 440 câu h*i ting Anh. 2. Trang web www.lexxe.com (Qiao, 2010): bao g!m 701 câu ting Anh. Tp m u thu c t hai ngu!n trên g!m 2079 câu ting Anh c H%i Nghiên Cu Dch Thut Tp. H! Chí Minh dch sang tp m u câu ting Vit tng ng, c gi là tp kim th C1. Vi 2079 câu ca tp kim th C1 ã c bn c nhân v ngôn ng hc nhn din các CDTTNN theo phng pháp th công, thu c các phiên bn (Ver) ln lt là V1 ,V2 ,V3 ,và V4. - Phiên bn V1 xác nh c 3072 CDTTNN, trong ó có 2692 CTTNN c nhn din t h thng ViKE. - Phiên bn V2 xác nh c 3050 CDTTNN, trong ó có 2293 CDTTNN c nhn din t h thng ViKE. Mô hình rút trích cm t c trng ng ngha trong ting Vit 108 - Phiên bn V3 xác nh c 2985 CDTTNN ít hn phiên bn V2, nhng có 2512 CDTTNN c nhn din t h thng ViKE nhiu hn phiên bn V2 . - Phiên bn V4 xác nh c ít nht trong 4 phiên bn và thu c 2079 CDTTNN, trong ó có 2003 CDTTNN c nhn din t h thng ViKE. Kt qu t c ca hình ViKE vi % chính xác, % y  và % trung bình iu hòa F c trình bày trong Bng 6.1 và Hình 6.3. Bng 6.1: Kt qu rút trích CDTTNN trong hình ViKE. Ver E A EA Precision Recall F V1 3007 3072 2692 89,52% 87,63% 88,57% V2 3007 3050 2293 76,26% 75,18% 75,71% V3 3007 2985 2512 83,54% 84,15% 83,85% V4 3007 2079 2003 66,61% 96,34% 78,77% !ng th"i,  ánh giá hiu sut rút trích CDTTNN ca hình ViKE t c so vi hai hình ViKEa và ViKEe v mt thc nghim, lun án thc hin ba kch bn trên cùng m%t tp kim th C1 vi cùng phiên bn V1 nh sau: • Kch bn 1: thc nghim trên hình ViKEa. • Kch bn 2: thc nghim trên hình ViKEe. Hình 6.3 ! th so sánh hiu sut rút trích CDTTNN gia các phiên bn. 87.63%84.15%96.34%88.57%75.71%83.85%78.77%66.61%83.54%76.26%89.52%75.18%V 1 V 2 V 3 V 4P rec is ion Re c all F Mụ hỡnh rỳt trớch cm t c trng ng ngha trong ting Vit 109 Kch bn 3: thc nghim trờn mụ hỡnh tng quỏt ViKE. Kt qu t c thng kờ trong Bng 6.2 v Hỡnh 6.4. Bng 6.2: So sỏnh hiu sut rỳt trớch CDTTNN gia cỏc mụ hỡnh. Mụ hỡnh E A EA Precision Recall F ViKEa 3236 3072 2293 74,6% 70,8% 72,65% ViKEe 3483 3072 2457 70,54% 80% 74,97% ViKE 3007 3072 2692 89,52% 87,63% 88,57% tớnh toỏn hiu sut ca h thng, ngoi vic kho sỏt cỏc thụng s v % chớnh xỏc, % bao ph cng nh % trung bỡnh iu hũa F, lun ỏn tin hnh kho sỏt th"i gian ỏp ng ca h thng nhm kim nh tớnh kh thi trong ng dng. Th"i gian ỏp ng c tớnh t lỳc ng"i dựng a cõu vo h thng cho n lỳc nhn c kt qu tr v. Vi thc nghim trờn tp kim th C1, th"i gian ỏp ng m lun ỏn ó kho sỏt trờn cựng m%t mỏy tớnh vi cu hỡnh (Intelđ Core Duo 1.8x2 GHz Processor, 2GB DDR2 SDRAM, 120GB HDD, Microsoftđ Windowsâ XP) cho ba kch bn trờn khụng chờnh lch nhau nhiu (khong chờnh lch l t 1 n 93 mi li giõy). Kt qu t c nh trỡnh by trong Bng 6.3 v Hỡnh 6.5 khi thc nghim trờn tp C1 vi 10 cõu ng u nhiờn. Hỡnh 6.4 ! th so sỏnh hiu sut rỳt trớch CDTTNN gia cỏc mụ hỡnh. 70.54%80%74.97%74.60%70.80%72.65%87.63%88.57%89.52%P re c is io n R e c a ll FV iK E a V iK E e V iK E Mô hình rút trích cm t c trng ng ngha trong ting Vit 110 Bng 6.3: Thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên. Th"i gian áp ng trên tp C1 (mi li giây) % chênh lch Câu (S) ViKEa ViKEe ViKE ViKE -ViKEe (*) (*)/ ViKEe ViKE -ViKEa (**) (**)/ ViKEa S1 110 117 124 7 5.98% 14 12.73% S2 61 69 63 -6 -8.70% 2 3.28% S3 20 30 25 -5 -16.67% 5 25.00% S4 5 9 8 -1 -11.11% 3 60.00% S5 113 110 114 4 3.64% 1 0.88% S6 86 83 96 13 15.66% 10 11.63% S7 83 95 84 -11 -11.58% 1 1.20% S8 737 812 830 18 2.22% 93 12.62% S9 138 156 140 -16 -10.26% 2 1.45% S10 796 814 847 33 4.05% 51 6.41% 0100200300400500600700800900S1 S2 S3 S4 S5 S6 S7 S8 S9 S10ViKEa ViKEe ViKE Hình 6.5 ! th biu th th"i gian áp ng khi thc nghim trên tp C1 vi 10 câu ng u nhiên. Mô hình rút trích cm t c trng ng ngha trong ting Vit 111 Câu S1: “H iu hành WinXP ca hãng nào?” i vi truy vn này, hình ViKEa có th"i gian áp ng nhanh hn hình ViKEe và ViKE. C ba hình u cho kt qu rút trích CDTTNN không chính xác là “H iu hành WinXP ”. Trong khi cm t “hãng” là CDTTNN ca câu truy vn Q1. Câu S2: “Tên các trng i hc  TP H Chí Minh.” i vi câu này, hình ViKEa có th"i gian áp ng nhanh hn hình ViKEe và ViKE. C ba hình u rút trích chính xác CDTTNN là “tên các trng i hc ”. Câu S3: “Hãy cho bit quê hng ca Ch tch H Chí Minh?” i vi câu truy vn này, hình ViKEa có th"i gian áp ng nhanh hn hình ViKEe và ViKE. C ba hình u rút trích chính xác CDTTNN là “quê hng ”. Câu S4: “Tp. H Chí Minh có nhiu trng i hc.” i vi câu này, hình ViKEa và hình ViKE u rút trích chính xác cm t “nhiu trng i hc” là CDTTNN. Còn hình ViKEe thì cho kt qu rút trích CDTTNN là “TP H Chí Minh”. Th"i gian áp ng ca hình ViKEa nhanh hn hai hình ViKEe và ViKE. Câu S5: “Các trng i hc nào có khoa công ngh thông tin?” i vi câu S5 này, hình ViKEe có th"i gian áp ng nhanh hn hình ViKEa và ViKE. C ba hình u rút trích không chính xác CDTTNN là “khoa công ngh thông tin ”. Trong khi “Các trng i hc” là CDTTNN ca Q5. Câu S6: “Tên sách ca tác gi Cao Xuân Ho và Nguyn tài Cn.” i vi câu S6, hình ViKEe có th"i gian áp ng nhanh hn hình ViKEa và ViKE. C ba hình u rút trích chính xác CDTTNN là “Tên [...]... trên, hình ViKEa là hình có th"i gian áp ng trung bình nhanh nh t, k ti p là hình ViKE, cu i cùng là hình ViKEe Tuy nhiên, i v i m%t s câu (nh S4) hình ViKEe không rút trích c CDT TNN (ho c rút trích không chính xác) thì hình ViKEa và hình ViKE 112 hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t cho k t qu rút trích chính xác Ng rút trích th rút trích c l i, m%t s câu mà mô. .. hình ViKEe và ViKE C ba hình u rút trích chính xác CDT TNN là “dung l !ng " c ng ” Câu S9: “Các nhóm bi t # Buffalo ã b gi i tán.” i i v i câu S9, hình ViKEe và hình ViKE u rút trích c 2 i CDT TNN là “Các nhóm bi t # Buffalo” và “gi i tán” Tuy nhiên, c m t “Các nhóm bi t # Buffalo” là chính xác, còn “gi i tán” không ph i là i CDT TNN (mô hình ViKEe và hình ViKE ã rút trích sai) Còn mô. .. trích sai) Còn hình ViKEa thì không rút trích c CDT TNN Do các c m t d tuy n không có các t quan h , c ng nh chúng không t!n t i trong Ontology ViO Th"i gian áp ng c a hình ViKEa nhanh h n hai hình ViKEe và ViKE Câu S10: “Hàng n$m có bao nhiêu gi i bida Snooker Th gi i? i v i câu truy v n S10, hình ViKEa có th"i gian áp ng nhanh h n hình ViKEe và ViKE C ba hình u rút trích chính xác.. .Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t sách” Câu S7: “Sách toán hay sách l ch s , b n thích sách nào?” i v i câu truy v n S7, hình ViKEa có th"i gian áp ng nhanh h n hình ViKEe và ViKE C ba hình u rút trích chính xác hai CDT TNN là “sách toán” và “sách l ch s ” Câu S8: “Máy tính này có dung l !ng " c ng là bao nhiêu?” i v i câu S8 này, hình ViKEa có th"i... câu mà hình ViKEa không c CDT TNN (nh câu S9) thì hình ViKEe và hình ViKE có c CDT TNN Nh v y, các k t qu phân tích các hình thông qua các câu th nghi m trên c ng nh toàn b% t p ki m th C1 ã minh ch ng hi u su t c a hình ViKE t c cao h n so v i hai hình ViKEa và ViKEe i u này ch ng t* hình k t h p hai h CDT TNN ã áp ng c m danh t c m c tiêu ng ti p c n xác nh và rút trích t ra... ViKE t c cao h n so v i hai hình ViKEa và ViKEe i u này ch ng t* hình k t h p hai h CDT TNN ã áp ng c m danh t c m c tiêu ng ti p c n xác nh và rút trích t ra c a lu n án cho bài toán rút trích c tr ng ng ngh a trong câu truy v n nói riêng và câu ti ng Vi t nói chung 113 . (nh S4) mô hình ViKEe không rút trích c CDTTNN (hoc rút trích không chính xác) thì mô hình ViKEa và mô hình ViKE Mô hình rút trích cm t. mô hình ViKEa và mô hình ViKE u rút trích chính xác cm t “nhiu trng i hc” là CDTTNN. Còn mô hình ViKEe thì cho kt qu rút trích

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan