Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 02

8 716 9
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 02

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 11 Chng 1 GII THIU 1.1 Mc tiêu và phm vi Internet là mt ni lu tr ngun thông tin ca nhân loi. Ngun thông tin này c chia s, phát trin và m rng không ngng cùng vi s phát trin nhanh chóng ca World Wide Wed (Web). Vn  t ra là làm th nào  khai thác và s dng ngun tài nguyên thông tin này mt cách hiu qu nht. Mô hình rút trích cm t c trng ng ngha trong ting Vit 12 Thông tin trên Web hu ht u th hin di dng ngôn ng t nhiên, thông qua các trang Web, các h thng truy hi thông tin (Information Retrieval) c phát trin và thành công nht hin nay là Google1, Yahoo2, v.v . Tuy nhiên, các hình này u s dng t khóa  x lý và truy hi tài liu. Hiu sut truy hi ca chúng có nhng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi vn bn c biu din di dng mt tp các t khóa. Tng t, yêu cu cung cp thông tin t phía ngi s dng c ng c biu din bi các t khóa. S biu din này rõ ràng không có kh nng th hin c tr!n v"n nhu cu thông tin nh mong mun ca ngi s dng. Do ó, khi truy hi thông tin trên các h thng hin nay, ngi s dng u nhn c thêm các tài liu không liên quan ti thông tin cn tìm. # ci tin các hình truy hi thông tin theo t khóa, nhiu công trình nghiên c$u i khai thác tim nng ca cm t c trng trong các h thng nh truy hi thông tin (Hulth, 2004), tóm lc vn bn (Text Summarization) (Paice và Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten, 2006; Thuy Dung Nguyen, 2007), .Trong các h thng này, khái nim cm t c trng c nh ngha nh sau: nh ngha 1.1: Trong các th vin và khoa h!c thông tin cm t c trng (cm t khóa – key phrase) c nh ngha là “cm t t ngn gn và chính xác ch  hay khía cnh ca ch  mà nó c tho lun trong vn bn” (Feather và P., 1996, 240). Theo quan im ca Cao Xuân Ho (1998): “câu n c bn ca li nói, ca ngôn t, ca vn bn. Nó là n v nh nht có th s dng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn) ngn nht”. Nh vy, vi quan im câu là vn bn ng%n nht và  nhn mnh trng hp cm t c trng din t ch  ca vn bn ng%n nht (câu) và phm vi nghiên c$u là câu n, lun án nh ngha cm t c trng ng ngha nh trong nh ngha 2.1 (Chng 2, trang 22). Cm t c trng ng ngha – c vit t%t là CT#TNN – có kh nng t ch  trong câu (hay vn bn). Nói cách khác, CT#TNN mang thông tin v ni 1 www.google.com/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 13 dung nng ct ca mt câu. CT#TNN rt hu dng trong nhiu $ng dng. Trong lnh vc truy hi thông tin, các CT#TNN không ch& h' tr trong vic xác nh ni dung ca mt vn bn có thích hp vi yêu cu thông tin ca ngi s dng hay không, mà còn biu th ni dung nng ct ca câu truy vn thông tin trong ng c tìm kim (search engine) trên Web th h th$ ba và h thng hi-áp (question-answering) (Qiao, 2010). Do các CT#TNN phn ánh c ni dung nng ct (ch ) ca câu trong vn bn, nên chúng c s dng  phân loi vn bn (text classification) (Jones và Mahoui, 2000), tóm lc vn bn (text summarization) (Barker và Cornacchia, 2000). Mc dù các CT#TNN c dùng rng rãi trong các h thng $ng dng khác nhau, nhng tht s vic rút trích các CT#TNN tng $ng cho tng câu hay tng vn bn b(ng phng pháp th công tn rt nhiu thi gian và công s$c. Nhu cu này là ng lc thúc )y các nghiên c$u rút trích t ng các CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba hng chính: 1. H ng tip cn s dng t in (Dictionary approach): s dng mt t in c xây dng b(ng phng pháp th công dùng  rút trích các CT#TNN trong câu (hay vn bn). Quá trình rút trích các CT#TNN c thc hin b(ng các phng pháp so trùng các CT#TNN trong t in vi các cm t trong tài liu. Thun li chính ca hng tip cn là nhanh và thc hin n gin. Hin nay nhiu h thng v*n ang s dng phng pháp này (Bian và Chen, 1998; Li và Xing, 1998; .). Tuy nhiên, phng pháp này còn b hn ch khi tài liu có nhng t mi không có trong t in. #ây là mt vn  cn c nghiên c$u và gii quyt. Các nghiên c$u theo hng tip cn s dng t in ã có nhiu chin lc  ci thin quá trình so trùng nh: so trùng c!c i (maximum-matching), so trùng c!c tiu (minimum-matching), so trùng t i (forward-matching), so trùng lùi (backward-matching), so trùng theo c hai h ng (bi-directional- matching) và các phng pháp gii quyt vn  b(ng ánh giá kinh nghim (heuristics). Tuy nhiên, hiu sut ca hng tip cn này li phù thuc vào  ln ca t in. Nó tht s không hiu qu khi gii quyt bài toán nhn din danh t riêng nh tên, v trí, hay các thut ng mi trong nhng phm vi chuyên bit. 2 www. yahoo.com/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 14 2. H ng tip cn ngôn ng hc (Linguistic approach), hng này dùng c s tri th$c ng ngha t vng (nh WordNet3, Wikipedia4,…), dùng phng pháp ánh giá theo kinh nghim, hay phng pháp lut  rút trích các cm t (Wu và Tseng, 1995). Các nghiên c$u v x lý ngôn ng ting Anh ã ch$ng t+ hng tip cn này có th t  chính xác cao. Tuy nhiên  chính xác ca phng pháp còn ph thuc vào vic thit k tng h thng c th (Brill, 1995; Church, 1988; Voutilainen, 1997). Mc dù nhiu kt qu nghiên c$u ã ch$ng t+ hng tip cn này có nhiu tim nng, tuy nhiên v*n cha có mt công trình nghiên c$u nào theo hng tip cn này cho ngôn ng ting Vit, và hin thc theo hng tip cn này còn gp nhiu khó khn. Khó khn chính là vic xây dng mt c s tri th$c ng ngha t vng ting Vit cho nhng min (domain) chuyên bit, có phm vi ln. Vic này òi h+i rt nhiu thi gian và công s$c. Vi mc tiêu gii quyt cho bài toán rút trích CT#TNN cho câu n ca ting Vit, lun án tp trung xây dng hình ViKEa (Vietnamese Key phrase Extraction for assignment approach) theo hng tip cn ngôn ng h!c da trên Ontology và khai thác các tri th$c ngôn ng ting Vit  nâng cao hiu qu ca hình. Vic lun án nghiên c$u và khai thác Vi.Wikipedia nh kho tri th$c ting Vit ã gii quyt khó khn v tài nguyên tri th$c t vng ting Vit khi xây dng hình theo hng tip cn này. 3. H ng tip cn b"ng phng pháp th#ng kê (Statistical approach), thc cht là quá trình h!c các giá tr ã c thng kê t mt kho ng liu ln  rút trích các cm t (Su và CS, 1996). Hng tip cn này t+ ra hiu qu cho vic rút trích cm t c trng ng ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen và CS, 1997), và nó liên quan mt thit vi hng tip cn n-gram vi n có giá tr 2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree)  rút trích các CT#TNN trong vn bn ca ting Trung Quc, tác gi ã không gii hn giá tr ca n. Mc dù có gia tng v mt tính toán, k, thut này không nhng không òi h+i nhiu công s$c  to t in hay c s tri th$c mà còn có kh nng ly c các thut ng có tr!ng s cao trong kho ng liu. Tuy nhiên, mt hn ch 3 www.wordnet.com/ 4 www.wikipedia.org/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 15 ca hng tip cn là có mt s trng hp không th rút trích các cm t hp lý mà có tn sut thp. Mc dù hng tip cn b(ng thng kê có  chính xác (Precision) không tt, nhng có  $y  (Recall) cao so vi hng tip cn ngôn ng h!c. Vì vy, vi mc tiêu là ci thin ti a hiu qu ca h thng ViKEa theo hng tip cn ngôn ng h!c khi vic khai thác ngôn ng v*n còn gii hn, lun án s- xây dng hình rút trích các CT#TNN b(ng phng pháp máy h!c có giám sát. Các CT#TNN c gán nhãn t loi ban u làm tp hun luyn  xây dng hình rút trích. #ây là c s cho hình xác nh úng các CT#TNN trong các cm t d tuyn. hình rút trích dùng mt tp các tính cht c trng  phân loi các cm t. Vn  t ra là phi xác nh c các tính cht c trng ca các cm t, nh(m xác nh mt cách chính xác các CT#TNN trong các cm t d tuyn. Nh vy, mc tiêu ca lun án là xây dng mt hình lai cho bài toán rút trích CT#TNN trong câu n ting Vit. hình này là s phi hp ca hai hình theo hng tip cn ngôn ng h!c và phng pháp xác sut thng kê. #ó chính là s phi hp ca hai hình theo hng tip cn rút trích và xác nh CT#TNN (c trình bày trong Chng 3). Trong hng tip cn ngôn ng h!c, lun án s dng phng pháp so trùng m*u da trên Ontology c to lp t Wikipedia ting Vit. hình này là c s  lun án  xut bn tính cht c trng cho phng pháp xác nh cm t c trng ng ngha dùng phng pháp máy hc vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t c v trí lô-gích và c tính hình thái ca CT#TNN, là: (1) v trí t trong câu, (2) nhãn t loi, (3) cu trúc cm t, (4) các t quan h gia các cm t. T ây, các bài toán chính cn c gii quyt trong phm vi lun án bao gm: Bài toán 1 - Xây dng hình ViKEa. Lun án nghiên c$u và khai thác ngun tài nguyên ca Vi.wikipedia  xây dng mt Ontology ting Vit ViO (Vietnamese Ontology) nh(m phc v yêu cu ca bài toán. Lun án  xut hình xác nh CT#TNN, c g!i là ViKEa, da trên các tri th$c ngôn ng t nhiên (nh h thng lut và ViO) và các bài toán tin x lý (nh phân on t và gán nhãn t loi). Mô hình rút trích cm t c trng ng ngha trong ting Vit 16 Bài toán 2 - Xây dng hình rút trích cm t c trng ng ngha, c g!i là ViKEe (Vietnamese Key phrase Extraction for extraction approach). Lun án nghiên c$u và phân tích các hình h!c máy. T ó  xut hình rút trích CT#TNN dùng phng pháp SVMs, nh(m ci thin ti a hiu qu ca hình ViKEa khi ngun tài nguyên ting Vit s.n có còn hn ch. Bài toán 3 - Xây dng hình ViKE (Vietnamese Key phrase Extraction). ViKE là s kt hp hai hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit, vi mc tiêu khai thác ti a  chính xác ca vic rút trích CT#TNN ca tng hình trong bài toán 1 và 2. 1.2 Nhng óng góp chính ca lun án Sau ây là nhng óng góp chính ca lun án i vi lnh vc x lý ngôn ng t nhiên mà c th là x lý vn bn ting Vit: - &óng góp th' nht: Xây dng c ch rút trích cm t c trng ng ngha trong câu ting Vit. - &óng góp th' hai: # xut hình ViKEa, là hình xác nh cm t c trng ng ngha câu n ca ting Vit, dùng phng pháp so trùng m*u da trên vic khai thác Vi.Wikipedia nh mt Ontology ting Vit. - &óng góp th' ba: # xut hình ViKEe, là hình rút trích cm t c trng ng ngha trong câu n ca ting Vit, dùng phng pháp SVMs vi bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t loi; (3) cu trúc cm t; (4) các t quan h gia các cm t. - &óng góp th' t: # xut hình ViKE, là s kt hp hai hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. - &óng góp th' nm: Xây dng mt kin trúc công ngh hoàn ch&nh cho $ng dng rút trích CT#TNN trong câu n ca ting Vit. - &óng góp th' sáu: # xut phng pháp khai thác Vi.Wikipedia nh mt Ontology ting Vit không ch&  phc v cho vic xác nh cm danh t c trng ng ngha trong câu n ca ting Vit mà còn góp phn gii vn  thiu Mô hình rút trích cm t c trng ng ngha trong ting Vit 17 tài nguyên có s.n ca ng liu ting Vit, h' tr cho vn  x lý ngôn ng t nhiên trong ting Vit. 1.3 Cu trúc ca lun án Lun án c chia thành by chng và mt ph lc. Chng 1 trình bày phm vi, mc tiêu và cu trúc ca lun án. Trong m'i chng tip theo, t chng 2 n chng 7, u có phn gii thiu và mt phn kt chng. Cui cùng, lun án trình bày phn t/ng kt trong chng 7. Chng 2 gii thiu c s lý thuyt ngôn ng ting Vit, t loi, cm t, cm t c trng ng ngha cho câu ting Vit. Chng 3 trình bày t/ng quan các nghiên c$u liên quan và các cách tip cn, u im và khuyt ca tng hình xác nh và rút trích CT#T. T phân tích này chúng tôi  xut mt hình ViKE cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. #ng thi, lun án c ng trình bày hng gii quyt cho phn tin x lý, gm bài toán phân on t và gán nhãn t loi c gii thiu trong (Chau Q. Nguyen, Tuoi T. Phan, 2006) và (Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006); c ng nh các phng pháp ánh giá hiu sut ca hình rút trích c lun án áp dng cho hình ViKE. Chng 4 trình bày hình ViKEa xác nh CT#TNN b(ng phng pháp so trùng m*u trên Ontology ting Vit ViO. #ng thi, lun án c ng trình bày phng pháp khai thác ngun tài nguyên Vi.Wikipedia nh mt Ontology ting Vit  xây dng Ontology ViO. Các khái nim c lun án  ngh, c ng nh các óng góp ã c gii thiu trong (Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006), (Chau Q. Nguyen, Tuoi T. Phan, 2007) và (Chau Q. Nguyen, Tuoi T. Phan, 2009). Chng 5 trình bày ViKEe theo hng tip cn rút trích CT#TNN dùng phng pháp SVMs vi bn tính cht c trng c  xut: v trí t trong câu, nhãn t loi, cu trúc cm t, và các t quan h gia các cm t ã c gii thiu trong (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2008) và (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009). Chng 6 trình bày hình ViKE, là s kt hp hai hình ViKEa và Mô hình rút trích cm t c trng ng ngha trong ting Vit 18 ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. #ng thi, lun án c ng trình bày hình kin trúc h thng ca ViKE vi các ánh giá hiu sut ca h thng thông qua thc nghim. Các óng góp ã c gii thiu trong (Chau Q. Nguyen, Tuoi T. Phan, 2009). Chng 7 trình bày tóm t%t các kt qu t c ca lun án khi gii quyt bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit, ng thi  ngh các hng nghiên c$u trong tng lai liên quan n lun án. . hun luyn  xây dng mô hình rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các cm t d tuyn. Mô hình rút trích dùng mt tp các. hai mô hình ViKEa và Mô hình rút trích cm t c trng ng ngha trong ting Vit 18 ViKEe cho bài toán rút trích cm t c trng ng ngha trong

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan