Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 08

19 441 6
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 08

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Ch ng T NG K T 7.1 Gi i thi u Ch ng cu i c a lu n án c trình bày ba ph n Tr ch ng s trình bày tóm t t k t qu t c tr ng ng ngh a ti ng Vi t Ti p theo lu n án h t c tiên c c a mơ hình rút trích c m danh ngh m t s v n ng nghiên c u ti p theo Cu i ph n k t lu n c a lu n án 114 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t 7.2 Tóm t t k t qu V i m c tiêu c a t t c tài nghiên c u phát tri n mô hình rút trích c m danh c tr ng ng ngh a ti ng Vi t, lu n án ã t c k t qu sau: - Lu n án ã kh o sát u i m h n ch mơ hình rút trích c m t c tr ng T nh h ó, lu n án ã xu t m t mô hình k t h p h ng ti p c n rút trích c m danh t ng ti p c n xác c tr ng ng ngh a ti ng Vi t Mơ hình ã óng góp vào vi c x lý ng ngh a v n b n ng d ng x lý ngôn ng t nhiên - Nghiên c u phát tri n mơ hình theo h c tr ng ng ngh a ti ng Vi t ng ti p c n xác kh c ph c v n ng li u ti ng Vi t có gi i l n xác nh c m danh t nh c m danh t c n thi t ph i có kho c tr ng ng ngh a, lu n án khai thác m t bách khoa toàn th tr c n v i n i dung m Wikipedia xây d ng Ontology ti ng Vi t ViO t mơ hình ViKEa i n ViDic T ây mơ hình s d ng ph ó lu n án ã xu t ng pháp so trùng m u d a c s tri th c Ontology - Nghiên c u phát tri n mơ hình theo h c tr ng ng ngh a ti ng Vi t, c pv n tr ng cho nh n di n CDT TNN câu truy v n, t ó xu t mơ hình ViKEe h" tr , c th gi i thu t SMO ng ti p c n rút trích c m danh t xác nh tính ch t c n ti ng Vi t, ó có câu ây mơ hình s d ng máy h!c vect gi i quy t tốn thi u kho ng li u l n có gi i trình hu n luy n Mơ hình h!c máy có giám sát ViKEe d a theo b n tính ch t c tr ng: (1) v trí t câu; (2) nhãn t lo i; (3) c u trúc c m t ; (4) t quan h gi a c m danh t c a c m danh t d n rút trích CDT TNN - Phát tri n mơ hình k t h p gi a h rút trích c m danh t ng ti p c n xác ng ti p c n c tr ng ng ngh a ti ng Vi t d a mơ hình ã phát tri n hai mơ hình ViKEa ViKEe T ViKE nh h ó lu n án xu t mơ hình ây mơ hình k t h p hai mơ hình ViKEa ViKEe v i m c tiêu khai thác t i a xác c a vi c rút trích CDT TNN c a t ng mơ hình 115 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t - Xây d ng m t Ontology ti ng Vi t ViO t xác nh c m danh t i n ViDic ph c v cho vi c c tr ng ng ngh a cho câu ti ng Vi t, b#ng cách rút trích h phân c p th lo i quan h ng ngh a Vi.Wikipedia nh m t Ontology ti ng Vi t - Xây d ng c m t ki n trúc cơng ngh hồn ch$nh cho ng d ng rút trích CDT TNN ti ng Vi t 7.3 H ng phát tri n T nghiên c u liên quan ã ngh m t s v n h Các mơ hình rút trích c p t k t qu c a lu n án, ng nghiên c u ti p theo nh sau c gi i thi u lu n án nh ng mơ hình cho ng ti p c n h hai h c ng xác nh h th&i lu n án khai thác vi c k t h p gi a hai h t'ng qt cho tốn rút trích c m danh t ti ng Vi t Vì v y, có th nói t h tri n D -V h m i quan h ng c tr ng ng ngh a câu n c n phát ng phát tri n chính: nh CT TNN, m t v n c n m r ng khai thác %ng ngh a thông qua ontology v Wiktionary, WordNet, ) %ng xây d ng m t mơ hình ng nghiên c u nhi u v n i ây, chúng tơi trình bày m t s h ng ti p c n xác ng rút trích CDT TNN ngơn ng (ví d %ng th&i khai thác m i quan h (là quan h nh %ng ngh a, quan h ph n ngh a, hay quan h thành ph n, ) gi a trang thông tin thông qua liên k t c a chúng Wikipedia T ó m r ng khái ni m quan h c a danh hi u Ontology ViO c(ng nh t nh#m nâng cao hi u su t xác - t nh CT TNN c a h th ng ng t ng ngh a c a khái ni m th c th có tên ch a lu n án %ng th&i, vi c khai thác th c th có tên nh t ng v n t c kh o sát ng t gi a thành ph n c a ng t v tên, l p, c p tên-l p danh hi u c(ng ch a c khai thác ây m t nh ng h -V h i n ViDic, ng phát tri n quan tr!ng c a rút trích CDT TNN, m t v n hu n luy n m u cho mơ hình h!c máy c n c n khai thác giai o n c m r ng cho t ng l nh v c c th , c(ng nh c p nh t thêm kho ng li u hu n luy n nh#m nâng cao c a h th ng 116 tài xác Mơ hình rút trích c m t -M th c tr ng ng ngh a ti ng Vi t ng phát tri n khác c(ng r t quan tr!ng vi c áp d ng mơ hình cho ngơn ng khác, mơ hình nghi m lu n án c phát tri n, kh o sát, c(ng nh th c u ti ng Vi t Thơng qua vi c phát tri n mơ hình cho ngôn ng khác (nh ti ng Anh) xu t lu n án v i ph so sánh ánh giá ph ng pháp khác, c(ng nh ng pháp c ánh giá trình t i u chi phí mơ hình k t h p ViKE 7.4 K t lu n Lu n án ã trình bày h c m danh t t ng h ng ti p c n c tr ng ng ngh a c a câu ng ti p c n, lu n án ã gi i quy t tốn rút trích n ti ng Vi t T phân tích ánh giá xu t m t mơ hình ViKE cho tốn rút trích CDT TNN câu ti ng Vi t Mơ hình ViKE s k t h p c a hai mơ hình theo h ng ti p c n ngôn ng h!c máy (mô hình ViKEa ViKEe) u tiên mơ hình ViKEa, theo h ng ti p c n ngôn ng d a Ontology c khai thác t Vi.Wiki) v i k) thu t so trùng m u quan h ng ViO ( ngh a gi a th lo i Ontology, c(ng nh khâu ti n x lý phân o n t gán nhãn t lo i K t qu t c c a mô hình ViKEa cao tr &ng h p c m danh t c a câu có t quan h , ho c có khái ni m t ng ontology ViO Ng c l i, CDT TNN c nh n d ng sai thu c vào tr &ng h p khái ni m ch a t%n t i Ontology ViO ch c a mơ hình ViKEa c(ng theo h ng ti p c n h!c máy ch t c tính ch t c tr ng quy t xây d ng t h ây m t h n ng t ng ngh a gi a c t mơ hình ViKEa, c tr ng v ngơn ng c a CDT TNN Các tính nh c m danh t c tr ng ng ngh a so v i c m danh t khác câu Ngoài ra, tính ch t ph n xác u ng c nghiên c u c a lu n án cho mơ hình c m danh t T vi c ánh giá so sánh k t qu thu lu n án rút ng c tr ng ti n góp nh t p tính ch t nh n di n CDT TNN mơ hình ViKEe theo ng ti p c n rút trích k) thu t h!c máy Ti p theo, lu n án ã xu t mơ hình ViKEe theo h ng ti p c n h!c máy nh#m c i thi n t i a hi u su t c a h th ng vi c khai thác tài nguyên ngôn ng cịn có gi i h n H ng ti p c n d a ph 117 ng pháp h!c máy, c th Mơ hình rút trích c m t ph c tr ng ng ngh a ti ng Vi t ng pháp SVMs k) thu t hu n luy n SMO Lu n án hi n th c h ng ti p c n thành m t ng d ng riêng bi t g!i mơ hình ViKEe *ng d ng có th ch y c l p ho c nhúng vào ng d ng khác môi tr &ng Windows K t qu t t c c a mơ hình ViKEe theo h c ã áp ng c m c tiêu ng ti p c n rút trích CDT TNN c a lu n án s góp ph n c i thi n hi u su t c a mô hình k t h p c a ViKE tr &ng h p CDT TNN không c xác nh mơ hình ViKEa theo h ng xác nh d a Ontology ViO Ngồi ra, chúng tơi c(ng ã tích h p ViKEe nh m t mơ- un c a h th ng truy xu t thông tin xun ngơn ng có h" tr ti ng Vi t g!i VIRs H th ng cho phép truy xu t thơng tin h u ích t trang web (VIRs s n ph+m ã c nghi m thu c a tài tr!ng i m i h!c qu c gia Tp H% Chí Minh - B2005-20-01-TD) K t qu c a h th ng VIRs ã c c i thi n so v i ch a tích h p ViKEe Cu i cùng, bên c nh mơ hình c xu t, ph thác Vi.Wiki nh m t ontology ti ng Vi t không ch$ nh c m danh t h ng pháp c a lu n án khai ph c v cho vi c xác c tr ng ng ngh a cho câu ti ng Vi t mà ng gi i quy t cho v n a m t thi u kho ng li u h" tr x lý ngôn ng ti ng Vi t 118 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t CÁC BÀI BÁO C A TÁC GI LIÊN QUAN N LU N ÁN T p chí Khoa h c [1] Chau Q Nguyen, Tuoi T Phan, 2009 H ng ti p c n xác nh c m t c tr ng ng ngh a ti ng Vi t d a Wikipedia, T p chí Cơng ngh thơng tin & truy n thông, ISSN 0866-7039, T p V-1, s 2(22): 30-37 [2] Nguy,n Quang Châu, Phan Th T i, 2008 Nh n di n c m t c tr ng ng ngh a Ti ng Vi t, T p chí Cơng ngh thơng tin & truy n thơng, ISSN 0866-17093, s 19: 64-73 [3] Nguy,n Quang Châu, H%ng Thanh Lu n, Phan Th T ti p c n h!c máy cho tốn rút trích c m t i, 2008 M t h ng c tr ng ng ngh a ti ng Vi t, T p chí Khoa h c & Công ngh Vi t nam, ISBN 0866-708X, t p 46, s 1: 69-78 [4] Nguy,n Quang Châu, Phan Th T i, Cao Hoàng Tr , 2006 Gán nhãn t lo i cho ti ng Vi t d a v n phong tính tốn xác su t, T p chí Phát tri n Khoa h c & Công ngh , ISSN 1859-0128, t p 9, s 2:11-21 H i ngh Khoa h c Qu c t [5] Chau Q Nguyen, Tuoi T Phan, 2009 Key Phrase Extraction: A Hybrid Assignment and Extraction Approach In Proceedings of the 11th International Conference of Information Integration and Web-based Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 14-16 December 2009, Malaysia, ACM & ACS, pp 274-281 [6] Chau Q Nguyen, Tuoi T Phan, 2009 An Ontology–Based Approach for Key Phrase Extraction In Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of 119 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-932432-475, August - 7, 2009, Singapore, Companion Vol, pp.181-184 [7] Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009 A Support Vector Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of the 2009 IEEE-RIVF International Conference on Computing & Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress, pp.131-135 [8] Chau Q Nguyen, Tuoi T Phan, 2007 A Pattern-based Approach to Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th International IEEE Conference on Computer Sciences- RIVF’07, ISBN 2912590-4-0, Studia Informatica Universalis, pp.41-46 [9] Chau Q Nguyen, Tuoi T Phan, 2006 A Hybrid Approach to Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.157160 [10] Chau Q Nguyen, Thanh C Nguyen, Tuoi T Phan, 2006 Vietnamese Key Phrase Extraction for Information Retrieval, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172 [11] Chau Q Nguyen, Tuoi T Phan, Tru H Cao, 2006 Vietnamese Proper Noun Recognition, In Proceedings of The 4th International IEEE Conference on Computer Sciences- RIVF’06, ISSN 1621-0065, IEEE Press, pp.144-151 H i ngh Khoa h c Qu c gia [12] Nguy,n Quang Châu, Phan Th T i, Cao Hoàng Tr , 2005 Gán nhãn t lo i cho ti ng Vi t d a v n phong, k y u c a h i th o khoa h c qu c gia l n th II, Nghiên c u c b n FAIR’05, 9-2005, pp.106-116 120 ng d ng cơng ngh thơng tin- Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t CÁC CƠNG TRÌNH NGHIÊN C U KHOA H C LIÊN QUAN [1] *ng d ng N LU N ÁN tài tr!ng i m c p nhà n c: Nghiên c u phát tri n k thu t xây d ng khai thác thông tin Web có ng ngh a (Vietnamese Semantic Web) (KC.01.21), PGS.TS Cao Hoàng Tr làm ch nhi m tài, nghi m thu n m 2006 [2] *ng d ng tài tr!ng i m HQG Tp.HCM: Xây d ng ch ng trình tr giúp truy xu t thơng tin b ng ti ng Vi t (Vietnamese Information Retrieval) (B2005-20-01-TD), PGS.TS Phan Th T thu n m 2007 121 i làm ch nhi m tài, nghi m Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t TÀI LI U THAM KH O Tài li u tham kh o ti ng Vi t Cao Hoàng Tr , 2005 Nghiên c u phát tri n k thu t xây d ng khai thác thơng tin Web có ng ngh a (Semantic Web), c p Nhà n tài nghiên c u khoa h!c c KC.01.21 Cao Xuân H o, 1992 Ng pháp ch c n ng ti ng Vi t - Câu ti ng Vi t - C u trúc-Ngh a-Công d ng NXB Giáo d c Cao Xuân H o, 2006 Ti ng Vi t – M y v n Ng âm - Ng pháp - Ng ngh a NXB Khoa h!c Xã h i Cao Xuân H o, 2006 Ti ng Vi t – S th o ng pháp ch c n ng NXB Khoa h!c Xã h i Di p Quang Ban, 2004 Ng pháp ti ng Vi t , t p NXB Giáo d c Di p Quang Ban, 2004 Ng pháp ti ng Vi t, t p NXB Giáo d c " Phúc, H% Anh Th , 2005 Rút trích tóm t t n i dung trang web ti ng Vi t, K y u c a h i th o khoa h c Qu c gia l n th II, Nghiên c u c b n ng d ng công ngh thơng tin - FAIR’05, pp.317-328 Hồng Phê (Ch biên), 1992 T KHNNH Trung Tâm T i n Ti ng Vi t, Vi n KHXH VN & Vi n i n Ngôn Ng Hà N i H% Lê, 1993 Cú pháp ti ng Vi t – Cú pháp tình hu ng NXB Khoa h!c Xã h i L i Th H nh, 2002 Trích c m danh t ti ng Vi t nh m ph c v cho h th ng tra c u thông tin a ngôn ng Lu n án t t nghi p Th c s Tin h!c, Khoa h!c T nhiên – i h!c Qu gia Tp H% Chí Minh 122 i h!c Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Nguy,n Chí Hi u, Phan Th T i, Nguy,n Xuân D(ng, Nguy,n Quang Châu, 2005 S d ng k) thu t pruning vào tốn xác nh t lo i T p chí Phát tri n Khoa h c & Công ngh , t p 8, s 11: 14-23 Nguy,n H u Qu-nh, 2001 Ng pháp ti ng Vi t NXB T i n Bách khoa Hà n i Nguy,n Kim Th n, 1996 C s ng pháp ti ng Vi t – Cú pháp tình hu ng NXB Khoa H!c Xã H i Nguy,n Kim Th n, 1997 Nghiên c u ng pháp ti ng Vi t – Cú pháp tình hu ng NXB Giáo d c Nguy,n Quang Châu, Phan Th T i, 2009 H ng ti p c n xác nh c m t c tr ng ng ngh a ti ng Vi t d a Wikipedia, T p chí Cơng ngh thơng tin & truy n thơng, ISSN 0886-7039, t p V-1, s 2(22):3-10 Nguy,n Quang Châu, H%ng Thanh Lu n, Phan Th T c n h!c máy cho tốn rút trích c m t i, 2008 M t h ng ti p c tr ng ng ngh a ti ng Vi t, T p chí Khoa h c & Công ngh Vi t nam, ISBN 0866-708X, t p 46, s 1: 69-78 Nguy,n Quang Châu, Phan Th T i, 2008 Nh n di n c m t c tr ng ng ngh a ti ng Vi t, T p chí Cơng ngh thơng tin & truy n thông, ISSN 0866-17093, s 19: 64-73 Nguy,n Quang Châu, Phan Th T i, Cao Hoàng Tr , 2005 Gán nhãn t lo i cho ti ng Vi t d a v n phong Trong k y u c a h i th o khoa h c qu c gia l n th II, Nghiên c u c b n ng d ng công ngh thông tin- FAIR’05, pp.106-116 Nguy,n Quang Châu, Phan Th T i, Cao Hoàng Tr , 2006 Gán nhãn t lo i cho ti ng Vi t d a v n phong tính tốn xác su t, T p chí Phát tri n Khoa h c & Công ngh , ISSN 1859-0128, t p 9, s 2:11-21 Nguy,n Tài C+n, 1993 Ng pháp ti ng Vi t – Cú pháp tình hu ng NXB Qu c gia Hà n i 123 i h!c Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Nguy,n Tài C+n, 1996 Ng pháp ti ng Vi t – Ti ng - T ghép - o n ng NXB i h!c Qu c gia Hà n i Nguy,n Th Minh Huy n,V( Xuân L ng, Lê H%ng Ph ng, 2003 S d ng b gán nhãn t lo i xác su t QTAG cho v n b n ti ng Vi t”, Trong k y u c a h i th o ICT.rda'03, Hà N i Nguy,n Th Trúc Viên, Cao Hoàng Tr , 2005 Rút trích th c th có tên Web ti ng Vi t b#ng v n ph m so trùng m u Trong k y u c a h i th o khoa h c qu c gia l n th II, Nghiên c u c b n ng d ng công ngh thông tin-FAIR’ 05, pp.307-316 Phan Th T i, 2007 Xây d ng ch ng trình tr giúp truy xu t thông tin b ng ti ng Vi t (Vietnamese Information Retrieval), tài nghiên c u khoa h!c tr!ng i m HQG Tp.HCM (B2005-20-01-TD) Tr n Ng!c Tu n, 2001 Phân o n t ti ng Vi t dùng Corpus mơ hình th ng kê Lu n án t t nghi p Th c s Khoa h!c máy tính, i h!c Bách Khoa Tp H% Chí Minh .y ban Khoa h!c Xã h i Vi t Nam, 1983 Ng pháp ti ng Vi t NXB Khoa h!c Xã h i Tài li u tham kh o ti ng Anh Ahn, D., Jijkoun, V., Mishne, G., Müller, K., Rijke, M., Schlobac, S., 2004 Using Wikipedia at the TREC QA Track In Proceedings of TREC-04 Akiko, A., 2002 A Method of Cluster-Based Indexing of Textual Data, In Proceedings of COLING, MIT Presss Andy, W., Nano, G., 2003 wEBMT: Developing and Validating an ExampleBased Machine Translation System Linguistics, Vol.29, No.3, pp.421 124 using WWW Computational Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Barker, K., Cornacchia, N., 2000 Using Noun Phrase Heads to Extract Document Keyphrases In Proceedings of the 13th Biennial Conf of the Canadian Society on Computational Studies of Intelligence, Springer, Heidelberg, pp 40–52 Bian, G-W., Chen, H-H., 1998 A New Hybrid Approach for Chinese-English Query Translation In Proceedings of the First Asia Digital Library Workshop, pp 156-167 Brill, E., 1995 Transformation-Based Error-Driven Learning and Natural Language Processing Computational Linguistics, 21 (4): 543-565 Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009 A Support Vector Machines Approach to Vietnamese Key Phrase Extraction, In Proceedings of the 2009 IEEE-RIVF International Conference on Computing & Communication Technologies (IEEE-RIVF 2009), ISBN 978-1-4244-45677, IEEE eXpress, pp.131-135 Chau Q Nguyen, Thanh C Nguyen, Tuoi T Phan, 2006 Vietnamese Key Phrase Extraction for Information Retrieval, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’ 06, 12/2006, Malaysia, pp.169-172 Chau Q Nguyen, Tuoi T Phan, 2006 A Hybrid Approach to Vietnamese Part-OfSpeech Tagging, In Proceedings of The 9th International Oriental COCOSDA 2006 Conference - O-COCOSDA’ 06, 12/2006, Malaysia, pp.157-160 Chau Q Nguyen, Tuoi T Phan, 2007 A Pattern-based Approach to Vietnamese Key Phrase Extraction, In Addendum Contributions of The 5th International IEEE Conference on Computer Sciences- RIVF’ 07, ISBN 2912590-4-0, Studia Informatica Universalis, pp.41-46 Chau Q Nguyen, Tuoi T Phan, 2009 Key Phrase Extraction: A Hybrid Assignment and Extraction Approach In Proceedings of the 11th 125 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t International Conference of Information Integration and Web-based Applications & Services (iiWAS 2009), OCG ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 14-16 December 2009, Malaysia, ACM & ACS, pp 274-281 Chau Q Nguyen, Tuoi T Phan, 2009 An Ontology–Based Approach for Key Phrase Extraction In Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP 2009), ISBN 978-1-93243247-5, August - 7, 2009, Singapore, Companion Vol, pp.181-184 Chau Q Nguyen, Tuoi T Phan, Tru H Cao, 2006 Vietnamese Proper Noun Recognition, In Proceedings of The 4th International IEEE Conference on Computer Sciences- RIVF’ 06, ISSN 1621-0065, IEEE Press, pp.144-151 Chen, A., He, J., Xu, L., Gey, F C., Meggs, J., 1997 Chinese Text Retrieval without Using a Dictionary In Proceedings of the ACM SIGIR 97, pp 4249 Chen, K-J., Ma, W-Y., 2002 Unknown Word Extraction for Chinese Documents, In Proceedings of COLING 2002 Chen, Y-J., Chen, H-H 2002 NLP and IR Approaches to Monolingual and Multilingual Link Detection, In Proceedings of COLING 2002 Cheng, A., 2002 Base Noun Phrase Chunking with Support Vector Machines, Final Project Report, Cornell University, Ithaca, New York Chien, L-F., 1997 PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval In Proceedings of the 1997 ACM SIGIR, Philadelphia, PA, USA, pp.50-58 Chien, L-F., 1998 PAT-Tree-Based Adaptive Keyphrase Extraction for Intelligent Chinese Information Retrieval In special issue on Information Retreival 126 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t with Asian Languages, Information Processing and Management, Elsevier Press Chien, L-F., Pu, H-T., 1996 Important Issues on Chinese Information Retrieval, Computational Linguistics and Chinese Language Processing, (1): 205221 Church, K W.,1988 A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text In Proceedings of the Second Annual Conference on Applied Natural Language Parsing ACL, Austin, TX Church, K W.,1997 Ngrams In Proceedings of the ACL-95, Cambridge, MA, USA Dinh Dien, Hoang Kiem, 2003 POS-Target for English-Vietnamese Bilingual Corpus, In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, ACL Anthology Doan Nguyen Hai, 2001 Generation of Vietnamese for French-Vietnamese and English-Vietnamese Machine Translation, In Proceedings of the ACL 2001 Eight European Workshop on Natural Language Generation (EWNLG) Dumais, S., Platt, J., Heckerman, D., Sahami, M., 1998 Inductive Learning Algorithms and Representations for Text Categorization In Proceedings of the 7th International Conference on Information and Knowledge Management (CIKM), pp 148–155 Feather, J., S P., 1996 International encyclopedia of information and library science London & New York: Routledge Frank, E., Paynter, G.W., Witten, H.I., Gutwin, C., Nevill-Manning, C.G., 1999 Domain Specific Keyphrase Extraction In Proceedings of the 16th International Joint Conference on ArtificialIntelligence, pp 668–673 127 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Gunn, S R., 1998 Support Vector Machines for Classification and Regression Technical Report, Faculty of Engineering, Science and Mathematics, School of Electronics and Computer Science, University of Southamton, UK Gurevych, I., Müller, C., Zesch, T., 2007 What to be? - Electronic Career Guidance Based on Semantic Relatedness In Proceedings of the 45th Annual Meeting of the ACL, Prague, Czech Republic, June ACL07, pp.1032–1039 Harris, Z S., 1968 Mathematical Structures of Language, New York: Interscience Publishers John Wiley & Sons Hearst, M A., 1998 Support Vector Machines, University of California, Berkeley Hulth, A., 2004 Combining Machine Learning and Natural Language Processing for Automatic Keyword Extraction Ph D thesis, Department of Computer and Systems Sciences, Stockholm University Ingrid, Z., Bhavani, R., 2002 Lexical Query Paraphrasing for Document, In Proceedings of COLING 2002 Joachims, T., 1998 Text Categorization with Support Vector Machines: Learning with Many Relevant Features Technical Report 23, University of Dortmund, Germany Jones, Burges, Christopher, 1998 A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and Knowledge Discovery, pp.121-167 Jones, S., Mahoui, M., 2000 Hierarchical document clustering using automatically extracted keyphrases In Third International Asian Conference on Digital Libraries, Seoul Korea, pp 113-120 Jones, S., Paynter, G M., 2001 Human Evaluation of Kea, an Automatic Keyphrasing System In Proceedings of ACM/IEEE Joint Conference on Digital Libraries, pp 148–156 128 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t L H Phuong, N T M Huyen, R Azim, R Mathias, 2010 An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts, Traitement Automatique des Langues Naturelles - TALN 2010, Montreal, Canada Lee, K-S., Kageura, K., Choi, K-S., 2002 Implicit Ambiguity Resolution using Incremental Clustering in Korean-to-English Cross-Language Information Retrieval, In Proceedings of COLING 2002 Li, Z., Xing, L., 1998 Search the Chinese Web — Design and the Operation of Net-Compass In Proceedings of the First Asia Digital Library Workshop, pp 42-46 Littman, M., Dumais, S., Landauer, T., 2002 Automatic Cross-Lasnguage Information Retrieval using Latent Semantic Indexing, In Proceedings of COLING 2002 Maria, R-C., Alfonseca, E., Castells, P., 2005 Automatic Assignment of Wikipedia Encyclopedic Entries to WordNet Synsets In Proceedings of AWIC, pp 380–386 Marie-France Bruandet, Jean-Pierre Chevallet, Dong Thi Bich Thuy, Ho Bao Quoc, 2004 An Approach to Vietnamese Information Retrieval, Laboratory CLIPS, IMAG and University of Joseph Fourier, Grenoble, France and Department of Information Technology, University of Natural Sciences, Vietnam National University- Hochiminh City, Vietnam Mayer, David, Leisch, Fiedrich, Hornik, Kurt, 2002 Benchmarking Support Vector Machines Vienna University of Economics and Business Administration, Austria Medelyan, O., Witten, I H., 2006 Thesaurus Based Automatic Keyphrase Indexing In Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, ACM Press, New York ,pp 296–297 129 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Mitkov, R., 2003 Computational Linguistics, the Offord University Press Mukherjee, S., 2002 Classifying Microarray Data using Support Vector Machines, MIT/Whitehead Institute for Genome Research and Center for Biological and Computational Learning at MIT Ong, T-H., Chen, H., 1999 Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management, In Proceedings of the second Asian Digital Library Conference, pp 63-84 Paice, C., Black, W., 2003 A three-pronged approach to the extraction of key terms and semantic roles.In RANLP-2003, Recent Advances in Natural Language Processing, Borovets, Bulgaria Peng, F., Huang, X., Schuurmans, D., Cercone, N., 2002 Investigating the Relationship between Word Segmentation Performance and Retrieval Performance in Chinese IR, In Proceedings of COLING 2002 Platt, J-C., 1998 Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Microsoft Research Pouliquen, B., Steinberger, R., Ignat, C., 2003 Automatic Annotation of Multilingual Text Collections with a Conceptual Thesaurus In Proceedings of Workshop at EUROLAN’2003: The Semantic Web and Language Technology – Its Potential and Practicalities Bucharest, 28 July – August 2003 Qiao, H L., 2010 Lexxe White Paper-Pioneering 3rd Generation Internet Search Engine, 2005-2010 < URL: www.lexxe.com> Ratnaparkhi, A., 1996 A Maximum Entropy Model for Part-Of-Speech Tagging In Proceedings of ACL-SIGDAT Conference on Empirical Methods in Natural Language Processing, Philadelphia 130 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Salomon, J., 2001 Support Vector Machines for Phoneme Classification, MSc Thesis, University Edinburgh Steyvers, M., Griffiths, T., 2005 Probabilistic Topic Models In: Landauer, T., Mcnamara, D., Dennis,S., Kintsch,W (eds.) Latent Semantic Analysis: A Road to Meaning, Laurence Erlbaum, Mahwah Su, K-Y., Chaing, T-H., Chang, J-S., 1996 An Overview of Corpus-Based Statistics-Oriented (CBSO) Techniques for Natual Language Processing Computational Linguistics and Chinese Language Processing, (1): 101157 Swartout, B., Patil, R., Knight, K., Russ, T., 1996 Toward Distributed Use of Large−Scale Ontologies In Proceedings of the Tenth Knowledge Acquisition for Knowledge−based Systems Workshop (KAW’ 96), November 9−14, Banff, Alberta, Canada The Text Retrieval Conference-TREC, 2009 Question Answering Track < URL:http://trec.nist.gov/data/qamain.html> Thuy Dung Nguyen, 2007 Automatic Keyphrase Generation Technical report, National University of Singapore Thuy Dung Nguyen, Min-Yen Kan, 2007 Keyphrase Extraction in Scientific Publications, In Proceedings of ICADL 2007, LNCS 4822, SpringerVerlag Berlin Heidelberg, pp 317–326 Tomokiyo, T., Hurst, M., 2003 A Language Model Approach to Keyphrase Extraction In Proceedings of ACL Workshop on Multiword Expressions Tuan N Tran, 2002 Vietnamese Word Segmentation using Corpus and Statistical Models, In Proceedings of School on Scientific Computing and Applications, March 4-6, HCMC 131 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t Turney, P D., 1999 Learning to Extract Keyphrases from Text Technical Report ERB-1057, National Research Council, Institute for Information Technology Turney, P D., 2003 Coherent Keyphrase Extraction via Web Mining In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence (IJCAI 2003), pp 434–439 Voutilainen, A., 1997 A Short Introduction to NPTool, Witschel, H F., 2005 Using Decision Trees and Text Mining Techniques for Extending Taxonomies In Proceedings of Learning and Extending Lexical Ontologies by using Machine Learning Methods, Workshop at ICML-05 Witten, I H., Frank, E.,2005 Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition Morgan Kaufmann, San Francisco Wu, Z., Tseng, G ACTS, 1995 An Automatic Chinese Text Segmentation System for Full Text Retrieval Journal of the American Society for Information Sciences, 46: 83- 96 Yang, C C., Yen, J., Yung, S K., Chung, K L., 1998 Chinese Indexing Using Mutual Information In Proceedings of the First Asia Digital Library Workshop, pp.57-64 Zesch, T., Gurevych, I., 2007 Analysis of the Wikipedia Category Graph for NLP Applications In Proceedings of the TextGraphs-2 Workshop (NAACL-HLT 2007), pp.1–8 Zesch, T., Gurevych, I., Mühlhäuser, M., 2007 Comparing Wikipedia and German Wordnet by Evaluating Semantic Relatedness on Multiple Datasets In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2007), pp 205–208 132 ... tốn rút trích n ti ng Vi t T phân tích ánh giá xu t m t mơ hình ViKE cho tốn rút trích CDT TNN câu ti ng Vi t Mô hình ViKE s k t h p c a hai mơ hình theo h ng ti p c n ngơn ng h!c máy (mơ hình. .. mơ hình k t h p gi a h rút trích c m danh t ng ti p c n xác ng ti p c n c tr ng ng ngh a ti ng Vi t d a mơ hình ã phát tri n hai mơ hình ViKEa ViKEe T ViKE nh h ó lu n án xu t mơ hình ây mơ hình. .. án xu t mơ hình ây mơ hình k t h p hai mơ hình ViKEa ViKEe v i m c tiêu khai thác t i a xác c a vi c rút trích CDT TNN c a t ng mơ hình 115 Mơ hình rút trích c m t c tr ng ng ngh a ti ng Vi t -

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan