Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt ( Luận án tiến sĩ)

Thông tin tài liệu

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng ViệtNghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng ViệtNghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng ViệtNghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng ViệtNghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt

Học viện Cơng nghệ Bưu Viễn thơng Phan Thị Hà Nghiên cứu việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt Chuyên ngành: Truyền liệu mạng máy tính Mã số: 62.48.15.01 Nghiên cứu sinh: Phan Thị Hà Cán hướng dẫn: PGS.TS Trần Hồng Quân TS Nguyễn Thị Minh Huyền 2014 i LỜI CAM ĐOAN Tôi cam đoan nội dung luận án kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan nêu rõ nguồn gốc cách rõ ràng danh mục tài liệu tham khảo đề cập phần sau luận án Những đóng góp luận án kết nghiên cứu tác giả công bố báo tác giả phần sau luận án chưa công bố cơng trình khoa học khác Tác giả luận án Phan Thị Hà ii Lời cảm ơn Trước tiên, muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn tôi, PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền Thầy, Cô tận tình bảo tơi từ việc tưởng chừng đơn giản cách thức thu thập tài liệu tham khảo phương pháp nghiên cứu hoa học Sự tận tình hướng dẫn, cộng với động viên, khích lệ thường xuyên Thầy Cô giúp tự tin, say mê đường nghiên cứu khoa học Tôi cảm thấy thực trưởng thành sau năm học tập nghiên cứu hướng dẫn Thầy cô, lần em xin cảm ơn Thầy Cơ kính chúc Thầy Cơ ln mạnh khỏe, hạnh phúc, thành công lĩnh vực, đặc biệt đường khoa học Mong có nhiều lớp nghiên cứu sinh lại tiếp tục Thầy Cô hướng dẫn năm Tôi xin chân thành cảm ơn Tập đồn Bưu Chính Viễn Thơng, Ban lãnh đạo Học viện Cơng nghệ Bưu Chính Viễn Thông động viên tạo điều kiện thuận lợi cho tơi suốt q trình thực luận án Tơi muốn bày tỏ lịng biết ơn tập thể Thầy Cô khoa Công nghệ Thông tin Thầy Cô Khoa Đào tạo Sau Đại học, Học Viện Cơng nghệ Bưu Chính Viễn Thơng, nơi làm việc học tập năm qua Các Thầy Cơ ln tạo điều kiện để tơi hồn thành tốt cơng việc mình, dạy dỗ Q thầy giúp tơi trưởng thành Xin bày tỏ lời cảm ơn đến chuyên gia xử lý ngôn ngữ tự nhiên, dự án KC01.01/06-10, trung tâm từ điển VietLex hỗ trợ việc thu thập tài liệu góp ý hữu ích ý tưởng kỹ thuật phục vụ cho nghiên cứu Cuối cùng, chân thành cảm ơn người thân, bạn bè bên cạnh động viên, hỗ trợ mặt tinh thần để tơi vượt qua khó khăn hoàn thành tốt luận án iii MỤC LỤC MỤC LỤC iii DANH MỤC HÌNH VẼ .vi DANH MỤC BẢNG vii DANH MỤC CỤM TỪ VIẾT TẮT viii MỞ ĐẦU x Đặt vấn đề x Mục tiêu phạm vi nghiên cứu luận án xiii Kết đạt .xiv Bố cục luận án xv CHƯƠNG TỔNG QUAN VỀ KHO NGỮ LIỆU 1.1 Kho ngữ liệu văn 1.2 Xây dựng, chuẩn hóa khai thác kho ngữ liệu 1.2.1 Thu thập kho ngữ liệu văn 1.2.2 Chú giải ngôn ngữ vấn đề chuẩn hóa 1.2.3 Khai thác kho ngữ liệu 1.3 Kho ngữ liệu tiếng Việt 13 1.3.1 Hiện trạng 13 1.3.2 Các vấn đề nghiên cứu luận án 13 1.4 Kết chương 17 CHƯƠNG XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 18 2.1 Giới thiệu 18 2.2 Xây dựng kho ngữ liệu thô tiếng Việt 18 2.2.1 Lựa chọn danh sách từ hạt giống 19 2.2.2 Thu thập địa URL 21 2.2.3 Lọc nội dung trang web (URLs) 23 2.2.4 Phát trùng lặp gần 28 2.2.5 Xây dựng công cụ kết thu thập kho ngữ liệu 32 2.3 Kết chương 32 iv CHƯƠNG CHUẨN HĨA MƠ HÌNH CHÚ GIẢI TIẾNG VIỆT 34 3.1 Giới thiệu 34 3.2 Mô hình MAF ISO/TC 37/SC 34 3.3 Mơ hình SynAF ISO/TC 37/SC 36 3.4 Chuẩn hóa theo mơ hình MAF cho tiếng Việt 38 3.4.1 Xác định đơn vị sở (segment) 41 3.4.2 Hình thái từ (Wordform) 41 3.4.3 Nội dung hình thái cú pháp 42 3.5 Chuẩn hóa theo mơ hình SynAF cho tiếng Việt 42 3.6 Kết chương 50 CHƯƠNG KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT 51 4.1 Giới thiệu 51 4.1.1 Nghiên cứu từ vựng 51 4.1.2 Sketch Engine 52 4.1.3 Ngữ liệu Sketch Engine 53 4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine 56 4.2.1 Tách từ gán nhãn từ loại 56 4.2.2 Xây dựng quan hệ ngữ pháp tiếng Việt 57 4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt 64 4.2.4 Đánh giá quan hệ ngữ pháp tiếng Việt 67 4.3 Kết chương 67 CHƯƠNG KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 69 5.1 Giới thiệu 69 5.2 Văn phạm hình thức 70 5.2.1 Khái niệm chung văn phạm 70 5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) 72 5.2.3 Văn phạm kết nối (Tree Adjoining Grammar – TAG) 74 5.3 Trích rút tự động văn phạm CFG cho tiếng Việt 77 v 5.3.1 Thuật tốn trích rút từ VietTreebank 77 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86 5.3.3 Thử nghiệm đánh giá 89 5.3.4 Nhược điểm văn phạm PCFG phân tích ngữ pháp 90 5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90 5.4.1 Thuật tốn trích rút từ VietTreebank 90 5.4.2 Xây dựng thuật tốn trích rút từ từ điển tiếng Việt 100 5.4.3 So sánh, đánh giá tập khởi tạo trích rút từ VietTreebank từ điển 105 5.5 Kết chương 107 KẾT LUẬN 109 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN 112 TÀI LIỆU THAM KHẢO 113 PHỤ LỤC 125 vi DANH MỤC HÌNH VẼ Hình Mơ hình tổng quan MAF [59] 35 Hình Mơ hình SynAF [60] 38 Hình Danh sách tần suất tính trội từ lân cận với tính từ “đẹp” 65 Hình Phác thảo thông tin từ ”đẹp”, ”xinh” 66 Hình Một số danh sách từ có quan hệ ngữ pháp với tính từ “đẹp” 67 Hình Biểu diễn văn phạm G dạng 73 Hình Phép thay 75 Hình Phép kết nối 75 Hình 4.Ví dụ dẫn xuất với phép kết nối phép văn phạm TAG 76 Hình 5 Xử lý cụm từ thuật toán 5.5 94 Hình Ví dụ minh họa việc xây dựng phân tích 94 Hình Cây phân tích cú pháp 95 Hình Cây phân tích cú pháp hình 5.7 sau chèn thêm nút 95 Hình 9.Các mẫu sở spine (ứng với quan hệ đối–vị từ) phụ trợ (ứng với quan hệ phụ trợ đẳng lập) 96 Hình 10 Các 97 Hình 11 Ghép nút liên kết, đường trung tâm đánh dấu nét đơi 98 Hình 12 Số mẫu tăng dần theo kích thước Treebank: 100 Hình 13 Sơ đồ so sánh tập 105 Hình 14 Một không hợp lệ 106 vii DANH MỤC BẢNG Bảng 1 Thống kê kho ngữ liệu đơn ngữ tiếng Việt 13 Bảng Thống kê số URL thu thuật toán 2.1 21 Bảng 2 Tỷ lệ văn thẻ xuất phần nội dung số trang web tin tức Việt Nam 25 Bảng So sánh tỷ lệ “nội dung văn cần lấy/ tồn nội dung văn trích rút được” 27 Bảng Kết thống kê thu thập tự động kho ngữ liệu từ web 32 Bảng 1.Tập từ loại đối sánh với danh mục phân loại liệu chuẩn ISO 12620 40 Bảng Tập nhãn cú pháp thành phần, nhãn phân loại câu đối sánh với danh mục phân loại liệu chuẩn ISO 12620 44 Bảng 3.Tập nhãn chức cú pháp đối sánh với danh mục phân loại liệu chuẩn ISO 12620 45 Bảng Q trình trích rút luật theo thuật tốn 5.1 81 Bảng Số luật thu 89 Bảng 3.Bảng thành phần trung tâm cho treebank tiếng Việt 92 Bảng Danh sách đối 93 Bảng 5 .Ghép số nhãn cú pháp VietTreebank thành 98 Bảng Hai văn phạm G1, G2 trích rút từ VietTreebank 100 Bảng Thống kê Spin từ từ điển so sánh với VietTreebank 105 viii DANH MỤC CỤM TỪ VIẾT TẮT Cụm từ Cụm từ đầy đủ tiếng Anh Dich tiếng Việt viết tắt ANC The American National Corpus Kho ngữ liệu Quốc gia Mỹ API Application Programming Giao diện lập trình ứng dụng Interface BNC The British National Corpus Kho ngữ liệu Anh ngữ BTE Body Text Extraction Trích văn phần thân CES Copus Encoding Standard Tiêu chuẩn mã hóa kho ngữ liệu COCA The Copus of Contemporary Kho ngữ liệu Anh Mỹ đại American English CRF Conditional Random Field Trường ngẫu nhiên có điều kiện HMM Hidden Markov Model Mơ hình Markov ẩn HTML HyperText Markup Language Ngơn ngữ đánh dấu siêu văn I/O Input/Output Đầu vào/ đầu ISO International Organization for Tổ chức tiêu chuẩn hóa Quốc tế Standardization LAF Linguistic Annotation Khung giải ngôn ngữ học Framework LDC Linguistic Data Consortium Tổ chức liệu ngôn ngữ học MAF Morphosyntactic Annotation Khung giải hình thái cú pháp Framewor MD5 Message Digest Tóm tắt thông điệp MDFA Minimal deterministic nite state Otomat hữu hạn trạng thái tối automata thiểu MEM Maximum Entropy Model Mơ hình Entropy cực đại NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên ix POS Part-Of-Speech Từ loại SGML Standard Generalized Markup Ngôn ngữ đánh dấu tổng quát hóa Language chuẩn SynAF Syntactic Annotation Framework Mơ hình giải cú pháp URL Uniform Resource Locator Định vị tài nguyên đồng WFST Weighted Finit State Transducer Máy chuyển hữu hạn trạng thái có trọng số WWW Worl Wide Web Mạng tồn cầu XML eXtensible Markup Language Ngơn ngữ đánh dấu mở rộng CFG Context Free Grammar Văn phạm phi ngữ cảnh PCFG Probability Context Free Văn phạm phi ngữ cảnh kết hợp Grammar xác suất TAG Tree Adjoining Grammar Văn phạm kết nối LTAG Lexicalized Tree Adjoining Văn phạm kết nội từ vựng hóa Grammar CYK Cocke – Younger – Kasami Thuật toán CYK algorithm SSL Semi-supervised learning Học bán giám sát 120 [69] K Church and P Hanks, Word association norms, mutual information and lexicograph, Proceedings of 27th Annual Meeting of ACL (Vancouver), 1989, pp 76–83 [70] K Nigam, J Lafferty, and A McCallum, Using maximunm entropy for text classification, In Proceeding of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering, Stockholm, Sweden, pp 61 67 1999 [71] J.Lafferty, A.McCallum, and F.Pereira, Conditional random fields: probabilistic models for segmenting and labeling sequence data, In Proc ICML, pages 282-290,2001 [72] Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003,Lancaster, UK, 2003 [73] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, A Hybrid Approach to Word Segmentation of Vietnamese Texts, 2nd International Conference on Language and Automata Theory and Applications, LATA, Tarragona, Spain, 2008 [74] Li and A McCallum, Semi-Supervised Sequence Modeling with Syntactic Topic Models, In Proc of AAAI-2005, pages 813–818 2005 [75] Mark Steedman, Miles Osborne, Bootstrapping Statistical Parsers from Small Datasets, EACL 2003 [76] N Habash and O Rambow, Extracting a tree adjoining grammar from the Penn Arabic treebank In Proceedings of TALN’04, Morocco, 2004 [77] N Yoshinaga, Y.Miyao, K Torisawa, and J Tsuji, Parsing comparison across grammar formalisms using strongly equivalent grammars, Traitement Automatique des Langues, 44(3):15–39, 2003 [78] Nguyen P.T., Xuan L V., Nguyen T M H., Nguyen V H., Le H P., Building a largesyntactically-annotated corpus of Vietnamese In 121 Proceedings of the 3rd Linguistic AnnotationWorkshop,ACL-IJCNLP, Singapore 2009 [79] P Marcus, B Santorini, M.A Marcinkievicz, Building a large annotated corpus of English: the Penn TreeBank, Computational Linguistics, 19(2), p 313-330, 1993 [80] P Marcus, B Santorini, and M A Marcinkiewicz, Building a Large Annotated Corpus of English: The Penn Treebank, Computational Linguistics,19(2):313–330.1994 [81] Phuong Le-Hong, Azim Roussanaly, Thi Minh Huyen Nguyen, Mathias Rossignol, An empirical study of maximum entropy approach for part-ofspeech tagging of Vietnamese texts, TALN 2010, Montréal, 19–23 juillet 2010 [82] R Frank, Phrase Structure Composition and Syntactic Dependencie”, MIT Press, Boston, 2002 [83] R Jones and R Ghani, Automatically building a corpus for a minority language from the web, In Proceeding of the Student, Workshop of the 38th Annual Meeting of the Association for Computational Linguistics, pages 29 – 36, 2000 [84] R Malouf, A comparison of algorithms for maximumentropy parameter estimation In Conll 2002 [85] Rychlý, P A Lexicographer-Friendly Association Score In: Recent Advances in Slavonic Natural Language Processing, 2008 [86] S Bangalore, Performance evaluation of supertagging for partial parsing, In Advances in probabilistic and other parsing technologies, pages 203–220 Kluwer Academic Publishers, 2000 [87] Sha.F and Pereira F, Shallow Parsing with Conditional Random Fields, In Proc of HLT/NAACL-2003, pages 213–220.2003 122 [88] Serge Sharoff, Creating general-purpose corpora using automated search engine queries, In WaCky! Working papers on the Web as Corpus Gedit, Bologna, 2006 [89] Shen, G Satta, and A Joshi, 2007, Guided Learning for Bidirectional Sequence Classi cation, In Proc of ACL-2007, pages 760–767, 2007 [90] T Charoenporn, V Sornlertlamvanich, S.Kasuriya, C Hansakunbuntheung, H Isahara, Open Collaborative Development of the Thai Linguistics Resources, In Proceedings of 4th International Conference on Language Ressources and Evaluation (LREC04), Lisbon, PT, 2004 [91] T Takenobu, V Sornlertlamvanich, T Charoenporn, N Calzolari, M Monachini, C Soria, C.-R Huang, X YingJu, Y Hao, L Prévot, S Kiyoaki, Infrastructure for standardization of Asian language resources, in Proceedings of COLING-ACL 2006, Sydney, AU, 2006 [92] Tjong Kim Sang and S Buchholz, Introduction to the CoNLL-2000 Shared Task: Chunking, In Proc of CoNLL-2000 and LLL-2000, pages 127–132 2000 [93] Tjong Kim Sang and F De Meulder, Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition, In Proc Of CoNLL-2003, pages 142–147 2003 [94] Fábio Natanael Kepler, Marcelo Finger: Comparing Two Markov Methods for Part-of-Speech Tagging of Portuguese 482-491 IBERAMIA-SBIA.2006 [95] X Carreras, M Collins, and T Koo, TAG dynamic programming, and the perceptron for efficient, feature-rich parsing, In Proceedings of COLING 2008, Manchester, 2008 [96] Y Parmentier, SemTAG: Une plate-forme pour le calcul sémantique partir de grammaires d’arbres adjoints, PhD thesis, Université Henri Poincaré, Nancy I, 2007 Danh mục Website tham khảo: 123 [97] http://khnt.aksis.uib.no/icame/manuals/brown/ [98] http://trec.nist.gov/ [99] http://www.nist.gov/tac/ [100] http://vlsp.vietlp.org [101] http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/ [102] http://www.natcorp.ox.ac.uk/corpus/ [103] http://www.natcorp.ox.ac.uk/corpus/index.xml [104] http://americannationalcorpus.org/ [105] http://www.xces.org/ [106] http://corpus.byu.edu/coca/ [107] http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2010T0 [108] http://www.ims.unistuttgart.de/projekte/TIGER/TIGERSearch/doc/html/Tigr XML.html [109] http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20 [110] http://www.parl.gc.ca [111] http://www.clg.bham.ac.uk/staff/oliver/software/tagger/ [112] http://www.loria.fr/equypes/led/outils.php [113] http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger [114] http://tc37sc4.org/ [115] http://www.cs.vassar.edu/~ide/papers/LAF.pdf [116] http://www.lt-world.org/kb/information-andknowledge/technologies/obj_60867 [117] http://www.ipipan.waw.pl/mmgroup/HPSG/ [118] http://www.vietlex.com [119] http://evanjones.ca/software/wikipedia2text.html 124 [120] http://mason.gmu.edu/~montecin/htmltags.htm#htmlformat [121] http://www.w3schools.com/tags/ [122] http://search.cpan.org/~janpom/Text-DeDuper 1.01/lib/Text/DeDuper.pm#NAME [123] http://www.fi.muni.cz/ thomas/corpora/CQL/ [124] http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying [125] http://trac.sketchengine.co.uk/wiki/SkE/DocsIndex [126] http://staff.science.uva.nl/~rvalenti/projects/lsp/PCFGReport.pdf [127] http://vlsp.vietlp.org:8080/demo/?page=vcl [128] http://homepages.inf.ed.ac.uk/lzhang10/maxent.html Maximum Entropy Modeling [129] http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf 125 PHỤ LỤC Phụ lục Bảng liệt kê phù hợp 37 quan hệ ngữ pháp (dạng truy vấn) tiếng Việt hệ thống Sketch Engine Word sketches are compiled Deleting existing sketches Compiling word sketches Expanding m4 macros in the sketch grammar CQL queries to be processed: 37 [20130228-12:26:33] >>> 1:"Nc|Nu" 2:"Np|N" within [20130228-12:26:33] estimated: - 1593930 [20130228-12:26:39] matched: 982239 [20130228-12:26:39] >>> 1:"Nc" 2:"N" within [20130228-12:26:39] estimated: - 1387594 [20130228-12:26:45] matched: 797288 [20130228-12:26:45] >>> 2:"M|L|P" "M|L|P"{0,2} 1:"N.?" within [20130228-12:26:45] estimated: - 6687495717417682427 [20130228-12:27:41] matched: 5387640 [20130228-12:27:41] >>>1:"N" "N"{0,1} 2:"A" within [20130228-12:27:41] estimated: - -5354494133462983804 [20130228-12:29:08] matched: 3458166 [20130228-12:29:08] >>>1:"N" 2:"M" within [20130228-12:29:08] estimated: - 3764356 [20130228-12:29:14] matched: 876880 [20130228-12:29:14] >>>1:"N" "N"{0,1} 2:"N.?" within [20130228-12:29:14] estimated: - 5061693173329239579 [20130228-12:31:30] matched: 10258792 [20130228-12:31:30] >>>1:"N" "Nc"{0,1} 2:"Np" within [20130228-12:31:30] estimated: - -5244683552201905092 [20130228-12:32:37] matched: 1237782 [20130228-12:32:37] >>>1:"N" "V|E"{0,2} 2:"Np|N" within [20130228-12:32:37] estimated: - 2002905280237561206 [20130228-12:35:27] matched: 15087712 126 [20130228-12:35:27] >>>1:"Ny" 2:"Np" within [20130228-12:35:27] estimated: - 328551 [20130228-12:35:28] matched: 23619 [20130228-12:35:28] >>>1:"Nu" 2:"N|Np" within [20130228-12:35:28] estimated: - 206332 [20130228-12:35:30] matched: 61551 [20130228-12:35:30] >>>1:"Nc" 2:"V" within [20130228-12:35:30] estimated: - 1387586 [20130228-12:35:34] matched: 308210 [20130228-12:35:34] >>>2:"R""R"{0,3} 1:"V" within [20130228-12:35:34] estimated: - -3319904396886335896 [20130228-12:36:20] matched: 4889822 [20130228-12:36:20] >>>1:"V" "V"{0,1} 2:"V" within [20130228-12:36:20] estimated: - -3908306192516572729 [20130228-12:37:38] matched: 4633481 [20130228-12:37:38] >>>1:"V" 2:"N.?" within [20130228-12:37:38] estimated: - 26473351 [20130228-12:38:27] matched: 9344303 [20130228-12:38:27] >>>1:"V" "N" "E|V" 2:"N" within [20130228-12:38:27] estimated: - 26473316 [20130228-12:38:44] matched: 1631042 [20130228-12:38:44] >>>1:"V" "E" 2:"N" within [20130228-12:38:44] estimated: - 9397679 [20130228-12:38:57] matched: 1974474 [20130228-12:38:57] >>>1:"V" 2:"E" within [20130228-12:38:57] estimated: - 9397679 [20130228-12:39:17] matched: 3134995 [20130228-12:39:17] >>> 1:"V" "V|E|N.?"{0,3} 2:"R" within [20130228-12:39:17] estimated: - 2133495756374361646 [20130228-12:40:54] matched: 3375962 [20130228-12:40:54] >>> 1:"V" "R"{0,3} 2:"A" within [20130228-12:40:54] estimated: - 6817059513300590909 127 [20130228-12:41:48] matched: 1608556 [20130228-12:41:48] >>>2:"R" "R"{0,1} 1:"A" within [20130228-12:41:48] estimated: - -7697816197513153464 [20130228-12:42:09] matched: 938679 [20130228-12:42:09] >>>1:"A" "A"{0,3}2:"A" within [20130228-12:42:09] estimated: - 4313203083815074939 [20130228-12:42:24] matched: 397379 [20130228-12:42:24] >>>1:"A" 2:"R|V|E" within [20130228-12:42:24] estimated: - 6759781 [20130228-12:42:39] matched: 2409807 [20130228-12:42:39] >>> 1:"R" 2:"R" within [20130228-12:42:39] estimated: - 8190476 [20130228-12:42:43] matched: 608665 [20130228-12:42:43] >>>1: "E" "Nc|Nu|M|L|P"{0,5} 2:"N.?" within [20130228-12:42:43] estimated: - -8735016635986209809 [20130228-12:43:54] matched: 7709445 [20130228-12:43:54] >>> 1:"N.?|P" [word="và"|word="hoặc"|word="hoặc là"|word="hay"|word="với"|word="cùng"|word="cùng với"|word="cũng như"]"M|D"{0,2} 2:"N.?|P" within [20130228-12:43:54] estimated: - -1086748110815384108 [20130228-12:44:06] matched: 727853 [20130228-12:44:06] >>> 1:"V" "R"{0,1} [word="và"|word="hoặc"|word="rồi"|word="hoặc là"|word="hay"|word="với"|word="cùng"|word="cùng với"|word="cũng như"] "R"{0,2} 2:"V" within [20130228-12:44:06] estimated: - -2147626272421478364 [20130228-12:44:54] matched: 305758 [20130228-12:44:54] >>> 1:"A" "R"{0,2} [word="và"|word="hoặc"|word="hoặc là"|word="hay"|word="với"|word="cùng"|word="cùng với"|word="cũng như"] "R"{0,2} 2:"A" within [20130228-12:44:54] estimated: - -2588501726437159958 [20130228-12:45:07] matched: 98044 [20130228-12:45:07] >>> within 1:"N.?|A|V" "M|L|T|R"{0,3} 3:"E" "M|L|T"{0,3} 2:"N.?" 128 [20130228-12:45:07] estimated: - 4150844060927754083 [20130228-12:47:49] lexicon (/corpora/ca/user_data/phuonglh/manatee/VietnameseWaCTagged/lemma-ws) str2id-clear cache [20130228-12:47:52] lexicon (/corpora/ca/user_data/phuonglh/manatee/VietnameseWaCTagged/lemma-ws) make_lex_srt_file [20130228-12:48:45] matched: 6023884 [20130228-12:48:45] >>>1:"P|N|Np|Nc" "|A|R"{0,4} 2:"V|A" within [20130228-12:48:45] estimated: - 167267586888740149 [20130228-12:52:12] matched: 18758116 [20130228-12:52:12] >>>1:"N.?" "R|P"{1,4} 2: "A" within [20130228-12:52:12] estimated: - -5732332363022934971 [20130228-12:52:49] matched: 413518 [20130228-12:52:49] >>>1:"P" "R"{0,3} 2: "A" within [20130228-12:52:49] estimated: - 3800111998434181791 [20130228-12:53:01] matched: 246266 [20130228-12:53:01] >>>1:"N" "P|R"{0,4} 2: "M""N.?" within [20130228-12:53:01] estimated: - -3279198482116727400 [20130228-12:54:04] matched: 412691 [20130228-12:54:04] >>>1:"P" "R"{0,3} 2:"M""N.?" within [20130228-12:54:04] estimated: - 3194299548916742519 [20130228-12:54:15] matched: 61878 [20130228-12:54:15] >>>1:"N.?|P|A|V" [tag="V" & word="là"][tag="M|L"]{0,2} 2: "N.?|A|V" within [20130228-12:54:15] estimated: - -574714540662574906 [20130228-12:54:30] matched: 845894 [20130228-12:54:30] >>>1:"N.?|A" [tag="V" & word="bằng"][tag="M|L"]{0,2} 2: "N.?" within [20130228-12:54:31] estimated: - -5176288403264469494 [20130228-12:54:33] matched: [20130228-12:54:33] lexicon (/corpora/ca/user_data/phuonglh/manatee/VietnameseWaCTagged/lemma-ws) make_lex_srt_file 129 [20130228-12:54:42] mkwmap: stream sorted, #parts: 13 [20130228-12:57:34] mkwmap: parts joined [20130228-12:57:34] mkwmap: temporary files removed Word sketches compiled successfully! 130 Phụ lục Các thuật tốn trích rút tự động văn phạm LTAG cho tiếng Việt Thuật toán 5.5 PROCESS-CONJUNCTIONS(T) Input: Đầu vào T Output: Đầu T thêm nút cho nhóm liên từ 1:{ for K ∈ T.kids 2: if IS-PHRASAL(K) then //Kiểm tra xem nút K có cụm từ //khơng? 3: 4: K ← PROCESS-CONJUNCTIONS(K);//Tiến hành xử lý nút K end if 5: end for 6: (C1, C2, , Ck)←CONJ-GROUPS(T.kids);//Nhóm T lại thành K nhòm //Ci 7: for i = to k 8: if ||Ci|| > then 9: 10: INSERT-NODE(T, Ci);// Cứ nhóm chèn thêm nút phụ end if 11: end for 12: if k > then //Nếu k>2 nhóm Ci Ci-1 cách liên từ ci //lại chèn thêm nút T* tạo thành nhóm Ci-1 13: for i = k downto ∪ ci-1 ∪ Ci; 14: L ← Ci−1 15: T* ← INSERT-NODE(T,L) 16: Ci−1 ← T*; 17: end for 18: end if 19: return T;} Thuật toán 5.6 INSERT-NODE(T,L) Input: T is tree and L is list of some kids of T// Đầu vào T danh sách nút L Output: T* who kids are L and T* is a kid of T// Đầu chèn vào nút T* 1:{T* ← NEW-NODE(T.label); 2: T*.kids ← L; 3: T.kids ← T.kids \ L; 4: T.kids ← T.kids ∪ {T*}; 131 5: return T*;} Thuật toán 5.7 FULLY-BRACKET(T) Input: A tree T whose conjunctions are processed //Đầu vào có //thêm nút cho nhóm liên từ Output:: Fully bracketed tree whose root is T// Đầu T đặt ngoặc //toàn 1:{ if (not IS-PHRASAL(T)) then // Dừng đệ quy T cụm từ 2: return T; 3: end if 4: H ← HEAD-CHILD(T);// Lựa chọn trung tâm T H 5: if not IS-LEAF(H)) then // Nếu H không nút 6: for K 7: ∈ T.kids K ← FULLY-BRACKET(K);// Đặt ngoặc đệ quy toàn K T 8: end for 9: A ← ARG-NODES(H,L); // Danh sách đối nút H A 10: M ← MOD-NODES(H,L); // Danh sách thành phần phụ nút H M 11: m ←||M||; 12: if m > then // Số thành phần phụ M m L ←{H} ∪ A; 13: // m nút H với danh sách đối nhóm thành nhóm L 14: T* ← INSERT-NODE(T,L);// chèn thêm nút T* vào nhóm L T 15: end if 16: (M1, M2, , Mm) ← M; 17: for i = to m − 18: L ←{Mi, T*}; 19: T′← INSERT-NODE(T,L); 20: T∗ ← T′; 21: end for 22: end if 23: return T; Thuật toán 5.8 EXTRACT-ELEMENTARY-TREES(T ) Input: Đầu vào Output: Đầu tập S,M,C 132 1:{ if (not IS-PHRASAL(T)) then 2: return; 3: end if 4: {H0, H1, , Hn} ← HEAD-PATH(T); 5: ok ← false; 6: P ← H0 ; 7: for j ← to n 8: L ← SISTERS(Hj); 9: if |L| > then 10: Relation ← DETERMINE-RELATION(Hj, L); 11: if Relation = Coordination then 12: C ← C ∪ EXTRACT-CONJUNCTION-TREE(P); 13: end if 14: if Relation = Modification then 15: M ← M ∪ EXTRACT-MODIFIER-TREE(P); 16: if j = then 17: S ← S ∪ EXTRACT-SPINE-TREE(P); 18: ok ← true; 19: end if 20: end if 21: if Relation = Argument then 22: if ok = false and IS-LINK-NODE(P) = false then 23: S ← S ∪ EXTRACT-SPINE-TREE(P); 24: ok ← true; 25: end if 26: end if 27: else 28: if IS-LINK-NODE(P) = false and IS-PHRASAL(P) then 29: S ← S ∪ EXTRACT-SPINE-TREE(P); 30: end if 31: end if 32: P ← Hj; 33: j ← j + 1; 34: end for} Thuật tốn 5.9 trích rút khởi tạo (spine), sử dụng Hàm MERGE-LINKNODES(T) ghép nút liên kết spine thành nút (Hình 5.11) Thuật toán 5.9 EXTRACT-SPINE-TREE(T) Input: Đầu vào T Output: Đầu spine-etree trích rút 1: {Tc ← COPY(T); 2: P ← Tc; 3: H ← NULL; 4: Repeat 5: H ← HEAD-CHILD(P); 6: L ← SISTERS(H) 7: if (|L| > 0) then 8: : Relation ← DETERMINE-RELATION(H,L); if (Relation = Argument) then 133 10: ∈ L) for (A 11: EXTRACT-ELEMENTARY-TREES(A); 12: A.kids ← 13: A.type ← Substitution; 14: 15: end for else 16: for A ∈ L 17: P.kids ← P.kids \ A; 18: 19: ∅; end for end if 20: end if 21: P ← H; 22: until (H = NULL) 23: return MERGE-LINK-NODES(Tc);} Thuật toán 5.10 EXTRACT-MODIFIER-TREE(T) Input: Đầu vào Ouput: Đầu mod-etree trích rút 1: {Tc ← COPY(T); 2: H ← HEAD-CHILD(Tc); 3: H.kids ← ∅; 4: H.type ← Foot; 5: M ← MODIFIER(H); 6: T′ ← EXTRACT-SPINE-TREE(M); 7: if |M.kids|>1 then 8: EXTRACT-ELEMENTARY-TREES(M); 9: end if 10: M ← T′; 11: return Tc;} Thuật toán 5.11 EXTRACT-CONJUNCTION-TREE(T) Input: Đầu T Ouput: Đầu conj-etree trích rút 1: {Tc ← COPY(T); 2: H ← HEAD-CHILD(Tc); 3: EXTRACT-ELEMENTARY-TREES(H); 134 4: K ← COORDINATOR(H); 5: EXTRACT-ELEMENTARY-TREES(K); 6: H.kids ← ∅; 7: H.type ← Foot; 8: K.kids ← ∅; 9: K.type ← Substitution; 10: return Tc;} ... tiêu cho việc xây dựng khai thác kho ngữ liệu từ Internet cho tiếng Việt Chương Xây dựng kho ngữ liệu thơ từ Internet: Trong chương trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet. .. văn tiếng Việt, như: Từ điển tiếng Việt dùng cho máy tính, kho ngữ liệu tiếng Việt, kho ngữ liệu câu tiếng Anh -Việt phổ quát-chuyên ngành, hệ phân đoạn từ tiếng Việt, hệ phân cụm từ tiếng Việt, ... pháp (VnSynAF) cho tiếng Việt Chương Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên Sketch Engine phục vụ cho nghiên cứu từ vựng, xây

Ngày đăng: 20/04/2018, 18:31

Xem thêm: Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt ( Luận án tiến sĩ)

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt ( Luận án tiến sĩ)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan