Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

162 433 0
Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TẠ DUY CÔNG CHIẾN XÂY DỰNG HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2016 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TẠ DUY CÔNG CHIẾN XÂY DỰNG HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC) Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 62.48.01.01 Phản biện độc lập 1: Phản biện độc lập 2: Phản biện 1: Phản biện 2: Phản biện 3: NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TS PHAN THỊ TƯƠI LỜI CAM ĐOAN Tác giả xin cam đoan công trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận án Chữ ký Tạ Duy Công Chiến i TÓM TẮT LUẬN ÁN Cùng với truy xuất thông tin, hệ thống hỏi đáp, rút trích thông tin ứng dụng phổ biến thời đại ngày Đặc biệt hệ thống rút trích thông tin miền chuyên biệt y học, sinh học, giảng dạy mang lại nhiều lợi ích sống Tuy nhiên việc xây dựng hệ thống rút trích thông tin miền chuyên biệt thường gặp nhiều thử thách việc xử lý thông tin từ nguồn tài nguyên khác nhau, độ xác thông tin tốc độ xử lý hệ thống Vì có nhiều công trình nghiên cứu nước liên quan đến xây dựng hệ thống rút trích thông tin miền chuyên biệt Mục đích luận án xây dựng hệ thống rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) Để xây dựng hệ thống rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học), luận án đề xuất cách tiếp cận dựa thể học (Ontology-based Information Extraction) kết hợp với giải thuật xử lý ngôn ngữ tự nhiên phương pháp thốngĐể thực mục tiêu trên, luận án phải giải vấn đề Thứ nhất, đề xuất hình lý thuyết cho hệ thống rút trích thông tin theo chủ đề tập tin văn Thứ hai, đề xuất cấu trúc, lớp thành phần Bản thể học miền Tin học, gọi Computing Domain Ontology (CDO) thể qua nhiều quan hệ ngữ nghĩa hình Bản thể học khác nói chung Thứ ba, đề xuất cải tiến giải thuật rút trích thông tin từ ba nguồn ngữ liệu khác để xây dựng làm giàu ontology, bao gồm tập tin văn trong tập thư viện điện tử ACM (ACM Digital Library), Wikipedia, WordNet Thứ tư, luận án cài đặt hệ thống rút trích thông tin dựa ontology để trả lời câu truy vấn người dùng Phần thực nghiệm luận án tiến hành dựa tập tin văn trong tập thư viện điện tử ACM, câu truy vấn nhập trực tiếp từ người dùng từ điển liên quan đến lĩnh vực Tin học Kết thực nghiệm phản ánh tính khả thi hình, giải thuật đề xuất luận án ii ABSTRACT Nowadays, besides Information Retrieval and Question Answering, Information Extraction has become an emerging trend in the modern area of digital information processing Especially, in some certain domains such as Medicine, Biology and Education, Information Extraction has made significant contributions for the improvement of human living condition However, there are also a lot of challenges arising when the information extraction is exploited in a specific domain, e.g processing data from different resources, the quality and correctness of the extracted information and system performance when dealing with large-scale datasets Therefore, there is much research, both in international and national scales, has been conducted on the issue of building an efficient information extraction system on a specific domain It prompts the general objective of this dissertation, which is to build a topic-oriented document-based information extraction system for a specific domain (chosen as Computing within the dissertation scope) To develop such a proposed system, the dissertation proposes a novel methodology which combines ontology engineering, natural language processing and statistics algorithms In order to fulfil its objective, the dissertation has made the following contributions The first, the dissertation proposes a topic-based theoretical model of the information extraction system on textual documents The second, the dissertation proposes the structure, classes and instances of a specific ontology, known as Computting Domain Ontology (CDO), which renders more semantic relations than other typical existing ontological models The third, the dissertation proposes and improves some algorithms of information extraction for building and enriching the ontology Lastly, the dissertation develops an ontology-based information extraction system for answering user's queries The experiments of the dissertation were conducted from the following materials: (i) a dataset of text documents collected from the ACM Digital Library; (ii) a collection of the user's queries inputted directly into the system and (iii) the computing dictionaries The experiment results show that the algorithms and the proposed models are feasible and introduce significant improvement compared to similar existing works iii LỜI CẢM ƠN Trong trình hoàn thành luận này, Thầy Cô nơi sở đào tạo giúp đỡ tận tình, quan nơi công tác tạo điều kiện thuận lợi bạn bè gia đình thường xuyên động viên khích lệ Luận án hoàn thành tốt tận tình hướng dẫn giúp đỡ quý báu GS.TS Phan Thị Tươi, thầy hướng dẫn mà tôn vinh bày tỏ lòng biết ơn sâu sắc Tôi muốn bày tỏ lòng biết ơn thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách Khoa Tp Hồ Chí Minh tạo điều kiện thuận lợi cho trình học tập nghiên cứu Khoa Lời cảm ơn xin gửi đến Phòng Quản lý Sau Đại học hỗ trợ thủ tục trình hoàn thành luận án Đồng thời, muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học tài trợ cho thực đề tài cấp trường năm 2011 Cuối cảm ơn tất bạn bè người thân góp nhiều ý kiến lời động viên khích lệ quí báu giúp vượt qua khó khăn để hoàn thành tốt luận án Tác giả luận án Tạ Duy Công Chiến iv MỤC LỤC DANH MỤC CÁC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU .x DANH MỤC CÁC TỪ VIẾT TẮT xi CHƯƠNG GIỚI THIỆU .1 1.1 Động nghiên cứu 1.2 Mục tiêu phạm vi nghiên cứu 1.3 Kết đạt luận án .9 1.4 Cấu trúc luận án 11 CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 14 2.1 Giới thiệu 14 2.2 Các nghiên cứu liên quan đến xây dựng Ontology 14 2.2.1 Khái niệm Ontology .14 2.2.2 Các nghiên cứu xây dựng ontology 16 2.3 Các nghiên cứu xử lý rút trích thông tin .19 2.3.1 Trong nước 19 2.3.2 Ngoài nước 20 2.4 Kết chương .21 CHƯƠNG XÂY DỰNG HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT 23 3.1 Giới thiệu 23 3.2 Giới thiệu số hình rút trích thông tin 25 3.2.1 Các hình rút trích thông tin web 25 3.2.2 Các hình rút trích thông tin văn 27 3.3 Mục tiêu, hướng giải nhiệm vụ nghiên cứu hình rút trích thông tin văn theo chủ đề miền chuyên biệt luận án .29 3.4 Phương pháp nghiên cứu hướng tiếp cận 32 3.5 So sánh hình rút trích đề xuất với hình rút trích khác đề cập 34 3.6 Các nguồn ngữ liệu phục vụ cho hệ thống rút trích luận án 34 3.6.1 Tập chủ đề ACM tập thư viện điện tử ACM 34 3.6.2 Wikipedia 34 3.6.2 WordNet 35 3.6.3 Babelnet: Từ điển đa ngôn ngữ 35 3.7 Kết chương .36 v CHƯƠNG XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC (COMPUTING DOMAIN ONTOLOGY – CDO) .37 4.1 Giới thiệu Ontology 37 4.1.1 Các khái niệm 38 4.1.2 Một số phương pháp xây dựng ontology 41 4.2 Giới thiệu số ontology liên quan đến Tin học 45 4.2.1 Computing Ontology [9] 45 4.2.2 SwetoDblp ontology 45 4.3 Xây dựng làm giàu Ontology chuyên biệt miền Tin học 46 Bước – Xây dựng Lớp chủ đề (Topic layer) 47 2 Bước – Xây dựng lớp Thành phần (Ingredient layer) 49 Bước – Xây dựng lớp Synset 58 Bước – Xây dựng lớp câu (Sentence layer) 59 4.4 Biểu diễn lưu trữ CDO 63 4.4.1 Resource Description Framwork (RDF) 63 4.4.2 Ontology Web Language (OWL) 64 4.4.3 Chuyển đổi từ OWL sang sở liệu quan hệ 66 4.5 Kết thực nghiệm đánh giá CDO 74 4.5.1 So sánh CDO số ontology giới 74 4.5.2 Kết xây dựng làm giàu CDO 76 4.5.3 Đánh giá kết xây dựng làm giàu CDO 77 4.6 Kết chương .81 CHƯƠNG XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN 83 5.1 hình xác định chủ đề câu truy vấn 83 5.2 Bài toán xác định chủ đề câu truy vấn phương pháp đề xuất .88 5.2.1 Phân tích câu truy vấn 89 5.2.2 Xác định quan hệ ngữ nghĩa phụ thuộc .90 5.2.3 So trùng ontology .93 5.3 Kết thực nghiệm đánh giá .98 5.3.1 Thực nghiệm .98 5.3.2 Kết thực nghiệm đánh giá phương pháp xác định chủ đề câu truy vấn dựa CDO 98 5.3.3 So sánh với AIchemyAPI 101 5.3.4 Đánh giá thời gian thực thi 101 5.3.5 Công cụ hỗ trợ môi trường thực nghiệm 103 vi 5.4 Kết chương .104 CHƯƠNG 6.1 RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ 105 hình rút trích thông tin văn theo chủ đề miền chuyên biệt 105 6.1.1 Rút trích thông tin từ nguồn tài nguyên khác .105 6.1.2 Rút trích thông tin dựa CDO trả lời câu truy vấn 106 6.2 Ví dụ minh họa hoạt động hệ thống rút trích thông tin cho câu truy vấn dựa vào ontology CDO 113 6.3 Phân tích đánh giá hình rút trích thông tin theo chủ đề 118 6.4 Thực nghiệm đánh giá kết rút trích thông tin dựa CDO .119 6.4.1 Thực nghiệm đánh giá kết dựa độ xác, độ truy hồi trung bình điều hòa 119 6.4.2 6.5 Đánh giá thời gian thực thi 123 Kết chương .124 TỔNG KẾT 125 Kết luận 125 Hướng phát triển 127 CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 128 TÀI LIỆU THAM KHẢO 130 PHỤ LỤC 141 vii DANH MỤC CÁC HÌNH ẢNH Hình 1.1 hình rút trích thông tin theo chủ đề dựa văn .8 Hình 3.1 hình rút trích thông tin web .26 Hình.3.2 hình rút trích theo C Feilmayr (nguồn [54]) 27 Hình.3.3 hình rút trích văn S Jonnalagadda (nguồn [54]) .28 Hình 3.4 hình rút trích thông tin theo đề nghị Batcha (nguồn [57]) .28 Hình 3.5 hình SOBA (nguồn [59]) 29 Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn theo chủ đề miền chuyên biệt .31 Hình 3.7 hình xử lý vấn đề 33 Hình 4.1 hình biểu diễn ontology chuyên biệt (nguồn [15]) 40 Hình 4.2 Ontology miền địa danh (nguồn [67]) 41 Hình 4.3 Computing ontology tổ chức ACM thành lập (nguồn [9]) .45 Hình 4.4 Cấu trúc phân cấp CDO 46 Hình 4.5 Cấu trúc phân cấp chủ đề CDO 47 Hình 4.6 Số phần tử rút trích từ nguồn tài nguyên chưa áp dụng giá trị ngưỡng 54 Hình 4.7 Số phần tử rút trích từ nguồn tài nguyên sau áp dụng giá trị ngưỡng 0,4 55 Hình 4.8 hình xây dựng làm giàu CDO từ tập tin văn ACM Wikipedia .56 Hình 4.9 Một số quan hệ đối tượng CDO 61 Hình 4.10 CDO biểu diễn Protégé .66 Hình 4.11 hình ánh xạ lớp OWL thành bảng 67 Hình 4.12 Ánh xạ thuộc tính đối tượng theo E Vysniauskas 68 Hình 4.13 Ánh xạ thuộc tính đối tượng thành bảng sở liệu quan hệ 68 Hình 4.14 hình quan hệ CDO biểu diễn RDB 70 Hình 4.15 So sánh tỷ lệ rút trích đối tượng với Stanford CoreNLP 80 Hình 4.16 So sánh tỷ lệ rút trích quan hệ ngữ nghĩa với Stanford CoreNLP 81 Hình 5.1 hình phân cấp chủ đề theo P.G Ipeirotis (nguồn [118]) 84 Hình 5.2 hình nhận dạng chủ đề Y Ishizuka (nguồn [121]) 85 Hình 5.3 hình truy vấn thông tin K.Wen (nguồn [122]) 86 Hình 5.4 hình xác định chủ đề câu truy vấn 88 Hình 5.5 Cây phụ thuộc ví dụ 5.4 phân tích hình ngôn ngữ 90 Hình 5.6 Cây phụ thuộc SLDP xây dựng .91 Hình 5.7 Phân loại kỹ thuật so trùng theo HUANG (nguồn [15]) .93 Hình 5.8 Cây phụ thuộc truy vấn ví dụ 5.6 SLDP tạo 96 Hình 5.9 Cây phụ thuộc câu ví dụ 5.8 SLDP tạo .97 Hình 5.10 Biểu đồ thể kết thực nghiệm 320 câu truy vấn 100 Hình 5.11 Cây phụ thuộc câu ví dụ 5.9 104 Hình 6.1 hình tổng quát rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) .105 Hình 6.2 hình rút trích thông tin trả lời câu truy vấn 106 Hình 6.3 Cây đồ thị phụ thuộc câu ví dụ 6.2 109 Hình 6.4 hình ánh xạ từ khóa tương ứng .110 viii [48] L Zhang, R Issa, "Ontology Based Partial Building Information Model Extraction," Journal of Computing in Civil Engineering, vol 27, no 6, pp 576-584, December 2013 [49] R J Kate, R J Mooney, "Joint Entity and Relation Extraction using Card-Pyramid Parsing," in Proc of The 14th Conference on Computational Natural Language Learning (CoNLL-2010), Uppsala, Sweden, 2010 [50] Y Xiudan, "Ontology-based information extraction system in E-commerce websites," in IEEE 2011 International Conference on Control, Automation and Systems Engineering (CASE), Singapore, 2011 [51] S C Satapathy, Z S Mohd, S S Fatima, "Extraction Based Automatic Text Summarization System with HMM Tagger," in Proc of The International Conference on Information Systems Design and Intelligent Applications 2012 (INDIA 2012), SpringerVerlag, LNAI Vol 132, Visakhapatnam, India, 2012 [52] "The 1998 ACM Computing Classification System," ACM Organization, [Online] Available: http://www.acm.org/about/class/ccs98-html [Accessed 2012] [53] S Kok, P Domingos, "Extracting Semantic Networks from Text Via Relational Clustering," in Proc of The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD), Springer LNCS, vol 5211, Antwerp, Belgium, 2008 [54] C Feilmayr, S Parzer, C Buttinger, M.Guttenbrunner, "Ontology-based Web Information Extraction in Practice," in Proc of The International Conference on Telecommunications 2010 (ICT 2010), Doha, Qatar, 2010 [55] M A Hearst, "Untangling text data mining," in Proc of The 37th Annual Meeting of the Association for Computational Linguistics, 1999 [56] S Jonnalagadda, T Cohen, S Wu, G Gonzalez, "Enhancing clinical concept extraction with distributional semantics," Journal of Biomedical Informatics, pp 129-140, November 2011 [57] N K Batcha, A N Azizb, S I Shafiea, "CRF Based Feature Extraction Applied for Supervised Automatic," in Proc of The 4th International Conference on Electrical Engineering and Informatics (ICEEI 2013), Selangor, Malaysia, 2013 [58] D D Lee, H S Seung, "Learning the parts of objects by nonnegative matrix factorization," in Proc of The Conference on Neural Information Processing Systems, 1999 [59] P Buitelaar, P Cimiano, A Frank, M Hartung, S Racioppa, "Ontology-based information extraction and integration from heterogeneous data sources," International 134 Journal of Human-Computer Studies, vol 66, no 11, pp 759-788, December 2008 [60] W Drozdzynski, H U Krieger, J Piskorski, U Schäfer, F Xu, "Shallow processing with unification and typed feature structures—foundations and applications," in Künstliche Intelligenz, Bremen, Germany, 2004 [61] "Tratu," [Online] Available: http://tratu.soha.vn/dict/vn_vn/Chuy%C3%AAn_bi%E1%BB%87t [Accessed 2016] [62] J Euzenat, P Shvaiko, Ontology Matching, Springer, 2007 [63] A B Abacha, P Zweigenbaum, "Automatic Extraction of Semantic Relations between Medical Entities- a rule based approach," Journal of Biomedical Semantics, vol 2, no 5, 2011 [64] F Gargouri et al, Ontology Theory, Management and Design: Advanced Tools and Model, J Snavely, Ed., IGI Global, 2010 [65] E Metais, "Enhancing information systems management with natural language processing techniques," Data & Knowledge Engineering, vol 41, no 2-3, pp 247-272, 2002 [66] G Flouris, D Plexousakis, G Antoniou, "Evolving Ontology Evolution," in Proc of the 32nd International Conference on Current Trendsin Theory and Practice of Computer Science (SOFSEM-06), Merin, Czech Republic, 2006 [67] G Flouris, D Manakanatas, "Ontology change: classification and survey," The Knowledge Engineering, vol 00, no 0, pp -29, 2007 [68] L Zhang, "Ontology Based Partial Building Information Model Extraction," Journal of Computing in Civil Engineering, pp 1-44, March 2012 [69] R Poli, M Healy, A Kameas, Theory and Applications of Ontology, M H a A K Roberto Poli, Ed., Springer, 2010 [70] J A Gulla, "Ontology Reasoning," [Online] Available: http://www.idi.ntnu.no/emner/tdt44/handouts/Ontology%20Reasoning%20%20V2008.pdf [Accessed 2012] [71] G Brusa, M L Caliusco, O Chiotti, "A Process for Building a Domain Ontology: an Experience in Developing a Government Budgetary Ontology," in Australasian Ontology Workshop (AOW 2006), Hobart, Australia, 2006 [72] Antonie, "Integration of Heterogeneous Data Sources in an Ontological Knowledge base," Computing and Informatics, vol 31, pp 189-223, 2012 135 [73] D Moldovan, R Girju, A Badulescu, "Learning Semantic Constraints for the Automatic Discovery of Part – Whole Relations," in Proc of The 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, New Jersey, United States, 2003 [74] A Zouaq, R Nkambou, "Enhancing Learning Objects with an Ontology-Based," IEEE Transactions on Knowledge and Data Engineering, vol 21, no 6, pp 881-893, 2009 [75] N Guarino, "Concepts, attributes and arbitrary relations: some linguistic and ontological criteria for structuring knowledge base," Data and Knowledge Engineering, vol 6, pp 249-261, 1992 [76] A Almuhareb, M Poesio, "Finding Concept Attributes in the Web," in Proc of The Corpus Linguistics Conference, Birmingham, England, 2005 [77] A G.-P O Corcho, "A Roadmap to Ontology Specification Languages," in The 12th International Conference on Knowledge Engineering and Knowledge Management (EKAW 2000), 2000 [78] C F Baker, C J Fillmore, J B Lowe , "The Berkeley FrameNet project," in Proc of the COLING-ACL, Montreal, Canada, 1998 [79] K Kipper, H T Dang, M Palmer, "Class-Based Construction of a Verb Lexicon," in Proc of The AAAI-2000 17th National Conference on Artificial Intelligence, Texas, US, 2000 [80] W R Van Hage, H Kolb, G Schreiber, "Method for Learning- Part-Whole Relations," in Proc of The 5th International Semantic Web Conference, Berlin, Germany: Springer, 2006 [81] A Zouaq, R Nkambou, "Evaluating the Generation of Domain Ontologies in the Knowledge Puzzle Project," IEEE Transactions on Knowledge and Data Engirneering, vol 21, no 11, pp 1559 - 1572, November 2009 [82] V Malaisé, P Zweigenbaum, B Bachimon, "Detecting semantic relations between terms in definitions," in Proc of The 3rd International Workshop on Computational Terminology (CompuTerm 2004), 2004 [83] H Li, X Wu, Z Li, G Wu, "A Relation Extraction Method of Chinese Named Entities based on Location and Semantic Features," Applied Intelligence, vol 18, no 1, pp 1- 14, May 2012 [84] G Salton and C Buckley, "Term-weighting approaches in automatic text retrieval," Information Processing & Management, vol 24, no 5, pp 515-523, 1988 136 [85] K Frantzi, S Ananiadou, J Tsujii, "The c-value/nc-value method of automatic recognition for multi -word terms," in Proc of The Conference ECDL, 1998 [86] A Almuhareb and M Poesio, "Attribute-based and value-based clustering: an evaluation," in Proc of The conference EMNLP, Barcelona, Spain, July 2004 [87] D Lin, "Automatic identification of non-compositional phrases," in Proc of ACM, 1999 [88] D Widdows, "Unsupervised methods for developing taxonomies by combining syntactic," in Proc of HLT-NAACL, 2003 [89] P Cimiano, Ontology Learning Attributes and Relations: Algorithms, Evaluation and Applications, Springer, pp 185-231, 2006 [90] Tho T Quan, S C Hui , Tru H Cao, "A Fuzzi FCA Based approach for Citation based Document Retrieval," in Proc of The Conference on Cybermatics on Intelligent System, Singapore, 2004 [91] Poesio, A Almuhareb, "Finding Concept Attributes in the Web," in Proc of the Corpus Linguistics Conference, Birmingham, England, 2005 [92] M Pasca, S Ravi, "Using Structured Text for Large-Scale Attribute Extraction," in Proc of the 17th ACM Conference on Information and Knowledge Management (CIKM-2008), California, USA, 2008 [93] A Maedche, "Ontology Learning Part One - On Discovering Taxonomic Relations from the Web," in Proc of The Conference on Web Intelligence, Springer-verlag, 2002 [94] G Bisson, C Nédellec, D Canamero, "Designing clustering methods for ontology building – The Mo’K workbench," in Proc of The ECAI Ontology Learning Workshop, Seattle, USA, 2000 [95] S A Caraballo, "Automatic construction of ahypernym-labeled noun hierarchy from text," in Proc of the 37th Annual Meeting of the Associationfor Computational Linguistics, Pennsylvania, USA, 1999 [96] T Baldwin, I Yamada, "Automatic discovery of telic and agentive roles from corpus data," in Proc of the 18th Pacific Asia Conference on Language, Information and Computation (PACLIC), Tokyo, Japan, 2007 [97] "Wikipedia," [Online] Available: http://en.wikipedia.org/wiki/DBLP [Accessed 2012] [98] U Spree, D Lewandowski, "Ranking of Wikipedia Articles in Search Engines Revisited: Fair Ranking for Reasonable Quality?," Journal of the American Society for Information Science and Technology, vol 62, no 1, pp 117-132, 2011 137 [99] "OpenNLP," [Online] Available: https://opennlp.apache.org/ [Accessed 2012] [100] "The Stanford Parser: A statistical parser," Stanford University, [Online] Available: http://nlp.stanford.edu/software/lex-parser.shtml [Accessed 2012] [101] A Ittoo, G Bouma, "Minimally-supervised extraction of domain-specific part–whole relations using Wikipedia as knowledge-base," Data & Knowledge Engineering, pp 57 79, 2013 [102] P.Gamallo, M Gonzalez, A Agustini, G Lopes, V S de Lima, "Mapping Syntactic Dependencies onto Semantic Relations," [Online] Available: http://www.inf.pucrs.br/~gonzalez/docs/art-ecai.pdf [Accessed 2013] [103] D Vrandecíc, "Ontology Evaluation," Karlsruhe, Germany, 2010 [104] "Resource Description Framework (RDF)," W3C Organization, [Online] Available: https://www.w3.org/RDF/ [Accessed 2012] [105] "RDF Schema 1.1," W3C Organization, [Online] Available: http://www.w3.org/TR/rdfschema/ [Accessed 2013] [106] "The DARPA Agent Markup Language http://www.daml.org/ [Accessed 2012] Homepage," [107] "OWL Web Ontology Language Reference," http://www.w3.org/TR/owl-ref/ [Accessed 2012] [Online] [Online] Available: Available: [108] D Fensel, F V Harmelen, M Klein, H Akkermans, "On-To-Knowledge: Ontology-based Tools for Knowledge Management," VU University Amsterdam, [Online] Available: http://www.cs.vu.nl/~frankh/postscript/eBeW00.pdf [Accessed 2013] [109] C Ramathilagam, M L Valarmathi, "A Framework for OWL DL based Ontology Construction from Relational Database using Mapping," International Journal of Computer Applications, vol 76, no 17, pp 31-37, August 2013 [110] Ricardo, "Relational Databases Conceptual Preservation," in Fourth Workshop on Very Large Digital Libraries (VLDL2011), in conjunction with the 1st International Conference on Theory and Practice of Digital Libraries (TPDL2011), Berlin, Germany, 2011 [111] J Barzdins, M Kirikova, "RDB2OWL: a RDB-to-RDF/OWLMapping Specification Language," in Proc of The 9th International Baltic Conference on Databases and Information Systems (Baltic DB&IS'2010), Riga, Latvia, 2010 [112] E.Vysniauskas, L.Nemuraite, 2009 http://isd.ktu.lt/it2009/material/Proceedings/OCM.pdf 138 [Online] Available: [113] D Vrandecić, "Ontology Evaluation, Ph.D Thesis," June 2010 [Online] Available: http://www.aifb.kit.edu/images/b/b5/OntologyEvaluation.pdf [114] "Dictionary of IBM & Computing Terminology," [Online] Available: http://www03.ibm.com/ibm/history/documents/pdf/glossary.pdf [Accessed 2015] [115] "Microsof Computer Dictionary," [Online] Available: https://robot.bolink.org/ebooks/Microsoft%20Computer%20Dictionary%205e.pdf [Accessed 2015] [116] "AlchemyAPI," AlchemyAPI Inc, An IBM Company, 2015 [Online] Available: http://www.alchemyapi.com/ [Accessed 2016] [117] "Stanford CoreNLP – a suite of core NLP tools," Stanford University, [Online] Available: http://stanfordnlp.github.io/CoreNLP/ [Accessed 2016] [118] P G Ipeirotis, "Classifying and Searching Hidden-Web Text Databases," 2004 [119] H Yang, M Zhang, Z Shi, "Association-rule Based Information Resource Selection," in Proc of The Trends in Artificial Intelligence (PRICAI2004), Springer Verlag , LNAI Vol 3157, Auckland, New Zealand, 2004 [120] G Ercan, I Cicekli, "Using Lexical Chains for Keyword Extraction," 2009 [Online] Available: http://www.cs.bilkent.edu.tr/~ilyas/PDF/ipm2007.pdf [121] Y Matsuo , M Ishizuka, "Keyword extraction from a single document using word CoOccurrence Statistical Information," International Journal on Artificial Intelligence Tools, vol 13, no 01, March 2004 [122] K Wen, R Li, B Li , "Searching Concepts and Association Relationships Based on Domain Ontology," in Proc of The 9th International Conference on Grid and Cloud Computing, Nanjing, China, 2010 [123] L Van Der Plas, V Pallotta, M Rajman, "Automatic keyword extraction from A comparison of two lexical resources: the EDR and WordNet," in Proc of The 4th International Language Resources and Evaluation, European Language Resource Association, 2004 [124] I H Witten, G W Paynter, E Frank, C Gutwin, "KEA: practical automatic keyphrase extraction," in Proc of The 4th ACM Conference on Digital Library, 1999 [125] M F Moens , Information Extraction: Algorithms and Prospects in a Retrieval Context, Springer-Verlag New York, Inc Secaucus, NJ, USA, 2006 [126] [Online] Available: http://learnlab.hfcc.edu/sites/learnlab.hfcc.edu/files/B2.1_.pdf 139 [Accessed 2014] [127] "The Types of Search Queries & How You Should Target Them," [Online] Available: http://www.wordstream.com/blog/ws/2012/12/10/three-types-of-search-queries [Accessed 2014] [128] "The Penn Treebank Project," [Online] Available: https://www.cis.upenn.edu/~treebank/ [Accessed 2012] [129] F Gomez, C Segami, "Semantic interpretation and knowledge extraction," KnowledgeBased Systems, vol 20, no 1, pp 51 - 60, 2006 [130] "Spatial and Graph RDF Semantic Graph Developer's Guide," [Online] Available: https://docs.oracle.com/database/121/RDFRM/toc.htm [Accessed 2015] [131] J Atkinson, A Gonzalez, M Munoz, H Astudillo, "Web Metadata Extraction and Semantic Indexing for Learning Objects Extraction," in Proc of The 26th International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems (IEA/AIE 2013), 2014 [132] A Elsayed, A S Eldin, D S El Zanfaly, "Enhancing Keyword Search over Relational Databases Using Ontologies," in Proc of The 3rd International Conference on Advances in Computing & Information Technology (ACITY 2013), Chennai, India., 2013 [133] S Bergamaschi, E Domnori, F Guerra, "Keyword Search over Relational Databases: A Metadata Approach," in Proc of The 2011 ACM SIGMOD International Conference on Management of data (SIGMOD'11), Athens, Greece, 2011 [134] S Bergamaschi, F Guerra, M Interlandi, "QUEST: A Keyword Search System for Relational Data based on Semantic and Machine Learning Techniques," in Proc of The VLDB Endowment, Trento, Italy, 2013 [135] M Fleischman, "Automated Subcategorization of Named Entities," in Proc of The 39th Annual Meeting of the ACL, Student ResearchWorkshop, Toulouse, France, 2001 140 PHỤ LỤC Phụ lục A Danh sách chủ đề lấy từ trang web phân loại ACM STT Tên chủ đề COMPUTING 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 HARDWARE CONTROL STRUCTURE AND PROGRAMMING Control Design style HardWired Control Writable control store Control Structure Performance Analysis and Design Aids Automatic synthesis Control Structure Reliability, Testing, and Fault-Tolerance Test generation Microprogram Design Aids Firmware engineering Languages and compilers Optimization Microcode Applications Direct data manipulation Firmware support of operating systems/instruction sets Instruction set interpretation Peripheral control Special-purpose ARITHMETIC AND LOGIC STRUCTURES Calculator Pipeline Worst-case analysis High-Speed Arithmetic Cost/performance MEMORY STRUCTURES Associative memories Cache memories Interleaved memories Primary memory Sequential-access memory Shared memory Virtual memory Formal models Reliability, Testing, and Fault-Tolerance Redundant design 141 Cấp 5 5 5 5 5 5 5 5 5 5 5 5 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 INPUT/OUTPUT AND DATA COMMUNICATIONS Data Communications Devices Processors Receivers (e.g., voice, data, image) Transmitters Input/Output Devices Channels and controllers Data terminals and printers Image display Voice Interconnections (Subsystems) Asynchronous/synchronous operation Fiber optics Interfaces Parallel I/O Physical structures Topology Performance Analysis and Design Aids Hardware reliability LOGIC DESIGN Combinational logic Logic arrays Memory control and access Memory used as logic Parallel circuits Sequential circuits Reliability and Testing Testability INTEGRATED CIRCUITS Types and Design Styles Advanced technologies Algorithms implemented in hardware Input/output circuits Memory technologies Microprocessors and microcomputers Standard cells COMPUTER SYSTEM ORGANIZATION PROCESSOR ARCHITECTURES Single Data Stream Architectures Pipeline processors RISC/CISC COMPUTER COMMUNICATION NETWORKS 142 5 5 5 5 5 5 5 5 5 5 5 5 5 5 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 Network Architecture and Design ATM Circuit switching Network Topology Packet Switching Wireless Routing Protocol Distributed Application Distributed Database Network operating system Local area network Wide area network Internetworking COMPUTER SYSTEM IMPLEMENTATION Minicomputers MicroComputers Microprocessor Personal Computer Portable Devices Workstation SOFTWARE PROGRAMMING TECHNIQUES Concurrent programming Distributed Programming Parallel Programming Object oriented programming Logic Programming SOFTWARE ENGINEERING Design Tools and Techniques Computer-aided software engineering Object-oriented_design Structured programming Top-down and bottom-up design Coding Software Software testing PROGRAMMING LANGUAGE Language Classifications Assembly language Nonprocedural language Language Constructs and Features Abtract data type 143 5 5 5 5 5 5 4 5 5 5 4 5 5 4 4 5 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 Class and object Data type and structure Framework OPERATING SYSTEMS Process Management Deadlock Synchronization INFORMATION SYSTEM USER/MACHINE SYSTEMS Human factors Machine Learning DATABASE MANAGEMENT SYSTEM Database Security Logical Design Database normalization Database Language Data Manipulation Language Data Definition Language Query language Database system Distributed database Object oriented database Relational database Database Transaction INFORMATION STORAGE AND RETRIEVAL Information retrieval Clustering Information filtering system Search Engine COMPUTING METHODOLOGIES ARTIFICIAL INTELLIGENCE Applications of artificial intelligence Games Expert system Knowledge representation and reasoning Natural Language Processing Machine translation Speech recognition Word processing 144 5 5 4 4 5 5 5 5 4 4 4 5 Phụ lục B Đánh giá đối tượng thuộc lớp Thành phần CDO theo độ xác, độ truy hồi trung bình điều hòa Tên chủ đề HARDWARE CONTROL STRUCTURE AND PROGRAMMING Control Design style HardWired Control Writable control store Control Structure Performance Analysis and Design Aids Automatic synthesis Control Structure Reliability, Testing, and Fault-Tolerance Test generation Microprogram Design Aids Firmware engineering Languages and compilers Machine-independent microcode generation Optimization Direct data manipulation Firmware support of operating systems/instruction sets Instruction set interpretation Peripheral control Special-purpose ARITHMETIC AND LOGIC STRUCTURES Calculator Pipeline Worst-case analysis High-Speed Arithmetic Cost/performance MEMORY STRUCTURES Associative memories Cache memories Interleaved memories Primary memory Sequential-access memory Shared memory Virtual memory Formal models Reliability, Testing, and Fault-Tolerance Redundant design INPUT/OUTPUT AND DATA COMMUNICATIONS Data Communications Devices 145 P(%) R(%) F(%) 92,13 87,21 93,81 85,48 92,61 87,32 92,41 93,12 87,17 96,78 95,07 96,62 86,52 86,40 88,73 89,27 82,10 62,71 76,15 87,05 76,35 62,33 68,19 86,62 61,27 76,16 83,21 64,19 74,65 65,90 74,38 79,62 73,31 71,27 74,63 81,31 90,31 80,66 74,52 76,58 89,43 73,91 81,30 89,49 76,64 84,23 74,82 79,95 83,93 80,51 76,31 85,48 81,19 79,78 92,35 82,32 71,33 74,37 70,83 75,41 73,46 77,76 77,64 75,04 83,03 77,64 93,47 92,32 79,41 82,12 82,38 82,43 91,19 72,39 75,43 71,12 72,52 71,02 70,03 79,03 81,59 83,03 75,04 77,03 76,28 75,73 84,68 91,73 83,13 71,34 70,03 80,27 76,02 92,73 81,16 86,56 Processors Receivers (e.g., voice, data, image) Transmitters Input/Output Devices Channels and controllers Data terminals and printers Image display Voice Interconnections (Subsystems) Asynchronous/synchronous operation Fiber optics Interfaces Parallel I/O Physical structures Topology Performance Analysis and Design Aids Hardware reliability LOGIC DESIGN Combinational logic Logic arrays Memory control and access Memory used as logic Parallel circuits Sequential circuits Reliability and Testing Testability INTEGRATED CIRCUITS Types and Design Styles Advanced technologies Algorithms implemented in hardware Input/output circuits Memory technologies Microprocessors and microcomputers Standard cells COMPUTER SYSTEM ORGANIZATION PROCESSOR ARCHITECTURES Single Data Stream Architectures Pipeline processors RISC/CISC COMPUTER COMMUNICATION NETWORKS Network Architecture and Design ATM 146 83,19 91,84 82,31 91,36 82,01 83,59 91,03 85,17 75,63 80,25 81,24 83,33 78,93 76,25 91,10 85,23 87,41 64,24 81,02 70,03 79,62 73,42 70,04 63,26 79,28 56,01 64,06 67,17 70,40 62,24 69,40 82,27 73,52 70,07 72,50 86,1 75,68 85,09 77,48 70,87 74,65 82,12 64,36 71,25 73,54 76,33 69,60 72,67 86,47 78,95 77,79 83,23 85,62 87,63 85,03 75,21 89,62 83,25 70,02 74,28 81,70 74,62 62,30 72,22 74,13 76,06 79,55 84,57 79,49 68,15 79,99 78,43 96,82 93,15 85,26 87,73 85,03 90,39 94,32 71,26 79,30 78,53 73,04 84,23 95,56 80,7 82,18 82,88 78,59 87,21 92,37 91,03 86,21 84,44 74,13 72,32 88,23 81,72 78,66 90,22 73,41 76,74 70,02 82,94 71,68 Circuit switching Network Topology Packet Switching Wireless Routing Protocol Distributed Application Distributed Database Network operating system Local area network Wide area network Internetworking COMPUTER SYSTEM IMPLEMENTATION Microprocessor Personal Computer Portable Devices Workstation SOFTWARE PROGRAMMING TECHNIQUES Concurrent programming Distributed Programming Parallel Programming Object oriented programming Logic Programming SOFTWARE ENGINEERING Design Tools and Techniques Computer-aided software engineering Object-oriented_design Structured programming Top-down and bottom-up design Coding Software Software testing PROGRAMMING LANGUAGE Language Classifications Assembly language Nonprocedural_language Language Constructs and Features Abtract data type Class and object Data type and structure Framework OPERATING SYSTEMS 147 74,52 74,23 73,69 93,42 85,37 82,49 82,22 86,43 90,14 92,73 92,82 71,07 70,06 70,14 92,21 77,39 73,53 72,43 71,94 82,17 85,31 89,27 72,76 72,09 71,88 92,82 81,19 77,76 77,02 78,53 85,98 88,87 91,02 78,45 72,04 74,61 72,37 70,04 70,02 71,32 71,29 74,01 71,02 72,93 71,83 90,17 86,81 72,03 84,39 91,04 86,25 95,38 89,72 87,76 80,93 83,07 84,93 93,29 94,07 90,15 91,31 93,25 88,22 84,27 94,52 86,08 81,27 83,17 91,28 92,4 78,14 79,25 70,12 72,35 76,28 79,33 82,47 81,16 72,04 73,27 76,27 70,02 87,75 87,28 79,65 80,04 82,17 56,62 70,05 81,47 72,06 70,11 70,23 73,17 86,11 83,73 82,86 71,07 77,91 83,01 82,65 88,46 85,23 79,13 76,91 79,53 76,76 90,44 90,55 84,58 85,30 87,37 68,97 76,51 87,52 78,45 75,28 76,16 81,23 89,15 Process Management Deadlock Synchronization INFORMATION SYSTEM USER/MACHINE SYSTEMS Human factors Machine Learning DATABASE MANAGEMENT SYSTEM Database Security Logical Design Database normalization Database Language Data Manipulation Language Data Definition Language Query language Database system Distributed database Object oriented database Relational database Database Transaction INFORMATION STORAGE AND RETRIEVAL Information retrieval Clustering Information filtering system Search Engine COMPUTING METHODOLOGIES ARTIFICIAL INTELLIGENCE Applications of artificial intelligence Games Expert system Knowledge representation and reasoning Natural Language Processing Machine translation Speech recognition Word processing 148 93,71 75,02 76,33 94,86 80,18 70,11 70,02 82,17 86,42 72,49 73,04 89,19 79,06 91,22 70,93 85,37 74,78 88,20 91,04 85,03 87,04 89,94 86,23 82,07 79,53 85,41 83,39 91,11 90,03 90,17 87,15 82,43 84,15 76,61 71,55 77,65 76,22 72,33 73,45 83,15 83,81 86,54 89,06 83,71 85,58 82,75 78,21 79,80 77,84 78,33 78,11 86,95 86,81 88,32 92,22 87,20 89,05 86,40 84,06 79,71 83,31 71,17 87,96 83,29 86,09 78,05 94,73 93,2 92,27 83,27 91,23 91,83 87,27 83,04 85,33 89,74 84,03 89,71 70,22 85,52 86,73 78,28 75,28 84,69 92,17 88,38 90,98 76,20 88,29 89,21 82,54 78,97 85,01 ... hình tổng quan hệ thống thể qua hình 1.1 Hình 1.1 Mô hình rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) Để xây dựng mô hình rút trích thông tin theo chủ đề miền chuyên biệt (Tin. .. thống rút trích thông tin miền chuyên biệt Mục đích luận án xây dựng hệ thống rút trích thông tin văn theo chủ đề miền chuyên biệt (Tin học) Để xây dựng hệ thống rút trích thông tin văn theo chủ đề. .. 6.1 RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ 105 Mô hình rút trích thông tin văn theo chủ đề miền chuyên biệt 105 6.1.1 Rút trích thông tin từ nguồn tài nguyên khác .105 6.1.2 Rút trích thông tin

Ngày đăng: 16/05/2017, 23:36

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan