trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền

53 470 1
trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phí Văn Thủy TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Phan Xuân Hiếu Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Phi Van Thuy A COMPLEX EVENT EXTRACTION METHOD BASED ON DEPENDENCY PARSING FOR CANCER GENETICS DATASET Major: Information Technology Supervisor: Dr. Xuan-Hieu Phan Co-Supervisor: MSc. Mai-Vu Tran HA NOI - 2013 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo Tiến sĩ Hà Quang Thụy, Tiến sĩ Phan Xuân Hiếu, và Thạc sĩ Trần Mai Vũ – những người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn chân thành tới Phó Giáo Tiến sĩ Nigel H. Collier, thuộc Viện Thông tin quốc gia Nhật Bản (NII), người đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận. Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm KT-Lab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Hà Nội, ngày 15 tháng 5 năm 2013 Sinh viên Phí Văn Thủy i TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO HÌNH PHÂN TÍCH CÂY PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN Phí Văn Thủy Khóa QH-2009-I/CQ , ngành Công nghệ thông tin Tóm tắt Khóa luận tốt nghiệp: Thuật ngữ trích chn s kiện y sinh hc được sử dụng đ đề cập đến bài toán trích chọn sự tả về các hoạt động và quan hệ giữa một hoc nhiều thực th t tài liệu y sinh học. Việc tự động nhận dạng bất kì đối tượng của một lớp sự kiện riêng, trích chọn các tham số liên quan của chúng và biu diễn thông tin được trích chọn vào một dạng có cấu trúc t các công trình khoa học giúp cộng đồng nghiên cứu y sinh học nhanh chóng thu nhận được các kết quả nghiên cứu mới nhất trong lĩnh vực liên quan mật thiết tới việc đảm bảo sức khe con người. Các kết quả mới nhất cho thấy hiệu năng khi trích chọn các sự kiện phức hợp (sự kiện có th nhận tham số là thực th hoc sự kiện khác) chỉ đạt khoảng 40-50% F1 tại BioNLP Shared Task 2011. Khóa luận này đề xuất một hình học máy cho bài toán trích chn s kiện y sinh phức hợp và áp dụng vào Cancer Genetics (CG) task – một bài toán trích chọn thông tin trong BioNLP Shared Task (ST) 2013. Mục đích của CG task là trích chọn thông tin tự động t các văn bản về quá trình sinh học, liên quan đến sự phát trin và tiến trin của bệnh ung thư. hình của chúng tôi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn ứng viên sự kiện; (3) xếp hạng và đưa ra kết quả. Khi đánh giá trên tập dữ liệu phát trin được cung cấp bi BioNLP-ST 2013, với khoảng 1000 câu lấy t PubMed, chúng tôi thu được kết quả bước đầu khá khả quan: độ đo F1 khi trích chọn các sự kiện phức hợp đạt t 50% đến 70%. hình mới phù hợp với miền dữ liệu về bệnh ung thư di truyền và cho hiệu năng tốt hơn hình cơ s chúng tôi đưa ra. Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task. ii A COMPLEX EVENT EXTRACTION METHOD BASED ON DEPENDENCY PARSING FOR CANCER GENETICS DATASET Phi Van Thuy Course: QH-2009-I/CQ , major: Information technology Abstract: The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations among one or more entities from the biomedical literature. Generally, event extraction is to identify any instance of a particular class of events in a biomedical text, to extract the relevant arguments of the event, and to represent the extracted information into a structured form. This helps the community of biomedical researchers to quickly get the latest research results in the fields closely related to ensuring human health. The final results enabled to observe the state-of-the-art performance of the community on the bio-event extraction task, which showed that the automatic extraction of complex events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared Task 2011. In this thesis, we propose a machine learning model for complex event extraction task and apply to Cancer Genetics (CG) task – the information extraction task in BioNLP-ST 2013. The CG task aims to advance the automatic extraction of information from statements on the biological processes relating to the development and progression of cancer. Our model consists of three modules: (1) trigger detection; (2) candidate event extraction; (3) ranking and returning output. Our approach obtains competitive results in the extraction of complex events from the BioNLP-ST Shared Task 2013 with a F1-score of 50-70% in development. The new model fits the data domain of cancer genetics and perform better than the base model we proposed. Keywords: Event extraction, Dependency tree, Cancer Genetics Task. iii Lời cam đoan Em xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ t giáo viên hướng dẫn là Tiến sĩ Phan Xuân Hiếu và Thạc sĩ Trần Mai Vũ. Các nội dung nghiên cứu và kết quả trong đề tài này là trung thực, không sao chép t bất cứ nguồn nào có sẵn. Tất cả những tham khảo t các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng t danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình. Sinh viên Phí Văn Thủy iv Mục lục Tóm tắt nội dung i Lời cam đoan ii Mục lục iv Danh sách bảng vi Danh sách hình vẽ vii Bảng các ký hiệu viii Mở đầu 1 Chương 1. Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền trong văn bản y sinh học 3 1.1. Giới thiệu chung 3 1.2. Các khái niệm liên quan đến bài toán 5 1.3. Phát biu bài toán 7 1.4. Khó khăn và thách thức 8 1.5. Phương pháp đánh giá 9 1.5.1. Khớp nhau hoàn toàn 10 1.5.2. Khớp biên xấp xỉ 10 Chương 2. Các hướng tiếp cận giải quyết bài toán trích chọn sự kiện trong văn bản y sinh học 11 2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc cú pháp 11 2.2. Trích chọn sự kiện dựa vào hệ thống đường ống 12 2.3. hình học máy đã đề xuất cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền 14 2.3.1. Thành phần nhận diện trigger 15 2.3.2. Thành phần trích chọn sự kiện đơn 16 2.3.3. Thành phần trích chọn sự kiện phức 17 Chương 3. hình giải quyết bài toán trích chọn sự kiện y sinh phức hợp dựa vào hình phân tích cây phụ thuộc 19 v 3.1. Cơ s lý thuyết 19 3.1.1. Chuyn đổi cấu trúc sự kiện sang dạng biu diễn cây phụ thuộc 19 3.1.2. Giải thuật Earley paresr 21 3.2. hình đề xuất giải quyết bài toán 23 3.2.1. Thành phần nhận diện trigger 24 3.2.2. Thành phần trích chọn ứng viên sự kiện 25 3.2.3. Thành phần xếp hạng và đưa ra kết quả 26 Chương 4. Thực nghiệm và đánh giá 28 4.1. Môi trường và dữ liệu thực nghiệm 28 4.1.1. Môi trường thực nghiệm 28 4.1.2. Dữ liệu thực nghiệm 28 4.2. Giới thiệu phần mềm thực nghiệm 31 4.3. Thực nghiệm 32 4.3.1. Hướng tiếp cận thực nghiệm 32 4.3.2. Thực nghiệm nhận diện trigger 32 4.3.3. Thực nghiệm trích chọn sự kiện phức hợp 34 4.4. Nhận xét và thảo luận 36 Kết luận và định hướng 39 Tài liệu tham khảo 40 Tiếng Anh 40 vi Danh sách bảng Bảng 1: Các kiu thc th trong CG task 5 Bảng 2: Các kiu s kiện trong CG task 6 Bảng 3: Kt quả vi tp kim th theo các lp s kiện 12 Bảng 4: Phân loại các kiu s kiện trong CG task 17 Bảng 5: Kt quả vi trích chn các s kiện phức hợp liên quan đn bệnh ung thư di truyền 18 Bảng 6: Các loại đặc trưng trong thành phần nhn diện trigger 26 Bảng 7: Môi trường thc nghiệm 30 Bảng 8: Thng kê chung về d liệu thc nghiệm 33 Bảng 9: Thng kê các s kiện trong tp d liệu 33 Bảng 10: Các loại đặc trưng trong nhn diện trigger 35 Bảng 11: Kt quả vi trích chn các s kiện phức hợp liên quan đn bệnh ung thư di truyền da vào hình phân tích cây phụ thuộc 36 Bảng 12: Một s kiu lỗi nhn diện thiu s kiện 36 Bảng 13: Thng kê các kiu thc th/s kiện là tham s cho s kiện Regulation 37 Bảng 14: Mẫu các s kiện phức hợp trong CG task 38 Bảng 15: So sánh kt quả gia hình cơ sở và hình mi đề xuất (dạng bảng) 38 [...]... lượng đề tài nghiên cứu khoa học sinh viên 2012 – 2013 (“Một hình học m y trích chọn sự kiện y sinh trong văn bản về bệnh ung thư di truyền ), khóa luận chọn bài toán trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền, là nội dung tập trung nghiên cứu và x y dựng hình giải quyết Trích chọn sự kiện phức hợp liên quan đến bốn kiểu sự kiện trong CG Task: Regulation, Positive... vàohình phân tích c y phụ thuộc là cơ sở của việc giải quyết bài toán trích chọn sự kiện y sinh phức hợp Nội dung chính của chương n y trình b y một số đặc trưng của văn bản y sinh học về bệnh ung thư di truyền, bài toán trích chọn sự kiện y sinh phức hợp hình đề xuất Chương 4: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm nhận di n trigger và trích chọn các sự kiện phức hợp dựa. .. https://sites.google.com/site/bionlpst/home/entity-relations 1 Dựa trên những hướng tiếp cận n y cùng với một hình học m y đã đề xuất trong đề tài nghiên cứu khoa học sinh viên, chúng tôi đề xuất một mô hình phân tích c y phụ thuộc cho việc giải quyết bài toán trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền Kết quả thực nghiệm bước đầu cho th y hình mới phù hợp với miền dữ liệu y sinh và cho hiệu năng tốt hơn hình. .. Hình 7: hình giải quyết bài toán Trích chọn sự kiện liên quan đến bệnh ung thư di truyền .14 Hình 8a: Câu gốc với các sự kiện 20 Hình 8b: Sau khi chuyển đổi sang sự phụ thuộc sự kiện .20 Hình 9: hình giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền 25 Hình 10: Minh họa dạng biểu di n hai c y. .. biến trong các hệ thống trích chọn sự kiện y sinh học gần đ y Chúng tôi cũng phân tích một số thuận lợi và khó khăn đối với hai hướng tiếp cận n y Cuối cùng chúng tôi giới thiệu một hình học m y đã được đề xuất để giải quyết cho bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền 2.1 Trích chọn sự kiện dựa vào phân tích phụ thuộc cú pháp Trong công trình của David McClosky và cộng sự. .. liệu kiểm thử được cung cấp bởi BioNLP-ST 2013, hệ thống do chúng tôi x y dựng đã đạt kết quả đứng thứ 5 tại CG Task Chúng tôi cũng dùng hình n y hình cơ sở cho bài toán trích chọn các sự kiện phức hợp, và so sánh kết quả với hình mới được đề xuất trong chương 3 18 Chương 3 hình giải quyết bài toán trích chọn sự kiện y sinh phức hợp dựa vàohình phân tích c y phụ thuộc Từ quá trình... cận dựa vào phân tích phụ thuộc cú pháp và hướng tiếp cận dựa vào hệ thống đường ống Đ y là cơ sở lý thuyết, phương pháp luận quan trọng để khóa luận đưa ra hình trích chọn các sự kiện y sinh phức hợp ở chương 3 Chương 3: Trên cơ sở những hướng tiếp cận trình b y ở chương 2 và thông qua khảo sát miền dữ liệu văn bản y sinh học về bệnh ung thư di truyền, khóa luận đã lựa chọn phương pháp dựa vào. ..Danh sách hình vẽ Hình 1: Trang chủ BioNLP-ST 2013 4 Hình 2: Ví dụ về trích chọn sự kiện liên quan đến bệnh ung thư di truyền .5 Hình 3: Minh họa đầu vào và đầu ra của bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền .8 Hình 4: Cấu trúc sự kiện y sinh học 8 Hình 5: hình của hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp 11 Hình 6:... thủ công hình đề xuất giải quyết bài toán Trích chọn sự kiện y sinh phức hợp trong văn bản về bệnh ung thư di truyền gồm 3 thành phần chính:  Thành phần nhận di n trigger  Thành phần trích chọn ứng viên sự kiện  Thành phần xếp hạng và đưa ra kết quả 3.2.1 Thành phần nhận di n trigger Thành phần n y tương tự như trong hình chúng tôi đã đề xuất cho bài toán trích chọn 40 kiểu sự kiện trong CG... miền y sinh học về bệnh ung thư di truyền, cũng như tìm hiểu một số hướng tiếp cận liên quan tới bài toán trích chọn sự kiện y sinh nói chung trong chương trước Chúng tôi nhận th y việc chuyển đổi dạng biểu di n ban đầu của sự kiện (standoff format – được tả trong chương 4) sang c y phụ thuộc (chứa các thực thể và trigger trong câu) cho kết quả khá tốt, đặc biệt với các kiểu sự kiện phức hợp . Sinh viên Phí Văn Th y i TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MÔ HÌNH PHÂN TÍCH C Y PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN. Phí Văn Th y TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP DỰA VÀO MÔ HÌNH PHÂN TÍCH C Y PHỤ THUỘC TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN KHÓA

Ngày đăng: 09/03/2014, 21:18

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan