Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam

79 677 0
Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời cảm ơn Hoàn thành đề tài luận văn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian, công việc và kiến thức để giúp tôi hoàn thành luận văn một cách tốt nhất. Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến sĩ Trần Văn Hoài, người Thầy đã hết sức nhiệt tình hướng dẫn tôi thực hiện luận văn này. Nguyễn Gia Khoa MỤC LỤC Phần Mở Đầu 1 1. Lý do thực hiện đề tài 1 2. Mục tiêu đề tài 6 3. Nội dung thực hiện 6 4. Ý nghĩa khoa học và thực tiễn của đề tài 6 Chương 1: Cơ Sở Dữ Liệu Virus Cúm 8 1.1 Khái quát 8 1.2 Xây dựng cở sở dữ liệu virus cúm 10 1.3 Kết luận 12 Chương 2: Xây Dựng Hệ Thống Cập Nhật 13 Tự Động Cơ Sở Dữ Liệu Virus Cúm 13 2.1 Những thách thức khi muốn cập nhật dữ liệu tự động 13 2.2 Xây dựng hệ thống cập nhật tự động cơ sở dữ liệu virus cúm 13 2.2.1 Mô hình hoạt động 13 2.2.2 Mô tả một số khối chức năng chính của hệ thống 15 2.2.2.1 Phần tương tác với người quản trị 15 2.2.2.2 Quyết định cập nhật dữ liệu 15 2.2.2.3 Lấy dữ liệu tự động 16 2.2.2.4 Phân tích dữ liệu mới cần lấy về 16 2.2.3 Hoạt động của hệ thống cập nhật 16 2.2.3.1 Thông tin truy cập trên hệ thống của NCBI 17 2.2.3.2 Cơ sở dữ liệu từ NCBI 17 2.2.3.3 Cơ sở dữ liệu từ DDBJ 18 2.2.3.4 Phương pháp lấy dữ liệu tự động 21 2.3 Kết luận 22 Chương 3: Hệ Thống Thông Tin Virus Cúm 23 3.1 Tổng quan 23 3.2 So sánh và đánh giá 23 3.3 Giới thiệu một số kết quả 25 3.3.1 Lấy dữ liệu ban đầu 25 3.3.2 Cập nhật dữ liệu định kỳ 26 3.3.3 Thêm dữ liệu từ một tập tin trình tự 26 3.3.4 Hệ thống thông tin virus cúm 28 3.3.4.1 Cung cấp thông tin virus cúm theo nhiều tiêu chí 29 3.3.4.2 Theo dõi mối quan hệ của virus cúm 30 3.3.4.3 Biểu diễn thông tin virus cúm của Việt Nam trên Google map 32 3.3.4.4 Thống kê virus cúm của Việt Nam 34 3.3.4.5 Thống kê virus cúm của Quốc tế 38 3.3.4.6 Thống kê virus cúm của Quốc gia 41 3.4 Kết luận 44 Chương 4: Khai Phá Dữ Liệu Virus Cúm 45 4.1 Phát biểu bài toán 45 4.2 Khai phá dữ liệu virus cúm Việt Nam 45 4.2.1 Thông tin virus các tỉnh thành Việt Nam 46 4.2.2 Thông tin virus cúm Việt Nam 50 4.2.3 Thông tin đặc trưng của virus cúm Việt Nam 53 4.3 Kết luận 56 Chương 5: Kết Luận 58 5.1 Đóng góp của đề tài 58 5.2 Hướng phát triển 58 Tài Liệu Tham Khảo PHỤ LỤC CƠ SỞ DỮ LIỆU VIRUS CÚM Danh Mục Các Từ Viết Tắt A Adenine API Application Programming Interface BLAST Basic Local Alignment Search Tool C Cytosine cDNA Complementary DNA CSDL Cơ sở dữ liệu DDBJ DNA Data Bank of Japan DNA Deoxyribonucleic acid EMBL European Molecular Bioinformatic Laboratory IVDBVN Influenza Virus DataBase Vietnam FASTA Fast Aligment Search Tool G Guanine GC Guanine Cytosine INSDC International Nucleotide Sequence Database Collaboration mRNA messager RNA NCBI National Center for Biotechnology Information RNA Ribonucleic acid rRNA robosomal RNA T Thymine, Thymidine tRNA transfer RNA U Uracil Danh Mục Các Hình Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI 2 Hình 2: Trang chủ hệ thống virus cúm của IVDB 2 Hình 3: Trang chủ hệ thống virus cúm của NCBI 3 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 4 Hình 1.1: Mô hình quan hệ của cơ sở dữ liệu virus cúm 11 Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu 14 Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL 15 Hình 2.3: Số lượt truy cập Web Server của DDBJ 19 Hình 2.4: Qui trình lấy dữ liệu mới 22 Hình 3.1: Thêm dữ liệu lần đầu tiên vào CSDL nội tại 25 Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ 26 Hình 3.3: Chọn quốc gia 27 Hình 3.4: Chọn tập tin trình tự 27 Hình 3.5: Thêm trình tự mới từ một tập tin 28 Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN 29 Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang 30 Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map 30 Hình 3.9: Trình tự láng giềng của Tiền Giang 31 Hình 3.10: Xác định các tỉnh/thành phố láng giềng với Tiền Giang trên Google map 31 Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu 32 Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan hệ giữa số lượng trình tự và màu sắc 33 Hình 4.1: Các luật của virus cúm các tỉnh thành Việt Nam 48 Hình 4.2: Danh sách các luật của virus cúm Việt Nam 51 Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) 54 Hình 4.4: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên phải) 55 Danh Mục Các Bảng Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm 23 Bảng 3.2: Các loại gene của virus cúm 36 Bảng 4.1: Danh sách các luật của virus cúm các tỉnh thành Việt Nam 49 Bảng 4.2: Danh sách các luật của virus cúm Việt Nam 52 Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam 56 1 Phần Mở Đầu Tên đề tài: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU VIRUS CÚM Ở VIỆT NAM 1. Lý do thực hiện đề tài Virus cúm (influenza) - là nguyên nhân gây ra bệnh cúm ở người và động vật. Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Hiện nay, một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011, NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình 1). 2 Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) Ở châu Á, Viện nghiên cứu genome Bắc Kinh, Trung Quốc xây dựng cơ sở dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn). Hiện tại, IVDB lưu trữ khoảng 43.000 trình tự DNA/protein của nhiều loại; nhiều chủng loại virus cúm khác nhau của nhiều quốc gia trên thế giới [5]. Hình 2: Trang chủ hệ thống virus cúm của IVDB (http://influenza.psych.ac.cn) 3 Tuy nhiên, các thông tin do hệ thống NCBI, IVDB cung cấp chỉ chi tiết đến mức độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia (Hình 3). Hình 3: Trang chủ hệ thống virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=database) Việt Nam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng nề của virus cúm. Từ năm 2003 đến nay chúng ta đang phải đối mặt với dịch cúm gia cầm H5N1. Cúm gia cầm H5N1 đã làm nhiều người chết, và thiêu hủy một lượng lớn gia cầm với tổng thiệt hại hàng trăm triệu đô la Mỹ (Hình 4). Hiện nay, chúng ta đang đối mặt với dịch cúm lợn H1N1 – số người nhiễm được thông báo là 11 ngàn, và đã có trên 58 ca tử vong. (http://www.moh.gov.vn/homebyt/vn/portal/InfoDetail.jsp?area=58&cat=1545&ID=8486) 4 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 http://www.who.int/csr/disease/avian_influenza/country/cases_table_2010_04_09/en/index.html Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu về virus cúm đã được tiến hành ở Việt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học ở Việt Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về virus cúm ở mức độ sinh học phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến hành trong thời gian qua. Hiện tại có hơn 2.951 trình tự DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành ở Việt Nam từ năm 2001 đến nay. Cục thú y trung ương đã tiến hành nhiều nghiên cứu về virus cúm, đặc biệt là cúm gia cầm H5N1. Tiêu biểu là nhóm nghiên cứu của TS. Nguyễn Tiến Dũng đã tiến hành giải mã toàn bộ hệ gen của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã [...]... được dữ liệu virus cúm mới nhất từ các cơ sở dữ liệu trên thế giới Để đạt được những yêu cầu đề ra ở trên, hệ thống tự động cập nhật cơ sở dữ liệu virus cúm được xây dựng theo mô hình sau (Hình 2.1) 14 Quyết định cập nhật dữ liệu 3.Xác định dữ liệu mới Ngân hàng dữ liệu thế giới 1.Yêu cầu thông tin về dữ liệu 2 .Thông tin về dữ liệu 5 Lấy dữ liệu mới về 4 .Thông tin về dữ liệu cần cập nhật 6 Lưu thông tin. .. tự động từ các cơ sở dữ liệu về gen liên quan đến virus cúm từ một số ngân hàng dữ liệu sinh học trên thế giới Từ đó, khai thác nguồn dữ liệu virus cúm từ ngân hàng dữ liệu này để xây dựng hệ thống thông tin chi tiết về dữ liệu virus cúm cho các tỉnh thành của Việt Nam 3 Nội dung thực hiện  Tìm hiểu một số ngân hàng dữ liệu sinh học trên thế giới  Nghiên cứu phương pháp cập nhật dữ liệu tự động  Giải... thống thông tin giúp cho các nhà quản lý (bộ, ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như các công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho các virus cúm ở Việt Nam Từ đây đặt ra một vấn đề đó là: Nghiên cứu để xây dựng hệ thống cho phép tạo dữ liệu một cách tự động từ các cơ sở dữ liệu về gen liên quan đến virus cúm từ một số. .. nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách chi tiết Việc xây dựng một hệ thống có khả năng tự động cập nhật dữ liệu virus cúm từ một số ngân hàng dữ liệu sinh học dùng chung của thế giới, đồng thời cung cấp thông tin chi tiết dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành là hết sức cần thiết Với dữ liệu chi tiết đến các tỉnh thành, chúng ta có thể áp dụng công nghệ “google map” để... Thiết kế cơ sở dữ liệu lưu trữ thông tin virus cúm theo yêu cầu sử dụng  Xây dựng hệ thống cập nhật dữ liệu tự động  Xây dựng hệ thống thông tin chi tiết về virus cúm cho các tỉnh thành của Việt Nam  Thu thập dữ liệu virus cúm từ DDBJ và NCBI  Sử dụng khai phá dữ liệu để chiết xuất các thông tin hữu ích từ CSDL virus cúm 4 Ý nghĩa khoa học và thực tiễn của đề tài Sự phát triển mạnh mẽ của công nghệ. .. các dữ liệu nghiên cứu của mình Do đó, dữ liệu trong các cơ sở dữ liệu này luôn chứa đựng các thông tin mới Thông thường, các dữ liệu mới sẽ được cập nhật và có sự liên thông giữa các hệ thống lớn (Hình 3.2) Hệ thống hiện tại phục vụ nhu cầu thiết yếu cho các nhà nghiên cứu ngoài nước củng như trong nước và người dân về các thông tin mới nhất của cơ sở dữ liệu virus cúm các tỉnh thành của Việt Nam và... dữ liệu sinh học trên thế giới Từ đó, xây dựng hệ thống cập nhật dữ liệu virus cúm cho các tỉnh thành của Việt Nam Hệ thống này có thể cung cấp dữ liệu, thông tin cho các nhà nghiên cứu; các nhà quản lý (bộ, ngành y tế); và người dân thông tin chi tiết về dữ liệu virus cúm các tỉnh thành của Việt Nam 6 2 Mục tiêu đề tài Nghiên cứu để xây dựng hệ thống cho phép tạo dữ liệu một cách tự động từ các cơ. .. triển, giao diện và dữ liệu đầu vào 8 Chương 1: Cơ Sở Dữ Liệu Virus Cúm 1.1 Khái quát Để có thể xây dựng và triển khai hệ thống cập nhật cơ sở dữ dữ liệu virus cúm cho các tỉnh thành của Việt Nam Hệ thống này cho phép lấy dữ liệu một cách tự động chủ yếu từ hai hệ thống của NCBI và DDBJ Chúng ta cần phải thiết kế cơ sở dữ liệu để lưu trữ các trình tự được lấy về từ các ngân hàng dữ liệu sinh học dùng... nhà nghiên cứu; các nhà quản lý (bộ, ngành y tế) có được những thông tin hữu ích Với những thông tin này, họ có thể chủ động đưa ra các dự báo, sự chuẩn bị trong việc ứng phó với dịch cúm 3.3 Giới thiệu một số kết quả Để thử nghiệm hệ thống cập nhật tự động cơ sở dữ liệu virus cúm, hệ thống đã được ứng dụng cho việc cập nhật cơ sở dữ liệu virus cúm của Việt Nam Nhằm khai thác các dữ liệu đã lấy về, một. .. dữ liệu Lấy dữ liệu tự động 7 Cập nhật dữ liệu 6.1 Gửi thông tin quá trình lấy dữ liệu Tương tác với người quản trị Phân tích cập nhật dữ liệu virus cúm 8 Lưu vào cơ sở dữ liệu CSDL Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu Nhận xét: Các ngân hàng dữ liệu sinh học lớn trên thế giới (NCBI, DDBJ, EMBL, ) thường được các nhà nghiên cứu sinh học sử dụng và cống bố các dữ . đặc trưng của virus cúm Việt Nam 56 1 Phần Mở Đầu Tên đề tài: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU VIRUS CÚM Ở VIỆT NAM 1. Lý do thực hiện đề tài Virus cúm (influenza). các virus cúm ở Việt Nam. Từ đây đặt ra một vấn đề đó là: Nghiên cứu để xây dựng hệ thống cho phép tạo dữ liệu một cách tự động từ các cơ sở dữ liệu về gen liên quan đến virus cúm từ một số. Khai phá dữ liệu virus cúm Việt Nam 45 4.2.1 Thông tin virus các tỉnh thành Việt Nam 46 4.2.2 Thông tin virus cúm Việt Nam 50 4.2.3 Thông tin đặc trưng của virus cúm Việt Nam 53 4.3 Kết luận

Ngày đăng: 06/10/2014, 18:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan