Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

79 571 0
Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời cảm ơn Hoàn thành đề tài luận văn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian, công việc và kiến thức để giúp tôi hoàn thành luận văn một cách tốt nhất. Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến Trần Văn Hoài, người Thầy đã hết sức nhiệt tình hướng dẫn tôi thực hiện luận văn này. Nguyễn Gia Khoa MỤC LỤC Phần Mở Đầu 1 1. Lý do thực hiện đề tài .1 2. Mục tiêu đề tài 6 3. Nội dung thực hiện .6 4. Ý nghĩa khoa học và thực tiễn của đề tài .6 Chương 1: Sở Dữ Liệu Virus Cúm .8 1.1 Khái quát 8 1.2 Xây dựng cở sở dữ liệu virus cúm 10 1.3 Kết luận 12 Chương 2: Xây Dựng Hệ Thống Cập Nhật 13 Tự Động Sở Dữ Liệu Virus Cúm 13 2.1 Những thách thức khi muốn cập nhật dữ liệu tự động .13 2.2 Xây dựng hệ thống cập nhật tự động sở dữ liệu virus cúm .13 2.2.1 Mô hình hoạt động .13 2.2.2 Mô tả một số khối chức năng chính của hệ thống .15 2.2.2.1 Phần tương tác với người quản trị .15 2.2.2.2 Quyết định cập nhật dữ liệu 15 2.2.2.3 Lấy dữ liệu tự động .16 2.2.2.4 Phân tích dữ liệu mới cần lấy về .16 2.2.3 Hoạt động của hệ thống cập nhật .16 2.2.3.1 Thông tin truy cập trên hệ thống của NCBI 17 2.2.3.2 sở dữ liệu từ NCBI 17 2.2.3.3 sở dữ liệu từ DDBJ 18 2.2.3.4 Phương pháp lấy dữ liệu tự động 21 2.3 Kết luận 22 Chương 3: Hệ Thống Thông Tin Virus Cúm 23 3.1 Tổng quan .23 3.2 So sánh và đánh giá 23 3.3 Giới thiệu một số kết quả .25 3.3.1 Lấy dữ liệu ban đầu .25 3.3.2 Cập nhật dữ liệu định kỳ 26 3.3.3 Thêm dữ liệu từ một tập tin trình tự 26 3.3.4 Hệ thống thông tin virus cúm 28 3.3.4.1 Cung cấp thông tin virus cúm theo nhiều tiêu chí 29 3.3.4.2 Theo dõi mối quan hệ của virus cúm 30 3.3.4.3 Biểu diễn thông tin virus cúm của Việt Nam trên Google map 32 3.3.4.4 Thống kê virus cúm của Việt Nam .34 3.3.4.5 Thống kê virus cúm của Quốc tế 38 3.3.4.6 Thống kê virus cúm của Quốc gia 41 3.4 Kết luận 44 Chương 4: Khai Phá Dữ Liệu Virus Cúm .45 4.1 Phát biểu bài toán .45 4.2 Khai phá dữ liệu virus cúm Việt Nam 45 4.2.1 Thông tin virus các tỉnh thành Việt Nam 46 4.2.2 Thông tin virus cúm Việt Nam 50 4.2.3 Thông tin đặc trưng của virus cúm Việt Nam .53 4.3 Kết luận 56 Chương 5: Kết Luận 58 5.1 Đóng góp của đề tài 58 5.2 Hướng phát triển .58 Tài Liệu Tham Khảo PHỤ LỤC SỞ DỮ LIỆU VIRUS CÚM Danh Mục Các Từ Viết Tắt A Adenine API Application Programming Interface BLAST Basic Local Alignment Search Tool C Cytosine cDNA Complementary DNA CSDL sở dữ liệu DDBJ DNA Data Bank of Japan DNA Deoxyribonucleic acid EMBL European Molecular Bioinformatic Laboratory IVDBVN Influenza Virus DataBase Vietnam FASTA Fast Aligment Search Tool G Guanine GC Guanine Cytosine INSDC International Nucleotide Sequence Database Collaboration mRNA messager RNA NCBI National Center for Biotechnology Information RNA Ribonucleic acid rRNA robosomal RNA T Thymine, Thymidine tRNA transfer RNA U Uracil Danh Mục Các Hình Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI 2 Hình 2: Trang chủ hệ thống virus cúm của IVDB 2 Hình 3: Trang chủ hệ thống virus cúm của NCBI .3 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 .4 Hình 1.1: Mô hình quan hệ của sở dữ liệu virus cúm 11 Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu .14 Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL 15 Hình 2.3: Số lượt truy cập Web Server của DDBJ .19 Hình 2.4: Qui trình lấy dữ liệu mới 22 Hình 3.1: Thêm dữ liệu lần đầu tiên vào CSDL nội tại 25 Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ .26 Hình 3.3: Chọn quốc gia .27 Hình 3.4: Chọn tập tin trình tự 27 Hình 3.5: Thêm trình tự mới từ một tập tin 28 Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN 29 Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang .30 Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map .30 Hình 3.9: Trình tự láng giềng của Tiền Giang 31 Hình 3.10: Xác định các tỉnh/thành phố láng giềng với Tiền Giang trên Google map 31 Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu .32 Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan hệ giữa số lượng trình tự và màu sắc .33 Hình 4.1: Các luật của virus cúm các tỉnh thành Việt Nam 48 Hình 4.2: Danh sách các luật của virus cúm Việt Nam 51 Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) 54 Hình 4.4: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên phải) 55 Danh Mục Các Bảng Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm .23 Bảng 3.2: Các loại gene của virus cúm 36 Bảng 4.1: Danh sách các luật của virus cúm các tỉnh thành Việt Nam .49 Bảng 4.2: Danh sách các luật của virus cúm Việt Nam 52 Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam .56 1 Phần Mở Đầu Tên đề tài: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN SỞ DỮ LIỆU VIRUS CÚM VIỆT NAM 1. Lý do thực hiện đề tài Virus cúm (influenza) - là nguyên nhân gây ra bệnh cúm người và động vật. Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúmmột trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Hiện nay, một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ các sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011, NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình 1). 2 Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) châu Á, Viện nghiên cứu genome Bắc Kinh, Trung Quốc xây dựng sở dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn). Hiện tại, IVDB lưu trữ khoảng 43.000 trình tự DNA/protein của nhiều loại; nhiều chủng loại virus cúm khác nhau của nhiều quốc gia trên thế giới [5]. Hình 2: Trang chủ hệ thống virus cúm của IVDB (http://influenza.psych.ac.cn) 3 Tuy nhiên, các thông tin do hệ thống NCBI, IVDB cung cấp chỉ chi tiết đến mức độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia (Hình 3). Hình 3: Trang chủ hệ thống virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=database) Việt Nam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng nề của virus cúm. Từ năm 2003 đến nay chúng ta đang phải đối mặt với dịch cúm gia cầm H5N1. Cúm gia cầm H5N1 đã làm nhiều người chết, và thiêu hủy một lượng lớn gia cầm với tổng thiệt hại hàng trăm triệu đô la Mỹ (Hình 4). Hiện nay, chúng ta đang đối mặt với dịch cúm lợn H1N1 – số người nhiễm được thông báo là 11 ngàn, và đã trên 58 ca tử vong. (http://www.moh.gov.vn/homebyt/vn/portal/InfoDetail.jsp?area=58&cat=1545&ID=8486) 4 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 http://www.who.int/csr/disease/avian_influenza/country/cases_table_2010_04_09/en/index.html Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu về virus cúm đã được tiến hành Việt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học Việt Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về virus cúm mức độ sinh học phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến hành trong thời gian qua. Hiện tại hơn 2.951 trình tự DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành Việt Nam từ năm 2001 đến nay. Cục thú y trung ương đã tiến hành nhiều nghiên cứu về virus cúm, đặc biệt là cúm gia cầm H5N1. Tiêu biểu là nhóm nghiên cứu của TS. Nguyễn Tiến Dũng đã tiến hành giải mã toàn bộ hệ gen của 33 virus cúm nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã

Ngày đăng: 18/12/2013, 14:28

Hình ảnh liên quan

Hình 2: Trang chủ hệ thống virus cúm của IVDB - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 2.

Trang chủ hệ thống virus cúm của IVDB Xem tại trang 8 của tài liệu.
Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html)  - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 1.

Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) Xem tại trang 8 của tài liệu.
Hình 4: Thống kê số trường hợp người mắc cúm H5N1 - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 4.

Thống kê số trường hợp người mắc cúm H5N1 Xem tại trang 10 của tài liệu.
Hình 1.1: Mô hình quan hệ của cơ sở dữ liệu virus cúm - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 1.1.

Mô hình quan hệ của cơ sở dữ liệu virus cúm Xem tại trang 17 của tài liệu.
Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 2.1.

Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu Xem tại trang 20 của tài liệu.
Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 2.2.

Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ Xem tại trang 21 của tài liệu.
của mình. Hình 2.3 sẽ cho chúng ta biết số lượt truy cập đến Web Server của DDBJ. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

c.

ủa mình. Hình 2.3 sẽ cho chúng ta biết số lượt truy cập đến Web Server của DDBJ Xem tại trang 25 của tài liệu.
liệu nội tại. Hình sau sẽ chỉ rõ quá trình lấy dữ liệu mới. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

li.

ệu nội tại. Hình sau sẽ chỉ rõ quá trình lấy dữ liệu mới Xem tại trang 27 của tài liệu.
Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Bảng 3.1.

So sánh và đánh giá với các hệ thống thông tin virus cúm Xem tại trang 29 của tài liệu.
Qua bảng so sán hở trên, hệ thống thông tin virus cúm của IVDBVN đã cung cấp một - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

ua.

bảng so sán hở trên, hệ thống thông tin virus cúm của IVDBVN đã cung cấp một Xem tại trang 30 của tài liệu.
hệ thống đã thêm vào CSDL được trên 140.000 trình tự virus cúm (Hình 3.1). - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

h.

ệ thống đã thêm vào CSDL được trên 140.000 trình tự virus cúm (Hình 3.1) Xem tại trang 31 của tài liệu.
Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.2.

Lập lịch cập nhật CSDL tự động theo định kỳ Xem tại trang 32 của tài liệu.
Hình 3.4: Chọn tập tin trình tự Bước 3: Nhấn nút  Thêm vào CSDL - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.4.

Chọn tập tin trình tự Bước 3: Nhấn nút Thêm vào CSDL Xem tại trang 33 của tài liệu.
Hình 3.5: Thêm trình tự mới từ một tập tin - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.5.

Thêm trình tự mới từ một tập tin Xem tại trang 34 của tài liệu.
Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.6.

Hệ thống thông tin virus cúm của IVDBVN Xem tại trang 35 của tài liệu.
Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.7.

Trình tự virus cúm của tỉnh Tiền Giang Xem tại trang 36 của tài liệu.
Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.8.

Đánh dấu Tỉnh Tiền Giang trên Google map Xem tại trang 36 của tài liệu.
Hình 3.9: Trình tự láng giềng của Tiền Giang - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.9.

Trình tự láng giềng của Tiền Giang Xem tại trang 37 của tài liệu.
Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.11.

Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu Xem tại trang 38 của tài liệu.
Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 3.12.

Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan Xem tại trang 39 của tài liệu.
virus. Bảng sau cho chúng ta thông tin về các loại gene virus và số phân đoạn của nó. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

virus..

Bảng sau cho chúng ta thông tin về các loại gene virus và số phân đoạn của nó Xem tại trang 42 của tài liệu.
Nhìn vào biểu đồ, chúng ta thấy tình hình dịch cúm diễn ra phức tạp nhất là vào các - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

h.

ìn vào biểu đồ, chúng ta thấy tình hình dịch cúm diễn ra phức tạp nhất là vào các Xem tại trang 47 của tài liệu.
Hình 4.2: Danh sách các luật của virus cúm Việt Nam - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 4.2.

Danh sách các luật của virus cúm Việt Nam Xem tại trang 57 của tài liệu.
Bảng 4.2: Danh sách các luật của virus cúm Việt Nam - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Bảng 4.2.

Danh sách các luật của virus cúm Việt Nam Xem tại trang 58 của tài liệu.
Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

Hình 4.3.

Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) Xem tại trang 60 của tài liệu.
phenotype Kiểu hình - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

phenotype.

Kiểu hình Xem tại trang 73 của tài liệu.
4. Mô tả cấu trúc các bảng dữ liệu - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

4..

Mô tả cấu trúc các bảng dữ liệu Xem tại trang 75 của tài liệu.
Bảng NATION – Lưu trữ thông tin các quốc gia - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

ng.

NATION – Lưu trữ thông tin các quốc gia Xem tại trang 76 của tài liệu.
BẢNG LOCATION – Lưu trữ thông tin vị trí địa lý của một trình tự virus - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

u.

trữ thông tin vị trí địa lý của một trình tự virus Xem tại trang 78 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan