Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm

73 487 0
Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG HÀ THỊ THANH HỒNG PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Hà Thị Thanh Hồng PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Hoàng Đỗ Thanh Tùng Thái nguyên, 2015 i LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn công trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học Tiến sĩ Hoàng Đỗ Thanh Tùng Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Tôi xin chịu trách nhiệm nghiên cứu Học viên Hà Thị Thanh Hồng ii LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn sâu sắc tới TS.Hoàng Đỗ Thanh Tùng Thầy hướng dẫn khoa học, tận tình bảo, giúp đỡ thực luận văn Tôi xin cảm ơn thầy cô Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên giảng dạy truyền kiến thức cho Tôi xin chân thành cảm ơn Ban giám hiệu trường Cao đẳng Công nghiệp Thực Phẩm đồng nghiệp khoa công nghệ thông tin tạo điều kiện giúp đỡ hoàn thành nhiệm vụ học tập Cuối cùng, xin cảm ơn người thân bạn bè chia sẻ, gúp đỡ hoàn thành luận văn Mặc dù cố gắng hoàn thành luận văn với tất nỗ lực thân, luận văn thiếu sót Kính mong nhận ý kiến đóng góp quý Thầy, Cô bạn bè đồng nghiệp Tôi xin chân thành cảm ơn! Việt Trì, ngày 10 tháng năm 2015 Hà Thị Thanh Hồng iii MỤC LỤC LỜI CẢM ƠN…………………………………………………………….….i LỜI CAM ĐOAN …………………………………………………….…… ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC BẢNG BIỂU vi DANH MỤC HÌNH VẼ vii MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN 1.1 Giới thiệu tin sinh học 1.1.1 Định nghĩa 1.1.2 Sự phát triển tin sinh học Việt Nam 1.2 Sinh học phân tử 1.2.1 Axit nucleic nucleotide 1.2.2 Protein axit amin 10 1.2.3 GEN gì? 11 1.2.4 Nhiễm sắc thể hệ GEN 14 1.3 Cơ sở liệu GEN 15 1.3.1 Cơ sở liệu NCBI 16 1.3.2 Cơ sở liệu EMBL/EBI 19 1.3.3 Cơ sở liệu DDBJ 19 1.4 Định dạng liệu sinh học 20 1.4.1 Định dạng liệu sinh học theo chuẩn FASTA 20 1.4.2 Định dạng liệu sinh học theo dạng ALN/ClustalW 22 1.4.3 GENBank 22 iv 1.5 Kết luận chương 23 CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 25 2.1 Giới thiệu 25 2.2 Cấu trúc liệu hệ GEN cần thiết số 27 2.2.1 Cấu trúc liệu hệ GEN 27 2.2.2 Sự cần thiết lợi đánh số cho tìm kiếm tương đồng GEN 29 2.3 Phương pháp đánh số cho CSDL GEN 30 2.4 Phương pháp đánh số dựa biến đổi cấu trúc số 31 2.5 Phương pháp đánh số dựa vào kích thước (Length based index algorithms) 31 2.5.1 Thuật toán đánh số dựa kích thước cố định 32 2.5.2 Thuật toán đánh số dựa kích thước biến đổi 35 2.6 Thuật toán Blast 40 2.6.1 Giới thiệu 40 2.6.2 Thuật toán 41 2.7 Kết luận chương 45 CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 46 3.1 Bài toán 46 3.2 Xây dựng chương trình thử nghiệm 47 3.2.1 Chuẩn bị liệu 47 3.2.2 Lựa chọn giải pháp 49 Thuật toán 49 3.2.3 Thiết kế hệ thống 50 3.3 Kết luận chương 57 v KẾT LUẬN VÀ KIẾN NGHỊ 59 DANH MỤC TÀI LIỆU THAM KHẢO 61 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Viết đầy đủ CSDL Cơ sở liệu GEN Genome DNA Axit Deoxyribo Nucleic ARN Axit Ribo Nuclêic NCBI National Center for BioInformatic Information dbEST data base of Expressed Sequence Tags MGC Mamalian GEN Collection EBI European Biotechnology Information BLAST Basic Local Alignment Search Tool EMBL European Molecular Biology Laboratory OMIM Online Mendelian Inheritance in Man EPO European Patent Office ISDC ASD International Sequence Database Collaboration Minimum Information About a Microarray Experiment Alternative Splicing Database ATD Alternate Transcript Diversity IPD Immuno Polymorphism Database IPD Center for Information Biology MIAME CIB – DDBJ and DNA Data Bank of Japan vii DANH MỤC BẢNG BIỂU Bảng 1.1 Nhiệm vụ số Bộ, ngành bảo tồn quỹ GEN quốc gia Bảng 1.2 Kết bảo tồn, lưu giữ nguồn GEN sinh vật Bảng 1.3 Tên đầy đủ, tên viết tắt năm loại nucleotide Bảng 2.1 Minh họa tư tưởng thuật toán BLAST 41 viii DANH MỤC HÌNH VẼ Hình 1.1 Cấu trúc xoắn kép trình tự DNA 10 Hình 1.2 Minh họa cấu trúc axít amin 11 Hình 1.3 Minh họa đoạn GEN cấu trúc DNA 12 Hình 1.4 Quá trình tổng hợp Protein từ đoạn DNA 13 Hình 1.5 Định dạng chuẩn FASTA dùng để lưu giữ thông tin trình tự DNA 21 Hình 1.6 Định dạng FASTA lưu giữ nhiều trình tự DNA (Protein) 23 Hình 2.1 Cơ chế ánh xạ trình tự 28 Hình 2.2 Sơ đồ thuật toán BLAST 44 Hình 3.1 Kết tìm kiếm hệ GEN người NCBI 47 Hình 3.2 Cơ sở liệu NCBI 48 Hình 3.3 Cơ sở liệu mô 49 Hình 3.4 Giao diện 52 Hình 3.5 Thông báo lỗi từ hệ thống BLAST không tìm thầy liệu trình tự truy vấn 53 Hình 3.6 Giao diện nhập liệu 54 Hình 3.7 Kết chạy thuật toán BLAST 55 49 Hình 3.3 Cơ sở liệu thử nghiệm 3.2.2 Lựa chọn giải pháp Thuật toán Chương trình sử dụng thuật toán BLAST cho phép so sánh nhanh trình tự X với trình tự sở liệu để tìm cặp đoạn có độ giống cao chúng 50 Chương trình mặc định ngưỡng kì vọng 10 độ dài chuỗi hạt giống 11 Thuật toán BLAST làm nhiệm vụ: - Đánh số cho CSDL GEN - Tìm độ tương đồng mẫu GEN liệu nhập vào mẫu CSDL GEN Phát biểu thuật toán BLAST: Dữ liệu vào: Hai trình tự DNA X= (x1, x2, …, xp) Y=(y1, y2, …, yq); ma trận điểm giống C nucleotide; ngưỡng giảm điểm θ; độ dài k đoạn hạt giống Yêu cầu: Liệt kê tất cặp đoạn có độ giống cao hai trình tự X Y Dữ liệu ra: Các cặp đoạn có độ giống cao hai trình tự X Y 3.2.3 Thiết kế hệ thống 3.2.3.1 Công cụ môi trường phát triển Hệ quản trị sở liệu Hệ quản trị sở liệu lựa chọn Microsoft Access 2003 Ưu điểm hệ quản trị sở liệu đơn giản, giao diện thân thiện, nhập/xuất (import/export) dễ dàng liệu hệ thống với file văn Tính cần thiết trao đổi liệu với thành phần bên lưu trữ liệu dạng file văn Microsoft Access với NET Framework 2005 giảm phức tạp việc phát triển ứng dụng Các mở rộng ngôn ngữ truy vấn tích hợp (LINQ) NET Framework cách mạng hóa cách 51 chuyên gia phát triển truy vấn liệu việc mở rộng C#.NET Basic.NET để hỗ trợ cú pháp truy vấn giống SQL vốn có Ngôn ngữ lập trình C# ngôn ngữ lập trình hướng đối tượng phát triển Microsoft, phần khởi đầu cho kế hoạch NET họ Tên ngôn ngữ bao gồm ký tự thăng theo Microsoft theo ECMA C#, bao gồm dấu số thường Microsoft phát triển C# dựa C++ Java 3.2.3.2 Một số giao diện chương trình Hình 3.4: Giao diện 52 - Bước 1: + Nhập trình tự DNA truy vấn, người dùng phải nhập liệu với trình tự DNA truy vấn cách nhập trực tiếp trình tự DNA truy vấn theo định dạng FASTA Ví dụ: CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGT Trình tự FASTA nhập vào so sánh với trình tự liệu truy vấn sở liệu sẵn có phần mềm (tập hợp trình tự nucleotide người, chó, chuột) + Xác định tham số cho thuật toán BLAST: Tại bước người dùng thay đổi tham số đầu vào cho thuật toán BLAST Phần yêu cầu người dùng phải có hiểu biết thuật toán BLAST, không thay đổi tham số làm cho thuật toán BLAST chạy không hiệu kết trả không tốt mong muốn Hai tham số là:  Ngưỡng kì vọng: Dùng để xác định liệu cặp đoạn tìm trình tìm kiếm có trả lại kết cho người dùng không Ví dụ, ngưỡng kì vọng 10, cặp đoạn có tổng điểm giống S thỏa mãn điều kiện E- value(S) ≤ 10 giữ lại để hiển thị cho người dùng  Độ dài chuỗi hạt giống: thường 11 Nếu k lớn số lượng cặp đoạn hạt giống có độ dài k nhỏ (số lượng cặp đoạn có tổng điểm giống cao tìm trình tìm kiếm ít) ngược lại Yêu cầu ngưỡng kì vọng độ dài chuỗi hạt giống phải số nguyên dương Độ dài chuỗi hạt giống phải nhỏ độ dài chuỗi nhập liệu nhập 53 - Bước 2: Chạy chương trình BLAST: Để chạy chương trình BLAST, người dùng bấm chuột vào nút “OK” Hệ thống Nucleotide blast tiến hành tìm kiếm đoạn có độ giống cao trình tự DNA truy vấn với trình tự DNA sở liệu truy vấn chọn Nếu liệu nhập vào không hợp lệ, chương trình thông báo lỗi cho người dùng Lỗi liệu không chuẩn FASTA (chuẩn FASTA bao gồm kí tự A, T, G, X không chứa khoảng trống) Hình 3.5: Thông báo lỗi từ hệ thống BLAST không tìm thầy liệu trình tự truy vấn 54 Hình 3.6: Giao diện nhập liệu Nhấn nút OK để bắt đầu trình tìm kiếm Nếu liệu nhập vào hợp lệ, chương trình thực tìm kiếm đưa kết 55 Hình 3.7: Kết chạy thuật toán BLAST Kết chương trình trả lại cho người dùng bao gồm: - Phần tổng hợp kết tìm kiếm dạng hình ảnh - Phần mô tả kết tìm kiếm: độ dài chuỗi; độ tương đồng chuỗi với mẫu CSDL; - Thời gian chạy kết tìm kiếm * Phần tổng hợp kết tìm kiếm dạng hình ảnh (Hình 3.7) 56 Phần cho người dùng nhìn tổng quát hình ảnh kết thu so sánh trình tự liệu truy vấn với sở liệu tìm kiếm Phần chứa thông tin sau đây: - Số lượng cặp đoạn điểm giống cao tìm - Phân bố điểm giống cặp đoạn theo màu sắc (trong ví dụ trên, cặp đoạn có mầu: đen, xanh da trời, xanh cây) đoạn có khoảng 50 – 80 điểm giống nên có màu xanh Trong đó, công thức tính tổng số điểm giống đa trình tự DNA là: n f(A)= n  f(Xi, Xj) i 1 ji 1 với f(Xi, Xj) điểm giống hai trình tự Xi Xj tính công thức: k f(Xi, Xj) =  C(Xi(s), Xj(s)) s 1 Cách tính điểm giống đa trình tự viết lại dạng tổng điểm giống tất cột A, cụ thể là: k f(A) =  f(As) s 1 đó, f(As) điểm giống cột As đa trình tự A tính sau: n f(As) = n  i 1 ji 1 C(Xi(s), Xj(s)) 57 với ma trận điểm giống C đặt là:  C(x, x) = 2, với nucleotide x  C(x, y) = -1, với nucleotide x#y  C(-, x) = C(x, -) = -2 nucleotide x - Độ dài vị trí cặp đoạn trình tự truy vấn Trong ví dụ trên, ta thấy cặp đoạn độ dài vị trí 13 kết thúc vị trí 34 * Phần mô tả kết tìm kiếm: độ dài chuỗi đầu vào 34; độ tương đồng chuỗi với mẫu CSDL * Thời gian chạy kết tìm kiếm: với CSDL khoảng 5000 GEN thời gian chạy thuật toán BLAST khoảng 5s 3.3 Kết luận chương Trong chương này, luận văn trình bày phần mềm cài đặt thử nghiệm sử dụng phương pháp đánh số cho GEN để tăng tốc độ tìm kiếm Đó thuật toán BLAST để tìm kiếm tương đồng trình tự GEN với sở liệu GEN cho sẵn hệ thống Minh họa đoạn liệu GEN (hình 3.7) Từ cho thấy thuật toán đưa kết tốt việc so sánh hai trình tự GEN với tốc độ tương đối nhanh Thuật toán BLAST tìm thấy nhanh giống hai chuỗi sở liệu chuỗi GEN Với CSDL mô 5000 mẫu GEN, thời gian thực thuật toán khoảng 5s Trong thực tế, lượng liệu GEN khổng lồ (NCBI) ngày lớn khiến cho việc tìm kiếm GEN tương đồng ngày phức tạp tốn Thuật toán BLAST dựa việc đánh số cho CSDL GEN phần giải vấn đề Với hàng triệu liệu vậy, thuật toán BLAST thực đánh số tìm kiếm tương đồng khoảng vài chục giây Có thể nói việc xử lý liệu 58 BLAST đưa kết tương đối nhanh thời gian chạy thuật toán không phụ thuộc nhiều vào độ dài chuỗi Chương trình thử nghiệm giải vấn đề: - Cung cấp cho người dùng thông tin GEN CSDL có độ tương đồng cao với GEN mẫu - Chỉ số lượng cặp đoạn phân bố điểm giống cao tìm cặp đoạn theo màu sắc - Thời gian xử lý theo thuật toán BLAST Chương trình chưa giải vấn đề với sở liệu khổng lồ BigData Trên thực tế, liệu 5000 GEN toán thử nghiệm phần nhỏ ngân hàng GENBank NCBI 59 KẾT LUẬN VÀ KIẾN NGHỊ Những vấn đề giải được: Ngành sinh tin học ngành hấp dẫn nhiều nhà nghiên cứu nước tham gia Với khám phá cấu trúc GEN mở nhiều hướng nghiên cứu có y sinh học Các kết đạt luận văn:”Phương pháp đánh số sở liệu cho GEN để tăng tốc độ tìm kiếm” là: - Tìm hiểu tin sinh học CSDL GEN; - Tìm hiểu định dạng liệu theo chuẩn sinh học; - Nghiên cứu thuật toán xây dựng số dựa vào kích thước đặc biệt thuật toán xây dựng số BLAST để tìm kiếm tương đồng trình tự GEN từ nhằm làm tăng tốc độ tìm kiếm; - Xây dựng chương trình thử nghiệm sử dụng thuật toán BLAST để tìm kiếm tương đồng trình tự GEN với sở liệu GEN có sẵn hệ thống Những hạn chế luận văn: Hạn chế phương pháp xây dựng số dựa vào kích thước CSDL GEN trở lên lớn làm giảm tốc độ tìm kiếm phương pháp xây dựng số dựa kích thước Cũng hạn chế thời gian nên luận văn nghiên cứu loại phương pháp xây dựng số dựa vào kích thước mà chưa nghiên cứu phương pháp xây dựng số khác Tôi hy vọng hạn chế thiếu sót luận văn khắc phục nghiên cứu sâu Rất mong nhận ý kiến đóng ghóp từ quý thầy cô đồng nghiệp 60 Hướng phát triển: Luận văn tiếp tục mở rộng nghiên cứu đưa thêm phương pháp xây dựng số khác như: phương pháp xây dựng dựa vào biến đổi, phương pháp xây dựng số dựa kỹ thuật hỗn hợp Để từ nghiên cứu tìm kiếm phương pháp xây dựng số tốt 61 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Lê Sỹ Vinh (2013), Nhập môn tin sinh học, Đại học Công nghệ - Đại học Quốc gia Hà Nội Tiếng Anh: [2] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990), Basic local alignment search tool, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD [3] Altschul SF, Madden T, Alejandro A, Schaffer A, Zhang J, Zhang Z, Miller W, Lipman DJ (1997), Gapped BLAST and PSI-BLAST: a new GENeration of protein database search programs, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, 1997 [4] Califano A, Rigoutsos I, FLASH (1993), A fast look-up algorithm for string homology, International conference on intelliGENt systems for molecular biology, Bethesda, MD 56-64 [5] Cao X, Li SC, Ooi BC, Tung AKH (2004), Pier: an efficient model for similarity search in DNA sequence databases, Sigmod record, Special Issue [6] Chattaraj A, Williams HE, Variable – length intervals in homology search, In: Asia-pacific bioinformatic conference, Dunedin, Newzealand, 2004 [7] Fondrat C, Dessen P (1995), A Rapid access motif database (RAMdb) with a search algorithm for the retrieval patterns in nucleic acids or protein databanks, Comput Appl Biosci, 11(3): 273-279 62 [8] In-Seon Jeong, Kyoung-Wook Park, Seung-Ho Kang, Hyeong-Seok Lim (2010), An efficient similarity search based on indexing in large DNA databases, Computational Biology and Chemistry 34, 131-136 [9] Kailing K, Kriegel H-P, Schonauer S, Seidl T (2004), Efficient similarity search for hierarchical data in large databases, In: Proc 9th int conf on extending database technology (EDBT 2004), Heraklion, Greece, 676-693 Website: [10] Http://Blast.ncbi.nlm.nih.gov 63 [...]... cứu phương pháp đánh chỉ số và một số thuật toán xây dựng chỉ số - Đánh giá và thử nghiệm phương pháp Blast trên cơ sở dữ liệu GEN III Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Trong luận văn khảo sát các phương pháp đánh chỉ số đã được nghiên cứu cho cơ sở dữ liệu GEN đặc biệt là phương pháp Blast để tìm các cặp đoạn có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở dữ liệu để từ... chỉ số là một phần quan trọng của tìm kiếm GEN Làm thế nào để xây dựng chỉ số để tính điểm tương đồng giữa hai chuỗi GEN? Một số phương pháp xây dựng chỉ số cho tìm kiếm tương đồng GEN như: phương pháp xây dựng dựa trên kích thước, phương pháp xây dựng dựa vào biến đổi Trong luận văn này tập trung nghiên cứu các phương pháp xây dựng chỉ số dựa trên kích thước đặc biệt là thuật toán Blast Các phương pháp. .. luận văn tìm thấy rất nhanh sự giống nhau 2 giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN Vì vậy tôi đã chọn đề tài Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm làm đề tài cho luận văn tốt nghiệp của mình II MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn đề sau: - Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN -... nhau trên thế giới Để lưu giữ, và chia sẻ các dữ liệu đó, có thể sử dụng định dạng FASTA một cách rộng rãi như một định dạng chuẩn quốc tế cho tất cả các cơ sở dữ liệu, và chương trình phần mềm 25 CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM 2.1 Giới thiệu Sinh học phân tử thường xuyên truy vấn cơ sở dữ liệu hệ GEN với trình tự tương đồng Một mục tiêu quan trọng là tìm kiếm tương đồng... làm tăng nhu cầu về khả năng tính toán cao, và nếu các kỹ thuật tìm kiếm đầy đủ trước kia là đối với bây giờ là không thực tế hoặc không kinh tế, thì cần phải tạo ra phương pháp mới và hiệu quả để tìm kiếm cơ sở dữ liệu hệ GEN [9] Một hướng đã phát triển và đầy hứa hẹn trong tài liệu là đánh chỉ số cho các cơ sở dữ liệu trình tự hoặc các trình tự khảo sát ban đầu, và sau đó, dựa trên đánh chỉ số, lọc... protein - Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa) - Cơ sở dữ liệu GEN (GENe database) + Các nhiễm sắc thể ung thư: Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI SKY/M-FISH và CGH + Cơ sử dữ liệu các GEN: GENe:... phần của cơ sở dữ liệu, truy cập vẫn có thể được giới hạn trong một phần nhỏ của các chỉ số được tạo ra dựa trên một bộ lọc hoặc hàm lọc Như các phương pháp đánh chỉ số dựa trên tìm kiếm hệ GEN tương đồng, Navarro và cộng sự năm 2001, đi theo hai hướng: cấu trúc dữ liệu và phương pháp tìm kiếm Dựa trên việc phân loại, các tác giả đã chỉ ra rằng các lựa chọn thay thế hứa hẹn nhất là những tìm kiếm điểm... các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ Như ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn GEN có trình tự và độ dài khác nhau được bổ sung liên tục Cơ sở dữ liệu khổng lồ này có thể được lưu trữ trên bộ nhớ của máy tính Để tìm sự khác biệt giữa một GEN này với một GEN khác trong chuỗi GEN với... hình, phương pháp và công cụ tính toán để dự đoán cấu trúc bậc cao của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với trình tự khác Các phương pháp dự đoán sẽ giảm thiểu một lượng lớn thời gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự IV PHƯƠNG PHÁP NGHIÊN CỨU - Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN, phương pháp đánh chỉ số - Tìm. .. Information Biology and DNA Data Bank of Japan) là cơ sở dữ liệu đặt dưới dự quản lý của Trung tâm Thông tin Sinh học, Viện Di truyền Quốc gia Nhật Bản (Japan National Insititute of GENetics) CIB – DDBJ là cơ sở dữ liệu công nghệ sinh học quan trọng và là cơ sở dữ liệu DNA duy nhất ở Nhật Bản Cơ sở dữ liệu này được xây dựng trước hết nhằm phục vụ cho hoạt động khoa học của các nhà sinh học Nhật Bản Tuy

Ngày đăng: 23/08/2016, 15:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan