Xây dựng ứng dụng hỗ trợ phát triển sinh tin học

Thông tin tài liệu

XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT TRIỂN SINH TIN HỌC Trần Văn Lăng1 Phân viện Công nghệ thông tin TP Hồ Chí Minh Tóm tắt: Việc xây dựng ứng dụng hỗ trợ nghiên cứu huấn luyện sinh tin học vô cần thiết, qua giúp nhanh chóng hịa nhập với cộng đồng giới, mở hội hợp tác với nước khu vực Bài báo trình bày số kết có năm vừa qua nhóm nhiên cứu Sinh tin học Phân viện Cơng nghệ thơng tin TP.Hồ Chí Minh Bài báo gồm ba phần, phần thứ trình bày số toán Sinh tin hoc như: thiết kế mồi, tìm enzym cắt, vẽ sinh lồi, chẩn đốn cấu trúc protein, Phần thứ hai trình bày kết thực toán vào ứng dụng Sinh tin hoc có tên gọi HiBio nhóm nghiên cứu tập trung phát triển khác Phần cuối nêu số kết luận, so sánh kết đạt so với số phần mềm khác lĩnh vực Đồng thời nêu lên số kiến nghị Mở đầu Trong vài thập kỷ qua, sinh học phân tử có nhiều bước phát triển mạnh mẽ, loạt công cụ ứng dụng sinh học đời góp phần thúc đẩy trình giải mã số lượng lớn trình tự gene nhiều loài sinh vật Cho đến nay, nhiều gene vi khuẩn giải mã gần hồn tồn Dự án giải trình tự tất 24 nhiễm sắc thể gene người hồn thành từ cuối năm 2000 Có thể nói chưa thông tin sinh hoc trở nên phong phú đa dạng Để ứng phó với khối lượng thông tin đồ sộ vậy, công nghệ thông tin ứng dụng vào sinh học cách triệt để Từ đó, ngành khoa học hồn tồn đời, Sinh tin hoc (Bioinformatics) Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu nhiều lĩnh vực khác Nhằm thu thập, lưu trữ phân tích liệu sinh học Khi đó, vai trị thuật toán, hệ thống xử lý liệu, môi trường mạng quan trọng Kết nghiên cứu tạo phần mềm giúp giải số vấn đề xung quanh việc tìm hiểu gene, protein số vấn đề khác liên quan đến sinh học phân tử Những thành tựu lĩnh vực hỗ trợ mạnh mẽ đến việc đưa sinh học, y học vào giải cơng việc thực tiễn Đặc biệt đóng góp nhiều thành tựu khoa học mới, việc tìm giống trồng vật nuôi cho suất cao; thúc đẩy nhanh q trình chẩn đốn bệnh, tìm loại thuốc chữa bệnh mới, Bên cạnh đó, với khối lượng lớn liệu sinh học tác động qua lại lẫn đặt nhiều vấn đề Chẳng hạn, gene người giải mã, nhiên để hiểu sử dụng mã cần phải có kiến thức cấu trúc, chức protein, từ vận dụng kiến thức gene vào thực tế, tác động vào di truyền Bên cạnh số protein thể người gấp nhiều lần số gene Bộ gene lưu giữ tế bào kết mã hố, biểu protein phận, tế bào lại khơng giống Bộ protein thay đổi theo tình trạng tế bào phản ứng lại với tác động bên ngồi Bản đồ gene ghi chép lại tài liệu in ấn, đồ protein khơng thể ghi chép Chỉ ghi lại đồ protein tài liệu điện tử, khơng phải q lớn mà liên lạc protein với protein khác mang tính ước lệ liên tục xảy tiến hoá ([4],[5],[6],[7],[8]) Email: lang@hcmc.netnam.vn Mạc Đĩnh Chi, Q1, TPHCM Chính việc đưa Tin học vào Sinh học quan tâm hầu phát triển giới Trong khu vực Châu Á, nước Trung Quốc, Hàn Quốc, Nhật Bản có đột phá lĩnh vực Chính phủ họ huy động nguồn nhân lực hoạt động lĩnh vực khác để tham gia nghiên cứu Đặc biệt, giới có ngân hàng liệu tiếng như: NCBI - Trung tâm Quốc gia Thông tin Công nghệ Sinh học (National Center for Biotechnology Information) Mỹ [9] EMBL - Phịng thí nghiệm Sinh học phân tử (European Molecular Biology Laboratory) Châu Âu [10], phần EBI - Viện Sinh tin hoc Châu Âu đặt Anh (European Bioinformatics Institute [11]) DDBJ - Ngân hàng liệu DNA, Nhật Bản (DNA Data Bank of Japan [12]) Về phần mềm, có nhiều phần mềm giúp xử lý trình tự sinh học DNA Protein như: Phần mềm FastA, Blast, Cn3D, Phylip, PepTool, GeneTool, ClustalX, BioEdit, SeqVISTA, SAGA, Primer3, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v Những phần mềm có số chức năng: Chuyển mã trình tự DNA sang RNA Hiển thị cặp trình tự trình tự bắt cặp Tìm vị trí enzyme giới hạn trình tự Vẽ đồ plasmid, hỗ trợ thiết kế phân tử Tìm kiếm đoạn mồi (primer) So sánh mức độ tương đồng (similarity) trình tự Vẽ biểu diễn mức độ tương đồng trình tự (biểu đồ dendogram) Tìm kiếm trình tự, đoạn lặp (motif), enzyme sở liệu Đối với Việt Nam chúng ta, lĩnh vực xuất viện nghiên cứu, vài trường đại học lớn, dừng lại giới nghiên cứu Công nghệ sinh học Hoạt động Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP Hồ Chí Minh; Viện Cơng nghệ sinh học, Viện Khoa học Công nghệ Việt Nam; Trường Đại học Y Dược TP Hồ Chí Minh minh chứng Phương pháp kết 2.1 Xử lý gene protein Lĩnh vực Sinh tin hoc vô phát triển giới Tuy nhiên Việt Nam, tham gia người làm Tin học vô hoi, việc tạo sản phẩm phân mềm để đưa vào áp dụng khơng thấy có Phân viện Cơng nghệ thơng tin TP Hồ Chí Minh, năm qua hợp tác với số nhà nghiên cứu Viện Công nghệ Sinh học; NCBI/NLM/NIH NIAID/NIH, xây dựng hướng nghiên cứu với hai mục tiêu [1]: Xây dựng Website ngân hàng liệu cung cấp thông tin di truyền phục vụ công tác huấn luyện nghiên cứu Công nghệ Sinh học Xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ Sinh học để xử lý phân tích trình tự sinh học, qua nắm ngun lý thiết kế bước đầu tạo sản phẩm phần mềm mang thương hiệu Việt Nam lĩnh vực Sinh tin hoc Nhóm thực tạo sản phẩm phần mềm với tên gọi HiBio Sản phẩm phần mềm HiBio có tính cần thiết cho việc tìm hiểu sinh học phân tử Những chức từ đơn giản kiểm tra trình tự có trình tự sinh học DNA hay Protein khơng; chuyển đổi trình tự từ DNA sang RNA, sang Protein với số bảng mã, dịch Frame khác nhau, v.v Bên phần mềm HiBio có số chức phức tạp Chẳng hạn, Thiết kế mồi để hiễn thị cặp mồi tốt nhất, đoạn mồi xuôi, đoạn mồi ngược, xếp theo quality; Thiết kế đồ plasmid với tính cần thiết dạng khác nhau, có việc đề xuất enzym cắt; Có thể sử dụng để dự đoán cấu trúc protein bậc 2, xem cấu trúc bậc protein đó; Sử dụng để vẽ sinh lồi theo hai dạng có gốc khơng gốc; Vấn đề tìm kiếm motif đặt HiBio; Bên cạnh sản phẩm nguồn mở ClustalX, RasTop, Blastn tích hợp vào hệ thống với địa hóa cao Phần mềm HiBio tập hợp gồm module chương trình độc lập, module thực chức riêng như: module nhập soạn thảo liệu trình tự, module so sánh bắt cặp trình tự, module tạo vector cắt, 2.1.1 Chuyển đổi trình tự DNA động thực vật cấu thành chủ yếu từ base A, T, G, C, có khả tạo nên 64 codon (mỗi codon gồm base), gói gọn thành 20 amino acid Các amino acid lại góp phần hình thành nên protein đặc trưng Tuy nhiên, sinh vật không giống nên hình thành amino acid khơng giống Có lồi với codon tạo nên amino acid lồi khác lại acid amin khác Chẳng hạn, ba (codon) “CTT” động vật có xương sống hình thành nên Leucine nấm men Threonine Do đó, có tương ứng nhiều bảng dịch mã khác cho loài, trường hợp khác Trong hệ thống HiBio có 17 bảng dịch mã từ DNA sang Protein Thuật tốn Six Frame, tên gọi nó, dựa nguyên lý hợp thành chuyển mã để đưa khả phân tích Theo đó, có frame theo chiều thuận frame lại theo chiều nghịch Chỉ frame xem sản phẩm dịch mã 2.1.2 Thiết kế mồi Thông thường, việc triển khai ứng dụng sinh học phân tử thường vấp phải trở ngại số lượng vật chất di truyền cần có Trong phương pháp tạo dịng phản ứng khuếch đại trình tự (Polymerase Chain Reaction - PCR) sử dụng rộng rãi Nhưng để thực phương pháp này, nhà sinh học cần phải biết thông tin trình tự cần nhân từ phải xác định cần mồi - đoạn DNA ngắn, có khả bắt cặp bổ sung với đầu mạch khuôn bổ sung chuyên biệt Thiết kế mồi HiBio cho phép thống kê có đoạn mồi thoả yêu cầu người dùng mô tả yếu tố kỹ thuật đoạn mồi Từ đó, thiết lập thuộc tính đoạn mồi cần tìm trình tự DNA thơng qua giao diện chương trình Đoạn mồi chọn dựa thơng số như: Chiều dài đoạn mồi Vị trí bắt cặp Phần trăm loại nucleotid G, C Nhiệt độ annealing Các đoạn mồi khó tự bắt cặp với 2.1.3 Tìm kiếm trình tự Hai giải thuật tìm kiếm sở liệu phổ biến giới BLAST FastA Giải thuật BLAST đánh giá nhanh sử dụng rộng rãi BLAST (Basic Local Alignment Search Tool) giải thuật tìm kiếm heuristic Giải thuật thực qua chương trình: blastp, blastn, blastx, tblastn tblastx NCBI với chức sau: blastp: so sánh chuỗi amino acid với sở liệu chuỗi protein blastn: so sánh chuỗi nucleotid với sở liệu chuỗi nucleotid blastx: so sánh biến đổi six-frame chuỗi nucleotid với sở liệu protein blastn: so sánh chuỗi protein với sở liệu nucleotid tblastx: so sánh biến đổi six-frame chuỗi nucleotid với biến đổi six-frame chuỗi sở liệu nucleotid Mục đích việc tìm kiếm sở liệu tìm gene có sở liệu có chứa chuỗi trình tự cho trước Thơng thường cức thực thông qua ứng dụng Web Dữ liệu trường hợp trình tự DNA Từ đó, HiBio tìm kiếm gene biết có thơng tin giống tương tự với trình tự đưa vào Ngồi thơng số trình tự DNA, chương trình cịn nhận thêm thơng số E (expect value), giá trị mong đợi so sánh; W (word) số nucleotid từ dùng đề so sánh 2.1.4 So sánh trình tự Khi so sánh trình tự sinh học, có hai vấn đề đặt ra, việc so sánh đối xứng toàn cục so sánh đối xứng cục So sánh đối xứng tồn cục q trình so sánh đối xứng cho toàn phần tử hai trình tự Mỗi phần tử trình tự so sánh đối xứng với phần tử trình tự ứng với ký tự trống (gap) Trong HiBioClustalX việc so sánh đối xứng đa trình tự dựa sở sử dụng giải thuật Needleman - Wunsch, giải thuật có đặc điểm sau [1]: Tìm so sánh đối xứng tồn cục tốt hai trình tự Số phần tử so khớp hai trình tự lớn cho phép chèn ký tự trống Tất phần tử hai trình tự sử dụng để tạo ma trận hai chiều Mọi khả so sánh đối xứng biểu diễn thơng qua ma trận Khác với giải thuật so sánh đối xứng toàn cục, giải thuật so sánh đối xứng cục thực việc so sánh đối xứng số phần trình tự so sánh So sánh đối xứng cục có ý nghĩa sinh học so sánh tồn cục thơng thường khơng phải tất phần tử trình tự tham gia vào việc xác định đặc tính sinh học trình tự Giải thuật so sánh đối xứng cục thường sử dụng Smith-Waterman Các bước giải thuật Smith-Waterman tương tự bước giải thuật Needleman - Wunsch Chức so sánh nằm module HiBioClustalX - phiên thực sở phần mềm ClustalX 1.83 Công dụng chương trình cho phép nhập so sánh đoạn trình tự tập tin so sánh dạng fasta, phylip, v.v 2.1.5 Xác định enzym cắt giới hạn Enzyme giới hạn (RE) loại enzyme có khả thuỷ giải DNA mạch đơi vị trí xác định Một số vấn đề sau công nghệ sinh học liên quan đến enzyme cắt giới hạn: Quá trình phân tích trình tự thực với đoạn ngắn, cần phải cắt gene khổng lồ thành phần nhỏ Phân định đoạn gene xác nhằm phục vụ cho việc nhân đoạn gene với số lượng lớn để cấy ghép, phục vụ ngành y dược, nghiên cứu biểu gene, tạo gene bảo vệ cho vi khuẩn có ích, Lập đồ enzyme cắt giới hạn để nhà sinh học phân tích nhận biết vùng gene quan tâm Enzyme cắt giới hạn có đặc tính khả nhận biết cắt trình tự xác định DNA Các điểm mà có tác động enzyme gọi điểm cắt giới hạn Mỗi enzyme nhận biết trình tự nucleotide đặc trưng Các trình tự thường bao gồm - nucleotide Các RE khác có trình tự nhận biết gọi isoschizomers Còn với số RE, trình tự nhận biết khơng có tính chun biệt tuyệt đối nhận diện vùng trình tự có dạng đặc trưng (trong số vị trí ký tự được) khơng hồn tồn chuỗi Chức tìm enzyme cắt HiBio cho phép xác định điểm cắt đoạn trình tự nhập vào cách so trùng với sở liệu enzyme cắt giới hạn thông dụng Kết trả mô tả vị trí cắt trình tự này, tên enzym dạng cắt chúng (thẳng hay chéo) 2.1.6 Thiết kế Plasmid Đây chức quan trọng q trình nghiên cứu sơng nghệ sinh học Thiết kế Plasmid HiBio thể cho DNA thẳng tròn, sở nghĩa điểm cắt giới hạn (restriction site), gene vị trí dịng đa (multiple cloning định tạo site) 2.1.7 Dự đoán cấu trúc bậc hai Dự đoán cấu trúc protein nhiệm vụ quan trọng, nhằm xây dựng sở liệu protein, phục vụ cho việc tìm hiểu chức ý nghĩa protein, hiểu chất sống từ cải thiện mơi trường sống Tìm cấu trúc protein thơng qua q trình phân tích thực nghiệm địi hỏi nhiều thời gian công sức Nhiệm vụ quan trọng Sinh tin hoc giúp dự đoán cấu trúc protein từ chuỗi amino acid biết hình thành nên protein Tuy nhiên phương pháp dự đốn cấu trúc protein chưa thể có độ xác tuyệt đối Tỉ lệ xác phương pháp chẩn đoán cấu trúc protein chưa vượt số 80% Việc tìm hiểu chức protein thường dựa vào cấu trúc bậc ba protein Tuy nhiên, việc áp dụng phương pháp thí nghiệm hố lý để tìm cấu trúc bậc ba protein cịn gặp nhiều khó khăn phức tạp Do đó, đa số phương pháp xác định cấu trúc bậc ba protein phải trải qua bước trung gian quan trọng xác định cấu trúc bậc hai protein Việc xác định cấu trúc bậc hai protein làm tăng thêm độ xác việc xác định cấu trúc bậc ba lên từ 25 50 phần trăm Phương pháp thí nghiệm hố lý sử dụng để xác định cấu trúc bậc hai protein gặp nhiều khó khăn tốn thời gian Chính khó khăn thúc đẩy nhà nghiên cứu tìm cách chẩn đốn cấu trúc bậc hai protein dựa cấu trúc bậc hai protein biết Nhiều thuật toán khác phát triển thuật toán sử dụng hệ chuyên gia, sử dụng lý thuyết đồ thị, sử dụng phương pháp thống kê, thuật toán người láng giềng gần nhất, sử dụng mạng neural, Để giải tốn trên, phương pháp thơng thường chia chuỗi amino acid thành nhiều đoạn, đoạn cửa sổ chứa từ 13 đến 21 amino acid Các amino acid cửa sổ có cấu trúc bậc giống Khi tốn đơn giản hóa từ việc chẩn đốn cấu trúc bậc amino acid protein thành việc chẩn đoán cấu trúc bậc amino acid trung tâm cửa sổ nói Sau xây dựng mơ hình để ánh xạ từ cửa sổ amino acid chuỗi sang trạng thái cấu trúc bậc tương ứng Độ xác kỹ thuật dự đốn cấu trúc bậc protein cải tiến đáng kể sau áp dụng mạng neural nhân tạo để huấn luyện q trình chẩn đốn Mạng sau huấn luyện ghi nhớ để chuẩn bị dự đoán cấu trúc bậc chuỗi protein Mạng neural thường xây dựng lớp áp dụng với số lượng lớn thông tin để tăng độ chi tiết thông tin huấn luyện, nhằm tăng độ xác giải thuật dự đốn Độ xác phương pháp dự đoán cấu trúc bậc sử dụng mạng neural 78% 2.1.8 Tìm Motif Motif phân thành loại Thứ motif trình tự (sequence motif), đoạn trình tự đặc trưng tìm thấy hay nhiều trình tự Bản thân đại diện cho chức năng, cấu trúc thành viên họ Các motif tìm thấy DNA, RNA, Protein Thứ hai motif cấu trúc (structural motif), nhóm cấu trúc gần kề kết hợp lại tạo thành cấu trúc 3D chuyên biệt, gọi siêu cấu trúc bậc 2.2 Ngân hàng liệu Sinh tin hoc Ngồi ra, nhóm thực xây dựng website Sinh tin hoc đặt địa http://www.ioit-hcm.ac.vn Nhằm cung cấp phần mềm nhóm xây dựng phần mềm khác nhóm thu thập Internet Tại website sử dụng để tìm kiếm trình tự sinh học số website có giới Đặc biệt thực số chức vẽ plasmid, thiết kế mồi, v.v giao diện web browser Mơ hình liệu thiết kế để lưu trữ thơng tin nucleotide nhiều lồi sinh vật Cơ sở liệu chứa thông tin lồi: tơm sú (Penaeus monodon), cá ba sa (Pangasius), lúa nước (Oryza sativa), muỗi gây bệnh sốt rét (Anopheles gambiae) Khi đó, hệ thống thu thập cách tự động để cập nhật vào ngân hàng liệu thông qua công cụ FastA, Blast để tìm kiếm đoạn gene PDB sở liệu sinh học phân tử giới thành lập trước sở liệu DNA Kể từ cấu trúc protein công bố năm 1950 đến năm 1970 giới khơng có biến động đáng kể số lượng cấu trúc protein Năm 1971, PDB thành lập Brookhaven National Laboratory Nhiệm vụ PDB lưu trữ liệu cấu trúc protein máy tính [17] Một định dạng liệu chuẩn PDB phát triển dạng tập tin pdb Hiện nay, sở liệu PDB lên đến 34065 cấu trúc (cập nhật ngày 06/12/2005, theo nguồn http://www.rcsb.org/pdb/) Hệ thống thiết kế nhằm đáp ứng việc lưu trữ liệu tập tin pdb hỗ trợ cho thao tác tìm kiếm thơng tin 2.3 Bài tốn Sinh tin hoc mơi trường tính tốn lưới Trên giới có nhiều dự án tính tốn lưới (Grid Computing) liên quan đến Sinh tin hoc Chẳng hạn, dự án sau trung tâm nghiên cứu lớn myGrid UK e-Science hỗ trợ trường đại học Anh, Viện Sinh tin hoc Châu Âu (EBT) nhiều phòng thí nghiệm cơng nghiệp lớn giới Dự án nhằm xây dựng phần mềm dạng Middleware để giải toán Sinh học [13] Dự án BioGrid Project of Indiana University, USA với tên gọi “Bioinformatics data and compute grids for bioscientists” thực từ 12/2002 đến 11/2006 Nhằm qua tạo mơi trường tính tốn lưới cho nhà nghiên cứu Sinh học Cũng Đại học Indiana có dự án triệu USD thực năm nhằm xây dựng mạng lưới tính tốn với tên gọi “An e-Science Grid for Indiana University” [14] Đề án North Carolina BioGrid nhằm nghiên cứu thực công nghệ mạng lưới phục vụ cho nhà nghiên cứu, đào tạo có điều kiện nghiên cứu chế gene [15] Khu vực Châu Thái Bình dương, có sáng kiến “Asia Pacific BioGrid” nhằm tạo ảnh sở liệu phân tán phát triển từ khuôn mẫn dự án DataGrid [16] Trong nước việc triển khai toán sinh học hệ thống tính tốn lưới hồn tồn mẽ Nhóm thực triển khai “Tính tốn lưới việc giải số vấn đề tin sinh học”, với Bioinformatics Grid Portal đặt địa http://biogrid.ioit-hcm.ac.vn Hệ thống Grid Phân viện Công nghệ thông tin TPHCM kết nối với hệ thống Grid KISTI (Korea Institute of Science and Technology Information) hệ thống K*Grid Hàn Quốc So sánh đánh giá với sốn phần mềm khác 3.1 Về Plasmid Một số so sánh với phần mềm thiết kế Plasmid xem hiệu Phần mềm STT Chức Tự vẽ Plasmid khơng có nội dung đoạn DNA HiBio SimVector Có Có Visual Cloning Có 10 11 12 Nhập Plasmid từ tập tin DNA Có Nhập Plasmid từ tập tin mơ tả cấu trúc gen Không Thêm bớt hiển thị enzym cắt đoạn Có gen Hiển thị đoạn mã tương ứng nhấp vào Có thành phần hình vẽ Tương tác kéo dãn nhãn thiết kế Có plasmid Sửa màu sắc, hình dạng nhãn thành Có phần thêm vào Chèn, xóa sửa đoạn đoạn mã DNA vào Có plasmid Chèn, xóa sửa đoạn đánh dấu Có plasmid Chuyển đổi hình dạng trịn thẳng Có Tạo đoạn mã vẽ Plasmid web Có Xuất Plasmid tập tin lưu trữ Có Có Khơng Có Có Có Có Có Khơng Có Có Có Có Có Có Có Có Có Khơng Có Có Khơng Có 3.2 Chuyển đổi trình tự Trong phần mềm chuyển đổi trình tự Biology WorkBench, Molecular Toolkit, exPASy HiBio, có khả phân tích cho kết ORF (Open Reading Frame) gene lúa (Oryza sativa) bảng mã chuẩn Trong đó, Biology WorkBench có hỗ trợ việc chọn lọc ORF dài Tuy nhiên, công cụ dịch mã trên, có chương trình HiBio cơng cụ web ExPASy có xem xét đến khả khác acid amin M (Met) Chẳng hạn, chương trình HiBio cho hai kết ORF dài khác L (Leu) M (Met) kết phân tích từ Frame +3 Từ cho thấykết ORF bắt đầu acid amin L dài có khả protein nhiều 3.3 Tìm Enzym cắt Qua nhiều thử nghiệm, chức tìm Enzym cắt có số ưu khuyết điểm sau đây, ưu điểm: Có giao diện trực quan tốt hiển thị kết xác định điểm cắt giới hạn Cho phép dễ dàng chọn lọc enzyme cắt giới hạn cần xét Có báo cáo thống kê đầy đủ thơng tin điểm cắt, vị trí cắt, số lượng, … theo thứ tự khía cạnh quan tâm Cho phép cắt lưu hình ảnh kết Kết xác cho việc tìm kiếm điểm cắt Khuyết điểm: Kết hiển thị chưa đẹp số phần mềm thương mại VectorNTI, GeneTool, PepTool, Cơ sở liệu enzyme chưa thực đầy đủ cần thiết 3.4 Dự đoán cấu trúc protein bậc Kết dự đoán đánh giá dựa cơng thức Q3 với tập mẫu protein có kết thực nghiệm CASP3 Công thức Q3 đánh giá xác suất chuẩn đoán lớp cấu trúc bậc hai i ∈ C theo công thức sau: pred Qi% = ∈C N ic * 100 Ni Ni số lượng axít amin chẩn đốn thuộc lớp cấu trúc bậc hai i, Nic số lượng axít amin số Ni axít amin chẩn đoán Xác xuất chẩn đoán ba lớp cấu trúc bậc hai {E, H, C-L} tính theo cơng thức sau: Q3 = N Ec +N Hc + N Lc * 100 NE + NH + NL Kết thực nghiệm liệu mẫu CASP3 cho thấy chức phần mềm có khả dự đốn tương đối tốt so với phương pháp khác bảng sau: Phần mềm HiBio PhD JPred DSC Q3 73.4% 66.7% 72.4% 67.3 Qua thực nghiệm kiểm chứng, chức dự đoán chương trình có ưu điểm sau: Dự đốn có kết tốt so với công cụ thong dụng Có giao diện trực quan, dễ quan sát lưu lại cho báo cáo Khiếm khuyết chức chưa thể dự đốn xác đủ tám loại cấu trúc axit amin Kết luận Trên giới, Sinh tin hoc lĩnh vực tương đối phát triển, với Việt Nam chúng ta, lĩnh vực xuất viện nghiên cứu trường đại học lớn Đặc biệt, việc tạo sản phẩm phân mềm để đưa vào áp dụng lại vơ ỏi HiBio sản phẩm đáp ứng yêu cầu đặt nghiên cứu huấn luyện sinh học phân tử Tuy nhiên, để hồn thiện có kết khả quan hơn, chắn cần phải có nghiên cứu chuyên sâu Với kết bước đầu, nhóm thực kết hợp với nhà nghiên cứu viện NIAID/NIH (National Institute of Allergy and Infectious Diseases/National Institutes of Health, USA) để xây dựng dự án hoàn thiện phần mềm PCBioInf Qua hội thảo, nhóm nghiên cứu mong muốn người làm tin học cần tập trung nhiều cho sản phẩm dạng Đẩy nhanh hoạt động tính tốn khoa học TPHCM Tài liệu tham khảo [1] Trần Văn Lăng, et al., Xây dựng ứng dụng hỗ trợ phát triển tin sinh học, Hội thảo quốc gia lần VIII CNTT TT, Hải Phòng, 8/2005 [2] Trần Văn Lăng, et al , Một số kết nghiên cứu ứng dụng, triển khai tin sinh học, Hội nghị Khoa học kỹ niệm 30 năm Viện Khoa học Công nghệ Việt Nam, Hà Nội, 5/2005 [3] Trần Văn Lăng cộng sự, Nghiên cứu để xây dựng công cụ tin học xử lý thông tin gene protein, Đề tài cấp Viện Khoa học Công nghệ Việt Nam, 2003 – 2004 [4] Dao Van Tuyet, Le Phuoc Loc, et al., Vietnamese tool for studying on Bioinformatics, Workshop on Computational Biology: "From sequence to function", HCMC, September 2004 10 [5] Le Phuoc Loc, Tran Van Lang, Ngo Phuoc Hau, Some common methods for protein structure prediction, Workshop on Computational Biology: "From sequence to function", HCMC, September 2004 [6] Dan E Krane, Michael L Raymer, Fundamental concepts of Bioinformatics, Benjamin Cummings, 2003 [7] Teresa K Attwood, David J Parry Smith, Introduction to Bioinformatics, Prentice Hall, 1999 [8] Mark Gerstein, Bioinformatics introduction, Yale University Press, 2002 [9] Peter Clote, Rolf Backofen, Computational Molecular Biology, An Introduction, John Wiley & Sons, 2000 [10] Ian Korf, Mark Yandell, Josept BedelL, BLAST, O’reilly, 2003 [11] Jean Michel Claverie, Cedric Notredame, Bioinformatics for dummies, Wiley Pulishing, Inc., 2003 [12] NCBI - National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov [13] EMBL - European Molecular Biology Laboratory, http://www.embl-heidelberg.de [14] EBI - European Bioinformatics Institute, http://www.ebi.ac.uk [15] DDBJ - DNA Data Bank of Japan, http://www.ddbj.nig.ac.jp/Welcome.html [16] myGrid UK e-Science - Engineering and Physics for Science Reearch Council, http://www.mygrid.org.uk/ [17] The North Carolina BioGrid project, http://www.ncbiogrid.org/ [18] BITS - Bioinformatics Resources, http://bits.sinica.edu.tw/en/keysite/index.php [19] Asia Pacific BioGRID Initiative, http://www.apbionet.org/apbiogrid [20] PDB - Protein Data Bank, http://www.rcsb.org/pdb/ BUILDING THE APPLICATIONS FOR SUPPORT TO DEVELOP THE BIOINFORMATICS Tran Van Lang HCMC Institute of Information Technology Abstract: The building the applications support the research and training on bioinformatics is very essential Since then we can fall in line with the world on bioinformatics, and create the chance for the cooperation with other countries In this paper we present some of the results of the bioinformatics research group, HCMC Institute of Information Technology in the last years The paper consist three the part In the first part, we consider the fundamental problems for analysis the biology sequence: primer design, restriction enzyme determination, protein structure prediction, inferring phylogenies, etc In the second part, we introduce to our bioinformatics software HiBio and some of fields that bioinformatics research group are studying In the final part, we present the conclusion and petition 11 ... al., Xây dựng ứng dụng hỗ trợ phát triển tin sinh học, Hội thảo quốc gia lần VIII CNTT TT, Hải Phòng, 8/2005 [2] Trần Văn Lăng, et al , Một số kết nghiên cứu ứng dụng, triển khai tin sinh học, ... trường đại học lớn, dừng lại giới nghiên cứu Công nghệ sinh học Hoạt động Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP Hồ Chí Minh; Viện Cơng nghệ sinh học, Viện Khoa học Công nghệ... liệu Sinh tin hoc Ngồi ra, nhóm thực xây dựng website Sinh tin hoc đặt địa http://www.ioit-hcm.ac.vn Nhằm cung cấp phần mềm nhóm xây dựng phần mềm khác nhóm thu thập Internet Tại website sử dụng

Ngày đăng: 19/08/2012, 21:18

Xem thêm: Xây dựng ứng dụng hỗ trợ phát triển sinh tin học, Xây dựng ứng dụng hỗ trợ phát triển sinh tin học

Xây dựng ứng dụng hỗ trợ phát triển sinh tin học

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan