NGHIÊN cứu lắp ráp hệ GENE với dữ LIỆU từ THIẾT bị đọc TRÌNH tự THẾ hệ mới

Thông tin tài liệu

I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN & TRUYN THễNG & NGUYN TH THANH NGC NGHIÊN CứU LắP RáP Hệ GENE VớI Dữ LIệU Từ THIếT Bị ĐọC TRìNH Tự THế Hệ MớI Chuyờn ngnh: Khoa hc mỏy tớnh Mó s: 60.48.01 LUN VN THC S KHOA HC MY TNH Ngi hng dn khoa hc: TS Nguyn Cng Thỏi Nguyờn - 2014 LI CAM OAN Tụi xin cam oan: Lun ny l cụng trỡnh nghiờn cu thc s ca cỏ nhõn di s hng dn khoa hc ca TS Nguyn Cng Cỏc s liu, nhng kt lun nghiờn cu c trỡnh by lun ny trung thc v cha tng cụng b di bt c hỡnh thc no Tụi xin chu trỏch nhim v nghiờn cu ca mỡnh Hc viờn Nguyn Th Thanh Ngc LI CM N Li u tiờn, tụi xin chõn thnh cm n Tin s Nguyn Cng, ngi thy ó trc tip hng dn tụi hon thnh lun ny Thy ó tn tỡnh hng dn, ch bo v cung cp nhng ti liu liờn quan ng thi ng viờn tinh thn giỳp tụi vt qua nhiu khú khn quỏ trỡnh thc hin lun Tụi cng xin chõn thnh cm n quý Thy ( Cụ) ging dy chng trỡnh cao hc chuyờn ngnh Khoa hc mỏy tớnh ó truyn t nhng kin thc hu ớch v giỳp tụi thc hin nghiờn cu Xin cm n cỏc quý Thy, Cụ cụng tỏc ti Trng i hc Cụng ngh thụng tin v truyn thụng i hc Thỏi Nguyờn ó to iu kin cho tụi c tham gia v hon thnh khoỏ hc Tụi xin chõn thnh cm n! Thỏi Nguyờn, ngy thỏng nm 2014 Hc viờn Nguyn Th Thanh Ngc MC LC DANH MC CC T VIT TT ST T vit tt/thut T ng Ngha/Mụ t DNA Deoxyribo Ducleic Acid BP Base pair GB (G base) Giga base pair NST Nhim sc th DNA senquencing c trỡnh t DNA HGP D ỏn h gii trỡnh t h gene ngi ddNTP Dideoxynucleotide DNA polymerase Enzyme tham gia chớnh vo quỏ trỡnh nhõn ụi 10 11 12 DNA Nucleotide cỏc trỡnh t A,T,G,C SBS c trỡnh t bng si tng hp (sequencing by synthesis) Sanger (SAGE) Tờn thit b c trỡnh t on ngn (1500bp) ATP Phõn t mang nng lng, cú chc nng 13 chuyn nng lng n cỏc ni cn thit cho t bo s dng 14 ABI SOLID Tờn thit b c trỡnh t 15 dNTP Deoxynucleotide 16 gDNA DNA thuc nhim sc th 17 SBL c trỡnh t gn ni (sequencing by ligation) 18 PCR K thut khuch i gene 19 Nanowell Ging nano 20 GS20 Tờn thit b c trỡnh t 21 Illumina Solexa 1G Tờn thit b c trỡnh t 22 Roche 454 FLX Tờn thit b c trỡnh t 23 scaffold (Super cotig )chui cỏc cotig Cỏc nh cú kớch thc t vi base n vi chc 24 Tandem Repeat base b lp i lp li nhiu ln Chui lp ln lờn ti vi nghỡn base 25 Large regions repeat 26 fragment Mnh DNA 27 Read on trỡnh t ngn 28 Cotig on trỡnh t di De Bruijn th De Bruijn ,Tờn mt thut toỏn lp rỏp 29 h gene vi d liu c trỡnh t on ngn (100bp) 30 pyrosequencing khong cỏch gia on read xuụi v ngc 31 32 33 Insert size ( fragment length) Coverage s bn copy ca genome gc c gii mó paired-end short Lp rỏp trỡnh t s dng cp read ngn reads 34 Ligation error Li gii trỡnh t 35 ALLPAHTS Tờn phng phỏp lp rỏp h gene vi d liu 36 overlap graph th 37 node Nỳt th 38 Tip mt node th m t v trớ ú khụng cú cnh dn ti node no khỏc 39 40 41 Bubble Li th, xut hin tn ti hai ng dn gia hai im node SSA (Short Sequence Assembler) thut toỏn lp rỏp c xut neighbour Hang xúm im lõn cn DANH MC BNG 10 DANH MC HèNH 55 Algorithm linear time transitive edge reduction Input: Overlap graph G = (V,E) Output: Transitively reduced overlap graph for each v V mark [v] vacant for each (v, w) E reduce (v, w) false for each (v) E for each (v, w) E mark [v] inplay for each (v, w) E in increasing order of length of the string spelled if mark [w] = inplay then for each (w, x) E in increasing order of length of the string spelled if mark [x] = inplay then mark [x] eliminated for each (v, w) E if mark [x] = eliminated then reduce [(v, w)] true //Mark for transitive reduction mark [w] vacant 56 for each edge e E if reduce [e] = true then Remove e from E //Remove the transitive edge e return G SSA s dng cu trỳc hng i lu cỏc trỡnh t cha c x lý Trc ht, xột mt trỡnh t r bt k v a neighbour ca r vo hng i Tip tc xột cỏc neighbour ca r v neighbour ca chỳng, ỏnh du cỏc cnh bc cu ni vi r v neighbour ca nú, nhiờn ch loi b cỏc cnh bc cu ti r trỏnh vic phi xột mt im nhiu ln, ta ỏnh du mi im l unexplored, explored hoc marked Khi mt im ó c xột xong, ta chn xột trỡnh t tip theo t hng i Nu hng i trng, ta chn mt trỡnh t cha c xột t b d liu v thc hin cỏc bc trờn cho n tt c cỏc trỡnh t R ó c x lý Algorithm exploreRead(G=(V,E), minOverlap, hashTable,r): Insert in the over-lap graph all edges incident on r Input: overlap graph G = (V,E), hashTable, minOverlap and a read r Output: overlap graph G = (V,E) after inserting all edges incident on r h {64, minOverlap} for each read r R for each substring s of length h of r list hashTable.get (s) // hashTable.get() returns the list of read for each read r lish if flag [r] minOverlap then return G = unexplored and overlapLength(r,r) 57 Hỡnh 3.5: Tp hp cỏc read u vo Algorithm markTransitiveEdges(G=(V,E),r): Mark trasitive edges incident on read r Input: Overlap graph G = (V,E)and a node rV Output: Overlap graph G = (V,E)after marking the trasitive edges incident on read r for each neighbour n of r mark [n] inplay for each neighbour n of r in increasing order of length of the string spelled by (r,n) if mark [n] = inplay then //for each inplay neighbor for each neighbour nn of n if edges (r,n) and (n,nn) have opposite orientations in node n then if mark [nn] = inplay then mark [nn] eliminated 58 for each neighbour n of r if mark [n] = eliminated then Mark edge (r,n) as transitive return G Algorithm removeTransitiveEdges(G=(V,E),r): remove from the overlapgraph G=(V,E) transitive edges incident on read r Input: Overlap graph G = (V,E) and a node r V Output: overlap graph G = (V,E) after removing transitive edges incident on r for each neighbour n of r if edges (r,n) is marked as transitive then Remove (r,n) from G return G Algorithm buildOverlapGraph(R,minOverlap): Build overlap graph G = (V,E) Input: Set R = {r1, r2, ,rn} of reads, minOverlap Output: overlap graph G = (V,E) hashTable buildHashTable(R, minOverlap) V E for each read r R // Set of vertices // Set of edges the 59 flag [r] = unexplored //All reads marked as unexplored queue for each read r R if flag [r] = unexplored then exploreRead(G,minOverlap,HashTable,r) //insert edges incident on r flag [r] unexplored enqueue (r) // Put r in the queue while queue //This explores a connected component in the graph r dequeue() if flag [r] = explored then for each unexplored neighbour u of r //Explore all neighbours exploreRead(G,HashTable,minOverlap,u) //Edges incident on u flag [u] explored enqueue (u) markTransitiveEdges(G,r) //Mark transitive edges incident on r flag [r] marked if flag [r] = marked then for each explored neighbour u of r //Explore all neighbor 60 exploreRead(G,HashTable,minOverlap,u) //Edgrs incident on u flag [v] explored enqueue (v) markTransitiveEdges(G,r) // Mark transitive edges incident on r flag [r] marked if flag [r] = marked then for each explored neighbor u of r for each unexplored neighbor v of u // Explore v explorerRead(G,hashTable,minOverlap,v) flag[v] explored enqueue(v) markTransitiveEdges(G,u) //Mark transitive edges incident on u flag[u] marked removeTransitiveEdges(G,r) //Transitive edges incident on u return G 61 Hỡnh 3.6: Cỏc loi Read trựng lp Hỡnh 3.7: th Overlap Graph sau hn ch cnh bc cu 3.3.4 Rỳt gn cỏc tuyn ghộp Do phn ln cỏc trỡnh t u ch xut hin mt ln h gene, trờn overlap graph ó loi b cỏc cnh bc cu, mi im s ch cú hai neighbour i vi mi im ny, mt cnh l cnh vo v cnh cũn li l cnh Tuy nhiờn, mt s im trờn overlap 62 graph cú th cú nhiu hn hai neighbour Nhng im ny cú th tng ng vi trỡnh t nm cui mt vựng lp ca genome hoc trỡnh t cha li Trờn hỡnh 3.7, cỏc im r2, r3, r5, r6, r8 v r9 cú mt cnh vo v mt cnh Vi mi im v thuc V trờn overlap graph ch cú nht mt cnh vo e1 = (u, v) v mt cnh e2 = (v, w), ta thay th im v cựng vi cỏc cnh e1, e2 bng mt cnh mi e3 = (u, w) Cnh e3 ny cha thụng tin ca c im v v cnh e1, e2 Vic loi b cỏc im bc th c thc hin cho n khụng cũn im no nh vy Trờn hỡnh 3.8 l overlap graph sau cỏc cnh ghộp ó c rỳt gn t overlap graph hỡnh 3.7 Tuyn p = {r1, r2, r3, r4} hỡnh 3.7 ó c rỳt li thnh mt cnh nht (r1, r4) Cn lu ý rng tuyn th p, cỏc trỡnh t r2 v r3 c dn ti bi mt cnh ra, vỡ vy, trờn cnh rỳt gn (r1, r4) cn lu chui o v biu th hng ca cỏc trỡnh t trựng lp trờn p Hng ca cỏc trỡnh t v v w trờn cnh rỳt gn e = (u, x) ph thuc vi hng ca cỏc cnh ban u e1 = (u, v) v e2 = (w, x) Hỡnh 3.8: th sau rỳt gn cỏc tuyn ghộp Algorithm contractCompositePaths(G=(V,E)): Composite path contraction Input: Overlap graph G = (V,E) 63 Output: Overlap graph after contracting composite paths for each node v V if v has exactly one in-edge e1=(u,v) and one out-edge e2=(v,w) then mergeEdges(G, e1, e2) return G 3.4 Kt qu thớ nghim D liu u vo l genome vi khun lao Mycobacterium Tuberculosis c gii trỡnh t pair-end bng cụng ngh gii trỡnh t th h mi D liu gii trỡnh t bao gm file nh dng FASTQ, mi file cha cỏc on trỡnh t c c theo mt chiu 3-5 hoc 5-3 Tng s trỡnh t mi file l1471845, vi di nm khong 35 n 250 (Hỡnh 3.9) Tuy nhiờn, s lng cỏc trỡnh t ngn khụng ỏng k D liu c kim tra cht lng s dng phn mm FastQC, kt qu cho thy cht lng trung bỡnh ca cỏc trỡnh t tng i tt, phn ln cỏc on trỡnh t cú cht lng trung bỡnh trờn 30 (tc xỏc sut xy li di 0.01%) (Hỡnh 3.10) Read Read Hỡnh 3.9 Chiu di cỏc on trỡnh t b d liu 64 Read Read Hỡnh 3.10 Cht lng trung bỡnh ca cỏc on trỡnh t b d liu m bo cht lng d liu ỏp ng tt quỏ trỡnh lp rỏp, chỳng tụi tin hnh loi b cỏc on trỡnh t cú cht lng nh hn 25 hoc di di 100 base Ngoi cỏc on trỡnh t mi cng c loi d liu bng cụng c cutadapt.Sau bc tin x lý, d liu c lp rỏp thnh contig s dng SSA v Velvet i chiu kt qu thc nghim Kt qu lp rỏp c túm tt bng sau Statistics SSA Velvet Thi gian chy 12 phỳt 16 phỳt Tng s contigs 20757 40145 S contigs >= 500 bp 3009 1568 S contigs >= 1000 bp 301 994 di ln nht (bp) 4327 23848 Tng di genome 7074682 9477030 N50 5237 5012 N75 10688 2612 L50 368 268 65 Statistics SSA Velvet 277 566 67.05 69.7 # Ns 0 # Ns per 100 kbp 0 L75 GC (%) Mismatches Kt qu cho thy, thut toỏn SSA ó cú nhng tin b ỏng k vic lp rỏp d liu gii trỡnh t th h mi so vi cụng c sn cú c s dng rng rói Velvet vi thi gian nhanh hn di cỏc contig lp rỏp c phn ln nm khong t 500 n 1000 base pair, ng u hn so vi kt qu lp rỏp thnh contig ca Velvet Tuy nhiờn, kh nng lp rỏp cỏc contig ln trờn 1000 base ca SSA cũn hn ch, ú tng di genome ó c lp rỏp nh hn so vi Velvet 66 KT LUN Nhng kt lun chớnh ca lun Lun t c hai kt qu chớnh sau õy: 1) Nm bt c cỏc khỏi nim c bn tin sinh hc bao gm: cỏc khỏi nim v gene, h gene, cụng ngh gii mó h gene c bit l cụng ngh gii trỡnh t gene t thit b c trỡnh t th h mi 2) Nm bt c cỏc thut toỏn hin ti gii quyt bi toỏn lp rỏp hon chnh h gene t nhng on trỡnh t thu c bng cụng ngh gii trỡnh t th h mi T ú tỡm c thut toỏn ci tin hn lp rỏp hon chnh h gene sỏt vi lý thuyt nht Thut toỏn ca tụi ci t th nghim cú thi gian chy nhanh hn v vi s lng contig lp rỏp c nh hn, di contig ln v u hn, thut toỏn ó cú nhng tin b ỏng k vic lp rỏp d liu gii trỡnh t th h mi so vi cụng c sn cú c s dng rng rói Velvet Tuy nhiờn thut toỏn cũn hn ch s lng contig lp rỏp tng lờn thỡ thut toỏn khụng t c mong mun Hng phỏt trin tip theo Tip tc nghiờn cu v th nghim thut toỏn nhm khc phc nhng hn ch hin ti ca thut toỏn ó v ang nghiờn cu 67 TI LIU THAM KHO [1] Eid, J., A Fehr, et al (2009) "Real-time DNA sequencing from single polymerase [2] molecules." Science323(5910): 133-138 Junemann, S., K Prior, et al (2012) "Bacterial community shift in treated periodontitis patients revealed by ion torrent 16S rRNA gene amplicon [3] sequencing." PloS one7(8): e41606 Lavebratt, C and S Sengul (2006) "Single nucleotide polymorphism (SNP) allele frequency estimation in DNA pools using Pyrosequencing." Nature protocols1(6): [4] 2573-2582 Mardis, E R (2008) "Next-generation DNA sequencing methods." Annual review [5] of genomics and human genetics9: 387-402 Margulies, M., M Egholm, et al (2005) "Genome sequencing in microfabricated high- [6] density picolitre reactors." Nature437(7057): 376-380 Metzker, M L (2005) "Emerging technologies in DNA sequencing." Genome [7] research15(12): 1767-1776 Niedringhaus, T P., D Milanova, et al (2011) "Landscape of next-generation [8] sequencing technologies." Analytical chemistry83(12): 4327-4341 Nyren, P (2007) "The history of pyrosequencing." Methods in molecular [9] biology373: 1-14 Olsvik, O., J Wahlberg, et al (1993) "Use of automated sequencing of polymerase chain reaction-generated amplicons to identify three types of cholera toxin subunit [10] B in Vibrio cholerae O1 strains." Journal of clinical microbiology31(1): 22-25 Pennisi, E (2010) "Genomics Semiconductors inspire new sequencing [11] technologies." Science327(5970): 1190 Perkel, J (2011) "Making contact with sequencing's fourth generation." [12] BioTechniques50(2): 93-95 Pettersson, E., J Lundeberg, et al (2009) "Generations of sequencing [13] technologies." Genomics93(2): 105-111 Poehlmann, A., D Kuester, et al (2007) "K-ras mutation detection in colorectal cancer [14] using the Pyrosequencing technique." Pathology, research and practice203(7): 489-497 Quail, M A., M Smith, et al (2012) "A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq [15] sequencers." BMC genomics13: 341 Ronaghi, M., S Karamohamed, et al (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical biochemistry242(1): 84-89 68 [16] Ronaghi, M., M Uhlen, et al (1998) "A sequencing method based on real-time [17] pyrophosphate." Science281(5375): 363, 365 Sanger, F., S Nicklen, et al (1977) "DNA sequencing with chain-terminating inhibitors." Proceedings of the National Academy of Sciences of the United States [18] of America74(12): 5463-5467 Schadt, E E., S Turner, et al (2010) "A window into third-generation [19] sequencing." Human molecular genetics19(R2): R227-240 Schuster, S C (2008) "Next-generation sequencing transforms today's biology." [20] Nature methods5(1): 16-18 Stoddart, D., A J Heron, et al (2009) "Single-nucleotide discrimination in immobilized DNA oligonucleotides with a biological nanopore." Proceedings of the National Academy of Sciences of the United States of America106(19): 7702- [21] 7707 Valouev, A., J Ichikawa, et al (2008) "A high-resolution, nucleosome position map of C elegans reveals a lack of universal sequence-dictated positioning." [22] Genome research18(7): 1051-1063 Visi, D K., N D'Souza, et al (2013) "Investigation of the bacterial retting community of kenaf (Hibiscus cannabinus) under different conditions using nextgeneration semiconductor sequencing." Journal of industrial microbiology & [23] biotechnology40(5): 465-475 Yergeau, E., J R Lawrence, et al (2012) "Next-generation sequencing of microbial communities in the Athabasca River and its tributaries in relation to oil sands mining activities." Applied and environmental microbiology78(21): 76267637 69 ... vi nghiên cứu - Nghiên cứu phương pháp, thiết bị đọc trình tự hệ nhằm giải trình tự gene công nghệ sinh học - Nghiên cứu thuật toán lắp ráp hệ gene với liệu từ thiết bị đọc trình tự hệ - Nghiên. .. tài liệu liên quan đến thiết bị đọc trình tự gene hệ - Nghiên cứu, tìm hiểu phương pháp lắp ráp hệ gene với liệu từ kết đọc trình tự gene máy đọc trình tự gene hệ - Nghiên cứu, tìm hiểu ưu, nhược... hệ gene với liệu từ thiết bị đọc trình tự hệ ” Đề tài xây dựng chương trình có chức lắp ráp đoạn trình tự ngắn (reads) thành đoạn trình tự dài (contigs) từ thiết bị đọc trình tự hệ 1.2 Giải trình

Ngày đăng: 21/04/2017, 22:22

Xem thêm: NGHIÊN cứu lắp ráp hệ GENE với dữ LIỆU từ THIẾT bị đọc TRÌNH tự THẾ hệ mới , NGHIÊN cứu lắp ráp hệ GENE với dữ LIỆU từ THIẾT bị đọc TRÌNH tự THẾ hệ mới , Chương 1: CÁC KHÁI NIỆM CƠ BẢN, Đọc trình tự gene thế hệ mới (next generation sequening), Hình 1.8: Một ví dụ của ‘Tandem repeat’, Nguyên lý đọc trình tự thế hệ mới:, Hình 1.9: Các giai đoạn của đọc trình tự thế hệ mới, Chương 2: CÁC PHƯƠNG PHÁP TIẾP CẬN, Hình 2.2: Nguyên tắc của kỹ thuật pyrosequencing, Bảng 2.1: So sánh Velvet với các thuật toán khác (SSAKE và VCAKE) trên loài Streptococcus suis với dữ liệu thu được từ máy giải trình tự Solexa, còn độ dài scaffold là đường màu đỏ, Đường dẫn đỏ có 4 ‘support’ và đường dẫn xanh có 2 ‘support’, Bảng 2.3: Kết quả thuật toán sửa lỗi của EULER-USR, với dữ liệu từ loại E.coli, VÀ ĐÁNH GIÁ KẾT QUẢ, Hình 3.4: Các Read trùng lặp nhau, Hình 3.5: Tập hợp các read đầu vào, Hình 3.8: Đồ thị sau khi rút gọn các tuyến ghép

NGHIÊN cứu lắp ráp hệ GENE với dữ LIỆU từ THIẾT bị đọc TRÌNH tự THẾ hệ mới

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

Các khối nhỏ có kích thước từ vài base đến vài chục base bị lặp đi lặp lại nhiều lần.

Chuỗi lặp lớn lên tới vài nghìn base

Đọc trình tự đoạn ngắn (100bp)

khoảng cách giữa 2 đoạn read xuôi và ngược

DANH MỤC HÌNH

MỞ ĐẦU

1. Đối tượng và phạm vi nghiên cứu

2. Hướng nghiên cứu của đề tài

3. Phương pháp nghiên cứu:

4. Ý nghĩa khoa học của đề tài

Chương 1: CÁC KHÁI NIỆM CƠ BẢN

1.1. Giới thiệu

1.2. Giải trình tự và các nguyên lý đọc trình tự gene

Hình 1.1: Cấu trúc Nhiễm sắc thể

Hình 1.2: Công nghệ giải mã hệ gene

Tài liệu cùng người dùng

Tài liệu liên quan