PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

126 182 0
PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH BẰNG CÁC THUẬT TOÁN DỰA TRÊN MẠNG SINH HỌC (Luận án tiến sĩ)

i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các kết nghiên cứu viết chung với tác giả khác đồng ý họ trước đưa vào luận án Các kết nêu luận án trung thực chưa công bố cơng trình khác Tác giả Đặng Vũ Tùng ii LỜI CẢM ƠN Luận án tiến sỹ kết trình nghiên cứu lý thuyết tiến hành thực nghiệm đầy thách thức khó khăn; đòi hỏi kiên trì tập trung cao độ Tôi thực hạnh phúc với kết đạt đề tài nghiên cứu Kết đạt không nỗ lực cá nhân, mà có hỗ trợ giúp đỡ tập thể người hướng dẫn, sở đào tạo, quan chủ quản, đồng nghiệp gia đình Tơi xin bày tỏ tình cảm đến với họ Trước tiên, xin bày tỏ biết ơn sâu sắc đến PGS.TS Từ Minh Phương PGS.TS Lê Đức Hậu Được làm việc với hai thầy hội lớn cho tơi học hỏi phương pháp nghiên cứu, tính kiên trì phương pháp làm việc nghiêm túc, khoa học Tôi xin trân trọng cảm ơn Khoa Quốc tế sau đại học, Khoa Công nghệ thông tin, Ban Giám đốc Học viện Cơng nghệ Bưu Viễn thơng tạo điều kiện thuận lợi cho suốt q trình thực luận án Tơi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam bạn bè, đồng nghiệp cổ vũ, động viên tạo điều kiện thuận lợi cho tơi q trình học tập, nghiên cứu Cuối cùng, tơi xin bày tỏ lòng biết ơn gia đình tơi, nơi khơi dậy truyền thống ln bên cạnh ủng hộ, giúp đỡ, chia sẻ với lúc khó khăn Xin chân thành cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT vii DANH MỤC CÁC HÌNH ix DANH MỤC CÁC BẢNG xi PHẦN MỞ ĐẦU 1 Tính cấp thiết luận án Mục tiêu luận án 3 Các đóng góp luận án Bố cục luận án .5 Chương - TỔNG QUAN VỀ PHÂN HẠNG DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH 1.1 CƠ SỞ VỀ SINH HỌC PHÂN TỬ 1.1.1 Tế bào 1.1.2 DNA 1.1.3 Gen .8 1.1.4 Quá trình điều khiển tổng hợp protein từ gen 1.2 PHÂN HẠNG GEN CÁC HƯỚNG TIẾP CẬN GIẢI QUYẾT .11 1.2.1 Bài toán phân hạng gen 11 1.2.2 Các hướng tiếp cận giải toán phân hạng gen 12 iv 1.3 CÁC CƠ SỞ DỮ LIỆU MẠNG SINH HỌC 16 1.3.1 Các sở liệu sinh học 16 1.3.2 Các mạng sinh học 20 1.3.3 Mạng tương tác gen/protein .22 1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC .23 1.4.1 Phương pháp dựa mức độ gần gen/protein 23 1.4.2 Phương pháp dựa tích hợp liệu gen qui mô lớn 25 1.4.3 Phương pháp dựa tích hợp thơng tin kiểu hình 27 1.4.4 Phương pháp xây dựng mô đun bệnh 28 1.5 PHƯƠNG PHÁP ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN HẠNG 33 1.5.1 Phương pháp kiểm tra chéo 33 1.5.2 Xác định hiệu phương pháp phân hạng 35 1.6 KẾT LUẬN CHƯƠNG .38 Chương - PHÂN HẠNG DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG TƯƠNG TÁC GEN/PROTEIN 41 2.1 ĐẶT VẤN ĐỀ 41 2.1.1 Bài toán phân hạng nút đồ thị 43 2.1.2 Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm .43 2.1.3 Thuật toán phân hạng học tăng cường 45 2.1.4 Thuật tốn bước ngẫu nhiên có quay lui 46 2.2 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT HỢP VỚI XÁC SUẤT TIÊN NGHIỆM .48 2.2.1 Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 48 v 2.2.2 Dữ liệu thực nghiệm 51 2.2.3 Thực nghiệm kết 53 2.3 PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP TÍNH TỔNG XÁC SUẤT LIÊN KẾT TRONG MẠNG TƯƠNG TÁC GEN/PROTEIN 61 2.3.1 Thuật toán dựa xác suất liên kết 61 2.3.2 Dữ liệu thực nghiệm 67 2.3.3 Thực nghiệm kết 67 2.4 SO SÁNH CÁC PHƯƠNG PHÁP PHÂN HẠNG GEN ĐỀ XUẤT .74 2.4.1 Về nguyên tắc thực hiện, ưu nhược điểm phạm vi áp dụng 74 2.4.2 Về thực nghiệm 75 2.5 KẾT LUẬN CHƯƠNG .76 Chương - PHÂN HẠNG DỰ ĐỐN GEN GÂY BỆNH DỰA TRÊN MẠNG KHƠNG ĐỒNG NHẤT 78 3.1 ĐẶT VẤN ĐỀ 78 3.2 MẠNG KHÔNG ĐỒNG NHẤT BỆNH - GEN 82 3.2.1 Tổng quan phương pháp xây dựng mạng không đồng 82 3.2.2 Các mạng gen/protein .82 3.2.3 Các mạng bệnh tương đồng 86 3.2.4 Mạng lưỡng phân .87 3.3 THUẬT TỐN BƯỚC NGẪU NHIÊN CĨ QUAY LUI TRÊN MẠNG KHÔNG ĐỒNG NHẤT 87 3.4 CÁC THỰC NGHIỆM KẾT QUẢ 92 3.4.1 So sánh hiệu với phương pháp lớp .92 3.4.2 Dự đoán gen liên quan đến bệnh Alzheimer 94 vi 3.5 KẾT LUẬN CHƯƠNG .95 KẾT LUẬN .97 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CƠNG BỐ .100 TÀI LIỆU THAM KHẢO .101 vii DANH MỤC CÁC CHỮ VIẾT TẮT KÝ HIỆU DIỄN GIẢI TIẾNG ANH TIẾNG VIỆT Diện tích phía đường cong ROC AUC Area Under ROC Curve BIND Biomolecular Interaction Network Cơ sở liệu mạng tương tác sinh Database học phân tử BioGRID Biological General Repository for Cơ sở liệu sinh học công khai Interaction data sets bao gồm nhiều liệu tương tác CANDID A flexible method for prioritizing Một phương pháp phân hạng gen candidate genes for complex human giới thiệu Hutz cộng traits CIPHER Correlating protein Interaction Một phương pháp phân hạng gen network and PHEnotype network to giới thiệu Wu cộng pRedict disease genes DNA DeoxyriboNucleic Acid A-xít deoxyribonucleic DO Disease Ontology Bản thể bệnh EST Expressed Sequence Tag Thẻ biểu diễn trình tự eVOC A controlled vocabulary for unifying Một từ vựng kiểm soát để hợp gene expression data liệu biểu gen FN False Negative Âm tính giả (mẫu mang nhãn dương bị phân lớp sai vào lớp âm) FP False Positive Dương tính giả (mẫu mang nhãn âm bị phân lớp sai vào lớp dương) GO Gene Ontology Bản thể gen GWAS Genome - Wide Association Studies Nghiên cứu liên kết gen mở rộng (nghiên cứu tương quan toàn nhiễm sắc thể) HITS Hypertext Induced Topic Search Thuật tốn tìm kiếm Web HPO Human Phenotype Ontology Bản thể kiểu hình người HPRD Human Protein Reference Database Cơ sở liệu tương tác protein người KEGG Kyoto Encyclopedia of Genes and Bách khoa toàn thư Kyoto gen viii Genomes gen LOOCV Leave one out cross validation Kiểm tra chéo bỏ MeSH Medical Subject Heading Cơ sở liệu chủ đề y học MINT Molecular Interaction Database Cơ sở liệu tương tác phân tử MPO Mammalian Phenotype Ontology Bản thể kiểu hình động vật có vú NCBI National Center for Biotechnology Trung tâm Thông tin Công nghệ Information Sinh học Quốc gia OMIM Online Mendelian Inheritance in Cơ sở liệu trực tuyến di Man truyền Mendel người PRINCE PRIoritizatioN Elucidation ROC Đường cong đặc trưng hoạt động Receiver Operating Characteristic/ thu nhận - để xác định có Receiver Operating Curve tín hiệu nhiễu RWR Random Walk with Restart RWRH Random Walk with Restart on Thuật tốn bước ngẫu nhiên có Heterogeneous network quay lui mạng không đồng STRING Search Tool for the Retrieval of Cơng cụ tìm kiếm tương tác Interacting Genes/Proteins gen/protein TN True Negative Âm tính thật (mẫu mang nhãn âm phân lớp vào lớp âm) TP True Positive Dương tính thật (mẫu mang nhãn dương phân lớp vào lớp dương) UMLS Unified Medical Language System Hệ thống ngôn ngữ y học thống Yeast Two-Hybrid System Hệ thống lai kép nấm men (một phương pháp sử dụng để xác định tương tác protein) Y2H and Complex Một phương pháp phân hạng gen giới thiệu Vanunu cộng Thuật tốn bước ngẫu nhiên có quay lui ix DANH MỤC CÁC HÌNH Hình 1 Cấu trúc DNA Hình Sơ đồ tổng hợp protein từ gen 10 Hình Thay exon sơ đồ kết nối cho phép tế bào tạo protein khác từ gen đơn lẻ 11 Hình Sơ đồ tổng quan phân hạng gen 12 Hình Sơ đồ dự đốn gen liên quan đến bệnh dựa mơ hình học máy [59] 14 Hình Sơ đồ phương pháp phân hạng gen dựa mạng 15 Hình Mơ rối loạn mạng sinh học nguyên nhân gây bệnh người 21 Hình Phương pháp đánh giá thuật tốn phân hạng gen 34 Hình Phương pháp vẽ đường cong ROC 36 Hình Thuật toán RL_Rank with priors 50 Hình 2 Đường biểu diễn giá trị AUC trung bình 398 bệnh với tham số β = 0.8 γ tăng từ 0.1 đến 0.9 53 Hình Đường biểu diễn giá trị AUC trung bình 398 bệnh với tham số β = 0.7 γ tăng từ 0.1 đến 0.9 54 Hình Đường biểu diễn giá trị AUC trung bình 398 bệnh với tham số γ = 0.5 β tăng từ 0.1 đến 0.9 55 Hình Đường cong ROC biểu diễn kết RL_Rank with priors với tham số γ = 0.5, β = 0.7 PageRank with priors với tham số β = 0.7 56 Hình Ví dụ tính tốn xác suất đường đồ thị 64 Hình Thủ tục SigPathSum tính tốn độ liên quan nút với nút truy vấn 65 x Hình Thuật tốn phân hạng gen dựa xác suất liên kết 66 Hình Đường biểu diễn giá trị AUC trung bình thay đổi giá trị f 67 Hình 10 Biểu diễn đường cong ROC SigPathSum RWR 69 Hình 11 Biểu diễn đường cong ROC RL_Rank with Priors, SigPathSum RWR 75 Hình Sơ đồ xây dựng mạng khơng đồng tích hợp bệnh - gen 83 Hình Sơ đồ hoạt động thuật toán RWRH 88 Hình 3 Thuật tốn RWRH 91 Hình Đường cong ROC biểu diễn kết dự đoán mạng dựa HPO OMIM 93 ... tính tốn, dự đốn gen ứng viên liên quan đến bệnh dựa mạng sinh học Do đó, phần lớn phương pháp phân hạng dự đoán gen liên quan đến bệnh đề xuất dựa mạng sinh học với trợ giúp sở liệu hệ gen thơng... hạng gen mới, đạt hiệu cao dựa mạng sinh học vấn đề cấp thiết Đề tài Phân hạng dự đoán gen liên quan đến bệnh thuật toán dựa mạng sinh học thực khuôn khổ luận án tiến sĩ chun ngành Hệ thống... .22 1.4 CÁC PHƯƠNG PHÁP PHÂN HẠNG VÀ DỰ ĐOÁN GEN LIÊN QUAN ĐẾN BỆNH DỰA TRÊN MẠNG SINH HỌC .23 1.4.1 Phương pháp dựa mức độ gần gen/ protein 23 1.4.2 Phương pháp dựa tích hợp liệu gen qui

Ngày đăng: 27/11/2017, 12:16

Tài liệu cùng người dùng

Tài liệu liên quan