Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES" docx

173 TẠP CHÍ KHOA HỌC, Đại học Huế, Số 59, 2010 NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES Nguyễn Hoài Tưởng, Ramstein Gérard, Leray Philippe Phòng thí nghiệm Tin học vùng Nantes-Atlantique Jacques Yannick Trung tâm nghiên cứu Ung thư Nantes/Angers TÓM TẮT Bài báo giới thiệu cách tiếp cận dùng mạng Bayes để suy diễn sự khác biệt của sự ảnh hưởng lẫn nhau giữa các cytokine (một loại protein quan trọng của hệ thống miễn dịch) trong những điều kiện thí nghiệm khác nhau. Chúng ta sẽ được giới thiệu phương pháp tiến hóa để học cấu trúc của mạng Bayes. Phương pháp này cho phép chọn lọc được một tập hợp các mạng có tỷ lệ học tốt nhất. Mỗi mạng nhận được sau kết quả học sẽ được kiểm nghiệm bằng phương pháp kiểm định thống kê với hai quần thể dữ liệu bệnh nhân: một có dùng thuốc điều trị, còn lại không dùng thuốc điều trị. Mục đích của thí nghiệm này là nhằm đánh giá mức độ ảnh hưởng của thuốc đối với sự tương tác lẫn nhau giữa các gien. 1. Giới thiệu Chỉ trong mấy năm gần đây, người ta vừa tìm được Interleukine 15 (IL-15) [1], một loại cytokine có vai trò rất quan trọng trong hệ thống miễn dịch. Một điểm đáng chú ý là cytokine này có các chức năng gần giống và có quan hệ mật thiết với các cytokine khác. Vì vậy, vấn đề đặt ra là IL-15 có tầm ảnh hưởng như thế nào đối với các cytokine láng giềng của chúng trong những điều kiện thí nghiệm khác nhau. Để trả lời câu hỏi này, các chuyên gia trong ngành đã nhờ đến sự hỗ trợ của máy tính thông qua các kỹ thuật tiên tiến đã và đang được nghiên cứu và ứng dụng rộng rãi trong lĩnh vực tin sinh học. Thật vậy, ngày nay công nghệ vi mảng (microarray) cho phép đo đạc đồng thời mức biểu lộ của hàng ngàn gien. Bên cạnh đó, mạng tương tác gien (gene regulatory networks) không những cho ta một cái nhìn tổng thể về mối tác động lẫn nhau giữa các gien, mà còn có khả năng lưu trữ các thông số về mức độ biểu lộ của chúng. Vì vậy, khả năng suy luận của mạng tương tác gien từ dữ liệu vi mảng luôn là vấn đề mũi nhọn trong các nghiên cứu tin sinh học. Minh chứng là đã có không ít các phương pháp được đề xuất cho việc xây dựng loại mạng này (xem phần 2.1). Trong số đó, phương pháp tiếp cận bằng mạng Bayes (Bayesian networks) đã gây một sự chú ý đáng kể của các 174 nhà nghiên cứu bởi khả năng giải quyết phần lớn các vấn đề đặt ra của nó: (1) các tương tác phức tạp tạo ra bởi một số lượng lớn gien đã được phân tích từ các nguồn dữ liệu rời rạc và nhiễu; (2) một khối lượng khổng lồ các biến (trên 30.000 gien) trong khi rất hạn chế về dữ liệu mẫu (vài chục đến vài trăm thí nghiệm); (3) độ phức tạp tính toán của các cấu trúc mạng và ý nghĩa thống kê giữa các biến trong mạng. Trong bài báo này, tác giả muốn giới thiệu một cách tiếp cận bằng phương pháp tiến hóa để duy trì tập hợp các mạng Bayes có tỷ lệ học tốt nhất từ dữ liệu vi mảng về IL-15. Tập hợp này cho phép một so sánh các kết quả thu được từ mỗi mạng bằng kiểm định thống kê trên hai tập dữ liệu bệnh nhân: một có điều trị bằng thuốc, còn lại không điều trị bằng thuốc (hai điều kiện thí nghiệm khác nhau). Nói cách khác, chúng ta sẽ đi trả lời cho câu hỏi: “Làm thế nào dùng mạng Bayes để suy luận sự ảnh hưởng của IL-15 trong những điều kiện thí nghiệm khác nhau?”. 2. Phương pháp 2.1. Xây dựng lại mạng tương tác gien bằng tiếp cận mạng Bayes Xây dựng lại mạng tương tác gien là một bài toán khá nổi tiếng trong ngành tin sinh học. Thật vậy, đã có không ít những giải pháp đề nghị cho vấn đề này mà một vài đại diện tiêu biểu có thể kể ra đây là: clustering [4], mạng Bayes [7], [10], [3], [13], mô hình đồ thị Gauss [11]. Mỗi một đề xuất có những lợi điểm cũng như giới hạn riêng của nó. Riêng đối với bài báo này, chúng tôi chọn mạng Bayes như một hướng nghiên cứu chính cho việc xây dựng lại mạng tương tác gien. Công trình được xem là đầu tiên cho vấn đề này thuộc về nhóm nghiên cứu của Giáo sư Friedman và cộng sự vào năm 2000 [7]. Đây được xem như là công trình tiêu biểu cho các nghiên cứu sau này về xây dựng lại mạng tương tác gien dựa trên nguyên lý của mạng Bayes. Hình 1. Mô hình đầu tiên của bài toán xây dựng lại mạng tương tác gien bằng mạng Bayes đề nghị bởi Friedman và cộng sự vào năm 2000. 175 Những kết quả đầu tiên của các tác giả này được phân tích nghiên cứu dựa trên một tập dữ liệu có dung lượng ở mức trung bình. Họ đã áp dụng các phương pháp đơn giản để rời rạc hóa và học cấu trúc mạng. Các tác giả cũng đã nêu lên một số vấn đề mở cho các nghiên cứu tiếp theo: tập dữ liệu mẫu ít, tính liên tục của dữ liệu, phương pháp rời rạc hóa, dữ liệu biểu lộ có phụ thuộc thời gian, các tính năng suy diễn và cuối cùng độ khớp với kiến thức của chuyên gia. Mô hình thứ hai được Pe’er và đồng nghiệp giới thiệu sau công trình thứ nhất một năm (2001) [10]. Họ đã nghiên cứu trên một bộ dữ liệu lớn hơn và chú trọng vào việc phân tích, đánh giá các mạng con dựa vào ngưỡng của độ tin cậy được qui định bởi các ràng buộc về tính trội/lặn giữa các gien. Ngoài ra, điểm khác biệt đáng chú ý so với các nghiên cứu đầu tiên là họ đã xử lý trên dữ liệu liên tục mà không cần trải qua bước rời rạc hóa và học cấu trúc mạng. Một trong các vấn đề được xem là mở của nghiên cứu này là khám phá các nhân tố tiềm ẩn có tương tác với các gien đã phát hiện. Hình 2. Mô hình cải tiến của Pe’er và cộng sự vào năm 2001. Trở lại với nghiên cứu của tác giả, tiến trình trọng điểm của giải pháp được giới thiệu trên hình số 3 chính là học cấu trúc mạng Bayes. Tiến trình này sẽ đảm nhận vai trò học cấu trúc của mạng Bayes từ dữ liệu vi mảng bằng các giải thuật tiến hóa (hình số 3). Một trong những lợi điểm mà vi mảng mang lại đó là khả năng đo đạc đồng thời hàng chục ngàn gien. Hơn nữa, ngày nay cơ sở dữ liệu vi mảng đã được công bố và cho phép tải miễn phí trên các máy chủ nổi tiếng như: GEO Omnibus, Array Express, Oncomine… Đó là kết quả làm việc với sự đóng góp của nhiều trung tâm nghiên cứu sinh học trên thế giới. 176 Hình 3. Mô hình đề nghị của tác giả Trong giai đoạn đầu, chúng tôi sử dụng cách tiến cập bằng giải thuật tiến hóa (được trình bày cụ thể ở phần 2.3) để tạo ra một tập các mạng Bayes được đánh giá là tốt nhất theo tỉ số (score) nhận được từ phân tích dữ liệu thí nghiệm. Tùy vào đặc thù của từng điều kiện thí nghiệm khác nhau, mà ở giai đoạn hai, chúng tôi sẽ kiểm tra kết quả đạt được của các mạng này bằng phương pháp kiểm định thống kê (xem mô hình chi tiết ở hình số 4). Cụ thể hơn, chúng tôi sẽ dùng phương pháp kiểm định giả thuyết trên hai quần thể dữ liệu: một có điều trị bằng thuốc, và ngược lại. Kết quả đạt được của nghiên cứu này cho phép chúng ta đánh giá tầm ảnh hưởng của liệu pháp điều trị đến sự tương tác gien. Hình 4. Mô hình đề nghị của tác giả (chi tiết). 177 2.2. Học cấu trúc: vấn đề quan trọng trong việc xây dựng mạng tương tác gien Mạng Bayes là mô hình đồ thị xác suất dùng để biểu diễn mối quan hệ phụ thuộc giữa các đối tượng. Đây là một loại đồ thị có hướng không có chu trình. Cấu trúc của một mạng Bayes G bao gồm: một tập các đỉnh và một tập các cạnh có hướng (hình 5). Hình 5. Ví dụ của một mạng Bayes đơn giản. Trong nghiên cứu về xây dựng lại mạng tương tác gien, mỗi gien đóng vai trò của một đỉnh, quan hệ tương tác giữa các gien thể hiện vai trò của các cạnh. Nếu tồn tại một cạnh từ A đến B, và B phụ thuộc trực tiếp vào A (gien A tác động gien B) thì A được gọi là cha của B. Theo luật Markov, trong một mạng Bayes, mỗi biến phụ thuộc có điền kiện vào các biến họ hàng mà không phải là con cháu của nó. Khi đó, phân phối có điều kiện của A khi biết cha mẹ nó pa A là P(A/pa A ) (người ta gọi đây là thông số mạng – network parameter). Với luật đơn giản này, chúng ta có thể suy diễn được một mạng Bayes có thể giải thích được tính chất của dữ liệu quan sát được như thế nào. Ví dụ: Đối với mạng Bayes như hình 5 bên trên, ta có thể biểu diễn phân phối có điều kiện như công thức 1 sau đây : ( 1 ) Trường hợp đơn giản nhất, cấu trúc của một mạng Bayes được miêu tả và qui định bởi các chuyên gia, sau đó chúng ta chỉ việc dùng nó để biểu diễn các suy luận. Tuy nhiên, việc xác định cấu trúc này thực sự quá phức tạp so với khả năng của con người. Vì vậy, đòi hỏi cả cấu trúc mạng và thông số mạng đều phải được học tự động từ dữ liệu. Người ta gọi công việc này là học mạng Bayes (Bayesian network learning). Việc học mạng Bayes từ dữ liệu đòi hỏi việc xác định cả mô hình cấu P( G 1 , G 2 , G 3 , G 4 , G 5 , G 6 ) = P( G 1 ).P( G 3 ). P( G 2 | G 1 ).P( G 4 | G 2 ).P( G 5 | G 2 ,G 3 ) 178 trúc G và thông các số P. Để học thông số, tiếp cận khả phổ biến là sử dụng hàm tỉ số thống kê (scoring function). Hàm này có nhiệm vụ đánh giá mức độ khớp của một mạng Bayes với dữ liệu học. Sau đó tìm mạng tối ưu theo hàm tỉ số này. Một trong các hàm hay được sử dụng là BIC (Bayesian Information Criterion). Để học cấu trúc, có hai dạng tiếp cận: (1) Các phương pháp dựa vào ràng buộc (constraint-based) tìm trong cơ sở dữ liệu các mối quan hệ độc lập có điều kiện, sau đó, xây dựng các cấu trúc đồ thị gọi là “các mẫu”. Các mẫu này biễu diễn cho một lớp các đồ thị DAG. (2) Các phương pháp dựa vào tìm kiếm và tính tỉ số (search and scoring) tìm trong không gian của các cấu trúc hợp lệ có thể có của một mạng. Phương pháp này có lợi điểm là dễ dàng kết hợp với kiến thức của chuyên gia và giải quyết tốt vấn đề dữ liệu thiếu. Như vậy, phương pháp học nào thích hợp cho bài toán xây dựng lại mạng tương tác gien? Trong những năm gần đây, có khá nhiều nghiên cứu đầu tư vào vấn đề này: [7], [9], [8], [2], [5]. Mỗi nghiên cứu, các tác giả đề nghị các phương pháp hiệu quả riêng của họ để cải thiện độ chính xác của phép suy luận. Đặc biệt, trong số các nghiên cứu này chúng tôi quan tâm đến nghiên cứu mới gần đây của C.Auliac [2], người vừa bảo vệ thành công luận án tiến sĩ vào đầu năm 2009 với đề tài “Các tiếp cận tiến hóa để xây dựng lại mạng tương tác gien bằng cách học mạng Bayes”. Cách tiếp cận này sẽ được trình bày trong phần tiếp theo. 2.3. Giải thuật tiến hóa cho việc học cấu trúc mạng Bayes Giải thuật tiến hóa (Evolutionary Algorithm - EA) là nhánh ngành con của tính toán tiến hóa, một giải thuật tối ưu hóa bằng kinh nghiệm dựa vào quần thể. EA cho phép duy trì một tập các giải pháp tối ưu. Một trong các đại diện rất quen thuộc của EA là giải thuật di truyền (Genetic Algorithm - GA). Hình 6. So sánh các tiến trình của GA và EDA. Đặc biệt, chỉ khoảng mấy năm gần đây, một hậu bối của GA có tên EDA (Estimation of Distribution Algorithm), giải thuật đánh giá phân phối, đã và đang 179 được các nhà nghiên cứu trong ngành nhắc đến như một cải tiến rất triển vọng. Với EDA, mỗi quần thể sẽ được gắn với một phân phối xác suất và mỗi ứng viên mới sẽ được sinh ra bằng phương pháp lấu mẫu từ phân phối này. Cụ thể hơn là người ta sẽ thay thế tiến trình lai ghép và đột biến của GA bằng bước xây dựng mô hình xác suất và lấy mẫu quần thể con trong EDA (hình 6). Giải thuật này cho phép duy trì một tập hợp các giải pháp tối ưu với các phân phối xác suất tốt. Điều này có ý nghĩa quan trọng cho các kiểm định thống kê sau này. Đây cũng là một trong mục tiêu chính trong nghiên cứu của chúng tôi. Thêm vào đó, phương pháp tìm một phân phối xác suất tốt vẫn còn là một vấn đề rất mở. Thật vậy, đã có rất nhiều phiên bản khác nhau của EDA được đề nghị để trả lời vấn đề này như: EBNA (Estimation of Bayesian networks Algorihtm), FDA (Factorized Distribution Algorithm), LFDA (Learning Factorized Distribution Algorithm), BOA (Bayesian Optimization Algorithm). Vì vậy, đây là một đề tài hứa hẹn sẽ vẫn còn tiếp tục thu hút các đầu tư nghiên cứu. Trở lại trường hợp ứng dụng cho việc học cấu trúc mạng Bayes, EDA được xếp vào loại các phương pháp tìm kiếm và tính tỉ số (xem lại phần 2.2) [12], [2]. Theo giải thuật này, mỗi mạng Bayes ứng viên được biểu diễn bằng một chuỗi nhị phân C ij kích thước n×n (công thức 3): Theo ngôn ngữ của lý thuyết di truyền thì mỗi mạng Bayes là một nhiễm sắc thể. Có nghĩa là mỗi nhiễm sắc thể, sẽ đại diện cho một cá thể của tập quần thể, và được biểu diễn bởi một chuỗi nhị phân có dạng như sau (xem hình 7): ( 3 ) Hình 7. Ví dụ của việc biểu diễn một mạng Bayes theo ngôn ngữ của giải thuật di truyền. Nguyên tắc mã hóa tuân theo qui định của công thức (2). Riêng đối với hàm thích nghi (fitness fuction) được sử dụng trong trường hợp này chính là hàm tỉ số (scoring function, xem lại phần 2.2) được tính từ dữ liệu cho mỗi mạng Bayes. c 11 c 21 ::: c n1 c 12 c 22 ::: c n c 1n c 2n ::: c nn 180 Thuật toán và quá trình huấn luyện được mô tả như sau: Hình 8 dưới đây sẽ minh họa cho việc ứng dụng giải thuật này bằng một ví dụ đơn giản để kết thúc bài báo. Ví dụ mô tả các tiến trình tính toán của EDA cho việc học cấu trúc của mạng Bayes. Kết quả đầu ra là tập hợp các mạng Bayes có chỉ số thích nghi cao nhất. Đây cũng chính là các mạng kết quả tiềm năng cho bước nghiên cứu tiếp theo sử dụng các phương pháp kiểm định thống kê nhằm đánh giá hiệu quả suy luận và mức độ tương tác giữa các đối tượng của mạng gien (cytokine): Hình 8. Ví dụ của việc biểu diễn một mạng Bayes theo ngôn ngữ của giải thuật di truyền. 3. Kết luận và hướng phát triển Mục tiêu quan trọng nhất của nghiên cứu này là phân tích sự khác biệt về tầm ảnh hưởng giữa các cytokine trong những điều kiện thí nghiệm khác nhau dùng mạng Bayes. Để đạt được đều này, giải thuật tiến hóa sẽ đảm nhận vai trò tạo và duy trì một tập các mạng có cấu trúc tối ưu. Từ đó, một bước kiểm định thống kê sẽ được 1. Một quần thể được sinh ra từ các véc-tơ xác suất mã hóa từ các mạng Bayes ngẫu nhiên. 2. Hàm thích nghi của mỗi cá thể sẽ được đánh giá và xếp hạng để chọn những cá thể tối ưu. 3. Cập nhật quẩn thể dựa trên các cả thể được xếp hạng theo chỉ số thích nghi cao nhất. 4. Đột biến. 5. Lập lại bước 1-4 cho đến khi thỏa điều kiện dừng (không có cá thể mới nào có chỉ số thích nghi tốt hơn) 181 áp dụng trên hai tập quần thể có điều kiện thí nghiệm khác nhau để đánh giá lại hiệu quả suy luận thực tế của kết quả đạt được. Xây dựng lại mạng tương tác gien từ mạng Bayes là một hướng nghiên cứu đang được đầu tư bởi nhiều nhà nghiên cứu trong ngành tin sinh học. Giải pháp đề nghị của chúng tôi đang được nhóm nghiên cứu kiểm chứng bằng chương trình ở phiên bản thử nghiệm và kết quả sẽ được công bố trong thời gian sớm nhất. 4. Lời cảm ơn Dự án này được tài trợ bởi BIL (BioInformatique Lingérienne), vùng Pays de la Loire, Cộng hòa Pháp. TÀI LIỆU THAM KHẢO 1. Arena, Ra. Merendino, L. Bonina, D. Iannello, G. Stassi, and P. Mastroeni, The new microbiologica, Official journal of the Italian Society for Medical, Odontoiatric, and Clinical Microbiology (SIMMOC), 23(2), 2000. 2. C. Auliac, Approches évolutionnaires pour la reconstruction de réseaux de régulation génétique par apprentissage de réseaux bayésiens, PhD Thesis, Université d'Evry-Val d'Essonne, France, 2008. 3. M. Dejori, Analyzing gene expression data with bayesian networks, PhD thesis, Technical University of Graz, 2002. 4. Z. Dongxiao, O. H. Alfred, C. Hong, K. Ritu, And Anand S., Network constrained clustering for gene microarray data, Bioinformatics, 2005. 5. S.F. Emmert And M. Dehmer, Analysis of microarray data: A network-based approach, Wiley-VCH Publishing, 307-329, 2008. 6. N. Friedman, M. Linial, I. Nachman, And D. Pe'er, Using bayesian networks to analyze expression data, Computer Biology 7(3-4), 601-620, 2000. 7. F. Geier, T. Jens, And F. Christian, Reconstructing gene-regulatory networks from time series knock-out data, and prior knowledge, BMC Systems Biology, 1(1):11, 2007. 8. Y. Huang, J. Wang, Zhang J., Sanchez M., And Y. Wang, Bayesian inference of genetic regulatorynetworks from time series microarray data using dynamic bayesian networks. Bioinformatics, 2:46-56, 2007. 9. P. Li, Z. Chaoyang, P. Edward, G. Ping, And Youping D., Comparison of probabilistic boolean network and dynamic bayesian network approaches for inferring gene regulatory networks, BMC Bioinformatics, 8(Suppl 7):S13, 2007. 10. D. Pe'er, A. Regev, G. Elidan, And N. Friedman, Inferring subnetworks from perturbed 182 expression profiles, Bioinformatics (Oxford, England), 17(1), 2001. 11. J. Schferand And K. Strimmer, Learning large-scale graphical gaussian models from genomic data. J. F. Mendes. (Ed.). Proceedings of CNET, 2005. 12. G. Thibault, S. Bonnevay, And A. Aussem, Learning bayesian network structures by estimation of distribution algorithms: An experimental analysis, IEEE International Conference on Digital Information Management (ICDIM 07), Lyon, France, 2007. 13. L. Tiefei, Learning gene network using bayesian network framework, PhD thesis, National University of Singapore, 2005. DIFFERENTIAL STUDY OF THE CYTOKINE NETWORK IN THE IMMUNE SYSTEM BY THE EVOLUTIONARY ALGORITHM BASED ON THE BAYESIAN NETWORK Hoai-Tuong NGUYEN, Gérard RAMSTEIN, Philippe LERAY LINA - Laboratory of Informatic of Nantes-Atlantique Yannick JACQUES CRCNA - Center of Research on Cancerology of Nantes/Angers SUMMARY In this paper, we present a Bayesian networks (BNs) approach in order to infer the differentiation of the cytokine implication in different experimental conditions. We introduce an evolutionary method for BNs structure learning that maintains a set of the best learned networks. Each of them will be tested by a statistic test with two populations of patient data: one with treatment (drugs), other without treatment. The answer to the quétion “How does the treatment influence the gene regulation?” is expected. . 173 TẠP CHÍ KHOA HỌC, Đại học Huế, Số 59, 2010 NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES Nguyễn Hoài. cho các nghiên cứu sau này về xây dựng lại mạng tương tác gien dựa trên nguyên lý của mạng Bayes. Hình 1. Mô hình đầu tiên của bài toán xây dựng lại mạng tương tác gien bằng mạng Bayes. cải tiến của Pe’er và cộng sự vào năm 2001. Trở lại với nghiên cứu của tác giả, tiến trình trọng điểm của giải pháp được giới thiệu trên hình số 3 chính là học cấu trúc mạng Bayes. Tiến

Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES" docx

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan