Tieuluan dientoandammay cloud computing for bigdata v0 0 1 v1 0 1

20 341 0
Tieuluan dientoandammay cloud computing for bigdata v0 0 1 v1 0 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Các ứng dụng Big Data bao hàm cả lưu trữ và phân tích tính toán chuyên sâu và tiến trình xử lý lượng dữ liệu khổng lồ. Trong trường hợp tốt nhất, hầu hết các phân tích là O(N) và điều này trở nên tệ hơn trong trường hợp cặpnhóm hoặc nghiên cứu các kết hợp bậc cao 20. Thật không may, lưu trữ truyền thống và các giải pháp tính toán không đủ đáp ứng các yêu cầu của dữ liệu và các ứng dụng đó. Một vấn đề khác là cần phải chia sẻ dữ liệu như vậy giữa các nhà nghiên cứu tại các vị trí khác nhau một cách hạn chế và có kiểm soát. Điều này bổ sung yêu cầu băng thông cần thiết cho việc truyền dữ liệu. Điện toán đám mây mang đến triển vọng giải pháp cho hầu hết các vấn đề này và vì vậy mục tiêu của bài báo này là cung cấp định nghĩa cho điện toán đám mây và làm nổi bật các cơ hội và thách thức trong sử dụng điện toán đám mây cho Big Data. Một khảo sát toàn diện về các công cụ Dữ liệu lớn được cung cấp và các công cụ này được phân loại bằng cách sử dụng tiêu chí phù hợp cho Big Data. Bài báo cũng cung cấp các ứng dụng về Big Data mẫu sử dụng nền tảng đám mây.

MỤC LỤC ĐẶT VẤN ĐỀ A.1 Lý chọn đề tài Chúng ta sống thời đại bùng nổ internet, nơi mà thông tin truyền không giới hạn vào lúc nào, nơi đâu Một xu hướng chuyên gia IT doanh nghiệp nhắc đến nhiều điện tốn đám mây (cloud computing) Mức độ phổ biến điện toán đám mây tăng với tốc độ chóng mặt, làm thay đổi triệt để cách thức kinh doanh doanh nghiệp Trong khảo sát gần thực 1800 chuyên gia IT, kết cho thấy nhu cầu áp dụng điện toán đám mây thiết lập ứng dụng dịch vụ chiếm 52% Điện toán đám mây cung cấp hạ tầng kỹ thuật số cho thành phố tương lai, nơi ước tính tỉ dân số toàn cầu sinh sống vào năm 2045 Thang máy bãi đậu xe thông minh, xe ô tô taxi bay không người lái, tàu hỏa tàu điện ngầm, trang trại nhà máy điện - tất trở nên an toàn quản lý tốt nhờ khả lưu trữ phân tích liệu điện tốn đám mây Điện tốn đám mây giúp xã hội đối phó với lượng liệu ngày tăng cao Các liệu bao gồm ứng dụng chẳng hạn video có độ phân giải cao chiếm 89% lưu lượng người dùng cá nhân vào năm 2025, theo ước tính Huawei Điện tốn đám mây hỗ trợ công nghệ AI giúp chúng thích ứng với tảng mới, ví dụ điện thoại di động Khi doanh số điện thoại thông minh vượt qua doanh số máy tính để bàn vào năm 2011, điện thoại di động trở thành tảng điện toán lớn giới đương nhiên, AI thâm nhập vào tảng điện toán lớn giới B Phạm vi nghiên cứu Trong phạm vi nghiên cứu đề tài này, em tìm hiểu khái niệm Điện toán đám mây tập trung vào hướng nghiên cứu nghiên cứu đăng tạp chí Research Gate tác giả Hanan Elazhary Điện tốn đám mây cho Dữ liệu lớn Ngồi việc dịch tài liệu, em cố gắng nghiên cứu kiến thức khoa học báo cho Trong thời gian hạn hẹp khơng thể thiếu sót, mong đóng góp ý kiến Thầy cho tiểu luận hoàn thiện DANH MỤC TỪ VIẾT TẮT STT Ký hiệu, chữ viết tắt Ý nghĩa Cloud Computing Điện toán đám mây Big Data Dữ liệu lớn/Siêu liệu Genome Phân tích Gen Proteomics Sinh vật học phân tử nghiên cứu protein IaaS PaaS SaaS Cơ sở hạ tầng dịch vụ (Infrastructure as a Service) Nền tảng dich vụ (Platform as a Service) Phần mềm dịch vụ (Software as a Service) Xem thảo luận, thống kê, hồ sơ tác giả ấn tại: https://www.researchgate.net/publication/285692839 ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN (CLOUD COMPUTING FOR BIG DATA) Article · January 2014 BÀI ĐỌC 13 1,713 Toàn nội dung đăng Hanan Elazhary ngày 05/12/2015 The user has requested enhancement of the downloaded file Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN Hanan Elazhary Khoa Máy tính Công nghệ Thông tin, Đại học King Abdulaziz University, Jeddah, Saudi Arabia Tổng quan: Dữ liệu lớn (Big Data) đặc trưng tập liệu lớn ứng dụng tính tốn chun dụng Các ví dụ bao gồm ứng dụng phân tích sinh học phân tích Gen (genome) chuỗi DNA, sinh vật học phân tử nghiên cứu protein (proteomics), tính tốn khoa học thần kinh (computational neuroscience), tính tốn dược lý học (computational pharmacology) hay tính tốn nghiên cứu đa hệ gen (metagenomics) Các ngành vật lý học, kinh doanh Chính phủ có nhiều ứng dụng lĩnh vực Những liệu ứng dụng tương ứng đặt thách thức phương thức lưu trữ truyền thống giải pháp tính tốn Bên cạnh vấn đề chia sẻ số lượng lớn liệu nhà nghiên cứu cách có kiểm sốt Điện tốn đám mây giải pháp đầy hứa hẹn cung cấp hệ thống lưu trữ khơng giới hạn có khả co giãn theo u cầu khả tính tốn với giá phải Mục đích báo để thảo luận hội thách thức việc sử dụng đám mây máy tính cho việc xử lý Dữ liệu lớn Ngồi ra, cung cấp khảo sát tồn diện cơng cụ có cho Big Data phân loại chúng cách sử dụng tiêu chí cụ thể cho Big Data Các ứng dụng mẫu sử dụng công cụ giới thiệu viết Từ khóa: Dữ liệu lớn, sinh học tính tốn, tin sinh học, điện toán đám mây, Big Data, Computational Biology, Cloud Computing C.1 GIỚI THIỆU (INTRODUCTION) Vài năm trở lại đây, có gia tăng lớn quan tâm đến ứng dụng Dữ liệu lớn (Big Data) Ví dụ, tin sinh học [1] nhằm mục đích gia tăng hiểu biết sâu sắc lĩnh vực sinh học Các ứng dụng sinh học tính tốn bao gồm Dự án phân (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 tích Gen người (Human Genome Project - HGP) [2] nhằm mục đích hiểu biết đầy đủ gen người (the human genome1) Các kỹ thuật cho phép dự án liên quan đến chuỗi DNA phân tích tồn chuỗi gen [3] với mục tiêu xác định chuỗi DNA đầy đủ Gen xác định thời điểm Một ứng dụng khác sinh vật học phân tử nghiên cứu protein (proteomics) [4], nhằm mục đích hiểu biết đầy đủ proteins (proteomes2) Tính tốn khoa học thần kinh [5] đề cập đến nghiên cứu cấu trúc hệ thần kinh não chức xử lý thơng tin Giải phẫu Não Chuột (The Mouse Brain Atlas) [6, 7] Giải phẫu Não người (The Human Brain Atlas) [8] dự án Viện nghiên cứu Allen tiến hành lĩnh vực Nghiên cứu não Tính tốn nghiên cứu đa hệ gen (metagenomics) [9] lĩnh vực nhằm nghiên cứu thành phần di truyền thu từ môi trường lấy mẫu Dữ liệu nghiên cứu đa hệ gen đồng thời vừa cực lớn vừa nhiều nhiễu chứa liệu phân mảnh đại diện khoảng 10.000 lồi Tính tốn dược lý học [1] lĩnh vực khác có liên quan với việc tìm mối liên kết gen bệnh để xác định loại thuốc tiềm Lĩnh vực Vật lý có nhiều ứng dụng Ví dụ, Tổ chức nghiên cứu hạt nhân Châu Âu (CERN) xây dựng máy gia tốc hạt mạnh lớn giới, Large Hadron Collider (LHC) [10] với mục đích cho phép nhà vật lý kiểm tra dự đoán lý thuyết vật lý hạt vật lý lượng cao khác Dữ liệu sản xuất LHC liên quan đến mơ LHC ước tính khoảng 15 petabytes năm Trung tâm mơ Khí tượng NASA (The NASA Center for Climate Simulation-NCCS) [11] xử lý nhiều 32 petabytes quan sát mô khí hậu [12] Trạm quan sát bầu trời kỹ thuật số Sloan (The Sloan Digital Sky SurveySDSS) [13] sử dụng kính thiên văn chuyên dụng để khảo sát bầu trời Dữ liệu thu thập dược năm 2000 hình ảnh thu thập bao phủ 35% bầu trời Amazon [14], e-bay [15], Walmart [16] Facebook [17] ví dụ ứng dụng thương mại Big Data Ứng dụng cho Chính phủ Big Data bao gồm phân tích lưu lượng hàng hóa từ cảng nhập đến cảng xuất để đảm bảo an Khái niệm “genome” đề cập đến toàn gen sinh vật định Khái niệm “proteomes” kết hợp thuật ngữ "protein" "bộ gen" đề cập đến toàn protein sinh vật định (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 ninh cho chuỗi cung ứng toàn cầu [18] Chiến dịch Omaba ví dụ sử dụng Big Data để tập hợp cử tri riêng biệt bầu cử năm 2012 [19] Các ứng dụng Big Data bao hàm lưu trữ phân tích tính tốn chun sâu tiến trình xử lý lượng liệu khổng lồ Trong trường hợp tốt nhất, hầu hết phân tích O(N) điều trở nên tệ trường hợp cặp/nhóm nghiên cứu kết hợp bậc cao [20] Thật không may, lưu trữ truyền thống giải pháp tính tốn khơng đủ đáp ứng yêu cầu liệu ứng dụng Một vấn đề khác cần phải chia sẻ liệu nhà nghiên cứu vị trí khác cách hạn chế có kiểm sốt Điều bổ sung u cầu băng thơng cần thiết cho việc truyền liệu Điện tốn đám mây mang đến triển vọng giải pháp cho hầu hết vấn đề mục tiêu báo cung cấp định nghĩa cho điện toán đám mây làm bật hội thách thức sử dụng điện toán đám mây cho Big Data Một khảo sát toàn diện công cụ Dữ liệu lớn cung cấp công cụ phân loại cách sử dụng tiêu chí phù hợp cho Big Data Bài báo cung cấp ứng dụng Big Data mẫu sử dụng tảng đám mây Bài báo tổ chức sau: Phần cung cấp định nghĩa điện toán đám mây Phần thảo luận hội thách thức điện toán đám mây cho Big Data tương ứng Phần thảo luận phân loại cơng cụ có cho Big Data ứng dụng mẫu sử dụng công cụ Cuối cùng, Phần đưa kết luận D.2 ĐỊNH NGHĨA ĐIỆN TOÁN ĐÁM MÂY Cho đến nay, chưa có định nghĩa cách thống điện toán đám mây Cái tốt mà có định nghĩa thức tài liệu xuất sau nhiều năm làm việc với 15 thảo Viện Quốc gia Tiêu chuẩn Công nghệ (NIST) vào tháng năm 2011 [21] Theo NIST [22], điện toán đám mây mơ hình với năm đặc điểm thiết yếu, ba mơ hình dịch vụ bốn mơ hình triển khai Năm đặc điểm thiết yếu là: Truy cập qua mạng: Các tài nguyên sẵn sàng qua mạng cho phép truy cập thông qua thiết bị tiêu chuẩn sử dụng thiết bị đầu cuối khác điện thoại di động, máy tính bảng, máy tính xách tay, máy tính cá nhân máy trạm (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 Truy cập tài nguyên cách thuận tiện: Một người dùng tự cấu hình tài nguyên theo nhu cầu cần thiết giảm thiểu tương tác với nhà cung cấp dịch vụ Tài nguyên dùng chung: Các tài nguyên gộp lại cách không giới hạn để phục vụ cho nhiều người cách tối ưu; điều đạt cách tự động phân bổ tái phân bổ tài nguyên theo nhu cầu sử dụng Tài nguyên tăng/giảm nhanh chóng mà khơng cần hỗ trợ nhà cung cấp dịch vụ: Tài nguyên nhanh chóng cấp phép cách linh động bên bên ngồi theo nhu cầu Dịch vụ đo đếm: Các dịch vụ cung cấp đo đếm sở trả tiền theo nhu cầu sử dụng số mức độ trừu tượng tùy theo loại dịch vụ Ba mơ hình dịch vụ là: Cơ sở hạ tầng dịch vụ (IaaS): The người dùng cung cấp tài ngun máy tính (chẳng hạn vi xử lý, nhớ, mạng) để triển khai chạy phần mềm cách tùy ý bao gồm hệ điều hành ứng dụng với cấu hình tài ngun máy tính cho Nền tảng dạng Dịch vụ (PaaS): The người dùng triển khai chạy ứng dụng tạo ngơn ngữ lập trình, thư viện, dịch vụ công cụ hỗ trợ nhà cung cấp với cấu hình mơi trường ứng dụng máy chủ cho mà khơng cần biết đến cấu hình sở sở hạ tầng Ứng dụng phần mềm dạng Dịch vụ (SaaS): The người dùng sử dụng ứng dụng cung cấp nhà cung cấp chạy đám mây sở hạ tầng với cấu hình ứng dụng người dùng cụ thể Bốn mơ hình triển khai là: Đám mây dùng riêng: tảng đám mây với mục đích dùng riêng cho tổ chức/doanh nghiệp với nhiều người dùng không chia sẻ với tổ chức/doanh nghiệp khác Đám mây cộng đồng: tảng đám mây với mục đích dùng riêng cộng đồng cụ thể người dùng khác tổ chức/doanh nghiệp có mối quan tâm sở thích chung hợp tác, xây dựng Đám mây cơng cộng: tảng đám mây với mục đích cho thuê, sử dụng Đám mây kết hợp (lai): tảng đám mây kết hợp nhiều loại đám mây riêng biệt (dùng riêng, cộng đồng công cộng) liên kết với chuẩn cho phép dễ dàng chuyển đổi cần thiết (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 Vấn đề định nghĩa đặc trưng Điều làm cho định nghĩa vừa cứng nhắc (do sử dụng nhiều điều khoản) vừa mở rộng (do đặc trưng) Do đó, bất chấp nỗ lực tác động để chỉnh sửa định nghĩa này, bị trích nhiều lần tài liệu Theo Daconta [23], định nghĩa "không đầy đủ, méo mó tầm nhìn hạn chế" nhiều lý Ví dụ, giới hạn thân thành ba số "những thứ dịch vụ." Bên cạnh đó, giả định ba mơ hình dịch vụ (IaaS, PaaS SaaS) lớp, khơng phải lúc Nó giả định ba mơ hình quan trọng nhau, cho sai Chou [24] đề cập "sự phân loại số định nghĩa bốn mơ hình triển khai khơng cần thiết khơng qn" Ví dụ, đám mây cộng đồng thực tế đám mây dùng riêng cho với cộng đồng cụ thể Anh trích thay đổi tiêu chí phân loại: đám mây lai hình thành đám mây khác nhau, đám mây dùng riêng đám mây công cộng lại phân loại theo người dùng Chúng tơi định nghĩa lại điện tốn đám mây mơ hình điện tốn cung cấp cơng cụ đo truy cập cách thuận tiện để chia sẻ dịch vụ khái niệm sử dụng định nghĩa thảo luận sau: Khái niệm "mơ hình" thuật ngữ chung mơ tả khả cài đặt triển khai khác nhau; điều bao hàm viêc mơ hình triển khai NIST (IaaS, PaaS SaaS) khơng nên bị gói gọn phần định nghĩa giống Mạng cá nhân (Personal Area Network - PAN), Mạng nội (Local Area Network LAN), Mạng khu vực đô thị (Metropolitian Area Network - MAN) Mạng diện rộng (Wide Area Network - WAN) không gói gọn phần định nghĩa mạng máy tính Khái niệm "dịch vụ" thuật ngữ thông dụng khác bao gồm loại dịch vụ bao gồm dịch vụ vật lý dịch vụ ảo hóa, tài nguyên phần cứng, giải pháp phần mềm, Cơ sở hạ tầng dịch vụ (IaaS), Nền tảng dạng Dịch vụ (PaaS) Phần mềm dạng Dịch vụ (SaaS) Khái niệm "chia sẻ" ngụ ý kho lưu trữ đặt máy chủ dịch vụ kết nối qua mạng khắp nơi Khái niệm "công cụ đo" ngụ ý dịch vụ trả tiền theo nhu cầu sử dụng lợi ích người dùng nhà cung cấp dịch vụ (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 Khái niệm "một cách thuận tiện" thuật ngữ mở rộng bao gồm kết hợp nhiều tính cần thiết nhanh chóng theo yêu cầu, cho phép tự cấu hình truy cập vào dịch vụ phù hợp với nhu cầu người dùng sử dụng loại thiết bị giao tiếp khác khách hàng mà khơng cần tương tác với nhà cung cấp dịch vụ Nó cho phép loại bỏ rủi ro khỏi công việc kinh doanh (theo quan điểm người dùng) cung cấp cung cấp mềm dẻo với nỗ lực quản lý tối thiểu (theo quan điểm nhà cung cấp dịch vụ) E.3 CƠ HỘI CHO ĐIỆN TỐN ĐÁM MÂY Điện tốn đám mây cung cấp hội cho Big Data Nó có nhiều khả đầy hứa hẹn; ví dụ: Khả mở rộng: Trong điện toán đám mây, dung lượng khơng giới hạn khả mở rộng ln ln có thể; thay chạy cơng việc máy tính 10 giờ, chạy 10 máy tính Sự mềm dẻo: Các tài nguyên cung cấp tùy theo nhu cầu công việc Việc mềm dẻo thể khía cạnh: chi phí, chất lượng tài nguyên [25] Khả trả tiền theo nhu cầu sử dụng: Do tài nguyên tự động cấp phép theo thay đổi khối lượng công việc, việc toán thực theo việc sử dụng thực tế để khơng lãng phí tiền Khả chia sẻ: Điện toán đám mây cho phép chia sẻ tài ngun cách thơng suốt Cho ví dụ, kho liệu đám mây cho phép chia sẻ liệu lớn thay copy chép cụm tách biệt Độ tin cậy liệu: Bản liệu lưu địa lý khác vị trí để khắc phục liệu thiên tai Khả mơ hình hóa liệu lớn: Một tập hợp mơ hình chẳng hạn MapReduce [26, 27] Dremel [28] phát triển đặc biệt cho việc xử lý phân tích Dữ liệu lớn Dễ dàng bảo trì nâng cấp hơn: Bảo trì thực dịch vụ nhà cung cấp cho phép nhà nghiên cứu tập trung vào nghiên cứu F NHỮNG THÁCH THỨC CỦA ĐIỆN TOÁN ĐÁM MÂY Mặc dù nhiều hội mang đến điện toán đám mây cho Dữ liệu lớn, có nhiều thách thức cần giải quyết; bao gồm: (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 Vấn đề bảo mật: giảm quyền kiểm sốt vị trí liệu nhạy cảm khả rò rỉ liệu liệu thuộc khách hàng khác lưu trữ vị trí Đó vấn đề quyền riêng tư liệu người đám mây Kết nối Internet: Trong trường hợp ứng dụng cần tương tác cao, kết nối Internet ổn định cao băng thông cao bắt buộc lúc có sẵn Điều làm tăng thời gian chi phí cần thiết để chuyển tập liệu lớn với đám mây đám mây Các mơ hình tính tốn liệu lớn cơng cụ MapReduce không thực tốt nguyên nhân làm tăng chi phí việc tăng kích thước liệu u cầu việc tính tốn lại tái cấu trúc mã [20] Tính sẵn sàng ứng dụng liệu số nhà cung cấp dịch vụ Các mơ hình định giá phức tạp làm cho định giá khó đánh giá theo dõi Khó khăn việc Đảm bảo chất lượng dịch vụ (QoS) G CÁC CÔNG CỤ CHO DỮ LIỆU LỚN Rất nhiều cơng cụ hữu ích hữu cho Dữ liệu lớn Trong báo này, chúng phân loại cách sử dụng tiêu chí phù hợp cho Big Data Nó đáng lưu ý OpenCrowd [29] trì bảng Phân loại đám mây số công cụ này, cung cấp phân loại tổng quan bỏ qua số công cụ quan trọng Các lớp phân loại đề xuất phận nhỏ sau: 5.1 Cơ sở hạ tầng hiệu cao Dịch vụ Cơ sở hạ tầng cơng cụ Dịch vụ sử dụng để triển khai chạy phần mềm tùy ý bao gồm hệ điều hành ứng dụng Dữ liệu lớn yêu cầu Cơ sở hạ tầng hoạt động cơng cụ Dịch vụ có hiệu cao để chạy ứng dụng tính tốn chun sâu xử lý lượng liệu khổng lồ Các công cụ bao gồm: IBM Softlayer [30]: Softlayer Bare Metal Server cung cấp hiệu suất vượt trội với khả lưu trữ dung lượng có tốc độ, sức mạnh, tính linh hoạt cần thiết cho ứng dụng Big Data ProfitBricks [31]: Giải pháp cung cấp hạ tầng dịch vụ IaaS hiệu suất cao phù hợp với ứng dụng Dữ liệu lớn Amazon EC2 [32]: Máy tính hiệu suất cao High Performance Computing (HPC) cho Dữ liệu lớn kích hoạt thơng qua Cluster Compute server Cluster GPU Dịch vụ đám mây Amazon Web Services Amazon (AWS)[33] (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 5.2 Hệ thống lưu trữ dạng Dịch vụ Các ứng dụng Big Data yêu cầu dung lượng lưu trữ lớn cho lượng liệu khổng lồ Rất nhiều công cụ phù hợp với mục đích Chúng bao gồm: Amazon Elastic Block Store (Amazon EBS) [34]: Hệ thống cung cấp lưu trữ mức khối sử dụng với đám mây Amazon Elastic Compute Cloud (Amazon EC2) AWS Cloud Amazon S3 [35]: Hệ thống cung cấp giao diện đơn giản cho lưu trữ nơi truy xuất lượng liệu Web AT & T Synaptic Storage [36]: Hệ thống cung cấp dung lượng linh hoạt cho phép truy cập khắp nơi tới liệu qua giao diện chương trình ứng dụng (API) Google BigTable [37]: Hệ thống cung cấp nhớ cho ứng dụng sử dụng Nền tảng Google dạng công cụ Dịch vụ (Google Platform as a Service tools) Google cung cấp App Engine mà thảo luận phần sau phận nhỏ sau HP Cloud Object Store [38]: Nó cho phép khách hàng tạo số không giới hạn nơi chứa với số lượng không hạn chế đối tượng máy chủ HP hiệu cao Internap Cloud Storage [39]: Đây hệ thống lưu trữ đối tượng nằm trung tâm liệu an tồn có độ sẵn sàng cao thiết kế để mở rộng cho hàng triệu đối tượng Zetta [40]: Nó cung cấp máy chủ hồn chỉnh giải pháp lưu 5.3 Dữ liệu lớn dịch vụ Các công cụ Nền tảng Dịch vụ sử dụng để triển khai chạy ứng dụng tạo ngôn ngữ lập trình, thư viện, dịch vụ cơng cụ cung cấp Các công cụ Dữ liệu lớn dạng Dịch vụ coi nhóm công cụ Nền tảng dạng công cụ Dịch vụ dành riêng cho Big Data Một tảng bật phổ biến để xử lý Dữ liệu lớn Apache Hadoop [41], tảng mã nguồn mở với thư viện tiện ích để lưu trữ xử lý Dữ liệu lớn Nó sử dụng thuật toán MapReduce cho phân phối liệu nút xử lý Các công cụ Dữ liệu lớn Dịch vụ bao gồm: Actian DataCloud [42]: Một tảng cho phép phát triển tích hợp giải pháp quản lý liệu ứng dụng có kích thước Altiscale [43]: Nó cung cấp Hadoop Dịch vụ Amazon Kinesis [44]: Nó cho phép phát triển ứng dụng phản hồi thay đổi việc truyền Dữ liệu lớn với vài dòng mã (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 BigML [45]: Nó tảng học máy đám mây cho phép phát triển dự đoán cho Dữ liệu lớn online BigML PredictServer [46] hình ảnh đám mây chun dụng sử dụng để phát triển dự đốn nhanh chóng rõ ràng Datameer [47]: Nó tảng cho Hadoop với chức xây dựng sẵn, mở rộng plug-ins API mở Mortar Data [48]: Nó cung cấp giải pháp, mã công cụ cho liệu khoa học có khả mở rộng cao Nó khai thác số khách hàng Associated Press [49] Qubole [50]: Nó cung cấp số cơng cụ bao gồm Hadoop MapReduce cho dịch vụ Big Data tồn diện Do đó, 50 khách hàng khai thác NextDoor [51] Cloudera [52]: Một tảng cho Hadoop chạy đám mây AWS MapR [53]: Một tảng dựa Hadoop cho phép khách hàng dễ dàng lưu trữ xử lý Dữ liệu lớn Nó chấp nhận số lượng lớn đối tác khách hàng bao gồm Google Amazon Pig [54] : Đây tảng ngôn ngữ cấp cao để tạo MapReduce chương trình sử dụng với Hadoop Hadoop-BAM [55]: Là thư viện hoạt động lớp tích hợp ứng dụng phân tích liệu xử lý Hadoop tin sinh học 5.4 Dữ liệu dạng dịch vụ Các công cụ Dữ liệu dịch vụ cung cấp liệu cần thiết cho ứng dụng cụ thể Những dịch vụ đặc biệt cần thiết cho ứng dụng Big Data mà thu thập tập liệu lớn nhiệm vụ dễ dàng Các công cụ Dữ liệu dạng Dịch vụ bao gồm: AWS Public Datasets [56]: Nó cung cấp liệu từ tám domains khác BrightPlanet [57]: Nó cung cấp liệu từ trang web chọn Web 5.5 Kho liệu dịch vụ Big Data dễ dàng điều khiển cách sử dụng hệ quản trị sở liệu quan hệ truyền thống sử dụng Truy vấn SQL để quản lý liệu Do vậy, khoảng năm mươi kho liệu NoSQL [58] đề xuất phát triển đặc biệt cho Big Data nhằm mục đích đạt tốc độ khả co giãn Các kho liệu phân nhánh cách chung chung sau: Các kho Khóa-Giá trị (Key-Value Stores): Chúng kho lưu trữ liệu NoSQL đơn giản lưu trữ cặp khóa giá trị truy xuất giá trị dựa (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 khóa Chúng xếp khóa phép truy vấn theo khoảng xử lý thứ tự khóa Chúng nhanh dễ dàng mở rộng quy mơ liệu với kích thước lớn thay đổi giây với hàng triệu người dùng đồng thời trường hợp ứng dụng trực tuyến, trò chơi dành cho thiết bị di động [59] Ví dụ cơng cụ bao gồm đám mây Redis [60] Amazon Dynamo DB [61] Các kho tài liệu (Document Stores): Chúng ghép khóa với tài liệu, cấu trúc liệu phức tạp chứa cặp khóa-giá trị khác nhau, cặp khóamảng, tài liệu lồng ghép Chúng phù hợp để lưu trữ liệu phi cấu trúc, chẳng hạn liệu đăng mạng xã hội liệu đa phương tiện Các cơng cụ ví dụ bao gồm MongoDB [62] CouchDB [63] Các kho dạng Cột (Column Stores): Chúng lưu trữ cột thay hàng liệu Chúng phù hợp cho ứng dụng kinh doanh thông minh kho liệu giá trị cột cung cấp cho tất hàng lúc Các cơng cụ thí dụ bao gồm: Cassandra [64] Google BigQuery [65] Kho đồ (Graph Stores): Chúng sử dụng để lưu trữ liệu mạng kết nối xã hội Các công cụ ví dụ bao gồm: Neo4j [66] Google Horton [67] SpliceMachine [68] cho Hệ quản trị sở liệu Hadoop cho phép mở rộng quy mô máy chủ lớn mở rộng theo chiều ngang Nó hỗ trợ tin sinh học xử lý lượng liệu khổng lồ liệu gen 5.6 Phần mềm dạng Dịch vụ Một tập công cụ Phần mềm Dịch vụ phát triển phát triển để hỗ trợ xử lý Dữ liệu lớn Chúng bao gồm: Plex [69]: Nó Phần mềm dịch vụ (SaaS) ERP để kết nối quản lý toàn quy trình sản xuất Opani: Nó cơng cụ Phần mềm dịch vụ để phân tích Dữ liệu lớn hình ảnh MRI, hình ảnh hiển vi tế bào ung thư sở liệu MySQL Nó có thơng qua để cập nhật trạng thái Facebook, Twitter Yahoo Finance Nhiều phần mềm cơng cụ Dịch vụ có phát triển đặc biệt để xử lý Dữ liệu lớn Sinh học phân tích chuỗi, chỉnh hàng lập đồ Những cơng cụ phân loại Các công cụ Sinh học dạng dịch vụ bao gồm ArrayExpressHTS [71], BGI [72], Bioscope [73], CloudAligner [74], Cloud BioLinux [75], CloudBurst [76], Cloud-Coffee [77], Cloud-MAQ [78], CloVR [79], Crossbow [80], Eoulsan [81, 82], FX [83], Jnomics [84], Myrna [85], PeakRanger [86], SEAL [87], (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 SeqWare [88], YunBe [89] VAT [90] Đáng lưu ý số cơng cụ tiếp tục phân loại theo nhiệm vụ cụ thể họ [91, 92, 93] H KẾT LUẬN Mặc dù giải pháp lưu trữ tính tốn truyền thống đáp ứng yêu cầu ứng dụng Dữ liệu lớn, điện toán đám mây ứng viên đầy hứa hẹn cho mục đích Đám mây tính tốn có vài lực vốn có cung cấp hội thực cho Big Data Chúng bao gồm: khả mở rộng, khả co giãn, công cụ đo khả trả tiền theo nhu cầu, chia sẻ, độ tin cậy liệu, mơ hình Big Data, thêm vào khả bảo trì nâng cấp dễ dàng Mặt khác, có nhiều thách thức vấn đề bảo mật riêng tư, liên quan đến kết nối Internet chậm, hiệu suất Big Data trường hợp mơ hình liệu có kích thước liệu lớn , mơ hình định giá phức tạp, đảm bảo chất lượng dịch vụ, cộng thêm tính động ứng dụng liệu nhà cung cấp dịch vụ khác Trong tài liệu, số lượng lớn công cụ tồn cho số loại ứng dụng Dữ liệu lớn khác ứng dụng khảo sát thảo luận báo chúng phân loại cách sử dụng tiêu chí phù hợp cho Big Data ứng dụng ví dụ liệu có lợi ích từ khả đám mây cung cấp I TÀI LIỆU THAM KHẢO (REFERENCES) [1] http://en.wikipedia.org/wiki/Computational_biology; accessed July 2014 [1] http://en.wikipedia.org/wiki/Computational_biology; accessed July 2014 [2] http://www.genome.gov/12011238; accessed July 2014 [3] http://en.wikipedia.org/wiki/Whole_genome_sequencing; accessed July 2014 [4] http://en.wikipedia.org/wiki/Proteomics; accessed July 2014 (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 [5] http://en.wikipedia.org/wiki/Computational_neuroscience; accessed July 2014 [6] http://mouse.brain-map.org/; accessed July 2014 [7] Lein E et al., "Genome-Wide Atlas of Gene Expression in the Adult Mouse Brain," Nature 445 (pp 168-176, 2007) [8] http://human.brain-map.org/; accessed July 2014 [9] http://en.wikipedia.org/wiki/Metagenomics; accessed July 2014 [10] http://en.wikipedia.org/wiki/Large_Hadron_Collider; accessed July 2014 [11] http://www.nccs.nasa.gov/index.html; accessed July 2014 [12] http://en.wikipedia.org/wiki/Big_data; accessed July 2014 [13] http://en.wikipedia.org/wiki/Sloan_Digital_Sky_Survey; accessed July 2014 [14] http://www.amazon.com/; accessed July 2014 [15] http://www.ebay.com/; accessed July 2014 [16] http://www.walmart.com/; accessed July 2014 [17] http://www.facebook.com/; accessed July 2014 [18] http://fcw.com/articles/2013/09/25/big-data-transform-government.aspx; accessed July 2014 [19] Issenberg S., "How President Obama’s campaign used big data to rally individual voters, Part 1.," http://www.technologyreview.com/featuredstory/508836/howobama-used-big-data-to-rally-voters-part-1/; accessed July 2014 [20] Kasson P., "Computational Biology in the Cloud: Methods and New Insights from Computing at Scale, Proc Pac Symp Biocomputing (pp 451-453, 2013) [21] http://www.nist.gov/itl/csd/cloud-102511.cfm; accessed July 2014 [22] Mell P and Grance T., "The NIST Definition of Cloud Computing," Special Publication 800-145, National Institute of Standards and Technology (NIST), U.S Department of Commerce (2011) [23] Daconta M., “Why NIST's Cloud Definition is Fatally Flawed,” http://gcn.com/articles/2012/04/02/reality-check-nist-flawed-cloud-framework.aspx; accessed July 2014 [24] Chou Y., “An Inconvenient Truth of the NIST Definition of Cloud Computing," http://cloudcomputing.sys-con.com/node/2131995; accessed July 2014 [25] http://en.wikipedia.org/wiki/Elasticity_(cloud_computing); accessed July 2014 (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 [26] Dean, J and Ghemawat S., "MapReduce: Simplified Data Processing on Large Clusters," Communications of the ACM, 51(1) (pp 107-113, 2008) [27] Dean J and Ghemawat S., "MapReduce: A Flexible Data Processing Tool," Communications of the ACM 53(1) (pp 72-77, 2010) [28] Melnik S et al., "Dremel: Interactive Analysis of Web-Scale Datasets," Communications of the ACM 54(6) (p 114-123, 2011) [29] http://cloudtaxonomy.opencrowd.com/; accessed July 2014 [30] http://www.softlayer.com/bare-metal-servers; accessed July 2014 [31] http://www.profitbricks.com/high-performance-computing-hpc; accessed July 2014 [32] http://aws.amazon.com/hpc/; accessed July 2014 [33] http://aws.amazon.com/; accessed July 2014 [34] http://aws.amazon.com/ebs/; accessed July 2014 [35] http://aws.amazon.com/s3/; accessed July 2014 [36] https://www.synaptic.att.com/clouduser/html/productdetail/Storage_as_a_Service.htm; accessed July 2014 [37] http://en.wikipedia.org/wiki/BigTable; accessed July 2014 [38] http://www.hpcloud.com/products-services/object-storage; accessed July 2014 [39] http://www.internap.com/cloud/cloud-storage/; accessed July 2014 [40] http://www.zetta.net/; accessed July 2014 [41] http://en.wikipedia.org/wiki/Apache_Hadoop; accessed July 2014 [42] http://cloud.pervasive.com/; accessed July 2014 [43] https://www.altiscale.com/hadoop-cloud/solution-comparison/; accessed July 2014 [44] http://aws.amazon.com/kinesis/; accessed July 2014 [45] http://www.bigdata-startups.com/BigData-startup/bigml/; accessed July 2014 [46] https://bigml.com/predictserver; accessed July 2014 [47] http://www.datameer.com/; accessed July 2014 [48] http://www.mortardata.com/; accessed July 2014 [49] http://www.ap.org/; accessed July 2014 (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 [50] http://www.qubole.com/; accessed July 2014 [51] https://nextdoor.com/; accessed July 2014 [52] http://www.cloudera.com/content/cloudera/en/solutions/partner/Amazon- Web-Services.html; accessed July 2014 [53] http://www.mapr.com/products/product-overview/overview; accessed July 2014 [54] http://pig.apache.org/; accessed July 2014 [55] Niemenmaa M et al., " Hadoop-BAM: Directly Manipulating Next Generation Sequencing Data in the Cloud," Bioinformatics 28(6) (pp 876–877, 2012) [56] http://aws.amazon.com/publicdatasets/; accessed July 2014 [57] http://www.brightplanet.com/solutions/data-as-a-service/; accessed July 2014 [58] http://www.mongodb.com/nosql-explained; accessed July 2014 [59] https://infocus.emc.com/april_reeve/big-data-architectures-nosql-use-cases- for-key-value-databases/; accessed July 2014 [60] http://redislabs.com/redis-cloud; accessed July 2014 [61] http://aws.amazon.com/dynamodb/; accessed July 2014 [62] https://mongolab.com/welcome/; accessed July 2014 [63] http://couchdb.apache.org/; accessed July 2014 [64] http://cassandra.apache.org/; accessed July 2014 [65] https://cloud.google.com/products/bigquery/; accessed July 2014 [66] http://www.neo4j.org/; accessed July 2014 [67] http://research.microsoft.com/en-us/projects/ldg/; accessed July 2014 [68] http://www.splicemachine.com/; accessed July 2014 [69] http://www.plex.com/; accessed July 2014 [70] http://readwrite.com/2011/05/06/opani-social-supercomputing-in; accessed July 2014 [71] Goncalves A et al., "A Pipeline for RNA-Seq Data Processing and Quality Assessment," Bioinformatics 27(6) (pp 867–869, 2011) [72] http://www.genomics.cn/en/index; accessed July 2014 [73] http://www.lifetechnologies.com/eg/en/home/life-science.html; accessed July 2014 (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 [74] Nguyen T et al., "CloudAligner: A Fast and Full-Featured MapReduce Based Tool for Sequence Mapping," BMC Research Notes 4(171) (2011) [75] http://cloudbiolinux.org/; accessed July 2014 [76] Schatz M., "CloudBurst: Highly Sensitive Read Mapping with MapReduce," Bioinformatics 25(11) (pp 1363–1369, 2009) [77] Tommaso P et al., "Cloud-Coffee: Implementation of a Parallel ConsistencyBased Multiple Alignment Algorithm in the T-coffee Package and its Benchmarking on the Amazon Elastic-Cloud," Bioinformatics 26(15) (pp 1903–1904, 2010) [78] Talukder A et al., "Cloud-MAQ: The Cloud-Enabled Scalable Whole Genome Reference Assembly Application," Proc the 7th International Conference on Wireless And Optical Communications Networks (pp 1-5, 2010) [79] http://clovr.org/; accessed July 2014 [80] Langmead B et al "Searching for SNPs with cloud computing," Genome Biology 10(11) (2009) [81] http://transcriptome.ens.fr/eoulsan/; accessed July 2014 [82] Jourdren L et al., "Eoulsan: A Cloud Computing-Based Framework Facilitating High Throughput Sequencing Analyses.," Bioinformatics 28(11) (pp 1542-3, 2012) [83] Hong D et al., "FX: An RNA-Seq Analysis Tool on the Cloud," Bioinformatics 28(5) (pp 721–723, 2012) [84] http://www.mybiosoftware.com/sequence-analysis/10943; accessed July 2014 [85] Langmead B et al., "Cloud-Scale RNA-Sequencing Differential Expression Analysis with Myrna," Genome Biology 11(R83) (2010) [86] Feng X., "PeakRanger: A cloud-Enabled Peak Caller for ChIP-Seq Data," Bioinformatics 12(139) (2011) [87] Pireddu L et al "Seal: A Distributed Short Read Mapping and Duplicate Removal Tool," Bioinformatics 27(15) (pp 2159–2160, 2011) [88] O’Connor B et al., "SeqWare Query Engine: Storing and Searching Sequence Data in the Cloud," BMC Bioinformatics 11(Suppl 12:S2) (2010) [89] Zhang L et al., "Gene set analysis in the cloud," Bioinformatics (2011) (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21) Báo cáo nghiên cứu MAGNT (ISSN 1444-8939) Vol.2 (4) PP:135- 144 [90] Habegger, L., "VAT: A Computational Framework to Functionally Annotate Variants in Personal Genomes within a Cloud-Computing Environment," Bioinformatics 28(17) (pp 2267-2269, 2012) [91] Lin Y., Yu C and Lin Y., "Enabling Large-Scale Biomedical Analysis in the Cloud," BioMed Research International, 2013(185679) (2013) [92] Dai L et al., "Bioinformatics Clouds for Big Data Manipulation," Biology Direct 7(43) (2012) [93] Chen J et al., "Translational Biomedical Informatics in the Cloud: Present and Future," BioMed Research International, 2013(658925) (2013) (DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)

Ngày đăng: 28/03/2019, 10:30

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan