HỆ THỐNG TÍNH TOÁN HIỆU NĂNG CAO và ỨNG DỤNG TRONG PHÂN TÍCH và xử lý dữ LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO LÊ THUẬN HUỲNH VIỆN ĐẠI HỌC MỞ HÀ NỘI KỸ THUẬT VIỄN THÔNG LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: KỸ THUẬT VIỄN THÔNG HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO VÀ ỨNG DỤNG TRONG PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU LÊ THUẬN HUỲNH 2015 - 2017 HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO VÀ ỨNG DỤNG TRONG PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU LÊ THUẬN HUỲNH CHUYÊN NGÀNH: KỸ THUẬT VIỄN THÔNG MÃ SỐ: 8520208 HƯỚNG DẪN KHOA HỌC : TS.NGUYỄN HOÀI GIANG HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân, xuất phát từ yêu cầu phát sinh q trình làm luận văn Các tài liệu có nguồn gốc rõ ràng, tuân thủ nguyên tắc, kết trình bày luận văn kết trình nghiên cứu trung thực, chưa công bố trước Hà Nội, tháng 12 năm 2017 Tác giả luận văn Lê Thuận Huỳnh LỜI CẢM ƠN Trong trình thực luận văn, tơi xin chân thành cảm ơn giúp đỡ thầy, cô Khoa Sau đại học - Viện Đại học mở Hà Nội, đặc biệt hướng dẫn tận tình thầy giáo TS Nguyễn Hồi Giang để tơi hồn thành đề tài Tôi xin cảm ơn anh chị em học viên lớp 15M-VT2, khóa 20152017, Khoa sau đại học, Viện Đại học mở ủng hộ giúp đỡ tơi q trình học tập thực luận văn Cuối xin gửi lời cảm ơn đến thầy cô, tác giả tài liệu tham khảo mà sử dụng trình thực đề tài Xin chân thành cảm ơn! MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10 MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ ĐIỆN TOÁN HIỆU NĂNG CAO 1.1 Lịch sử phát triển thành tựu 1.1.1 Các siêu máy tính (1940 - 1960) 1.1.2 Các hệ HPC Cray từ 1975 đến 1990 1.1.3 Các hệ thống HPC kiến trúc cụm từ 1990 đến 2010 1.1.4 Các hệ thống HPC kiến trúc tích hợp GPGPU lai ghép từ 2010 đến 1.2 Ưu nhược điểm hệ thống tính tốn hiệu cao 1.2.1 Định nghĩa tính tốn hiệu cao 1.2.2 Ưu nhược điểm hệ thống tính tốn hiệu cao 1.3 Các ứng dụng HPC 1.3.1 Các lĩnh vực ứng dụng 1.3.2 Nhu cầu ứng dụng HPC 1.4 Kiến trúc tính tốn song song 1.4.1 Đặc tính song song HPC 1.4.2 Khái niệm tính tốn song song 10 1.4.3 Công thức mức tăng tốc thực song song 13 1.4.4 Phân tích hiệu thực song song 14 CHƯƠNG 2: KIẾN TRÚC CỦA HỆ THỐNG MÁY TÍNH HIỆU NĂNG CAO VÀ NGUYÊN LÝ 33 2.1 Kiến trúc hệ thống tính tốn hiệu cao 33 2.1.1 Phân loại kiến trúc máy tính theo Flynn 33 2.1.2 Phân loại cấu trúc máy tính 37 2.1.3 Phân loại cấu hình kết nối mạng kết nối N 39 2.1.4 Kiến trúc hệ thống HPC 41 2.1.5 Các cấu hình mạng cluster hệ thống HPC 43 2.2 Nguyên lý hoạt động HPC 48 2.2.1 HPC giải pháp cho nhu cầu tính tốn 48 2.2.2 Nguyên lý hoạt động HPC 50 2.3 Mô hình triển khai HPC 50 2.3.1 Các nguyên tắc để xây dựng HPC 50 2.3.2 Mơ hình triển khai HPC 52 2.4 Các bước xây dựng hệ thống HPC 52 2.4.1 Bước 1: Xác định cấu hình thiết kế HPC 52 2.4.2 Bước 2: Lựa chọn công nghệ thiết bị tài nguyên cần thiết 52 2.4.3 Bước 3: Tính tốn hiệu lý thuyết HPC 53 2.4.4 Bước 4: Xây dựng nút máy tính HPC 53 2.4.5 Bước 5: Cài đặt mạng nút tủ HPC 54 2.4.6 Bước 6: Cài đặt mạng HPC 54 2.4.7 Bước 7: Cấu hình tồn HPC 54 2.4.8 Bước 8: Chạy đo kiểm tốc độ HPC 54 2.5 Các mơ hình kết nối cụm HPC thơng dụng 55 2.5.1 Các cấu hình fat tree cluster HPC 55 2.5.2 Một số ví dụ cấu hình fat tree cluster HPC 57 2.5.3 Tốc độ tính tốn kiến trúc cụm HPC 62 CHƯƠNG 3: ỨNG DỤNG HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO TRONG PHÂN TÍCH XỬ LÝ DỮ LIỆU 65 3.1 Bài toán liệu lớn (big data) 65 3.1.1 Khái niệm liệu lớn 65 3.1.2 Định nghĩa liệu lớn 66 3.1.3 Đặc trưng liệu lớn 67 3.1.4 Sự ưu việt giải pháp liệu lớn 68 3.1.5 Bài toán liệu lớn 69 3.1.6 So sánh toán xử lý liệu lớn với toán xử lý liệu truyền thống 71 3.2 Ứng dụng hệ thống HPC phân tích xử lý liệu 74 3.2.1 Đặc điểm HPC đảm bảo cho thực toán liệu lớn 74 3.2.2 Ứng dụng HPC tốn phân tích liệu lớn 75 3.2.3 Kiến trúc ứng dụng hệ thống HPC toán Big data 77 3.3 Thiết kế phần cứng mạng làm việc 81 3.3.1 Server tích hợp Intel CPU chip xử lý tăng tốc Nvidia GPGPU 82 3.3.2 Card Nvidia GPGPU 83 3.3.3 Nút máy tính tích hợp CPU+GPGPU kiến trúc cụm HPC 84 3.3.4 Kết nối cụm HPC thiết bị chuyển mạch 86 3.3.5 Tính tốn hiệu nút máy tính CPU+GPGPU 86 3.4 Phần mềm hệ thống quản trị 87 3.4.1 CUDA Nvidia 88 3.4.2 Hadoop 88 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU 98 TÀI LIỆU THAM KHẢO 99 DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt/ ký hiệu Cụm từ đầy đủ APT Advanced Persistent Threat CPU Central Processing Unit BCE Base Core Equivalents IOP Input-Output Processor SISD Single Instruction stream Single Data stream MIPS Million of instructions per second SIMD Single instruction stream multiple data stream MISD multiple instruction, single data MIMD Multiple Instruction, Multiple Data SMC Symmetric Multi-core Chip DMC Dynamic Multi-core Chip IoT Internet of Things AMC Asymmetric Multi-core Chip FLOPS floating point operations per second HPC High Performance Computing GPGPU General-purpose computing on graphics processing units SMP Symmetric MultiProcessors) IB Infiniband FPGA Field-programmable gate array MPP Massively Parallel Processing UPS Uninterruptible Power Supply SDR Single Data Rate DDR Double Data Rate QDR Quad Data Rate FDR10 Fourteen Data Rate, 10Gbit/s per lane FDR Fourteen Data Rate EDR Enhanced Data Rate HDR High Data Rate NDR Next Data Rate XDR Extended Data Rate Node performance in FLOPS = (CPU speed in Hz) x (number of CPU cores) x (CPU instruction per cycle) x (number of CPUs per node) Một server gồm hai CPU với CPU chip Intel E5-2650 8-core 2.9 GHz, cho tốc độ là: 2,9 × × × = 371,2 GFLOPS (per server) Tốc độ đạt thực đồng thời lệnh core Để tính hiệu cluster HPC gồm nút máy tính thực đồng thời chương trình, bỏ qua trễ truyền thơng nút máy tính cluster, ta nhân số nút máy tính với tốc độ nút, nhận tốc độđỉnh cluster: Performanvce of Cluster in FLOPS = (Node performance in FLOPS) x (Number or Nodes in Cluster) Với 72 Node Fat tree cluster sử dụng switch (hình 2.19), ta có: 371,2GFLOPS x 72 (nodes) = 26,726 GFLOPS ≈27TFLOPS Thời gian thực ứng dụng song song hệ thống máy tính có tính đến trễ truyền thơng là: System Total_Time = Compute + Memory + Communicatin Compute = Compute_CPU + Compute_GPU Memory = Memory_CPU + Memory_GPU + CPU_Memory_GPU_Memory Communication = CPU_GPU_overhead 3.4 Phần mềm hệ thống quản trị Luận văn ứng dụng HPC toán Big data cách sử dụng tảng phần cứng HPC kết hợp với tảng phần mềm mã nguồn mở Hadoop để giải toán Bigdata.Trên hệ thống HPC thực cài đặt phần mềm hệ thống sau: • Hệ điều hành CentOS cài đặt tất máy tính 87 • CUDA Nvidia để phát triển ứng dụng vận dụng hiệu GPGPU • Hadoop quản lý, lưu trữ, xây dựng ứng dụng xử lý tập hợp liệu khổng lồ môi trường tính tốn phân tán 3.4.1 CUDA Nvidia CUDA từ viết tắt tiếng Anh thuật ngữ Compute Unified Device Architecture, kiến trúc thiết bị hợp cho tính tốn song song CUDA bắt đầu xuất từ tháng Bảy năm 2007 với vai trò ban đầu công cụ phát triển phần mềm dựa ngơn ngữ lập trình C CUDA tiến hóa thành kiến trúc điện tốn GPU, hay gọi GPGPU, NVIDIA CUDA có mặt hầu hết GPU đời NVIDIA, từ dòng GeForce giành cho giải trí, đến Quadro giành cho điện tốn hình ảnh chun nghiệp, dòng Tesla cho tính toán hiệu cao CUDA cho phép nhà phát triển truy nhập vào tập lệnh ảo nhớ phần tử tính tốn song song đơn vị xử lý đồ họa CUDA (CUDA GPU) Sử dụng CUDA, GPU NVIDIA sản xuất dễ dàng thực tính tốn CPU Tuy nhiên, khơng giống CPU, GPU có kiến trúc song song tồn giúp cho tập trung vào khả thực thi cách chậm rãi nhiều luồng liệu lúc, thực thi nhanh luồng liệu Cách tiếp cận giải vấn đề có mục đích tổng quát GPGPU CUDA sử dụng để gia tốc ứng dụng đồ họa sinh học tính tốn, xử lý khối lượng liệu lớn với CPU, mật mã học nhiều lĩnh vực khác CUDA có GPU NVIDIA seri G8X sau, bao gồm dòng sản phẩm GeForce, Quadro Tesla 3.4.2.Hadoop Hadoop phần mềm mã nguồn mở, cấu lập trình dựa java để phát triển ứng dụng xử lý lưu trữ tập hợp liệu khổng lồ mơi trường tính tốn phân tán 88 Tương tự liệu thường trú hệ thống file cục hệ thống máy tính cá nhân, Hadoop, liệu thường trú hệ thống file phân tán HDFS (Hadoop Distributed File System) Những máy tính thương mại rẻ dụng rộng rãi, nút máy tính này, gồm storage disk processor, kết hợp lại cụm (cluster) cấu Hadoop, tập hợp chúng tạo nên sức mạnh hệ thống tính tốn lớn với liệu lớn chi phí thấp Hadoop tạo nhà khoa học máy tính Doug Cutting Mike Cafarella năm 2006 để hỗ trợ phân phối cho hệ thống tìm kiếm Nutch (Search engine) Nó bắt đầu dự án thực MapReduce Google - mơ hình lập trình hay cấu phần mềm mà ứng dụng chia số phần nhỏ, gọi khối, phân tán chạy nút tính tốn cụm (cluster) Sau số năm phát triển cộng đồng mã nguồn mở, Hadoop 1.0 trở thành công cộng vào 11/2012 phần dự án tài trợ apache Software Foundation Hadoop chấp nhận ứng dụng rộng rãi nhiều tập đồn cơng nghệ hàng đầu Facebook, Yahoo, Adobe, Cisco, eBay, Amazon, Netflix, Datadog 3.4.2.1 Đặc tính Hadoop Khả lưu trữ xử lý khối lượng khổng lồ loại liệu nhanh chóng: Với khối lượng loại khác liệu liên tục tăng, đặc biệt từ phương tiện Internet vạn vật (IoT) đặc tính Hadoop quan trọng Cơng suất tính tốn: mơ hình tính tốn phân tán Hadoop xử lý nhanh chóng "Big Data" Càng sử dụng nhiều nút tính tốn, cơng suất tính toán lớn Chịu lỗi (Fault tolerance): Xử lý liệu ứng dụng bảo vệ lỗi phần cứng hệ thống tính tốn Hadoop Nếu có nút tính tốn bị hỏng, cơng việc (jobs) tự động chuyển đến nút tính tốn khác để đảm 89 bảo tính tốn phân tán khơng bị lỗi Đó Hadoop thực nhiều tất liệu phân tán nút Tính linh hoạt (Flexibility): Khơng giống sở liệu quan hệ truyền thống, ta không cần phải tiền xử lý liệu trước lưu trữ Ta lưu trữ nhiều liệu mong muốn định sử dụng chúng sau Ví dụ, dạng liệu khơng có cấu trúc tích hợp văn bản, hình ảnh, video,v.v Chi phí thấp (Low cost): cấu mã nguồn mở miễn phí sử dụng hệ thống máy tính thương mại để lưu trữ số lượng lớn liệu Tính dễ nâng cấp (Scalability): dễ dàng nâng cấp hệ thống tính tốn Hadoop để xử lý nhiều liệu lớn nhờ bổ xung nút máy tính, cần chút quản trị 3.4.2.2 Các thành phần Hadoop Hadoop có ba thành phần bổ sung ZooKeeper muốn có độ sẵn sàng cao • HDFS • Mapreduce • Yet Another Resource Negotiator (YARN) • ZooKeeper 1.HDFS: HDFS hệ thống file nằm lớp kiến trúc Hadoop Nó sở hạ tầng Hadoop cluster, đảm bảo lưu trữ liệu theo ngăn tủ (rack), chịu lỗi, theo cấp độ, thiết kế để khai thác phần cứng thương mại HDFS quản lý phần nhớ ứng dụng Hadoop Các ứng dụng Mapreduce sử dụng liệu từ HDFS HDFS tạo nhiều khối liệu phân phối khối liệu đến nodes cluster 90 Một số thuộc tính HDFS phân biệt với hệ thống file phân tán khác Trong đó, số khác biệt HDFS: • Được thiết kế với khả chịu lỗi • Được xây dựng cho tập hợp liệu lớn, với khối mặc định kích thước 128 MB • Được tối ưu cho tính tốn • Được đặt theo tủ • Hỗ trợ tạo cụm không đồng Dữ liệu Hadoop cluster chia thành đơn vị nhỏ hơn, gọi khối, khối phân tán khắp nút máy tính cluster Từng khối chép thêm thành hai bản, tổng cộng có ba giống khối Hai khối lưu hai nút máy tính tủ cluster Như vậy, mặc định, hệ số chép Nó đảm bảo độ tin cậy cao chịu lỗi, bị (ví dụ, máy tính bị hỏng), HDFS tự động thay cluster, đảm bảo có liệu để xử lý HDFS dựa kiến trúc lãnh đạo/theo sau (leader/follower) Thông thường, cluster gồm NameNode, SecondaryNameNode (được dùng để khôi phục liệu có lỗi NamneNode), số DataNode Ngồi ra, để quản lý không gian tên hệ thống file siêu liệu (metadata) liên quan (file-to-blocks maps), NameNode hành động master làm môi giới truy nhập tới files từ clients (một NameNode móc nối, clients truyền thơng trực tiếp với DataNodes) NameNode vận hành toàn nhớ, trạng thái phụ thuộc vào hệ thống đĩa Để đảm bảo độ tin cậy cao, NameNode thường có hai hệ thống đĩa cục phòng hệ thống đĩa bị hỏng Trong chế độ độ tin cậy cao, Hadoop trì NameNode dự phòng (standby NameNode) để dự phòng cho trường hợp lỗi Những phiên cũ đưa khái niệm Secondary NameNode, nhiều cluster khai thác 91 với Secondary Name NameNode lưu siêu liệu (metadata) hệ thống file hai file khác nhau: fsimage log edit log fsimage log lưu toàn snapshot siêu liệu hệ thống file mô ment xác định thời gian Các thay đổi luy kế (giống trì hay cập nhập bytes cho file) cất giữ edit log cho tính lâu bền, tạo fsimage snapshot khơng gian tên thay đổi NameNode phục hồi trạng thái nhờ tải fsimage thực tất chuyển đổi từ edit log, phục hồi hệ thống file trở lại trạng thái gần Thông qua lời gọi thủ tục từ xa RPC (remote Procedure Call), Secondary NameNode cách độc lập cập nhật fsimage có thay đổi đến edit log Như vậy, NameNode (đang active) bị lỗi có mặt Secondary NameNode, NamneNode khơng cần phải làm lại edit log đầu fsimage; mà nhà quản trị cluster phục hồi cập nhật fsimage trừ Secondary Namenode Secondary NameNode đảm bảo cho phục hồi nhanh có lỗi NameNode Hình 3.12: Secondary NameNode cho phục hồi NameNode [19] 2.Mapreduce: Hadoop MapReduce mơ hình tính tốn cấu phần mềm lập trình để viết ứng dụng chạy Hadoop Các chương trình Mapreduce có khả xử lý tập hợp liệu lớn song song phân tán nhiều máy tính hadoop cluster Chức Mapreduce chia ba vận hành: Sắp xếp (Map): tập hợp liệu (input data set) vào thu thập cặp đôi Di chuyển (Shuffle): liệu kết (chuyển liệu đến rút gọn reducers) Rút gọn (Reduce): tất cặp đơi với khóa Đơn vị lớp đầu công việc Mapreduce job Mỗi job gồm số nhiệm vụ Map Reduce Một ví dụ job Mapreduce tính tần xuất từ nội dung văn Hình 3.12[20]minh họa ví dụ Hình 3.13: Đếm tần xuất từ văn Có khác phiên Hadoop Các phiên Hadoop trước (pre 2.0), Mapreduce tự thực phân phối tài nguyên lịch trình job tính tốn thực tế Nhưng phiên Hadoop sau (2.0+), có tách biệt lịch trình job tính tốn với YARN YARN thực phân phối tài ngun tính tốn cho jobs Mapreduce YARN: YARN (Yet Another Resource Negotiator) cấu chịu trách nhiệm gán tài ngun tính tốn cho thực ứng dụng Hình 3.14: ResourceManager YARN [19] YARN gồm ba thành phần chính: ResourceManager (một cho cluster), ApplicationMaster (một cho application), NodeManagers (một cho nút) ResourceManager: ResourceManager master node YARN nhận biết theo tủ (rackaware) Nó chịu trách nhiệm kiểm sốt tài nguyên sẵn có chạy số dịch vụ then chốt, quan trọng Scheduler Scheduler ResourceManager phân phối tài nguyên để chạy ứng dụng Nó scheduler đơn giản khơng có giám sát, theo dõi trạng thái tiến trình ứng dụng Trong Hadoop 2.7.2, YARN hỗ trợ số sách scheduler: CapacityScheduler, FairScheduler, FIFO (first in first out) Scheduler ApplicationMaster: Mỗi ứng dụng chạy Hadoop trực tiếp có phần ApplicationMaster ApplicationManager ứng dụng định kỳ gửi thông báo hoạt động đến ResourceManager, yêu cầu tài nguyên bổ xung, cần Các tài nguyên bổ xung ResourceManager cấp phát thông qua gán Container Resource, phục vụ cascreserva đặt chỗ trước cho containers NodeManagers NodeManagers: NodeManager tác nhân theo node có nhiệm vụ giám sát sử dụng tài nguyên container, theo chu kỳ truyền thông với ResourceManager Các NodeManagers giống TaskTrackers phiên Hadoop cũ Trong đó, TaskTrackers sử dụng số cố định khe map reduce để scheduling Các NodeManagers có số Resource Containers (RCs) Các RCs sử dụng cho map tasks, tasks từ cấu khác 3.4.2.3 Hadoop HPC Hadoop MapReduce phù hợp cho ứng dụng xử lý "Big Data" kiến trúc cụm gồm hàng trăm nút xử lý Kiến trúc cụm Hadoop có định địa nút theo tủ Nhưng nút xử lý Hadoop khơng đồng cơng nghệ, cơng suất xử lý hệ thống máy tính thương mại bình thường kết nối lỏng lẻo phân tán mạng rộng Các tính tốn Hadoop cần tối thiểu truyền thơng nút, giao dịch truyền thông tốt HPC kiến trúc cụm với hàng trăm nút xử lý nút có đồng cơng nghệ liên kết mạng có cấu hình cơng nghệ mạng hiệu cao Đặc tính khơng cần thiết Hadoop Các ứng dụng HPC có tính chun nghiệp phù hợp cho hiệu cao Tuy nhiên đa số ứng dụng chuyên nghiệp lại có khối lượng liệu lớn tính tốn phức tạp phải cần đến tốc độ tính tốn tốc độ cao nút HPC Đặc tính cần đến công nghệ nút PC phải tiên tiến: CPU đa nhân module đồng xử lý đa nhân đa luồng Như với HPC: xử lý liệu lớn chương trình xử lý tính tốn phức tạp HPC u cầu mức độ tính tốn song song cao, với cơng nghệ cao nút, HPC thực chương trình tính tốn xử lý liệu lớn với chi phí thấp 95 Như vậy, nguyên tắc, HPC cấu hình theo kiến trúc Hadoop để thực xử lý liệu lớn với tốc độ cao trung tâm liệu (Data Center) mà không cần phải phân tán rộng mạng lớn Hadoop Muốn vậy, kích thước cụm HPC cần phải lớn, đến hàng trăm, hàng nghìn nút PC, mà nút PC lại có kiến trúc lai ghép CPU đa nhân + Nvidia GPUGPU (hoặc Intel Xeon Phi) nhiều nhân nhiều luồng Sẽ tăng chi phí đầu tư, tiêu thụ lượng So sánh hiệu kinh tế HPC Hadoop, cần có tính tốn phân tích cho ứng dụng HPC cho tính tốn liệu lớn Kết luận Chương Nội dung chương trình bày thiết kế phần cứng lựa chọn cấu hình béo, công nghệ mạng truyền thông Infiniband kiến trúc hệ thống HPC Giải pháp mạng làm việc nút hệ thống HPC kiến trúc cụm cho phép tiết kiệm chi phí đầu tư đạt hiệu cao Đây loại cấu hình mạng kết nối tĩnh phổ biến cho cluster HPC Hiệu nút tính tốn cluster dựa hai loại cấu trúc Intel CPU + Nvidia GPGPU Intel CPU + Intel Xeon Phi trình bày với cơng thức tính ví dụ Sự so sánh hai loại cấu trúc HPC chưa xác nguồn so sánh Intel Ngoài ra, cần phải lựa chọn phần mềm kiểm thử Benchmark cho HPC để xác định hiệu qua tốc độ HPC, mà chương nêu DARPA (Mỹ) tài trợ dự án xây dựng Benmarks - tập hợp phần mềm kiểm thử mẫu chạy song song hệ thống tính tốn song để xác định tốc độ hệ thống HPC siêu máy tính cho lĩnh vực chuyên dụng Chương trình bày sở hạ tầng phần mềm phân hệ quản trị hệ thống cho liệu lớn, Hadoop với HDFS hệ thống quản lý file nằm lớp kiến trúc Hadoop Nó sở hạ tầng Hadoop cluster, đảm bảo lưu trữ liệu theo ngăn tủ (rack), chịu lỗi, theo cấp độ, thiết kế để khai thác phần cứng thương mại HDFS quản lý phần nhớ ứng dụng 96 Hadoop MapReduce mơ hình tính tốn cấu phần mềm lập trình để viết ứng dụng chạy Hadoop Các chương trình Mapreduce có khả xử lý tập hợp liệu lớn song song phân tán nhiều máy tính hadoop cluster YARN gồm ba thành phần chính: ResourceManager (một cho cluster), ApplicationMaster (một cho application), NodeManagers (một cho nút) Với HPC kiến trúc cụm tảng phần mềm Hadoop với HDFS, Mapreduce, YARN, bắt đầu thực toán với Big Data 97 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU Nội dung luận văn trình bày hệ thống tính tốn hiệu cao với khái niệm, lịch sử phát triển, đặc điểm kiến trúc, ứng dụng, bước thiết kế phần cứng nút server sử dụng công nghệ tích hợp Intel CPU + Nvidia GPGPU tích hợp Intel CPU + intel Xeon Phi Cũng trình bày khái niệm liệu lớn, vai trò lợi ích liệu lớn thời đại cơng nghệ số với Internet vạn vật, trí tuệ nhân tạo Dữ liệu lớn đặt nhiều thách thức tốn cho muốn chinh phục Hệ thống HPC với liệu lớn cặp trùng: để làm chủ liệu lớn cần phải có HPC Nhưng để HPC thực toán liệu lớn cần đến tảng phần mềm Bước đầu, giải pháp mà đa số nghiên cứu phát triển liên quan đến liệu lớn sử dụng Hadoop - phần mềm mã nguồn mở cấu lập trình ứng dụng xử lý lưu trữ liệu lớn Hadoop trình bày chương với kiến trúc cụm HPC, gói phần mềm quản lý HDFS, YARN, MapReduce mơ hình tính tốn cấu phần mềm lập trình để viết ứng dụng chạy Hadoop Các chương trình Mapreduce có khả xử lý tập hợp liệu lớn song song phân tán nhiều máy tính hadoop cluster Các mục tiêu đề luận văn học viên trình bày đầy đủ luận văn Sự phát triển công nghệ HPC Big data phía trước, vai trò ứng dụng chúng lĩnh vực giới vô to lớn Trong lĩnh vực an ninh, HPC Big Data khơng thể thiếu Do đó, định hướng nghiên cứu phát triển cho ngành an ninh dựa HPC Big Data đòi hỏi cấp thiết, mà học viên tiếp tục 98 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Khánh Lâm, "Giáo trình kiến trúc máy tính nâng cao" Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2017 Tiếng Anh [2] V Halyo et al "First evaluation of the CPU, GPGPU and MICarchitectures for real time particle tracking based on Hough transform at the LHC" PUBLISHED BYIOP PUBLISHING FORSISSAMEDIALAB 2013-2014 [3] "HPCC Systems: Introduction to HPCC (High-Performance Computing Cluster)" CiteSeerX 24 May 2011 Retrieved 29 October 2015 [4] Volodymyr Kindratenko,"GPU clusters for HPC".Innovative Systems Laboratory National Center for Supercomputing Applications University of Illinois at Urbana-Champaign [5] "Infiniband".https://en.wikipedia.org/wiki/Infiniband [6] "Introduction toInfinibandTM".White paper Mellanox Technologies http://www.mellanox.com/pdf/whitepapers/IB_Intro_WP_190.pdf [7] "Designing an HPC Cluster with Mellanox Infiniband Solutions" Mellanox Technologies".10/10/2015 https://community.mellanox.com/docs/DOC-2392 [8] H Wang et al "MVAPICH2-GPU: Optimized GPU to GPU Communication forInfiniband Clusters" Network‐Based ComputingLaboratoryTheOhioStateUniversity [9] Gabriel Performances" Noaje,"CPU-GPU cluster Design, Experimentations, ÉCOLE SUPÉRIEURE D'ÉLECTRICITÉPOLYTECHNICAL UNIVERSITY OF BUCHAREST.2008 99 [10] "NVIDIA's Next Generation CUDATM Compute architecure: Fermi" Whitepaper [11] Sebastian von Alfthan,"Introduction GPU computing" Ilmatienteen Laitos Meteorologiska institutet Finnish Meteorological Institute 2011 [12] Gilad Shainer Mellanox/NVIDIAGPUDirect over et al "The Development of Infiniband – a New Model for GPU to GPU Communications" HPC Advisory Council, Mellanox Technologies, Institut für Physik, TechnischeUniversität at Ilmenau Germany, Creative Consultants, Sandia National Laboratories [13] Anthony Lippert, "NVIDIA GPU Architecturefor General Purpose Computing" 27/04/2009 [14] "NVIDIAGPU Accelerated Applications".2012 http://www.nvidia.com/object/gpu-accelerated-applications.html [15] "Intel® Xeon Phi™ Processors" https://www.intel.com/content/www/us/en/products/processors/xeonphi/xeon-phi-processors.html [16] boyd, dana; Crawford, Kate (21 tháng năm 2011) “Six Provocations for Big Data” Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society doi:10.2139/ssrn.1926431 [17] Hilbert, Martin; López, Priscila (2011) “The World's Technological Capacity to Store, Communicate, and Compute Information” Science 332 (6025): 60–65 PMID 21310967 doi:10.1126/science.1200970 [18] “IBM What is big data? – Bringing big data to the enterprise” www.ibm.com Truy cập ngày 26 tháng năm 2013 100 [19] Hadoop architectural overview, Evan Mouzakitis@vagelim, July 21, 2016, https://www.datadoghq.com/blog/hadoop-architecture-overview/ [20] Map-Reduce, Bùi Hồng Hà, 26/03/2016, https://kipalog.com/posts/Map-Reduce [21] arXiv:1403.1528v2 [cs.DC] 23 Jun 2014, A Tale of Two Data-Intensive Paradigms:Applications, Abstractions, and Architectures [22] TESLA™ M-CLASSGPU computing modulesaccelerating science, http://www.nvidia.com/docs/IO/105880/DS-Tesla-M-Class-Aug11.pdf 101 ... zetabytes, đặt yêu cầu toán xử lý liệu lớn mà hệ thống xử lý truyền thống đáp ứng được, cần có hệ thống tính tốn hiệu cao Hệ thống tính tốn hiệu cao thực tính tốn song song nhiều phần tử tính tốn cho phép... điểm hệ thống tính tốn hiệu cao 1.2.1.Định nghĩa tính tốn hiệu cao Tính tốn hiệu cao HPC (high performance computing) l ứng dụng hệ thống máy tính hiệu cao siêu máy tính (super computer) hệ thống. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO VÀ ỨNG DỤNG TRONG PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU LÊ THUẬN HUỲNH CHUYÊN NGÀNH:

HỆ THỐNG TÍNH TOÁN HIỆU NĂNG CAO và ỨNG DỤNG TRONG PHÂN TÍCH và xử lý dữ LIỆU

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan