ĐỒ ÁN CƠ SỞ/ CHUYÊN NGÀNH TÌM HIỂU DỮ LIỆU LỚN (BIG DATA)

34 276 0
ĐỒ ÁN CƠ SỞ/ CHUYÊN NGÀNH TÌM HIỂU DỮ LIỆU LỚN  (BIG DATA)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Đầu tiên xin cảm ơn thầy Vương Xuân Chí bộ môn Lập trình Web đã dẫn dắt và hướng dẫn, trang bị cho sinh viên chúng em những kiến thức, những kinh nghiệm quý báu mà các thầy đã trải qua và truyền đạt lại trong suốt kỳ vừa qua. Và chúng em cũng cảm ơn Trường Đại học Nguyễn Tất Thành đã đưa bộ môn Lập trình Web này vào chương trình giảng dạy. Có thể những kiến thức và kỹ năng của chúng em không được tốt và đồ án làm ra không được như mong muốn và có nhiều sai sót nên mong các thầy cô xem xét và góp ý để giúp cho báo cáo của chúng em ngày càng được hoàn thiện và tốt hơn Em xin cảm ơn rất nhiều ạ LỜI MỞ ĐẦU Chúng ta đang sống trong một thời đại mới, thời đại phát triển rực rỡ của Công nghệ thông tin. CNTT đã ở một bước phát triển cao đó là số hóa tất cả các dữ liệu thông tin, luân chuyển mạnh mẽ và kết nối tất cả chúng ta lại với nhau. Mọi loại thông tin, số liệu âm thanh, hình ảnh có thể được đưa về dạng kỹ thuật số để bất kỳ máy tính nào cũng có thể lưu trữ, xử lý và chuyển tiếp cho nhiều người. Nhu cầu lưu trữ ngày càng tăng lên thêm vào đó là sự phát triển mạnh mẽ về lưu lượng ổ cứng. Hằng ngày lượng thông tin được lưu trữ tăng lên một cách chóng mặt. Vấn đề đặt ra là với một khối lượng dữ liệu lớn như thế làm sao chúng ta có thể khai thác và nó có thực sự cần thiết? Và tháng 8 năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ/ CHUYÊN NGÀNH TÌM HIỂU DỮ LIỆU LỚN (BIG DATA) Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ Sinh viên thực hiện: TRẦN ĐĂNG DIỆP MSSV: 2000006366 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở Khoa học liệu Khóa: 2020 Tp.HCM, tháng 07 năm 2022 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THƠNG TIN ĐỒ ÁN CƠ SỞ/ CHUN NGÀNH TÌM HIỂU DỮ LIỆU LỚN (BIG DATA) Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ Sinh viên thực hiện: TRẦN ĐĂNG DIỆP MSSV: 2000006366 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở Khoa học liệu Khóa: 2020 Tp.HCM, tháng 07 năm 2022 Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Trường Đại học Nguyễn Tất Thành CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Khoa Công Nghệ Thông Tin Độc lập – Tự – Hạnh phúc         NHIỆM VỤ ĐỒ ÁN CHUYÊN NGÀNH/CƠ SỞ Họ tên: Trần Đăng Diệp .MSSV: 2000005640 Chuyên ngành: KHOA HỌC DỮ LIỆU Lớp: 20DTH2A Email: 123456@GMAIL.COM SĐT: 11111111 Tên đề tài: Tìm hiểu Dữ liệu lớn (Big Data) Gíao viên hướng dẫn: Vương Xuân Chí Thời gian thực hiện: 20/06/2022 đến 20/09/2022 - Nhiệm vụ/nội dung: - CHƯƠNG 1: Giới thiệu Big Data - CHƯƠNG 2: Sức mạnh Big Data - CHƯƠNG 3: Cơ sở hạ tầng IT để hỗ trợ big data hội nghề nghiệp - CHƯƠNG 4: Các công nghệ đặc biệt dành cho Big data Có kiến thức, đam mê, hiểu biết công nghệ Mạng neural, Machine Learning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ trình bày văn máy tính tốt - Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả làm việc độc lập làm việc nhóm tốt Nội dung yêu cầu thông qua Bộ môn TP.HCM, ngày TRƯỞNG BỘ MÔN (Ký ghi rõ họ tên) tháng năm GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) LỜI CẢM ƠN Đầu tiên xin cảm ơn thầy Vương Xn Chí mơn Lập trình Web dẫn dắt hướng dẫn, trang bị cho sinh viên chúng em kiến thức, kinh nghiệm quý báu mà thầy trải qua truyền đạt lại suốt kỳ vừa qua Và chúng em cảm ơn Trường Đại học Nguyễn Tất Thành đưa mơn Lập trình Web vào chương trình giảng dạy Có thể kiến thức kỹ chúng em không tốt đồ án làm khơng mong muốn có nhiều sai sót nên mong thầy xem xét góp ý để giúp cho báo cáo chúng em ngày hoàn thiện tốt Em xin cảm ơn nhiều ạ! Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) LỜI MỞ ĐẦU Chúng ta sống thời đại mới, thời đại phát triển rực rỡ Công nghệ thông tin CNTT bước phát triển cao số hóa tất liệu thông tin, luân chuyển mạnh mẽ kết nối tất lại với Mọi loại thông tin, số liệu âm thanh, hình ảnh đưa dạng kỹ thuật số để máy tính lưu trữ, xử lý chuyển tiếp cho nhiều người Nhu cầu lưu trữ ngày tăng lên thêm vào phát triển mạnh mẽ lưu lượng ổ cứng Hằng ngày lượng thơng tin lưu trữ tăng lên cách chóng mặt Vấn đề đặt với khối lượng liệu lớn khai thác có thực cần thiết? Và tháng năm 2015, Big Data vượt khỏi bảng xếp hạng công nghệ Cycle Hype Gartner tạo tiếng vang lớn cho xu hướng công nghệ giới Bài viết giúp hiểu rõ khái niệm Big Data, nguồn tạo Big Data, tầm quan trọng vào lĩnh vực đời sống, chương cuối ta có vài phân tích Big Data tương lai rộng mở Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Điểm đồ án: TPHCM, Ngày …… tháng …… năm Giáo viên hướng dẫn (Ký tên, đóng dấu) Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) MỤC LỤC Em xin cảm ơn nhiều ạ! LỜI MỞ ĐẦU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN CHƯƠNG I: GIỚI THIỆU BIG DATA I Định nghĩa Big Data .9 1.1 Volume (Số lượng lưu trữ) .10 1.2 Velocity (Tốc độ xử lý) 11 1.3 Veriety (Đa dạng chủng loại) 11 1.4 Veracity (Độ xác) 11 II Những nguồn tạo big data .11 III Vì Big Data nằm năm xu hướng trọng điểm ngành công nghệ thông tin 13 CHƯƠNG II: SỨC MẠNH BIG DATA 14 I Big Data quan trọng nào? 14 II Ứng dụng Big Data đời sống .14 2.1 Ứng dụng Big Data khoa học va nghiên cứu : 14 2.2 Ứng dụng Big Data tối ưu hóa hiệu suất thiết bị: 16 2.3 Ứng dụng Big Data cải thiện an ninh thực thi pháp luật: 17 2.4 Ứng dụng Big Data cải thiện tối ưu hóa thành phố quốc gia: 18 2.5 Ứng dụng Big Data kinh doanh tài chính: 19 2.6 Sự hiểu biết khách hàng mục tiêu (Internet, Mobile Digital Marketing) 21 2.7 Sự hiểu biết tối ưu hóa quy trình kinh doanh 22 2.8 Định lượng cá nhân tối ưu hóa hiệu suất 22 2.9 Cải thiện chăm sóc sức khỏe y tế công cộng 23 2.10 Cải thiện hiệu suất thể thao 23 CHƯƠNG III: CƠ SỞ HẠ TẦNG HỖ TRỢ BIG DATA VÀ CƠ HỘI NGHỀ NGHIỆP.24 I, Cơ sở hạ tầng IT để hỗ trợ big data .24 II,Cơ hội nghề nghiệp với Big Data 25 III:Data Scientist ngành nói gì? .27 CHƯƠNG IV: CÁC CÔNG NGHỆ ĐẶC BIỆT DÀNH CHO BIG DATA 28 1.Hệ sinh thái Hadoop 28 Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) 2.Apache Spark 29 Apache Storm .29 4.Apache Cassandra .29 MongoDB 29 6.R Programming 30 8.RapidMiner 31 9.Data lakes 31 10.NoSQL Databases .32 11.In-memory databases 32 12.Các kĩ Big data 32 KẾT LUẬN Error: Reference source not found TÀI LIỆU THAM KHẢO Error: Reference source not found DANH MỤC CÁC BẢNG HÌNH Mơ hình Big Data Máy gia tốc hạt lớn Pháp-Thụy Sĩ .14 Siêu máy tính Teraflop .15 Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Ứng dụng Big Data vào mơ hình thành phố thơng minh 18 Ứng dụng Big Data vào mơ hình tài 19 Ứng dụng Big Data vào mơ hình chứng khống 20 Mơ hình Big Data 23 Nghề nghiệp lĩnh vực Big Data 24 Big data 27 CHƯƠNG I: GIỚI THIỆU BIG DATA I Định nghĩa Big Data Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Trên giới có nhiều định nghĩa Big Data Vào năm 2001, nhà phân tích Doug Laney hãng META Group (bây cơng ty nghiên cứu Gartner) nói thách thức hội nằm việc tăng trưởng liệu mơ tả ba chiều “3V”: tăng số lượng lưu trữ (volume), tăng tốc độ xử lý (velocity) tăng chủng loại (variety) Giờ đây, Gartner với nhiều công ty tổ chức khác lĩnh vực công nghệ thông tin tiếp tục sử dụng mơ hình “3V” để định nghĩa nên Big Data Đến năm 2012, Gartner bổ sung thêm Big Data ngồi ba tính chất cịn phải “cần đến dạng xử lí để giúp đỡ việc đưa định, khám phá sâu vào vật/sự việc tối ưu hóa quy trình làm việc” Hình 1: Mơ hình Big Data Sau khái niệm Big Data thời đại ngày nay, dựa biểu đồ ta thấy chia năm tính chất quan trọng nói Big Data: 1.1 Volume (Số lượng lưu trữ) Big Data (Dữ liệu lớn) tập hợp liệu có dung lượng lưu trữ vượt mức đảm đương ứng dụng công cụ truyền thống Kích cỡ Big Data ngày tăng lên, nằm khoảng vài chục terabyte nhiều petabyte (1 petabyte = 1024 terabyte), chí cao nhiều, cho tập hợp liệu Châu Thiên Bảo – Trần Đăng Diệp Trang 10 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Hình 5: Ứng dụng Big Data vào mơ hình tài Châu Thiên Bảo – Trần Đăng Diệp Trang 20 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Hình 6: Ứng dụng Big Data vào mơ hình chứng khống + Phân tích ,xếp hạng rủi ro tín dụng: tổng hợp liệu phân tích thơng tin khoảng tín dụng để đưa xếp hạng tín dụng + Phân tích thị trường chứng khoáng,bất động sản: Tổng hợp liệu phân tích thơng tin thị trường chứng khống bất động sản phiên giao dịch + Phân tích thơng tin khách hàng thời gian thực: Xây dựng sở liệu để quản lý thông tin khách hàng nhằm tránh gian lận kinh doanh 2.6 Sự hiểu biết khách hàng mục tiêu (Internet, Mobile Digital Marketing) Đây lĩnh vực lớn công bố công khai cách liệu lớn sử dụng ngày Ở đây, liệu lớn sử dụng để hiểu rõ khách hàng hành vi sở thích họ Nếu để ý chút, bạn thấy đăng nhập vào trang lazada, thegioididong.com,… để xem mua sản phẩm Châu Thiên Bảo – Trần Đăng Diệp Trang 21 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) trang đưa sản phẩm gợi ý cho bạn, ví dụ xem điện thoại, gợi ý cho bạn mua thêm ốp lưng, pin dự phịng,… Thơng qua tương tác họ có thơng tin nhu cầu sở thích bạn để giúp học tăng lợi nhuận 2.7 Sự hiểu biết tối ưu hóa quy trình kinh doanh Dữ liệu lớn ngày sử dụng để tối ưu hóa quy trình kinh doanh Các nhà bán lẻ tối ưu hóa giá lượng hàng hóa họ dựa dự đoán tạo từ liệu phương tiện truyền thơng xã hội, xu hướng tìm kiếm web dự báo thời tiết Một quy trình kinh doanh với nhiều phân tích liệu lớn chuỗi cung ứng cung cấp lộ trình tối ưu hóa Ở đây, cảm biến nhận dạng tần số vô tuyến định vị địa lý sử dụng để theo dõi hàng hóa, phương tiện giao hàng tuyến đường tối ưu cách tích hợp liệu giao thông trực tiếp Lĩnh vực nhân cải thiện cách sử dụng phân tích liệu lớn Điều bao gồm việc tối ưu hóa việc săn tài năng, đánh giá văn hóa cơng ty tham gia nhân viên việc sử dụng công cụ liệu lớn 2.8 Định lượng cá nhân tối ưu hóa hiệu suất Dữ liệu lớn không dành cho cơng ty phủ mà cịn cho cá nhân Ngày hưởng lợi từ liệu tạo từ thiết bị đeo đồng hồ thơng minh vịng đeo tay thơng minh Lấy sợi dây Up Jawbone làm ví dụ: Sợi dây thu thập liệu việc tiêu thụ calo chúng ta, mức độ hoạt động, mơ hình giấc ngủ Ngồi việc mang lại cho cá nhân hiểu biết phong phú, giá trị việc phân tích liệu thu thập Phân tích khối lượng liệu lớn mang lại nhìn hồn tồn để phản hồi cho người dùng cá nhân Các lĩnh vực khác, nơi mà hưởng lợi từ phân tích liệu lớn việc tìm kiếm tình u trực tuyến Các trang web hẹn hò trực tuyến lớn Châu Thiên Bảo – Trần Đăng Diệp Trang 22 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) áp dụng công cụ liệu lớn thuật tốn để tìm thấy người phù hợp cho 2.9 Cải thiện chăm sóc sức khỏe y tế cơng cộng Dữ liệu lớn áp dụng y khoa Chẳng hạn việc giám sát chăm sóc sức khỏe trẻ sơ sinh Kỹ thuật giúp cho ta ghi lại phân tích nhịp tim thể của bé Thơng qua mà đưa cách chăm sóc tốt cho bé.Hơn nữa, phân tích liệu lớn cho phép theo dõi, dự đoán phát triển dịch bệnh bùng phát dịch bệnh Tích hợp liệu từ hồ sơ y tế với phân tích phương tiện truyền thơng xã hội cho phép giám sát dịch cúm thời gian thực, đơn giản cách lắng nghe người đề cấp đến, ví dụ như: “Cảm giác người thừa hôm – giường với bệnh cảm lạnh” 2.10 Cải thiện hiệu suất thể thao Hầu hết môn thể thao đại áp dụng phân tích liệu lớn Chúng ta có cơng cụ SlamTracker IBM dành cho giải đấu quần vợt Chúng ta sử dụng phân tích video để theo dõi hiệu suất cầu thủ bóng đá bóng chày, cơng nghệ cảm biến thiết bị thể thao bóng rổ hay câu lạc golf cho phép có thơng tin phản hồi (thơng qua điện thoại thơng minh máy chủ điện tốn đám mây) hiệu suất thi đấu làm để cải thiện Nhiều đội thể thao có tiếng cịn theo dõi vận động viên bên ngồi môi trường thể thao, sử dụng công nghệ thông minh để theo dõi chế độ dinh dưỡng giấc ngủ, hội thoại truyền thông xã hội để nhận biết tâm tư, tình cảm Châu Thiên Bảo – Trần Đăng Diệp Trang 23 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) CHƯƠNG III: CƠ SỞ HẠ TẦNG HỖ TRỢ BIG DATA VÀ CƠ HỘI NGHỀ NGHIỆP I, Cơ sở hạ tầng IT để hỗ trợ big data Đối với khái niệm big data để làm việc, tổ chức cần phải có sở hạ tầng để thu thập chứa liệu, cung cấp quyền truy cập đảm bảo thông tin lưu trữ chuyển tiếp Hình 7: Mơ hình Big Data Ở cấp độ cao, bao gồm hệ thống lưu trữ máy chủ thiết kế cho big data, phần mềm quản lý tích hợp liệu, thơng tin kinh doanh phần mềm phân tích liệu, ứng dụng big data Phần lớn sở hạ tầng tập trung chỗ, công ty muốn tiếp tục tận dụng khoản đầu tư vào trung tâm liệu Nhưng ngày có nhiều tổ chức dựa vào dịch vụ điện toán đám mây để xử lý nhiều yêu cầu big data họ Thu thập liệu đòi hỏi phải có nguồn Rất nhiều số ứng dụng sau đây, ứng dụng web, kênh truyền thông xã hội, ứng dụng di động lưu trữ email cài sẵn Nhưng IoT trở nên phổ biến hơn, cơng ty cần phải triển khai cảm biến tất loại thiết bị, phương tiện sản phẩm để thu thập liệu, ứng Châu Thiên Bảo – Trần Đăng Diệp Trang 24 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) dụng tạo liệu người dùng Phân tích liệu theo định hướng IoT có kỹ thuật cơng cụ chun biệt Để lưu trữ tất liệu đến, tổ chức cần phải có đủ dung lượng lưu trữ chỗ Các tùy chọn lưu trữ bao gồm kho liệu truyền thống, data lakes lưu trữ đám mây Các cơng cụ sở hạ tầng bảo mật bao gồm việc mã hóa liệu, xác thực người dùng điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động doanh nghiệp sản phẩm khác để bảo vệ hệ thống liệu II,Cơ hội nghề nghiệp với Big Data Hình 8: Nghề nghiệp lĩnh vực Big Data So với nghề Developer nói chung tất nhiên số việc làm liên quan đến Big Data(hay gọi Data Scientist) nhiều Tuy nhiên, ít, nên mức thu nhập ổn Cơng việc mang lại nhìn tồn diện hoạt động sản phẩm mà bạn theo làm Nghề “làm” Big Data gì? Là Data Scientist! Công việc ngày Data Scientist Châu Thiên Bảo – Trần Đăng Diệp Trang 25 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Những “bước” công việc ngày Data Scientist: • Phân tích tốn cần giải, mục tiêu dự án, tiêu chí thành cơng… • Thu thập xử lý liệu • Xây dựng mơ hình, thuật tốn để đưa kết • Test, đánh giá kết • Đưa vào triển khai Ở bước triển khai, công ty dùng kết quả, dự đoán, đề xuất… rút từ liệu để đưa vào hoạt động kinh doanh, marketing anh Vũ nhắc phần chia sẻ + Data Engineer người xử lý, chuẩn bị liệu cho Data Scientist thực trình phân tích Khi làm việc nhau, người giúp phần việc người trách nhiệm Có nhiều kỹ kiến thức bạn cần trau dồi, tất nhiên bắt đầu khó khăn bạn vừa làm vừa học Để trở thành Data Scientist kỹ cần có: • Kỹ mà bạn cần đương nhiên phải lập trình Bạn nên học ngơn ngữ lập trình Python • Ngồi Python, cịn có SQL, Spark, R cơng cụ cấp cao H2O, tableau • Các cơng cụ Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn • Các cơng cụ Machine Learning: Tensorflow, Keras, Pytorch • Hiểu biết định Big Data, framework Hadoop hay Scala • Thống kê Ngồi kỹ cứng chun mơn, bạn cịn cần kỹ mềm Nghề cần tư rõ ràng, mạch lạc bạn phải biết cách làm việc với Data Engineer Những nguồn tài liệu tham khảo Big Data: Châu Thiên Bảo – Trần Đăng Diệp Trang 26 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) • Designing Data-Intensive Applications: Cuốn sách viết năm 2017 Martin Kleppmann, vẽ nên tranh toàn cảnh Big Data tập trung vào khía cạnh hệ thống sở liệu phân tán • Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data tấ liên quan đến hệ thống, bao gồm công cụ Hadoop, Cassandra Storm • Hadoop: The Definitive Guide: viết Tom White – thành viên tổ chức phần mềm Apache uy tín Cuốn sách tồn điều cần biết + ví dụ cụ thể làm việc với Hadoop • High Performance Spark: Cuốn sách cần thiết cho muốn học Apache Spark với nhiều minh họa thực tế III:Data Scientist ngành nói gì? - Data Scientist chia sẻ nhận định sai lầm, hiểu lầm, nghe q trình làm việc với Big Data nói chung, làm Data Scientist nói riêng Có số người tưởng Data Scientist nhà khoa học làm Data Scientist cần nhiều tốn mà khơng phải Nếu bạn giỏi tốn tốt code quan trọng - Data Scientist người giải vấn đề cho doanh nghiệp cách phân tích liệu khơng phải nhà khoa học nghiên cứu - Có thể chữ Scientist mà nhiều người cho ngành nghề đòi hỏi nhiều mạo hiểm, đánh đổi Thật không Data Scientist khơng có mạo hiểm, cần trình độ tư có tinh thần học hỏi làm Châu Thiên Bảo – Trần Đăng Diệp Trang 27 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) CHƯƠNG IV: CÁC CÔNG NGHỆ ĐẶC BIỆT DÀNH CHO BIG DATA Ngoài sở hạ tầng IT sử dụng cho liệu nói chung, có số cơng nghệ cụ thể dành cho big data mà sở hạ tầng IT bạn nên hỗ trợ Hình 9: Big Data Hệ sinh thái Hadoop Hadoop công nghệ liên quan chặt chẽ với big data Dự án Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả mở rộng phân tán Thư viện phần mềm Hadoop khuôn mẫu cho phép xử lý phân tán liệu lớn nhóm máy tính sử dụng mơ hình lập trình đơn giản Nó thiết kế để mở rộng từ máy chủ sang hàng ngàn máy khác, máy cung cấp tính tốn lưu trữ cục Dự án bao gồm nhiều phần: • Hadoop Common, tiện ích phổ biến hỗ trợ phần Hadoop khác • Hadoop Distributed File System, cung cấp khả truy cập liệu ứng dụng cao • Hadoop YARN, khuôn mẫu cho kế hoạch làm việc quản lý tài nguyên cụm • Hadoop MapReduce, hệ thống dựa YARN để xử lý song song liệu lớn Châu Thiên Bảo – Trần Đăng Diệp Trang 28 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Apache Spark Một phần hệ sinh thái Hadoop, Apache Spark khn mẫu tính tốn cụm nguồn mở sử dụng làm công cụ xử lý big data Hadoop Spark trở thành khuôn mẫu xử lý big data quan trọng, triển khai theo nhiều cách khác Nó cung cấp phương thức hỗ trợ Java, Scala, Python (đặc biệt Anaconda Python distro ), ngôn ngữ lập trình R ( R đặc biệt phù hợp với big data ) hỗ trợ SQL, streaming data, machine learning xử lý đồ thị Apache Storm Apache Storm hệ thống tính tốn phân tán mã nguồn mở thời gian thực miễn phí Nếu Hadoop xử lý liệu hàng loạt (Batch Processing) Apache Storm thực xử lý liệu luồng (Unbounded streams of data) cách đáng tin cậy Ưu điểm lớn Apache Storm dễ triển khai tương tác với ngơn ngữ lập trình Mặt khác, đảm bảo việc xử lý liệu Tốc độ xử lý nhanh tiêu chuẩn quan sát tới triệu tuple xử lý giây nút 4.Apache Cassandra Apache Cassandra hệ sở liệu phân tán, kết hợp tinh tuý Google Bigtable Amazon DynamoDB Ngôn ngữ phát triển Cassandra Java Đây cơng cụ liệu lớn tốt chứa tất loại tập liệu cụ thể có cấu trúc, bán cấu trúc không cấu trúc Cassandra thiết kế chạy phần cứng giá rẻ, cung cấp write throughput cao (latency tầm 0.5ms), read throughput thấp (latency tầm 2.5ms) MongoDB Châu Thiên Bảo – Trần Đăng Diệp Trang 29 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) - MongoDB cơng cụ phân tích liệu nguồn mở, sở liệu NoQuery cung cấp khả đa tảng Đây công cụ dành cho doanh nghiệp cần liệu nhanh chóng thời gian thực để đưa định - MongoDB công cụ hoàn hảo cho người muốn giải pháp dựa liệu Nó thân thiện với người dùng cung cấp cài đặt bảo trì dễ dàng MongoDB công cụ đáng tin cậy tiết kiệm chi phí - Nó viết C, C ++ JavaScript Đây sở liệu phổ biến cho Big Data tạo điều kiện thuận lợi cho việc quản lý liệu phi cấu trúc liệu thay đổi thường xuyên - MongoDB sử dụng lược đồ động Do đó, bạn chuẩn bị liệu nhanh chóng Điều cho phép giảm chi phí tổng thể Nó thực thi ngăn xếp phần mềm MEAN, ứng dụng NET và, tảng Java Nó linh hoạt sở hạ tầng đám mây 6.R Programming R ngơn ngữ lập trình nguồn mở ngơn ngữ phân tích thống kê tồn diện Nó ngơn ngữ lập trình đa mơ hình cung cấp mơi trường phát triển động Ngôn ngữ R mã nguồn mở nên phân tích source code để hiểu xác cách R vận hành Bất kỳ thêm tính fix bug mà không cần chờ nhà phát hành vá Đồng thời, R tích hợp với ngơn ngữ khác (C,C++) Nó cho phép tương tác với nhiều nguồn liệu gói thống kê (SAS, SPSS) 7.Kafka Kafka dự án mã nguồn mở, đóng gói hồn chỉnh, khả chịu lỗi cao hệ thống nhắn tin nhanh Vì tính đáng tin cậy nó, Kafka dần thay cho hệ thống nhắn tin truyền thống Nó sử dụng cho hệ thống nhắn tin thông thường ngữ cảnh khác Châu Thiên Bảo – Trần Đăng Diệp Trang 30 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) Đây hệ khả mở rộng ngang chuyển giao liệu đáng tin cậy, yêu cầu quan trọng Một vài ứng dựng hữu ích Kafka: • Website Activity Monitoring: theo dõi hoạt động website • Stream Processing: xử lý stream • Log Aggregation: tổng hợp log • Metrics Collection: thu thập liệu 8.RapidMiner  Rapid Miner tảng phần mềm khoa học liệu cung cấp mơi trường tích hợp để chuẩn bị liệu, học máy, học sâu, khai thác văn phân tích dự đốn Đây hệ thống mã nguồn mở hàng đầu cho khai thác liệu  Chương trình viết hồn tồn ngơn ngữ lập trình Java Chương trình cung cấp tùy chọn để thử xung quanh với số lượng lớn tốn tử tùy ý lồng chi tiết tệp XML thực với can thiệp người dùng đồ họa người khai thác nhanh  Những công cụ Big Data kể không giúp bạn lưu trữ số lượng lớn liệu mà giúp xử lý liệu lưu trữ cách nhanh cung cấp cho bạn kết tốt Đa số công cụ Big Data có sẵn thị trường Bạn cần chọn công cụ phù hợp với dự án bạn 9.Data lakes Data lakes kho lưu trữ chứa khối lượng liệu thô lớn định dạng gốc người dùng doanh nghiệp cần liệu Các yếu tố giúp tăng trưởng data lakes phong trào kỹ thuật số phát triển IoT Các data lakes thiết kế để giúp người dùng dễ dàng truy cập vào lượng lớn liệu có nhu cầu Châu Thiên Bảo – Trần Đăng Diệp Trang 31 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) 10.NoSQL Databases Các sở liệu SQL thông thường thiết kế cho transaction đáng tin cậy truy vấn ngẫu nhiên Nhưng chúng có hạn chế giản đồ cứng nhắc làm cho chúng không phù hợp với số loại ứng dụng Cơ sở liệu NoSQL nêu hạn chế, lưu trữ quản lý liệu theo cách cho phép tốc độ hoạt động cao linh hoạt tuyệt vời Nhiều sở liệu phát triển công ty để tìm cách tốt để lưu trữ nội dung xử lý liệu cho trang web lớn Không giống sở liệu SQL, nhiều sở liệu NoSQL mở rộng theo chiều ngang hàng trăm hàng ngàn máy chủ 11.In-memory databases Cơ sở liệu nhớ (IMDB) hệ thống quản lý sở liệu chủ yếu dựa vào nhớ (Ram), thay HDD, để lưu trữ liệu Cơ sở liệu nhớ nhanh sở liệu tối ưu hóa đĩa, điểm quan trọng để sử dụng phân tích big data tạo kho liệu siêu liệu Đọc thêm Redis gì? 12.Các kĩ Big data Big data nỗ lực phân tích big data yêu cầu kĩ cụ thể, dù từ bên tổ chức hay thông qua chuyên gia bên ngồi Nhiều kĩ có liên quan đến thành phần công nghệ liệu quan trọng Hadoop, Spark, NoSQL, sở liệu nhớ phần mềm phân tích Với độ phổ biến dự án phân tích liệu thiếu hụt nhân lực kĩ trên, việc tìm kiếm chuyên gia có kinh nghiệm thách thức lớn tổ chức Châu Thiên Bảo – Trần Đăng Diệp Trang 32 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) KẾT LUẬN Như ta thấy lợi ích Big Data giúp cho ta đến hướng tích cực, nhận khen ngợi nhiều người thơng qua em muốn cho người thấy từ Internet đời cho người có nhiều cách sống tiện ích nhiều việc lập trình tối đa hóa sức lực người Mặc dù chưa thật hoàn thành cách xuất sắc mục tiêu đề ra, em cảm thấy hài lòng với kiến thức kinh nghiệm em đạt suốt trình học tập Khoảng thời gian ngắn cho em trải nghiệm thật quý báu, giúp em vững vàng trước đường đầy chơng gai phía trước Châu Thiên Bảo – Trần Đăng Diệp Trang 33 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) TÀI LIỆU THAM KHẢO [ ] Youtube Channel: ChiArt thuộc thầy Vương Xuân Chí, giảng viên môn Đồ án Cơ sở Khoa học liệu trường Đại học Nguyễn Tất Thành [ ] Udacity site: “Big Data Course – 20 Weeks” [ ] W3schools site: “Introduction to Big Data” [ ] Javatpoint site: “What is Big Data” Châu Thiên Bảo – Trần Đăng Diệp Trang 34 .. .Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THƠNG TIN ĐỒ ÁN CƠ SỞ/ CHUN NGÀNH TÌM HIỂU DỮ LIỆU LỚN (BIG DATA). .. 2000006366 Chuyên ngành: Khoa học liệu Môn học: Đồ án sở Khoa học liệu Khóa: 2020 Tp.HCM, tháng 07 năm 2022 Châu Thiên Bảo – Trần Đăng Diệp Trang Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data). .. Diệp Trang 33 Đồ án sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data) TÀI LIỆU THAM KHẢO [ ] Youtube Channel: ChiArt thuộc thầy Vương Xn Chí, giảng viên mơn Đồ án Cơ sở Khoa học liệu trường

Ngày đăng: 27/10/2022, 17:06

Tài liệu cùng người dùng

Tài liệu liên quan