Dữ Liệu Lớn (Big Data.pdf

43 2 0
Dữ Liệu Lớn (Big Data.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|38784156 HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐỐNG THỐNG TIN QUẢN LÝ BÁO tài CÁO BÀI Đề TẬP DATA VÀ ỨNG DỤNG TRONG BIG LỚN THƯƠNG MẠI ĐIỆN TỬ Giảng viên hướng dẫn : Giang Thị Thu Huyền Sinh viên thực hiện : Nhóm 12 Lớp : KTDNB Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Hà nội, ngày tháng năm 2022 BẢNG PHÂN CỐNG NHIỆM VỤ STT Họ tên Mã SV Vai trò Nhiệm vụ được phân công Thời gian Đánh giá hoàn thành mức độ hoàn thành 1 Nguyễn Như Nhóm - CHƯƠNG I: TỔNG Quỳnh 24A4020402 trưởng QUAN VỀ BIG DATA I, Tổng quan về dữ liệu lớn 2 Lý Như Quỳnh 24A4022385 Thành - CHƯƠNG I: TỔNG viên QUAN VỀ BIG DATA II, Bức tranh tổng thể ứng dụng dữ liệu lớn - CHƯƠNG 2 ỨNG DỤNG DỮ LIỆU LỚN TRONG THƯƠNG MẠI ĐIỆN TỬ I Khái quát về thương mại điện tử 3 Lê Phương Linh 24A4021915 Thành - Lời Mở Đầu viên - CHƯƠNG 2 ỨNG DỤNG DỮ LIỆU LỚN TRONG THƯƠNG MẠI ĐIỆN TỬ II Ứng dụng của Big data trong thương mại điện tử - Word 4 Trần Thị Mai 24A4021928 Thành - CHƯƠNG 2 ỨNG DỤNG Linh viên DỮ LIỆU LỚN TRONG THƯƠNG MẠI ĐIỆN TỬ III Nêu 1 ví dụ cụ thể về 1 doanh nghiệp đã ứng dụng Big data - CHƯƠNG 3 KẾT LUẬN 5 Phạm Thị Thu 24A4022577 Thành - Power Point Thuỷ viên Page | 1 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 MỤC LỤC BIG DATA VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ CHƯƠNG 1 : TỔNG QUAN VỀ BIG DATA I Tổng quan về dữ liệu lớn 1 Khái niệm 2 Nguồn hình thành dữ liệu lớn 3 Phương pháp khai thác và quản lý dữ liệu lớn ( Hadoop ecosystem) 4 Đặc trưng 5V của dữ liệu lớn 5 Sự khác biệt giữa dữ liệu lớn và dữ liệu truyền thống II Bức tranh tổng thể ứng dụng dữ liệu lớn 1 Ứng dụng dữ liệu lớn trong giáo dục và đào tạo 2 Ứng dụng dữ liệu lớn trong giao thông 3 Ứng dụng dữ liệu lớn trong y tế 4 Ứng dụng dữ liệu lớn trong thể thao 5 Ứng dụng dữ liệu lớn trong tài chính 6 Ứng dụng dữ liệu lớn trong thống kê CHƯƠNG 2 : ỨNG DỤNG DỮ LIỆU LỚN TRONG THƯƠNG MẠI ĐIỆN TỬ I Khái quát về thương mại điện tử 1 Cái nhìn chung về thương mại điện tử 2 Những điều kiện để khai thác big data hiệu quả trong thương mại điện tử, cơ sở hạ tầng để tiếp cận big data II Ứng dụng của bigdata trong thương mại điện tử 1 Lợi ích của Big Data đem lại đối với ngành thương mại điện tử 2 Ứng dụng Big Data của một số trang bán hàng trực tuyến trên thế giới, Đông Nam Á và Việt Nam như thế nào? 3 Những lợi ích và thách thức mà Big-Data mang lại với doanh nghiệp thương mại điện tử Việt Nam hiện nay III Liên hệ thực tiễn về doanh nghiệp đã ứng dụng Big data CHƯƠNG 3 : KẾT LUẬN I Những cơ hội khi ứng dụng Bigdata II Thách thức khi ứng dụng Bigdata III Giải pháp……………………………………………………………………………………….40 BIG DATA VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ Page | 2 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 A, Lời mở đầầu Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc ( structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu, đó là Big data ( dữ liệu lớn) Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính, giao dịch điện tử, dòng trạng thái, chia sẻ hình ảnh, bình luận, nhắn tin… của chính chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng.Trong bối cảnh cuộc cách mạng công nghiệp 4.0, dữ liệu lớn (big data) đóng vai trò cốt lõi, là chìa khóa dẫn tới thành công của các doanh nghiệp và trên thực tế big data đang được ứng dụng vào rất nhiều lĩnh vực của nền kinh tế, tạo những chuyển biến ấn tượng, giúp tăng hiệu quả và năng suất của doanh nghiệp Chúng ta có thể kể đến một số lĩnh vực như: Ngành ngân hàng, ngành Y tế, thương mại điện tử, ngành bán lẻ, Digital Marketing, Điển hình là trong ngành thương mại điện tử, doanh nghiệp nào sở hữu và ứng dụng tốt Big Data sẽ tạo ra lợi thế cạnh tranh lớn trên thị trường Big Data giúp nhà quản lý xác định được sản phẩm nào được xem nhiều nhất để tối ưu thời gian hiển thị, tự gửi mã ưu đãi cho những sản phẩm khách hàng bỏ vào giỏ hàng nhưng không mua Đặc biệt, Big Data có thể phân tích hành vi, sở thích, sự quan tâm của khách hàng, giúp nhà quản lý hiểu hơn về khách hàng để cung cấp các sản phẩm theo đúng xu hướng, nhu cầu thị trường Vì vậy mà big data đã được ứng dụng một cách rộng rãi trong thương mại điện tử Bài báo cáo dưới đây trình bày nội dung nghiên cứu tổng quan về dữ liệu lớn, ứng dụng và hiệu quả ứng dụng của nó, đặc biệt vai trò định hướng của dữ liệu lớn trong nền kinh tế nói chung và đối với bài toán thương mại điện tử cũng như phát triển khách hàng nói riêng B, Nội dung Page | 3 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 CHƯƠNG 1 : TỔNG QUAN VỀỀ BIG DATA I Tổng quan vềề dữ liệu lớn 1 Khái niệm Dữ liệu lớn (Big data) là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá, nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường Vì khối dữ liệu quá lớn nên việc triển khai Big Data sẽ gặp những trở ngại bao gồm thu nhận dữ liệu, lưu trữ dữ liệu, tìm kiếm, chia sẻ, chuyển giao, cập nhật… 1.1 Bigdata thường có mặt ở đâu  Dữ liệu trong hộp đen: đây là dữ liệu được tạo ra bởi máy bay, gồm có máy bay phản lực và trực thăng Hộp đen dữ liệu này gồm có thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và tất cả thông tin chuyến bay  Dữ liệu trên mạng xã hội: Cụ thể như trên facebook đi, tất cả những gì người dùng đăng lên như các dòng trạng thái, hình ảnh, video, lượt like, lượt share, lượt comment,… đều được ghi lại Đương nhiên nó đủ điều kiện để trở thành big data  Dữ liệu của các máy tìm kiếm: Cụ thể như google đi, các kết quả hiện ra sau khi bận nhấn nút “tìm kiếm” đều được trích xuất từ các cơ sở dữ liệu khổng lồ, kết quả trả về cũng nhiều thể loại như danh sách các trang web, video, hình ảnh Page | 4 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156  Dữ liệu từ các camera quan sát: Các camera quan sát ở các ngã tư thành phố, ghi lại hoạt động của đường phố suốt ngày đêm  Dữ liệu giao dịch chứng khoán: đây chính là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng  Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực Nó bao gồm các nội dung nhất định từ các điểm giao nhau của các nút nội dung sử dụng  Dữ liệu giao thông: dữ liệu này gồm có sức chứa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông 1.2 Các thành phâần của dữ liệu lớn  Nguồn dữ liệu (Data Sources): nơi dữ liệu được sinh ra, bao gồm dữ liệu có cấu trúc (structure), dữ liệu phi cấu trúc (un-structure) cũng như dữ liệu bán cấu trúc (semi-structure) Dữ liệu có thể đến từ rất nhiều nguồn khác nhau như dữ liệu từ các ứng dụng, cơ sở dữ liệu quan hệ ,hoặc dữ liệu file được tạo ra bởi các log của ứng dụng , hay dữ liệu thời gian thực từ các thiết bị IoT (Internet of Things)  Lưu trữ dữ liệu (Data Storage): thành phần này được thiết kế để lưu trữ lại khối lượng rất lớn các loại dữ liệu với các định dạng khác nhau được sinh ra bởi nguồn dữ liệu (Data Source) trong mô hình xử lý dữ liệu theo lô ( Batch Processing)  Xử lý dữ liệu theo lô (Batch Processing): thành phần này cho phép xử lý một lượng lớn dữ liệu thông qua việc đọc dữ liệu từ các file nguồn, lọc dữ liệu theo các điều kiện nhất định, tính toán trên dữ liệu và ghi kết quả xuống 1 file đích Trong thành phần này có thể sử dụng Spark, Hive, MapReduce, với nhiều ngôn ngữ lập trình khác như Java, Scala hoặc Python  Thu thập dữ liệu thời gian thực (Real-time Message Ingestion): dữ liệu được sinh ra từ nguồn (Data Source) có thể bao gồm dữ liệu thời gian thực (ví dụ từ các thiết bị IoT) do đó thành phần này cho phép một hệ thống Big Data có thể thu thập và Page | 5 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 lưu trữ các loại dữ liệu trong thời gian thực phục vụ cho việc xử lý dữ liệu theo luồng (Streaming Processing)  Xử lý dữ liệu theo luồng (Stream Processing): tương tự như việc xử lý dữ liệu theo lô (Batch Processing), sau khi thu thập dữ liệu thời gian thực, dữ liệu cũng cần phải được lọc theo các điều kiện nhất định, tính toán trên dữ liệu, và ghi kết quả dữ liệu sau khi được xử lý  Lưu trữ dữ liệu phân tích (Analytical Data Store): chịu trách nhiệm lưu trữ dữ liệu đã được xử lý theo định dạng có cấu trúc để phục vụ cho các công cụ phân tích dữ liệu (BI Tools) Dữ liệu có thể được lưu trữ dưới dạng OLAP trong thiết kế Kimball hoặc dữ liệu có thể lưu trữ bằng các công nghệ NoQuery như HBase, Cassandra, …  Lớp phân tích và báo cáo (Analysis and Reporting): thành phần này đáp ứng việc tự khai thác dữ liệu data self-service Cho phép người dùng cuối trực quan hóa dữ liệu (data visualization), phân tích dữ liệu, cũng như kết xuất các báo cáo khác nhau Chúng ta có thể nhắc đến Apache Storm, Spark Streaming…  Điều phối (Orchestration): thành phần này có nhiệm vụ điều phối các công việc trong một hệ thống Big Data để đảm bảo luồng xử lý dữ liệu được thông suốt, từ việc thu thập dữ liệu, lưu trữ dữ liệu đến lọc, tính toán trên dữ liệu 2 Nguồền hình thành dữ liệu lớn Qua thống kê và tổng hợp, dữ liệu lớn được hình thành chủ yếu từ 6 nguồn:  Dữ liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chính phủ hay phi chính phủ) Ví dụ, hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng  Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thể) Ví dụ, các giao dịch thẻ tín dụng, giao dịch trên mạng, bao gồm cả các giao dịch từ các thiết bị di động…  Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu Page | 6 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156  Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại di động, GPS  Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ hay thông tin khác), đọc các trang mạng trực tuyến…  Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các phương tiện thông tin xã hội 3 Phương pháp khai thác và quản lý dữ liệu lớn ( Hadoop ecosystem) 3.1 Phương pháp khai thác dữ liệu lớn  Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước  Hồi quy (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực  Phân nhóm (Clustering): Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu  Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu  Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu  Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay đổi quan trọng nhất trong bộ dữ liệu  Nâng cao hiểu biết về các thị trường mới và tiềm năng  Tạo ra sản phẩm dựa trên data-driven  Xây dựng doanh nghiệp dựa trên dữ liệu mở  Hiểu rõ hơn về đối thủ cạnh tranh và nhà cung cấp  Xây dựng lợi thế cạnh tranh  Giảm chi phí Page | 7 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 3.2 Quản lý dữ liệu lớn Quản lý dữ liệu là quá trình thu nhập, lưu trữ, tổ chức và duy trì dữ liệu trong một tổ chức QLDL hiệu quả vô cùng quan trọng trong việc triển khai các hệ thống CNTT thông qua các ứng dụng kinh doanh, cung cấp thông tin phân tích để thúc đẩy quá trình ra quyết định vận hành và hoạch định chiến lược trong doanh nghiệp Quy trình QLDL là kết hợp các chức năng khác nhau, nhằm đảm bảo dữ liệu trong các hệ thống doanh nghiệp chính xác, có sẵn và có thể truy cập được Một số lợi ích của việc quản lý dữ liệu tốt  Thực hiện QLDL tốt giúp các tổ chức, doanh nghiệp đạt được lợi thế cạnh tranh tiềm năng so với các đối thủ kinh doanh của họ bằng cách cải thiện hiệu quả hoạt động và cho phép ra quyết định tốt hơn Các tổ chức có dữ liệu được quản lý tốt có thể trở nên linh hoạt hơn, nhanh chóng phát hiện xu hướng thị trường để tận dụng các cơ hội kinh doanh nhanh chóng  QLDL tốt cũng hỗ trợ doanh nghiệp rất nhiều trong công tác đánh giá, nghiên cứu thị trường: đánh giá hài lòng khách hàng, đánh giá năng lực nhân viên, nghiên cứu đối thủ cạnh tranh, 4 Đặc trưng 5V của dữ liệu lớn Page | 8 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 4.1 Khốối lượng dữ liệu (Volume) Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất lớn Kích cỡ của Big data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn 4.2 Tốốc độ (Velocity) Tốc độ có thể hiểu theo 2 khía cạnh: (a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây) Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-time Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu Ví dụ: Có hơn 3,5 tỷ lượt tìm kiếm mỗi ngày trên Google Ngoài ra, người dùng FaceBook đang tăng khoảng 22% hàng năm 4.3 Đa dạng ( Variety) Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…) Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter Nó đề cập đến bản chất của dữ liệu là dữ liệu có cấu trúc, bán cấu trúc và dữ liệu phi cấu trúc.Nó cũng đề cập đến các nguồn không đồng nhất Sự đa dạng về cơ bản là sự xuất hiện của dữ liệu từ các nguồn mới cả bên trong và bên ngoài doanh nghiệp Nó có thể có cấu trúc, bán cấu trúc và không cấu trúc Page | 9 Downloaded by Lan Nguyen (tailieuso.18@gmail.com)

Ngày đăng: 12/03/2024, 16:33

Tài liệu cùng người dùng

Tài liệu liên quan