Tiểu luận môn Điện toán lưới và đám mây CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY

25 615 0
Tiểu luận môn Điện toán lưới và đám mây CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY CÔNG NGHỆ KHAI MỎ DỮ LIỆU CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY TRONG ĐIỆN TOÁN ĐÁM MÂY GVHD : PGS. TS. NGUYỄN PHI KHỨ HVTH : NGUYỄN THỊ MAI MÃ HV : CH1301038 LỚP : CH KHÓA 8 SVTH: Nguyễn Thị Mai 1 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ MỤC LỤC LỜI CẢM ƠN Em xin chân thành cảm ơn thầy PGS.TS Nguyễn Phi Khứ đã cung cấp cho em những kiến thức quan trọng, nền tảng của môn Điện toán Lưới và Đám mây, giúp em có them những kiến thức và hướng nghiên cứu trong lĩnh vực này. Trong bài này, em xin trình bày những kiến thức cơ bản về Điện toán Đám mây, Khai mỏ dữ liệu và những công nghệ khai thác dữ liệu lớn, được biết đến với tên gọi Khai mỏ dữ liệu đám mây (Cloud Data Mining - CDM). Do thời gian có hạn nên bài viết chưa thực sự hoàn chỉnh, còn nhiều hạn chế và hiểu biết chưa sâu rộng, mong thầy thông cảm. Tp. Hồ Chí Minh, ngày 08 tháng 06 năm 2014 Học viên thực hiện Nguyễn Thị Mai SVTH: Nguyễn Thị Mai 2 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ I. GIỚI THIỆU Điện toán đám mây cung cấp một cơ sở hạ tầng linh hoạt, mạnh mẽ và có thể mở rộng giúp người dùng có thể tích hợp các kỹ thuật, phương pháp của khai mỏ dữ liệu. Kết quả của sự tích hợp đó là một nền tảng dung tính, vững chắc. Nó có thể giải quyết sự xuất hiện gia tăng của dữ liệu hoặc sẽ tạo ra những điều kiện cho việc khai thác hiệu quả lượng lớn dữ liệu từ các kho dữ liệu đa dạng. Mục tiêu là tạo ra thông tin (hữu ích) hoặc sản phẩm của tri thức mới. Như một hệ quả của các hoạt động kinh doanh và đặc biệt trong những ngăm gần dây, tầm quan trọng của việc sử dụng các dịch vụ on-line ngày càng nâng cao và phát triển, một lượng dữ liệu khổng lồ đã và đang được tạo ra. Tất cả dữ liệu tích lũy này là khả năng tiềm ẩn trong thông tin (hữu ích), ví dụ như: sở thích mua sắm, tình huống tài chính, lợi nhuận, quan điểm chính trị, … của người sử dụng hoặc khách hàng đều có thể cải thiện đáng kể trong việc ra quyết định. Nhưng làm cách nào để có được những thông tin hữu ích, tiềm năng đang ẩn dấu trong cả “núi dữ liệu” khi việc xử lý và lưu trữ lượng lớn dữ liệu đang nhân lên mỗi ngà và thực tế cho thấy những hạn chế nhất định của kỹ thuật, công cụ thông tin liên lạc truyền thống? Câu trả lời tất yếu là ứng dụng những công nghệ hiện đại. Cơ sở hạ tầng đám mây có thể được sử dụng hiệu quả cho các hoạt động đòi hỏi khắt khe và chuyên sâu với dữ liệu điển hình cho quá trình khai mỏ dữ liệu. Thật cần thiết để có kho dữ liệu quy mô lớn và tài nguyên máy tính có thể mở rộng, lưu trữ hiệu quả và phân tích sâu lượng lớn dữ liệu. Điện toán đám mây đưa ra rằng: việc chi ra một khoản đầu tư khổng lồ là cần thiết nếu một người hoặc một công ty muốn xây xựng một hệ thống khai thác dữ liệu trong phạm vi một công ty hoặc một tổ chức hệ thống thông tin. II. TỔNG QUAN 1. Khai mỏ dữ liệu Trong nhiều năm, những tổ chức và công ty tích lũy lượng lớn dữ liệu và khối lượng này tăng đa tạp. Một câu hỏi đặt ra là có phải một số thông tin hữu ích cho đến nay vẫn chưa được khai phá, đang ẩn trong dữ liệu? Câu trả lời là có thể cung cấp ứng dụng xử lý khai mỏ dữ liệu. SVTH: Nguyễn Thị Mai 3 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Về cơ bản, khai mỏ dữ liệu là quá trình khám phá hoặc tìm kiếm những hình thức dữ liệu mới, hữu ích, có giá trị, tiềm năng và có thể hiểu được. Những hình thức dữ liệu đề cập đến quy tắc khai phá giữa các biến dữ liệu. Các quy tắc được phát hiện áp dụng cho tất cả dữ liệu, sau đó là mô hình khai phá. Tuy nhiên các quy tắc có thể tương quan với sự mở rộng của dữ liệu là một mô hình hoặc mẫu. Khai mỏ dữ liệu là tạo ra lượng dữ liệu lớn vượt trội để đưa ra những thông tin mới sẽ là nền tảng cho việc đưa ra những quyết định kinh doanh tốt hơn. Khai mỏ dữ liệu là lĩnh vực đa ngành mức cao, có nguồn gốc từ thống kê, toán học, lý thuyết thông tin, trí tuệ nhân tạo, lý thuyết máy học, cơ sở dữ liệu và trong hầu hết các chuỗi liên quan đến các lĩnh vực khác. Có thể xác định những loại thông tin sau đây: lớp, cụm (hạng), các sự kiện xã hội truyền thống (ví dụ: khách hàng mua một sản phẩm A, 70% trường hợp họ mua phải sản phẩm A1), là các sự kiện tuần tự được thiết lập với một xác suất nhất định theo sau một sự kiện khác và những dự báo dự đoán tương lai từ những dữ liệu sẵn có. Khai mỏ dữ liệu là một hoạt động đầy thử thách và phức tạp, mà quá trình cài đặt yêu cầu chuyên gia từ các lĩnh vực khác nhau. Nhân sự của một dự án Khai mỏ dữ liệu bao gồm: - Các nhà khoa học máy tính với vai trò chuẩn bị dữ liệu. - Các nhà phân tích với vai trò lựa chọn phương pháp và trình bày phương pháp luận kết quả khai thác dữ liệu - Các chuyên gia chịu trách nhiệm về các vấn đề, định nghĩa một vấn đề nghiệp vụ, chọn lọc dữ liệu liên quan và đề ra các hoạt động dựa trên nền tảng kết quả thu được. Định nghĩa vấn đề Định nghĩa dữ liệu yêu cầu Chuyển đổi và dữ liệu mẫu Định lượng dữ liệu Lựa chọn kỹ thuật khai thác Xây dựng và định lượng mô hình SVTH: Nguyễn Thị Mai 4 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Định lượng dữ liệu Biên dịch và sử dụng kết quả Bước 1: Định nghĩa vấn đề nghiệp vụ Bước 2: Chuẩn bị dữ liệu Bước 3: Mô hình hóa Bước 4: Cài đặt Hình 1: Các bước của quá trình khai thác dữ liệu. Trong những đội dự án, người ta khuyến nghị rằng, nên có thêm một người là quản lý dự án, đóng vai trò sắp xếp, lãnh đạo dự án Khai thác dữ liệu có tổ chức. Không có thủ tục truyền lệnh cho Khai thác dữ liệu mà sẽ luôn chắc chắn có kết quả trong việc tìm kiếm các dữ liệu có giá trị. Tuy nhiên, có thể với phương pháp lập kế hoạch theo những bước tiêu chuẩn (phrase) của tiến trình khai thác dữ liệu, sự gia tăng đáng kể xác suất thành công. Xây dựng một mô hình là bước đặc biệt quan trọng trong quá trình khai mỏ dữ liệu. Đó là một quá trình phức tạp liên quan đến nhiều hoạt động: - Lựa chọn kỹ thuật khai thác dữ liệu - Xác định trường hợp, chọn lựa các đơn vị dữ liệu cần xem xét - Xác định dữ liệu cho các nhà phân tích - Tùy chọn tạo ra các chiều và khối ảo từ mô hình kết quả - Xử lý quá trình tạo mô hình và thu thập kết quả. Khi tạo ra mô hình Khai thác dữ liệu, vấn đề lớn nhất là làm thế nào để ứng dụng các kỹ thuật khác nhau (và các thuật toán khác nhau) vào các tập hợp dữ liệu khác nhauvới mục tiêu tìm ra mô hình quan trọng và hữu ích. Một lượng khổng lồ thông tin phức tạp và rời rạc không cho phép ứng dụng cùng một thuật toán hoặc cùng một kỹ thuật khai thác. Vì thế, vai trò của người phân tích – một chuyên gia trong lĩnh vực Khai mỏ dữ liệu là đặc biệt quan trọng bởi năng lực của họ, quyết định dựa trên chọn lựa công cụ, kỹ thuật và phương pháp sẽ được sử dụng trong những trường hợp đặc biệt. SVTH: Nguyễn Thị Mai 5 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Trong một dự án Khai thác dữ liệu, có thể chọn cách sử dụng nhiều phương pháp có thủ tục cũng như việc chọn cách sử dụng một phương pháp. Nếu quyết định chọn một hay nhiều phương pháp là không thích hợp, các tham số của việc chọn phương pháp có thể được thay đổi hoặc lựa chọn phương pháp mới được tạo ra. Một số phương pháp và kỹ thuật của Khai thác dữ liệu là: phân lớp, liên kết, phân tích tuần tự, gom cụm, dự đoán, mạng neural, logic mờ, cây quyết định, phân tích thị trường và bộ nhớ dựa trên lý luận. Trong bối cảnh hiện nay, ứng dụng của kho dữ liệu là rất quan trọng. Đặc biệt, vì mục đích của nhiều công ty hiện đại điều hành thị trường toàn cầu có hệ thống thông tin, nó đòi hỏi hình thức tổ chức (quản lý) dữ liệu dựa trên khái niệm kho dữ liệu. Kho dữ liệu hợp nhất hoặc tích hợp dữ liệu từ nhiều nguồn khác nhau, dữ liệu lịch sử trong quá trình quản lý của công ty và dữ liệu từ môi trường. Kho dữ liệu, theo yêu cầu kỹ thuật và nội dung có sự khác biệt đáng kể với giao dịch chuẩn dựa trên hệ thống và thiết kế để có thể tìm kiếm dữ liệu dễ dàng hơn là quá trình phân tích và báo cáo. Kho dữ liệu là một khái niệm quan trọng của hệ hỗ trợ ra quyết định hiệu quả, phát triển mở trộng trong vài năm trở lại đây. Nó cung cấp các ý tượng kích hoạt tìm kiếm và đề cập đến các thông tin cần thiết trong quá trình ra quyết định. Nó sử dụng thủ tục quá quá trình phân tích, khai mỏ dữ liệu và khai phá tri thức từ dữ liệu. Đề cập đến khái niệm và phương pháp dựa trên công nghệ thông tin nhằm mục đich đạt được sự quản lý thông minh của công ty trong điều kiện thị trường phức tạp ngày nay. Như đã đề cập, dữ liệu đưa vào Kho từ nhiều nguồn đa dạng, bao gồm hệ thống giao dịch của các công ty. Công việc quan trọng nhất và toàn diện nhất trong quá trình lưu trữ dữ liệu là tích hợp dữ liệu và tổ chức nội dung dữ liệu. Những hoạt động này là một phần của quá trình dẫn xuất, chuyển đổi và tải dữ liệu ETL (Extract, Transform, Load) với nhiệm vụ thu thập dữ liệu từ các nguồn hỗn tạp, chuyển đổi nó trong định dạng thích hợp và đưa vào kho với dữ liệu được tinh lọc và chuẩn bị. Mặc dù Khai mỏ dữ liệu có thể được quản lý không cần kho dữ liệu, nhưng rõ ràng, sự thiết lập và ứng dụng của Kho dữ liệu làm gia tăng đáng kể các cơ hội hành công. Data SVTH: Nguyễn Thị Mai 6 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Warehouse Source 3 Source 4 Source 1 Source 2 ELT process DM Reports Hình2: Mô phỏng đơn giản của Kho dữ liệu như nguồn dữ liệu cho tiến trình Khai thác dữ liệu 2. Điện toán đám mây Trong nhiều năm gần đây, một trong những chủ đề thú vị và quan trọng nhất của thế giới công nghệ thông tin và truyền thông (ICT) là Điện toán Đám mây. Trong phần này sẽ trình bày những thông tin cơ bản và đặc điểm của công nghệ Điện toán đám mây và mô hình nghiệp vụ. 2.1 Định nghĩa Viện tiêu chuẩn và công nghệ quốc gia NIST (National Institute of Standards and Technology) định nghĩa Điện toán Đám mây như là một mô hình cung cấp mạng phổ biến, đơn giản, theo yêu cầu truy cập của người dùng đến một tập chia sẻ các tài nguyên (ví dụ: tài nguyên mạng, máy chủ, lưu trữ dữ liệu, ứng dụng và dịch vụ) có thể đọc được và có giá trị sử dụng, hoặc nếu cần thiết, nhà cung cấp có thể can thiệp và ngừng lại tất cả các dịch vụ đó. Influential Gartner và Forrester cung cấp định nghĩa sau: “Điện toán đám mây là lĩnh vực điện toán mà các thiết bị công nghệ thông tin có khả năng cung cấp các hình thức linh hoạt của dịch vụ được cấp phát thông qua Internet đến đông đảo khách hàng bên ngoài.” SVTH: Nguyễn Thị Mai 7 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Một số đông chuyên gia tin rằng: đó là mô hình nghiệp vụ mới và là nền tảng công nghệ cho sự điều tiết, khởi đầu và sử dụng các dịch vụ cũng như các sản phẩm công nghệ thông tin đa dạng. Từ quan điểm của người dùng, điện toán đám mây có thể được định nghĩa như một cách thức mới, an toàn hơn trong sử dụng các giải pháp phần mềm được thuê theo nhu cầu. Mặt khác, từ khía cạnh nhà cung cấp dịch vụ, Điện toán đám mây có thể được định nghĩa như một cách thức mới, công nghệ mới và kênh phân phối khác nhau của sản phẩm công nghệ thông tin và của dịch vụ công nghệ thông tin dự phòng. Mặc dù có khá nhiều các định nghĩa tập trung vào những khía cạnh khác nhau nhưng các định nghĩa này vẫn được coi là gây tranh cãi. Điện toán đám mây đang trở thành một hiện tượng nổi trội trong thế giới công nghệ thông tin và truyền thông. Thực tế, những công ty lớn nhất (và giàu nhất) như Microsoft, Google, Oracle và Cisco đang đứng bên cạnh khái niệm này để thể hiện một cái nhìn rõ ràng về định hướng Cloud Computing. Trong khi đó, thế giới công nghệ thông tin di chuyển không ngừng và đặt ra nhiều thách thức trong quản lý dữ liệu bằng Điện toán đám mây. Khái niệm điện toán đám mây, theo NIST, có 5 tính chất sau: • Tự phục vụ theo yêu cầu, • Truy cập mạng rộng rãi, • Hợp nhất nguồn, • Tính đàn hồi nhanh chóng, • Dịch vụ được đo lường. 2.2 Mô hình cấp phát dịch vụ Điện toán đám mây Việc cung cấp dịch vụ Điện toán đám mây được phân chia thành ba mô hình kiến trúc và sự kết hợp dẫn xuất khác nhau của các mô hình cơ bản. Dưới đây là ba phân lớp cơ bản được biết đến như mô hình SPI (Software, Platform, Infrastructure). SVTH: Nguyễn Thị Mai 8 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Hình 3: Mô hình SPI Mô hình cơ bản cung cấp dịch vụ Điện toán đám mây là : • SaaS (software as a service) – là một nền (platform) công nghệ cho phép truy cập các ứng dụng thông qua Internet với dạng dịch vụ được thuê theo nhu cầu thay vì mua chương trình phần mềm tách biệt và phải cài đặt trên máy tính người dùng (văn phòng và/hoặc tại nhà). • PaaS (Platform as a Service) – là một mô hình sai khác của cấu trúc SaaS, như một sự phát triển môi trường cấp phát dịch vụ. Cho phép người dùng xây dựng ứng dụng của riêng mình chạy trên cơ sở hạ tầng của nhà cung cấp. Các ứng dụng được cấp phát cho người sử dụng thông qua giao diện máy chủ có thể truy cập từ Internet. • IaaS (Infrastructure as a Service) – cung cấp khả năng sử dụng cơ sở hạ tầng máy tính (chủ yếu là nền ảo - virtual platforms). Người dùng không phải mua máy chủ, phần mềm, thiết bị lưu trữ dữ liệu hoặc thiết bị mạng, nhưng họ phải mua các tài nguyên như một dịch vụ bên ngoài. SVTH: Nguyễn Thị Mai 9 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ 2.3 Mô hình cài đặt Không kể đến loại mô hình cấp phát dịch vụ (SaaS, PaaS, hoặc IaaS), có bốn mô hình cơ bản của dịch vụ điện toán đám mây, bao gồm: • Public Cloud – platform có sẵn và mở đối với mọi người, không kể là cá nhân hay tổ chức nào. • Private Cloud – cơ sở hạ tầng Điện toán đám mây có thể truy cập chỉ với một tổ chức. Nó được quản lý bởi chính tổ chức đó hoặc một số người khác đang làm việc cho tổ chức đó (out-sourcing) • Community Cloud – mô hình cài đặt cung cấp khả năng cho nhiều tổ chức có thể chia sẻ cùng cấu trúc Điện toán đám mây. Cơ sở hạ tầng hỗ trợ những tổ chức, cộng đồng có cùng sở thích, nhu cầu và yêu cầu bảo mật. • Hybrid Cloud – là mô hình bao gồm hai hoặc nhiều phần của những mô hình trước, là loại mô hình được thiết lập cấu trúc Điện toán đám mây để duy trì tính hợp nhất và độc lập giữa các thực thể, nhưng với một loại liên kết đối ứng, để mà đạt được tính lưu động của dữ liệu giữa chúng. 2.4 Thuận lợi và khó khăn của Điện toán đám mây Giống như bất kỳ công nghệ khác, Điện toán đám mây có nhiều thuận lợi và một số bất lợi đáng kể. Bảng bên dưới cho ta cái nhìn tổng quan sau: Thuận lợi Khó khăn − Có khả năng giảm đáng kể chi phí − Các vấn đề thông tin có sẵn (hoặc không có sẵn) − Giảm nhu cầu hỗ trợ, bảo trì phần mềm − Vấn đề an toàn − Giảm bộ phân CNTT trong công ty − Vấn đề quản lý − Có thể mở rộng − Nhà cung cấp có thể ngừng dịch vụ đột ngột − Tập trung vào ngành kinh doanh chính − Dữ liệu có sẵn và độc lập − Tiết kiệm năng lượng, đóng góp SVTH: Nguyễn Thị Mai 10 [...].. .Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ vào bảo vệ môi trường Bảng 1: Thuận lợi và khó khăn của Điện toán đám mây III CLOUD DATA MINING (CDM) 1 Giới thiệu Cloud Data Mining CDM (Khai mỏ dữ liệu đám mây) đề cập khả năng to lớn trong phân tích và trích xuất thông tin (hữu ích) trong các lĩnh vực đa dạng các hoạt động của con người:... một dịch vụ Đám mây để phân tích hiệu quả tất cả dữ liệu trong tổ chức cũng như các dữ liệu bên ngoài có lợi cho tổ chức Đám mây cung cấp công nghệ có thể quản lý lượng khổng lồ dữ liệu mà không thể được xử lý hiệu quả bởi các kỹ thuật và công nghệ tiêu chuẩn có chi phí hợp lý hơn Phân tích dữ liệu hướng mạng xã hội, nhận dạng mẫu, xử lý hình ảnh kích thước lớn, đồng bộ, mô tả, khai thác dữ liệu chỉ là... là một số ví dụ công việc ý tưởng cài đặt trong Cloud Khái niệm khai mỏ dữ liệu Đám mây xuất phát từ quan điểm kỹ thuật, một quá trình rất khô khan, yêu cầu một cơ sở hạ tầng đặc biệt dựa trên ứng dụng của công nghệ lưu trữ, điều khiển và xử lý Dữ liệu lớn/Hadoop là sự quảng cáo cường điệu mới nhất trong lĩnh vực xử lý dữ liệu Dựa trên thuật toán và công nghệ được phát triển bởi các công ty Internet... lý và phân tích lượng lớn dữ liệu 2 Big Data và cơ sở lưu trữ NoSQL SVTH: Nguyễn Thị Mai 11 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Sự sản sinh dữ liệu khổng lồ trong vài năm gần đây như một kết quả tất yếu của các hoạt động kinh doanh, các hoạt động trong mạng xã hội,… bao hàm nhu cầu cho việc lưu trữ và phân tích hiệu quả dữ liệu này Big Data là một thuật ngữ mới cho tập hợp dữ liệu. .. của hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) là nguyên nhân chính của cơ chế mới hoặc cách quản lý dữ liệu – cơ sở dữ liệu NoSQL (Not Only SQL) Các công ty Internet lớn như Google, Twitter, Facebook, Amazon, làm việc với lượng lớn dữ liệu, được tạo ra từ công nghệ cho việc lưu trữ và xử lý trong đám mây để duy trì hệ thống phân tán và tính linh hoạt của cơ sở dữ liệu Cơ sở dữ liệu không quan hệ (non-relational)... platform Với việc cài đặt kho dữ liệu cũng như phân tích sâu, khai mỏ dữ liệu, các module bổ sung Hive và Pig được sử dụng 4 Apache Hive SVTH: Nguyễn Thị Mai 14 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ Hive là một cơ sở hạ tầng kho dữ liệu xây dựng trên đỉnh Hadoop framework và cho phép phân tích dữ liệu và thực hiện truy vấn theo cách tương tự truy vấn SQL trong RDBMS (HiveQL) Hive được... thống về cơ sở hạ tầng công nghệ thông SVTH: Nguyễn Thị Mai 23 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ tin và truyền thông, không thể lấp đầy một cách thỏa đáng nhưng Điện toán Đám mây có thể! Ví dụ, đám mây mà Facebook cần, cấp phát 8500 lõi CPU và cung cấp lựa chọn sử dụng petabytes(250B) dung lượng lưu trữ Như sức mạnh và khả năng cung cấp để có thể xử lý phân tích dữ liệu kỹ lưỡng trên... cùng Bằng cách phát triển đám mây dựa trên các giải pháp khai thác dữ liệu, việc truy cập vào dịch vụ khai thác dữ liệu mỗi lúc, mỗi nơi và từ những platform khác SVTH: Nguyễn Thị Mai 24 Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ nhau đều trở nên có thể Sau cùng, ứng dụng các giải pháp CDM có thể cung cấp một loại eco-system khai phá tri thức, xây dựng số lượng lớn dữ liệu được phân cấp bởi... là tích hợp khai thác và phân tích dữ liệu với Cloud Computing Việc lưu trữ lớn và xử lý tiềm năng của Điện toán đám mây được biết như những kỹ thuật, phương pháp phổ biến của khai thác dữ liệu, di chuyển mọi thứ đến Đám mây để tạo ra platform mạnh mẽ cho phân tích lượng lớn dữ liệu được tạo ra hằng ngày và bản thân nó ẩn chứa nhiều thông tin hữu ích khác, về cơ bản cho những tri thức mứoi và quyết định... dữ liệu được lưu trữ và phân tích mỗi tháng Dưới đây thể hiện một vài khung nhìn minh họa tính năng và đặc điểm của công cụ CDM Để truy cập, cần phải có một tài khoản Gmail và thực hiện log in dịch vụ nhanh chóng và trực quan Để kiểm tra, ta sử dụng hai kho dữ liệu sẵn có mà Google tạo ra cho người dùng chỉ để kiểm tra mục đich (Natality và Wikipedia) SVTH: Nguyễn Thị Mai 18 Điện toán lưới và đám mây . Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN o0o ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY CÔNG. TOÁN LƯỚI VÀ ĐÁM MÂY ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY CÔNG NGHỆ KHAI MỎ DỮ LIỆU CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY TRONG ĐIỆN TOÁN ĐÁM MÂY GVHD : PGS. TS. NGUYỄN PHI KHỨ HVTH : NGUYỄN. toán Lưới và Đám mây, giúp em có them những kiến thức và hướng nghiên cứu trong lĩnh vực này. Trong bài này, em xin trình bày những kiến thức cơ bản về Điện toán Đám mây, Khai mỏ dữ liệu và

Ngày đăng: 19/05/2015, 20:43

Từ khóa liên quan

Mục lục

  • 2.1 Định nghĩa

  • 2.2 Mô hình cấp phát dịch vụ Điện toán đám mây

  • 2.3 Mô hình cài đặt

  • 2.4 Thuận lợi và khó khăn của Điện toán đám mây

  • 7.1 Google BigQuery

  • 7.2 Amazon Elastic MapReduce (EMR)

  • 7.3 SQL Server Data Mining cho Cloud

  • 7.4 Một trường hợp nghiên cứu với Facebook

  • I. TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan