Thông tin tài liệu
Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) Nghiên cứu về công cụ mã nguồn mở BIRT Báo Cáo Đề Tài 6/27/14 1 Nhóm 9 gồm các thành viên : Phạm Văn Đồng – 1042026 Phùng Siêu Diên – 1042018 Nguyễn Duy Khanh – 1042051 Phan Quốc Trung – 1041442 • Data WareHouse • OLap • BI (Bussiness Intelligene) • Demo BIRT Nội dung 6/27/142 Data Warehouse Phạm Văn Đồng Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 6/27/143 Data Warehouse Phạm Văn Đồng Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 6/27/144 Data Warehouse Phạm Văn Đồng 6/27/145 • DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. Đặc trưng Hướng chủ thể Tính tích hợp Tính bền vững Gắn với thời gian Có tính lịch sử Data Warehouse Phạm Văn Đồng 6/27/146 Chỉ đọc Không biến động Dữ liệu tổng hợp và chi tiết. Kiến trúc. Data Warehouse Phạm Văn Đồng 6/27/147 Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau. Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu. Data Warehouse Phạm Văn Đồng 6/27/148 Nhiệm vụ : kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi. Các bước tiến trình ETL gồm 3 bước: o Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý. o Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Các kiểu kiến trúc ETL : Có 3 kiểu kiến trúc ETL chính : Data Warehouse Phạm Văn Đồng 6/27/149 Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu. Mô hình này thường được sử dụng nếu nguồn dữ liệu là từ một server và máy nguồn đủ mạnh để xử lý tiến trình ETL. Thông thường mô hình này sử dụng khi dữ liệu nguồn không quá phức tạp và khối lượng dữ liệu không quá lớn. Data Warehouse Phạm Văn Đồng 6/27/1410 Kiểu pull : Với kiến trúc này tiến trình ETL sẽ được chạy ở server chứa kho dữ liệu . Mỗi khi cập nhật dữ liệu tiến trình này sẽ kết nối tới các nguồn dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình ETL. Cũng như kiển push kiểu kiến trúc này cũng được sử dụng khi khối lượng dữ liệu và khối lượng thao tác không quá lớn. [...]... API và kiến trúc mở để hỗ trợ các ứng dụng tùy ý Phùng Siêu Diên OLAP Giới thiệu OLAP Service Các mô hình lưu trữ dữ liệu Mô hình dịch vụ OLAP Phùng Siêu Diên Các mô hình lưu trữ dữ liệu Mô hình Multidimensional OLAP( MOLAP) Mô hình Relational OLAP( ROLAP) Mô hình Hybird OLAP( HOLAP) Phùng Siêu Diên Mô hình Multidimensional OLAP( MOLAP) Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ sở và. .. Relational OLAP( ROLAP) Phan Quốc Trung Mô hình Hybird OLAP( HOLAP) HOLAP sự kết hợp giữa MOLAP và ROLAP Lưu trữ các khối (cube) trong cấu trúc HOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên dựa trên một lượng lớn dữ liệu cơ sở Ví dụ: chúng ta sẽ lưu trữ dữ liệu bán hàng theo hàng quý, hàng năm trong cấu trúc MOLAP và dữ liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP Phan... chi phí cho cả công nghệ và huấn luyện con người Phùng Siêu Diên Mô hình Multidimensional OLAP( MOLAP) Phùng Siêu Diên Mô hình Relational OLAP( ROLAP) Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các bảng của data mart hoặc kho dữ liệu Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các... bởi OLAP server Phần client: dịch vụ PivotTable Cả dịch vụ OLAP và dịch vụ PivotTable đều cho phép thiết kế, tạo mới và quản lý các khối từ kho dữ liệu (data warehouse) và cho phép các client truy xuất đến dữ liệu OLAP Phùng Siêu Diên Các đặc điểm của dịch vụ OLAP Dễ sử dụng Linh động Kiến trúc có thể co dãn (scalable architecture) Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và. .. liệu hàng tháng, hàng tuần và hàng ngày trong cấu trúc ROLAP Phan Quốc Trung Mô hình Hybird OLAP( HOLAP) Lợi ích: Lấy dữ liệu trong khối (cube) nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của MOLAP Tiêu thụ ít không gian lưu trữ hơn MOLAP Tránh trùng lắp dữ liệu Phan Quốc Trung Mô hình Hybird OLAP( HOLAP) Phan Quốc Trung So sánh các mô hình Phan Quốc Trung ... đối với các truy vấn đặc bi t Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc bi t Phùng Siêu Diên OLAP Giới thiệu OLAP Service Các mô hình lưu trữ dữ liệu Mô hình dịch vụ OLAP Phùng Siêu Diên OLAP Service Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến Kiến trúc dịch vụ OLAP được chia làm 2 phần:... Đồng OLAP On-Line Analytical Processing OLAP Giới thiệu OLAP Service Các mô hình lưu trữ dữ liệu Mô hình dịch vụ OLAP Phùng Siêu Diên Giới thiệu Thuật ngữ OLAP được E.F.Codd đưa ra trong một bài báo có tên “Providing On-Line Analytical Processing to User Analysts” được công bố vào tháng 8-1993 OLAP là một kỹ thuật phân tích dữ liệu sử dụng các thể hiện dữ liệu đa chiều gọi là các khối (cube)... một năm sẽ được đưa vào một cấu trúc ROLAP để giảm không gian đĩa bị chiếm dụng, hơn nữa còn để lại trường dữ liệu trùng lắp Phan Quốc Trung Mô hình Relational OLAP( ROLAP) Ưu điểm: Có thể áp dụng với hệ thống có dung lượng lớn do kích cỡ của ROLAP chính là kích cỡ của CSDL quan hệ Tiết kiệm không lưu trữ do dữ liệu lưu trữ trong CSDL quan hệ truyền thống ít khi trùng lắp ROLAP là kỹ thuật hiệu... thông của nó đồng thời thực thi được các phép toán của hệ thống OLAP Dữ liệu được chứa trong CSDL quan hệ chuẩn nên có thể được truy cập bằng bất kỳ công cụ CQL nào Phan Quốc Trung Mô hình Relational OLAP( ROLAP) Nhược điểm: ROLAP chạy chậm do mỗi ROLAP report là câu truy vấn nguyên thủy trong CSDL quan hệ Tất cả các tính toán của ROLAP dựa trên các hàm của SQL, vì thế chúng không thích hợp khi... trúc MOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu thường xuyên mà cần thời gian hồi đáp nhanh Ví dụ: tổng sản phẩm bán được của tất cả các vùng theo quý Phùng Siêu Diên Mô hình Multidimensional OLAP( MOLAP) Ưu điểm: Thực thi nhanh câu truy vấn nhờ vào việc tối ưu hóa, lưu trữ, lập chỉ mục đa chiều và cơ chế bộ nhớ cache Áp dụng tốt cho các hệ thống có yêu cầu tính toán phức tạp và thời . Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) Nghiên cứu về công cụ mã nguồn mở BIRT Báo Cáo Đề Tài 6/27/14 1 Nhóm 9 gồm. 1041442 • Data WareHouse • OLap • BI (Bussiness Intelligene) • Demo BIRT Nội dung 6/27/142 Data Warehouse Phạm Văn Đồng Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data. dữ liệu và lấy dữ liệu về xử lý sau đó nạp vào kho dữ liệu. Ở kiến trúc này dữ liệu nguồn có thể từ nhiều nơi khác nhau, tuy nhiên máy chứa kho dữ liệu cần phải có đủ năng lực xử lý tiến trình
Ngày đăng: 26/06/2014, 23:21
Xem thêm: Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) pot, Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene) pot