Giai phap xay dung data warehouse

42 165 3
Giai phap xay dung data warehouse

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

GIẢI PHÁP XÂY DỰNG DATA WAREHOUSE CHO BẢO VIỆT BANK Hệ thống Oracle GoldenGate (OGG) 1.1 Giới thiệu Oracle GoldenGate (OGG) Oracle mua lại từ GoldenGate Software Inc vào năm 2009 phát triển lại, phiên Oracle GoldenGate 12.3 hay gọi lại 12c Những lợi ích mà GoldenGate mang lại: • Có chế đảm bảo tính tồn vẹn liệu đồng khả tự khơi phục tiến trình đồng sau kết nối CSDL nguồn CSDL đích • Có khả đồng liệu với độ trễ thấp với hàng nghìn transaction/s chiếm tải hệ thống CSDL • Duy trì hoạt động liên tục cho ứng dụng • Giảm thiểu chi phí thơng qua hỗ trợ mơi trường khơng đồng • Hiệu suất cao, có khả mở rộng • Giảm thiểu rủi ro sai lệch liệu, đảm bảo tính tồn vẹn độ tin cậy liệu • Vượt qua rào cản việc chia sẻ liệu • Hỗ trợ trợ nhiều loại CSDL Oracle, SQL Server, DB2, MySQL, BigData • Có khả chạy nhiều hệ điều hành Solaris, Linux, AIX, Window • Hỗ trợ kết nối bảo mật, mã hóa liệu truyền tải liệu 1.2 Kiến trúc tổng quan Oracle GoldenGate sử dụng nhiều mơ hình đồng từ nguồn sang nhiều đích, từ nhiều nguồn đích, đồng chiều… 1.2.1 Nhân liệu chiều (Unidirectional Replication): Đây kiến trúc thông dụng OGG Kiến trúc cho phép đồng chiều từ CSDL nguồn sang CSDL đích 1.2.2 Nhân liệu chiều (Bidirectional/Active-Active Replication): Kiến trúc cho phép đồng liệu theo chiều, CSDL nguồn CSDL đích trường hợp phổ biến thường sử dụng kiến trúc là: - Nâng cấp CSDL: trình nâng cấp CSDL hệ thống phải đảm bảo giao dịch phát sinh ghi nhận vào CSDL - Mơ hình CSDL có tính sẵn sàng cao (High Availability) để dự phòng có thảm hoạ xảy Trong xu điện toán đám mây ngày nay, nhiều tổ chức áp dụng kiến trúc cho việc di chuyển liệu lên/xuống Public/Private Cloud 1.2.3 Kho liệu theo thời gian thực (Real-time Data Warehousing): Trong giới mà việc kinh doanh phát triển nhanh chóng liệu đóng vai trò quan trọng tổ chức Dữ liệu có giá trị sử dụng để doanh nghiệp định kinh doanh quan trọng OGG trường hợp công cụ tốt cho việc hợp tất liệu có liên quan từ hệ quản trị CSDL không đồng kho liệu tập trung 1.2.4 Phân tán liệu theo thời gian thực (Real-time Data Distribution): Như phân tích trên, OGG công cụ tốt cho việc hợp nguồn liệu nguồn tập trung Ngoài ra, OGG thể vai trò cơng cụ để phân tán liệu vị trí liệu đích khác Trong kiến trúc phân tán liệu, OGG chuyển toàn liệu phần liệu từ CSDL nguồn đến CSDL đích vị trí địa lý khác Cách thực cho phép tổ chức phân chia liệu dựa khu vực địa lý khu vực kinh doanh khác Kiến trúc đảm bảo việc bảo mật liệu theo vùng 1.2.5 Phân tán liệu thông qua việc chuyển thông điệp (Data Distribution via Messaging): Kiến trúc tương tự kiến trúc phân tán liệu theo thời gian thực đề cập trên, điểm khác biệt cách chuyển liệu từ nguồn đến đích Kiến trúc sử dụng Flat file cho việc phân tán liệu Việc sử dụng Flat file đảm bảo OGG chuyển liệu đến hệ thống từ CSDL ứng dụng văn phòng Microsoft Excel hay hệ thống lớn chạy Big Data VD: Mơ hình hệ thống Real-Time Data Warehousing (được tích hợp với ODI) 1.3 Nguyên lý hoạt động Điều làm cho OGG trở nên linh hoạt có khả mở rộng tiến trình xử lý Sao chụp liệu (Capture), Truyền liệu (Transmit) Phân phối liệu (Deliver) mơi trường khơng đồng Các tiến trình kết hợp với tập tin Trail để đồng giao dịch môi trường với Phần giới thiệu tiến trình OGG 1.3.1 Manager Process Tiến trình Manager đảm nhận cơng việc sau đây: • Khởi động khởi động lại tiến trình khác OGG • Quản lý cổng kết nối tiến trình • Quản lý tập tin Trail • Quản lý kiện, lỗi báo cáo vượt ngưỡng tiến trình Manager quản lý nhiều loại tiến trình khác OGG Điều giúp cho việc quản lý trở nên tập trung môi trường 1.3.2 Collector Process Tiến trình tiến trình chạy ngầm mơi trường đích việc đồng thay đổi trực tuyến hoạt động Tiến trình đảm bảo cơng việc sau: • Đảm bảo u cầu kết nối tiến trình Extract mơi trường nguồn tiến trình Manager mơi trường đích hoạt động cổng kết nối hợp lệ • Nhận giao dịch từ CSDL nguồn chuyển sang ghi thành tập tin Trail mơi trường đích Khi có yêu cầu kết nối, tiến trình Manager tự động kích hoạt tiến trình Collector để hoạt động mà khơng cần người dùng can thiệp vào tiến trình Collector nhận thơng tin từ tiến trình Extract Tiến trình Collector tự ngừng tiến trình Extract ngừng 1.3.3 Capture Process Tiến trình theo dõi thay đổi liệu (Change Data Capture - CDC) CSDL nguồn Khi liệu “commit”, tiến trình ghi giao dịch thay đổi vào file đĩa cứng gọi tập tin Trail Các tập tin Trail chuyển qua lại mơi trường nguồn-đích thơng qua giao thức TCP-IP Trường hợp mơi trường nguồn-đích sử dụng chung hệ thống file local Network File System tập tin Trail khơng cần chuyển qua lại môi trường 1.3.4 Data Pump Process Tiến trình dùng để chuyển liệu qua lại mơi trường nguồn-đích thơng qua mơi trường mạng Trong số trường hợp khơng cần tiến trình tiến trình Extract liệu đẩy giao dịch thay đổi tập tin Trail lưu trực tiếp lên hệ thống đích Tuy nhiên, điểm lợi sử dụng tiến trình là: trường hợp kết nối mạng, tiến trình tiếp tục thu thập tập tin Trail phát sinh bên hệ thống nguồn, giữ chúng lại đến hệ thống mạng khôi phục Việc đảm bảo giao dịch phát sinh lưu lại không bị thất có cố mạng xảy 1.3.5 Delivery Process Tiến trình chiụ trách nhiệm đọc giao dịch từ tập tin Trail cập nhật chúng vào CSDL đích theo trình tự thời gian dựa vào thứ tự SCN 1.3.6 Các tập tin TRAIL Là tập tin dạng nhị phân OGG sử dụng để lưu trữ giao dịch thay đổi chuyển đổi qua lại môi trường nguồn-đích Các tập tin hỗ trợ cho việc nhân trích xuất liên tục thay đổi CSDL việc lưu lại thay đổi mẫu tin tạm thời vào đĩa cứng Các tập tin Trail tồn mơi trường nguồn - gọi tập tin Local Trail mơi trường đích - gọi tập tin Remote Trail Bằng việc sử dụng tập tin Trail, tiến trình OGG hoạt động gần độc lập với giúp cho OGG trở nên linh hoạt dễ dàng việc điều khiển xử lý phân phối liệu Hệ thống Oracle Data Integrator (ODI) 2.1 Giới thiệu Như ta biết, ETL (Extract-Transform-Load) tảng kho liệu Một hệ thống ETL thiết kế cho việc trích xuất liệu từ hệ thống nguồn, chuyển đổi liệu đảm bảo nguồn độc lập tích hợp, cuối liệu sau chuyển đổi đưa vào kho liệu phục vụ mục đích phát triển ứng dụng hay phục vụ mục đích kho liệu Và Oracle cung cấp công cụ để triển khai ETL Oracle Data Integrator (ODI) để làm nhiệm vụ ODI cung cấp giải pháp thống để xây dựng, triển khai quản lý kho liệu phức tạp phần kiến trúc tập trung vào liệu môi trường SOA BI Ưu điểm ODI: • Có thể tích hợp liệu, đồng liệu, quản lý liệu dịch vụ để đảm bảo thơng tin kịp thời, xác quán hệ thống phức tạp • Chuyển đổi khối lượng liệu lớn cách hiệu quả, xử lý kiện thời gian thực thông qua khả Ghi liệu thay đổi (CDC) cung cấp dịch vụ liệu • cho Oracle SOA Suite Cung cấp tính kiểm sốt tồn vẹn liệu mạnh mẽ, đảm bảo tính qn xác liệu • Đáp ứng yêu cầu hiệu suất, tính linh hoạt suất tảng tích hợp 2.2 Kiến trúc hoạt động Sơ đồ tổng quát kiến trúc ODI Desktop: Là môi trường Client dành cho người dùng, nhà phát triển cài đặt ODI, kết nối đến ODI Server thông qua công vụ ODI Studio ODI chạy tảng JAVA Weblogic Server: Là môi trường Server để cài ODI Server, Domain, Agent ODI tạo chạy mơi trường này, ngồi plugin thư viện lưu trữ Reponsitory: Được lưu trữ Database, trích xuất File, nơi chứa câu lệnh, Models ODI Sources and Targets: Là liệu, kho liệu, báo cáo ứng dụng kết nối đến ODI Kiến trúc ODI bao gồm thành phần: Responsitory: Đây nơi lưu trữ thông tin xử lý ODI, cụ thể là: kết nối, siêu liệu, quy tắc chuyển đổi kịch bản, ghi thực hiện, số liệu thống kê Mơ hình thành phần Reponsitory Studio: Là giao diện đồ họa ODI, sử dụng quản trị viên, nhà phát triển, thành viên khai thác Mơ hình thành phần ODI Studio Agents: Chứa tác tử phục vụ mục đích chạy tự động yêu cầu server 10 + CSV Format: hỗ trợ dưới đinh ̣ trang Word + Tab Delimited Format + XML Format Hệ thống Microsoft Sharepoint (MS) 5.1 Giới thiệu SharePoint tảng web phát triển Microsoft nhằm hỗ trợ cho doanh nghiệp, tổ chức lưu trữ chia sẻ thông tin, quản lý tài liệu thiết lập môi trường cộng tác cá nhân nhóm SharePoint dùng để tạo website, nơi người dùng chia sẻ tài liệu, liệu thông tin Giao tiếp CEO, Staff, Sale,v.v Có tính cộng tác bản: list, document library, luồng công việc (workflows), lịch (calendar), team site,… Các phiên SharePoint: 2001: SP Team Services & Portal server 28 2003: Windows SharePoint Services (WSS) 2.0 & Portal Server, Content Management is phần CMS 2002 2007: WSS 3.0, sau đổi tên thành MOSS, CMS tích hợp 2010/2013: thân thiện với người sử dụng, thiết kế tương thích với thiết bị khác chạy nhanh 2016/2019: hỗ trợ đầy đủ nhu cầu người sử dụng, sử dụng tích hợp nhiều cơng nghệ Office365, Share Online, Onedrive Ưu điểm Sharepoint: Cung cấp cổng thông tin nội bộ, quản lý tài liệu, tệp, công tác, mạng xã hội, extranet, website, tìm kiếm doanh nghiệp nghiệp vụ thơng minh Tích hợp hệ thống, tích hợp quy trình nghiệp vụ khả tự động hóa quy trình làm việc SP hỗ trợ cộng tác chia sẻ thơng tin nhóm tồn tổ chức • Làm việc cộng tác (Collaboration) • Cổng thơng tin (Portal) • Tìm kiếm (Search) • Quản lý nội dung doanh nghiệp (Enterprise Content Management - ECM) • Quản lý quy trình nghiệp vụ (Business process management - BPM) • Business intelligence (BI) SharePoint hỗ trợ phát triển ứng dụng Intranet, Extranet Internet Về phương diện kỹ thuật, SharePoint gồm sản phẩm SharePoint Foundation, SharePoint Server SharePoint Online • SharePoint Foundation cung cấp chức quản lý nội dung làm việc cộng tác • SharePoint Server sản phẩm Microsoft phát triển tảng SharePoint Foundation, vận hành SharePoint Foundation bổ sung thêm nhiều chức 29 • SharePoint Online phiên cloud-based SharePoint Server SharePoint Online hỗ trợ phát triển ứng dụng có hạn chế Ứng dụng phát triển SharePoint mang đến thuận lợi sau: • Một tảng, giải pháp cho nhiều ứng dụng • Cắt giảm chi phí nhờ dựa tảng cơng nghệ thống • Tiết kiệm chi phí hạ tầng, giảm chi phí vận hành, đào tạo người dùng nhờ hợp nhiều ứng dụng hệ thống • Phát triển ứng dụng nhanh hơn, đáp ứng tốt nhu cầu công việc dẫn đến hiệu quản lý kinh doanh tốt Ứng dụng phát triển tiêu chuẩn SharePoint thừa kế tồn sức mạnh SharePoint như: • Cơng nghệ Portal, mơ hình đa lớp • Kiến trúc hướng dịch vụ - SOA • Khả bảo mật • Tích hợp với Active Directory • Mơ hình server farm • Khả load balance clustering • Khả tích hợp với ứng dụng khác 5.2 Tính Sharepoint 2016 SharePoint Server 2016 phát triển với tính thiết kế để trở nên quen thuộc, trực quan tạo dựng theo cách người dùng làm việc - Sử dụng OneDrive đầy đủ tính 30 - Hỗ trợ thiết bị di động - Hỗ trơ trình duyệt thiết bị di động 31 - Đơn giản hóa điều hướng câu lệnh 32 - Cung cấp nhiều thư viện hỗ trợ - Cải tiến chức Share online tài liệu, thông báo - Cải thiện việc Quản lý tài liệu 33 5.3 Kiến trúc tổng quan Có dạng kiến trúc Sharepoint phiên 2016 5.3.1 Mô hình SharePoint Online / SaaS SharePoint Online / SaaS - Sử dụng dạng Dịch vụ (SaaS) thông qua việc đăng ký tài khoản Office 365 Ưu điểm kiến trúc cập nhật 34 5.3.2 Mô hình SharePoint Hybrid SharePoint Hybrid - Bạn kết hợp SharePoint Online với máy chủ đơn vị cài SharePoint Server môi trường Azure đơn vị Microsoft Azure: Là tảng điện toán đám mây Microsoft cung cấp loạt dịch vụ khác nhau, Windows Azure cho phép bạn xây dựng, triển khai quản lý giải pháp cho giải pháp CNTT Ưu điểm kiến trúc kết hợp thêm dịch vụ SharePoint Online, tùy chỉnh tương ứng với máy chủ đơn vị cài SharePoint Server 5.3.3 Mơ hình SharePoint Azure / IaaS 35 SharePoint Azure / IaaS - Bạn mở rộng máy chủ đơn vị cài SharePoint Server Cơ sở hạ tầng Azure dạng Dịch vụ (IaaS) để nâng cao hiệu suất, dự phòng liệu, nghiên cứu phát triển 5.3.4 Mơ hình SharePoint đơn vị SharePoint đơn vị: Tự triển khai, trì tùy chỉnh hệ thống SharePoint Server 5.4 Các Thành phần Sharepoint Server 36 Mơ hình thành phần Sharepoint 5.4.1 Sharepoint Sites Cung cấp công nghệ thiết yếu để xây dựng cổng thơng tin ví dụ như: Webparts, mơ hình Security, khả cá nhân hóa trang, hỗ trợ đa ngôn ngữ, hỗ trợ truyền thông đa phương tiện nhiều Và đến khái niệm sharepoint sites phạm vi chúng khơng phải Team sites, cổng thông tin nội doanh nghiệp mở rộng thành Extranet cho phép kết nối thông tin công ty với đối tác nhà cung cấp tất nhiên triển khai thành trang Internet cho phép khách hàng truy cập tự 5.4.2 Sharepoint Communities Là khái niệm thứ hai sharepoint khả cho phép người làm việc với đơn giản hiệu Bao gồm hình thức làm việc cộng tác truyền thống tạo Workspace (không gian làm việc) để chia tài liệu, tạo Workflow (quy trình) xử lý thơng tin, chia calendar (lịch làm việc) Task (tác vụ) chung cho nhóm Ngồi ra, bao gồm ln cơng nghệ Enterprise 2.0 (hay gọi Social Computing) Sharepoint tảng tốt để phát triển mạng lưới social computing 37 doanh nghiệp với hỗ trợ blog Wiki, RSS khả tìm kiếm nhân chuyên gia tạo nên quan hệ nhân viên mạng cộng đồng Thêm vào đó, SP tích hợp chặt chẽ với Microsoft Lync nên chức sharepoint communites bổ sung khả trình thể Presence (thơng tin trạng thái online, offline, free, busy …) , chat chia trực tuyến 5.4.3 Sharepoint Content Là khả quản lý thơng tin doanh nghiệp tồn diện từ việc phân rã đến tổng hợp nội dung SP quản lý tất nội dung số bao gồm văn dạng Office, tài liệu dạng đa phương tiện, trang Web, nội dung dạng HTML cá nội dung dạng mạng xã hội Blog Wiki Để đảm bảo việc tn thủ quy định an tồn thơng tin, SP hỗ trợ việc quản lý vác sách theo dõi việc chĩnh sữa nộ dung (Record Management), quản lý tùy biến Workflow (quy trình xử lý thông tin) , hỗ trợ hạ tầng mạnh mẽ, nhiều chức giúp cho doanh nghiệp kiểm sốt thơng tin Với kiến trúc đồng nhất, bạn dung tiện ích quản lý thơng tin lên Intranet Extranet chị Internet site dành cho khách hành 5.4.4 Sharepoint Search Vấn đề việc quản lý khối lượng lớn thơng tin tổ chức khả tìm kiếm tốt nhất, giúp người dùng tìm kiếm, khám phá thơng tin mà họ cần cách nhanh chóng xác SP Search tạo mục nội dung không Sharepoint Sites, mà chí cho hệ thống thơng tin khác có liên quan, tập tin chia sẻ, cở sở liệu phần mềm ứng dụng tích hợp với Sharepoint SP tìn kiếm nhân viên chuyên gia tổ chức, hiển thị thông tin bản, chức vụ sơ đồ tổ chức … 38 Thêm vào đó, chức vượt trội tìm kiếm sharepoint gọi FAST Search Engine cho phép tìm kiếm thông minh theo kinh nghiệm người dùng khả mở rộng quy mơ tìm kiếm cho hàng tỷ tài liệu tổ chức 5.4.5 Sharepoint Insights Chúng ta nói nhiều khả tìm kiếm làm việc cộng tác kết hợp chúng với cơng cụ phân tích liệu thơng minh truyền thống giúp cho người dùng văn phòng khả phần tích đánh giá thơng tin từ liệu bên doanh nghiệp, dựa SQL Server, SP chia nhỏ thơng tin phần tán rời rạc thành báo cáo dạng scorecard, Dashboard sinh động Những báo cáo pha trộn liệu dạng có cấu trúc phi cấu trúc tạo tranh thông tin cách chân thực cho tổ chức Người dùng sàn lọc phần tích liệu nhờ tích hợp chặt chẽ Sharepoint Excel, SP cơng cụ phân tích thơng tin sử dụng rộng rãi toàn giới cho phép bạn nhanh chóng tạo giải pháp phân tích tùy biền 5.4.6 Sharepont Composites Cung cấp cho đối tượng từ người dùng thành thạo đến nhà phát triển ứng dụng nhữn công cụ dễ dùng nhanh để tạo ứng dụng ghép Ví dụ: bạn dùng chương trình SP Designer khơng cần phải viết dòng lệnh nào, bạn thay đổi giao diện Site, tích hợp thêm Web Parts, tùy chỉnh Workflows tích hợp liệu từ nhiều nguồn khác Tương tự dịch vụ Access Services cho phép người dùng tự xây dựng ứng dụng CSDL quan hệ đơn giản sau chia sẻ nội phòng cơng ty thơng qua Sharepoint Site quản lý kiểm soát phận IT 5.5 Ngun lý hoạt động 39 Mơ hình phân cấp SharePoint Server Farm: Sắp xếp vật lý phần cứng front end, app, search, db,… Chứa web application Web Application: Trang web IIS, liên quan đến application pool Chứa site collection Site Collection: chứa root site collection site Sites: Tập hợp page, chứa list & library 40 List & Library: nơi chứa loại tài liệu Mơ hình tầng Server Farm Vai trò Web Server: - Lưu trữ tất webpage, webpart web services, sử dụng máy chủ nhập yêu cầu sử lý - Điều hướng request đến máy chủ thích hợp - Trong server farm chuyên dụng, vai trò khơng cần thiết remote trực tiếp Vài trò Application Server: - Lưu trữ ứng dụng dịch vụ chạy farm 41 - Điều hướng request tới server thích hợp - Cung cấp tính SP, cung cấp tập tất services feature Vai trò Server: - Lưu trữ hầu hết liệu - Dữ liệu liên kết với ứng dụng services liệu user 42 ... trúc đơn giản hệ thống Data Warehouse gồm phần: • Data Source: Là nơi liệu từ nhiều nguồn khác thu thập • Warehouse: Nơi lưu trữ liệu xử lý, gồm Metadata, Raw Data Summary Data • User: Gồm hệ thống... có lợi cho doanh nghiệp - Dễ dàng xay dựng Data Model 22 Maǹ hinh ̀ tao ̣ Data Model ra: choṇ Default Data Source cho Data Model như config Sau đó taọ Data Sets: là phâǹ code SQL để... liệu Data Warehouse có thể được thiết kế theo mô hình sở dữ liệu quan hệ nhưng cũng có thể là dữ liệu lớn, có thể là dữ liệu không quan hệ Oracle Database, Data Warehouse

Ngày đăng: 09/04/2020, 21:16

Từ khóa liên quan

Mục lục

  • GIẢI PHÁP XÂY DỰNG DATA WAREHOUSE CHO BẢO VIỆT BANK

  • 1. Hệ thống Oracle GoldenGate (OGG)

    • 1.1 Giới thiệu

    • 1.2 Kiến trúc tổng quan

      • 1.2.1 Nhân bản dữ liệu 1 chiều (Unidirectional Replication):

      • 1.2.2 Nhân bản dữ liệu 2 chiều (Bidirectional/Active-Active Replication):

      • 1.2.3 Kho dữ liệu theo thời gian thực (Real-time Data Warehousing):

      • 1.2.4 Phân tán dữ liệu theo thời gian thực (Real-time Data Distribution):

      • 1.2.5 Phân tán dữ liệu thông qua việc chuyển thông điệp (Data Distribution via Messaging):

      • 1.3 Nguyên lý hoạt động

        • 1.3.1 Manager Process

        • 1.3.2 Collector Process

        • 1.3.3 Capture Process

        • 1.3.4 Data Pump Process

        • 1.3.5 Delivery Process

        • 1.3.6 Các tập tin TRAIL

        • 2. Hệ thống Oracle Data Integrator (ODI)

          • 2.1 Giới thiệu

          • 2.2 Kiến trúc hoạt động

          • 3. Hệ thống Data Warehouse (DW)

            • 3.1 Giới thiệu

            • 3.2 Đặc điểm của Data Warehouse

            • 3.3 Kiến trúc hoạt động

            • 4. Hệ thống Oracle Business Intelligence (OBI)

              • 4.1 Giới thiệu

              • 4.2 Kiến trúc tổng quan

Tài liệu cùng người dùng

Tài liệu liên quan