NHÀ KHO DỮ LIỆU (Data Warehouse)

48 814 7
NHÀ KHO DỮ LIỆU (Data Warehouse)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NHÀ KHO DỮ LIỆU (Data Warehouse)

Nhà kho dữ liệu (Data Warehouse) Ngày hoàn thành: 16 tháng 12 năm 2010 Lời nói đầu Nhà kho dữ liệu (DW) là một hớng công nghệ áp dụng cho các ứng dụng công nghệ tin học của doanh nghiệp và tổ chức ngày nay. Thuật ngữ gợi nên hình ảnh của nhà băng dữ liệu rộng lớn đợc bắt nguồn từ các hệ thống trên khắp thế giới, với đông đảo các nhà phân tích của công ty khai thác những thông tin quí giá giúp công ty của họ thu đợc nhiều lợi nhuận hơn. Một cách cơ bản, DW cung cấp dữ liệu lịch sử cho các ứng dụng hỗ trợ quyết định. Những ứng dụng nh vậy bao gồm báo cáo, xử lý phân tích trực tuyến (OLAP), hệ thống thông tin điều hành (EIS) và khai thác dữ liệu. Một DW là một Nhà kho thông tin tập chung hoá và thống nhất. Thống nhất ở đây nghĩa là làm sạch, hợp nhất và thiết kế lại. Nó có thể phức tạp ít hoặc nhiều hơn tuỳ thuộc vào việc bao nhiêu hệ thống cung cấp thông tin cho một kho và chúng khác nhau trong việc xử lý cùng một thông tin nh thế nào. DW khác với cơ sở dữ liệu giao tác hoặc hệ thống OLTP ở mục đích và thiết kế của chúng. Một OLTP đợc thiết kế và tối u với dữ liệu đa vào và các cập nhật. Trong khi 1DW đợc tối u hoá cho mục đích báo cáo và khôi phục dữ liệu, và nó thờng là một hệ thống chỉ - đọc. 1 hệ thống OLTP chứa các dữ liệu cần thiết để điều hành kinh doanh hàng ngày, nhng 1DW chứa các dữ liệu đợc sử dụng để phân tích kinh doanh. Dữ liệu trong một hệ thống OLTP là hiện thời và độ linh hoạt cao với những phần tử dữ liệu có thể cha hoàn chỉnh hoặc không biết ở thời điểm vào. Một DW chứa những dữ liệu lịch sử, ổn định đã đợc điều chỉnh các lỗi giao tác . Cuối cùng, bởi vì mục đích của chúng khác nhau, hệ thống OLTP và DW sử dụng những chiến lợc mô hình hoá dữ liệu khác nhau. Sự d thừa hầu nh không tồn tại trong hệ thống OLTP bởi vì những dữ liệu d thừa làm phức tạp việc cập nhật. Vì vậy hệ thống OLTP đợc chuẩn hoá cao độ và thờng dựa trên mô hình quan hệ. Nhng d thừa là cần có ở một DW bởi vì nó đơn giản hoá việc truy nhập của ngời sử dụng và tăng cờng việc thực hiện bằng cách tối thiểu hoá số lợng các bảng phải đợc kết nối với nhau. Một số DW không hề sử dụng một mô hình quan hệ, thay vì đó một thiết kế mảng đa chiều đợc a thích hơn. Chúng tôi xin đợc phép trình bày thành ba phần chính sau: * Các kháí niệm cơ bản của Nhà kho dữ liệu * Các Khía cạnh thiết kế và khía cạnh triển khai của Nhà kho dữ liệu * Minh hoạ giải pháp kho chứa dữ liệu Oracle Khoá luận này chắc chắn còn nhiều thiếu sót trong việc phân tích đánh giá, nhng chúng tôi cũng mong muốn rằng qua công việc này, chúng tôi hiểu rõ về chủ đề đợc thảo luận, càng nhận thức tốt hơn, góp phần tốt vào quá trình nghiên cứu học tập cũng nh trong công việc sau này của mình. Nhân đây, tôi cũng xin trân trọng cảm ơn GS. TS. Nguyễn Thúc Hải đã cung cấp những thông tin bổ ích và đã góp ý cho nội dung để giúp chúng tôi hoàn thành đợc tài liệu này. Môc lôc 1. Các khái niệm cơ bản 1.1. Nhà kho dữ liệu là gì? Định nghĩa: Một Nhà kho dữ liệu là một hệ thống quản lý tập hợp các dữ liệu hớng chủ đề, tích hợp, phụ thuộc thời gian, không bị phá huỷ, đợc thiết kế để phục vụ cho các hệ trợ giúp quyết định. Những điểm sau làm rõ hơn định nghĩa: -Hớng chủ đề: Các hệ điều hành kinh điển tập trung quanh các ứng dụng của công ty trong khi một Nhà kho dữ liệu tập trung nhiều hơn vào các chủ đề chung của công ty. Ví dụ cho các ứng dụng của một công ty bảo hiểm là bảo hiểm về y tế, cuộc sống độc lập. Tơng tự, ví dụ cho các đối tợng là khách hàng, chính sách, phí bảo hiểm.v .v -Tích hợp: đây là khía cạnh quan trọng nhất của một kho dữ liệu. Kho dữ liệu lấy thông tin từ các hệ thống chức năng khác nhau trong các tổ chức. Những hệ thống này có thể lu trữ cùng một thông tin bằng nhiều cách khác nhau, tức là giới tính của một khách hàng có thể đợc lu trữ dới dạng có/không, 0 hoặc 1, M (nam) hoặc F (nữ) trong nhiều hệ thống khác nhau. Tuy nhiên, khi phải lu trữ thông tin này trong kho dữ liệu thì cần phải xác định một kế hoạch chung. Nhờ đó, sự không nhất quán của các hệ thống điều hành khác nhau đợc tháo bỏ và dữ liệu đợc đa vào theo một cách thống nhất. Khái niệm tơng tự cũng đợc áp dụng cho các tên cột, tên phụ lục, các thuộc tính. v.v -Không bị phá huỷ: Không nh hệ điều hành, dữ liệu trong kho dữ liệu không đợc sửa đổi. Định nghĩa này chỉ mang tính lý thuyết và đã thay đổi trong thực tế. Thực tế có rất nhiều kho dữ liệu cho phép thay đổi dữ liệu trong kho dữ liệu. Tuy nhiên, khía cạnh này dẫn đến các vấn đề nghiêm trọng khác khi thực hiện sẽ đợc giải thích sau đây. -Phụ thuộc thời gian: Định nghĩa này là sự phân biệt giữa hệ thống điều hành và Nhà kho dữ liệu. Những điểm sau làm rõ hơn định nghĩa: + Dữ liệu trong kho dữ liệu đợc lu trữ một cách đặc thù trong một chu kỳ thời gian lâu hơn các hệ thống điều hành. + Một kho dữ liệu giữ các giá trị hiện tại cho bất kỳ cột nào ở các thời điểm khác nhau, trong khi một hệ thống điều hành nói chung chỉ một giá trị hiện tại đơn lẻ đ ợc lu trữ. + Các bảng trong kho dữ liệu có một cột đặc biệt để biểu diễn chiều thời gian. + Các dữ liệu đợc đợc lu trữ dới dạng một sê ri các bản sao. Mỗi bản sao biểu thị một khoảng thời gian. + Cột biểu diễn chiều thời gian cũng là một bộ phận của các chỉ mục trong các bảng đ- ợc lu trữ. + Các truy vấn trong kho dữ liệu phần lớn trong một khoảng thời gian. 1.2. Phạm vi của kho dữ liệu Với sự phổ biến hiện nay của kho dữ liệu, các nhà sản xuất và các nhà t vấn đang phát triển nhiều ý nghĩa khác nhau cho thuật ngữ Nhà kho dữ liệu. Theo một số định nghĩa, ta có thể kết luận rằng kho dữ liệu gồm toàn bộ dữ liệu của xí nghiệp (hay thậm chí cả Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 4 vũ trụ!), các định nghĩa khác dẫn đến kết luận rằng một kho dữ liệu là một giải pháp kỹ thuật dựa trên một công cụ cụ thể. Phạm vi này đợc lựa chọn dựa trên một số lý do: - Nó đáp ứng các nhu cầu về kinh doanh và IS (hệ thống thông tin) và chỉ tập trung vào những nhu cầu này mà không cố gắng giải quyết tất cả các vấn đề dữ liệu của xí nghiệp. - Nó bao gồm các yếu tố kinh doanh, tổ chức và kỹ thuật cần thiết. - Nó có thể đạt đợc trong một khoảng thời gian hợp lý khi sử dụng một mức độ nào đó các nguồn tài nguyên mà hầu hết các xí nghiệp có thể đầu t đợc. - Nó bắt nguồn từ một cách nhìn thực tế của môi trờng hệ thống thông tin ngày nay các hạn chế của nó trong quá trình phát triển đã qua. Những xem xét này thu hẹp phạm vi của kho dữ liệu vào thành dữ liệu đợc sử dụng để quản lý xí nghiệp. Kho dữ liệu vì thế: - Hỗ trợ nhu cầu quản lý kinh doanh một cách toàn bộ và từng phần theo cách nhất quán. - Dựa trên dữ liệu kinh doanh mà những ngời sử dụng nó hiểu đợc. 1.3. Các kiểu Nhà kho dữ liệu Kiểu Nhà kho dữ liệu mà một tổ chức sử dụng phụ thuộc vào các hoạt động nghiệp vụ của xí nghiệp và các kiểu hỗ trợ quyết định mà nó cần. -Một trong các kiểu đơn giản nhất của kho dữ liệu, là một kho dữ liệu điều hành (ODS) đó là một cơ sở dữ liệu sản xuất đã đợc sao chép và đã đợc điều chỉnh lỗi. Một ODS đợc sử dụng chính để hình thành những báo cáo điều hành chuẩn và cung cấp giao tác cụ thể cho các phân tích ở mức độ tổng kết Tuỳ thuộc vào yêu cầu tổng kết của một tổ chức, một ODS có thể đợc cập nhật hàng tháng, hàng tuần, hay thờng xuyên hơn, đôi khi hầu hết thời gian thực tế. Lợi ích chính đó là nó tăng cờng việc thực hiện hệ thống sản xuất bởi vì các chức năng báo cáo và truy vấn đợc tải từ hệ thống OLTP sang ODS. Nếu tổ chức của bạn chỉ tạo ra các báo cáo và thực hiện rất ít phân tích hoặc nghiên cứu thị trờng, một ODS có thể rất phù hợp với yêu cầu của bạn. Nói cách khác, nếu Công ty của bạn xử lý tơng đối ít giao dịch mỗi ngày, một ODS có thể là quá thừa. Thay vào đó bạn có thể sử dụng hệ thống sản xuất để làm báo cáo. Một kiểu chứa dữ liệu khác là Chợ dữ liệu (Data Mart). Chợ dữ liệu đợc giới hạn trong một phạm vi nhất định, các thông tin của nó thờng đợc lấy từ một văn phòng hoặc quá trình kinh doanh đơn lẻ. Ví dụ nh chúng có thể đợc sử dụng để phân tích thông tin bán hàng trong một khu vực cụ thể hoặc cho một dây chuyền sản xuất cụ thể. Chợ dữ liệu thờng chỉ chứa đựng dữ liệu tổng kết, nhng chúng có thể đợc kết nối với các kho dữ liệu điều hành để lấy ra đợc những chi tiết giao dịch nếu cần. Đôi khi đợc quản lý bởi các phòng công nghệ thông tin, nhng thờng là chúng đợc quản lý trực tiếp bởi ngời sử dụng trong một phòng hoặc nhóm làm việc. Trong khi nhiều ứng dụng OLAP (xử lý phân tích trực tuyến) có thể đợc thực hiện ở Chợ dữ liệu, các phân tích qua các phòng ban, các hệ thống thông tin điều hành và các ứng dụng khai thác dữ liệu cần các thông tin thu thập từ toàn bộ xí nghiệp để có hiệu quả nhất. Kho dữ liệu của xí nghiệp đợc sử dụng cho kiểu tập hợp và phân tích dữ liệu Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 5 mở rộng này. Do phạm vi và sự phức tạp của nó, kho dữ liệu của doanh nghiệp thờng đợc nhóm công nghệ thông tin trung tâm quản lý. Nh là tên của nó chỉ ra, một kho dữ liệu của một xí nghiệp chứa các thông tin lấy từ một tổ chức. Đây là kiểu phức tạp nhất của kho để xây dựng và lu trữ bởi vì dữ liệu phải đợc kết hợp từ đa hệ thống vào một đối tợng chung. Các hệ thống khác nhau thờng tạo ra những dữ liệu không tơng thích hoặc không nhất quán và đôi khi dữ liệu phải trải qua một vài sự chuyển đổi trớc khi nó có thể đợc hợp nhất trong một kho dữ liệu theo một cách có ý nghĩa đầy đủ. 1.4. Các thành phần của kho dữ liệu Mặc dầu một kho dữ liệu nghe nh một thực thể đơn lẻ, nó thực sự là một tập hợp đa tầng đa ứng dụng bao gồm rất nhiều thành phần. Mỗi thành phần có thể đợc xử lý bởi một hay nhiều mảng phần cứng hoặc phần mềm. Không có nhà sản xuất nào có một bộ kho dữ liệu hoàn chỉnh. -Về mặt chức năng, 1 kho dữ liệu trích chọn dữ liệu từ các hệ thống điều hành và tải nó vào một vùng lu trữ nơi nó đợc "làm sạch" (tức là làm cho phù hợp với các chuẩn l- u trữ), hợp nhất, gán nhãn thời gian bằng cách này hay cách khác và tải vào cơ sở dữ liệu để sử dụng nhờ các công cụ truy nhập dữ liệu. Bởi vì dữ liệu trải qua một số chuyển đổi và cuối cùng đợc đặt vào trong các cấu trúc dữ liệu khác với những cấu trúc mà chúng đã xuất phát, những thay đổi này đợc ánh xạ vào trong catalog hoặc từ điển. Các catalog này đợc quản lý với các công cụ siêu dữ liệu. Dữ liệu định nghĩa hoặc miêu tả dữ liệu trong việc lu trữ gọi là siêu dữ liệu. Có 2 kiểu siêu dữ liệu điển hình. Một loại ngời sử dụng cần biết, chẳng hạn nh tên bảng và tên cột đợc gọi là siêu dữ liệu frontend. Loại còn lại, ví dụ nh các phần tử dữ liệu cụ thể ánh xạ vào trong cơ sở dữ liệu ban đầu của nó nh thế nào đọc gọi là siêu dữ liệu backend. Các công cụ thiết kế và quản lý cũng là những thành phần quan trọng của một kho dữ liệu. Mặt dầu nó chứa đựng những dữ liệu ổn định, nó không tĩnh, bạn không thể chỉ xây một kho dữ liệu và quên nó đi. Một kho dữ liệu là một hệ thống có độ duy trì cao và có thể mở rộng khi nhu cầu của Công ty về nó tăng lên. Thậm chí nếu bản thân thiết kế của kho dữ liệu chỉ thay đổi chút ít thì những thiết kế các hệ thống sản xuất liên quan với nó cũng có khả năng biến đổi. Những thay đổi này cần phải đợc thu nhận trong siêu dữ liệu của kho dữ liệu. Không nh một hệ thống OLTP chỉ đa ra một hình ảnh hiện tại, một kho dữ liệu cung cấp 1 bức tranh dữ liệu hoàn chỉnh qua thời gian. Nó có nghĩa là bất cứ khi nào 1 cấu trúc dữ liệu nào đó trong một hệ thống sản xuất thay đổi, thì bạn phải lu trữ cả sự thay đổi và thời điểm nó xuất hiện trong việc lu trữ, nếu không những truy vấn về dữ liệu lịch sử có thể tạo ra những kết quả kỳ quặc. Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 6 2. Các khía cạnh thiết kế 2.1. Xây dựng kiến trúc dữ liệu cho Nhà kho dữ liệu 2.1.1 Các kiến trúc dữ liệu nghiệp vụ Việc đa ra các kiến trúc là bớc đầu tiên để đi tới sự thành công trong việc thực hiện 1 Nhà kho dữ liệu. Trong phần này ta đa ra 3 mô hình kiến trúc. Các mô hình này đều có điểm chung là xuất phát từ kinh nghiệm thực tế. Các mô hình này đợc phân biệt bởi số lớp dữ liệu mà chỉ ở mức khái niệm chứ không hoàn toàn là cài đặt thực tế. Ta có thể xác định 3 cấu trúc riêng biệt: + Kiến trúc đơn tầng: Nguyên tắc chủ chốt ngầm định của kiến trúc đơn tầng là mỗi phần tử dữ liệu chỉ đợc lu trữ một lần và chỉ một lần. Trong kiến trúc đơn tầng, không hề có sự phân biệt giữa các kiểu dữ liệu, mọi dữ liệu đều đợc coi nh nhau và các ứng dụng điều hành cũng nh các ứng dụng thông tin đều thao tác trên cùng một tập dữ liệu. Kiến trúc này rất ít đợc sử dụng. Kiến trúc này cho phép các ứng dụng điều hành hoạt động tốt trên số lợng dữ liệu lớn nhng lại nghèo nàn cho việc hỗ trợ các ứng dụng phân tích thông tin. + Kiến trúc 2 lớp đợc sử dụng rộng rãi hơn nó thờng đợc xem xét trong các tổ chức nhỏ hoặc trong các giai đoạn đầu của việc thực hiện 1 Nhà kho dữ liệu lớn của 1 xí nghiệp. Kiến trúc hai lớp tách dữ liệu thành hai phần lớp thấp hơn gồm dữ liệu thời gian thực đựoc các ứng dụng điều hành sử dụng và lớp cao hơn gồm dữ liệu kết nhập (derived) đợc sử dụng bởi các ứng dụng thông tin. Dữ liệu kết nhập có thể chỉ là sao chép đơn giản hoặc có thể là tổng hợp tính toán từ dữ liệu thời gian thực. Tuy nhiên nó đã gặp phải 1 số vấn đề về lu trữ và và quản lý. Một trong số vấn đề đầu tiên gặp phải khi áp dụng cách tiếp cận này là sự nhân bản dữ liệu khi tạo thêm lớp dữ liệu kết nhập làm bùng nổ đòi hỏi về lu trữ và tăng đáng kể vấn đề về quản trị và bảo trì dữ liệu. + Kiến trúc 3 lớp là cách tiếp cận có sức mạnh nhất. Nó đợc đề xuất trong tất cả các tình huống mà công việc đòi hỏi 1 cách nhìn tổng quát về dữ liêụ của 1 xí nghiệp lớn. Sự thành công và sức mạnh của kiến trúc 3 lớp xuất phát từ việc nhận ra vai trò quan trọng của mô hình dữ liệu xí nghiệp và sự thực hiện vật lý của lớp dữ liệu điều hoà. Kiến trúc ba lớp cải tiến từ kiến trúc hai lớp xuất phát từ nhận thức rằng việc chuyển từ dữ liệu thời gian thực sang dữ liệu kết nhập cần phải qua hai giai đoạn. Hai giai đoạn đó là: Điều hoà dữ liệu từ các tập dữ liệu khác nhau trong lớp thời gian thực. Kết nhập dữ liệu theo yêu cầu sử dụng dựa trên các dữ liệu đã đợc điều hoà. Và nh vậy một lớp dữ liệu điều hoà đợc tạo ra nằm giữa lớp thời gian thực và lớp dữ liệu kết nhập. Việc điều hoà dữ liệu giữa các tập dữ liệu khác nhau đòi hỏi hiểu rõ các tập đó có liên quan đến nhau nh thế nào, vai trò của chúng trong nghiệp vụ là gì. Trong thực tế, việc hiểu này đợc xác định qua quá trình mô hình hoá dữ liệu đợc tiến hành ở mức toàn xí nghiệp hay toàn tổ chức. Lớp điều hoà dữ liệu phải giải quyết vấn đề kết nối các tập dữ liệu riêng biệt với nhau trong tình trang có sự khác nhau về tên, khuôn dạng dữ liệu cụ thể. Khái niệm về kiến trúc dữ liệu nghiệp vụ 3 lớp cùng với kiến trúc về siêu dữ liệu đã cung cấp 1 hỗ trợ rộng nhất cho cả 2 nhu cầu quản lý của các bộ phận IS và các nhu cầu truy nhập dữ liệu của ngời sử dụng. 2.1.2 Kiểu siêu dữ liệu Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 7 Siêu dữ liệu ban đầu Các tài nguyên gốc của siêu dữ liệu sử dụng trong Nhà kho dữ liệu là tiến trình mà theo đó các ứng dụng nghiệp vụ và các dữ liệu nghiệp vụ đợc định nghĩa và mô tả. Siêu dữ liệu đợc tạo ra và sử dụng trong pha này đợc gọi là siêu dữ liệu ban đầu. Dữ liệu nghiệp vụ không tồn tại một cách độc lập, nó đợc tạo lập, duy trì và truy nhập qua tiến trình công việc. Nó đợc thực hiện qua các ứng dụng. Vì vậy các công việc cần phải có 1 sự mô tả đầy đủ về dữ liệu nghiệp vụ của nó và tiến trình mà duy trì và sử dụng nó. Vì vậy siêu dữ liệu sẽ mô tả một số khía cạnh hoạt động và các chức năng ứng dụng của nó. - Theo sự định nghĩa về phạm vi lu trữ dữ liệu thì siêu dữ liệu ban đầu là nằm ngoài phạm vi của việc lu trữ. Tuy nhiên về phần dữ liệu nghiệp vụ thời gian thực thì siêu dữ liệu ban đầu không thể bỏ qua bởi vì nó chính là nguồn của siêu dữ liệu mà đ - ợc đa vào trong phạm vi lu trữ. Ngày nay siêu dữ liệu ban đầu đợc sinh ra và lu trữ trong mô hình dữ liệu và các công cụ thiết kế ứng dụng nh các công cụ CASE. - Siêu dữ liệu ban đầu là ổn định so với dữ liệu nghiệp vụ mà nó mô tả. Nói chung siêu dữ liệu sẽ thay đổi chỉ khi cấu trúc tổng thể của công việc hoặc sự thực hiện của nó trong các ứng dụng bị thay đổi. - Siêu dữ liệu đợc định nghĩa trong khi thiết kế của 1 ứng dụng sẽ không bị thay đổi từ lần đa ra đầu tiên của ứng dụng cho đến khi 1 phiên bản mới đợc đa ra. Với các ứng dụng điều hành thì việc nâng cấp thờng xuất hiện 1-2 lần một năm, còn các ứng dụng thông tin thì chúng có thể xuất hiện thờng xuyên hơn (có lẽ hàng tháng). - Ngay cả khi 1 ứng dụng đợc nâng cấp thì cũng chỉ có 1 phần nhỏ của siêu dữ liệu bị thay đổi. ý nghĩa công việc của mô tả siêu dữ liệu có thể là ổn định trong 1 chu kỳ hàng năm tuỳ thuộc vào việc kinh doanh của công ty hoặc tổ chức. Siêu dữ liệu điều khiển (Control Metadata) - Siêu dữ liệu điều khiển trong Nhà kho dữ liệudữ liệu đợc dùng để mô tả về hiện trạng và việc sử dụng dữ liệu nghiệp vụ. Nguồn của siêu dữ liệu này không phải là siêu dữ liệu ban đầu. Với siêu dữ liệu hiện trạng nó là các ứng dụng hoặc các công cụ mà tạo lập và cập nhật dữ liệu nghiệp vụ về mặt vật lý. Với siêu dữ liệu đang sử dụng, nguồn là các công cụ qua đó những ngời sử dụng truy nhập đến Nhà kho dữ liệu. - Siêu dữ liệu hiện trạng tồn tại ở một số mức chi tiết khác nhau. ở mức kém chi tiết nhất, thông tin hiện trạng về dữ liệu đợc lu trữ ở mức file hoặc bảng. Trong trờng hợp này siêu dữ liệu sẽ mô tả tính chất theo thời gian của toàn bộ các tập dữ liệu, ví dụ 1 danh sách các khách hàng trong ngày 31 tháng 1 năm 1996, ở mức cụ thể thứ 2 thì siêu dữ liệu hiện trạng sẽ mô tả tính chất thời gian của mỗi sự xuất hiện của dữ liệu. Về mặt vật lý nó là các bản ghi hoặc các hàng trong 1 bảng hoặc 1 file. - ở 2 mức cụ thể là file/bảng và hàng/bản ghi cách tiếp cận khác nhau là cần thiết để lu trữ siêu dữ liệu + ở mức file/bảng thì siêu dữ liệu hiện trạng đợc lu trữ trong các cấu trúc vật lý dới dạng các bảng hoặc file. Đó là vì nó đợc tách rời khỏi dữ liệu nghiệp vụ. Để tạo ra siêu dữ liệu nh vậy sẵn sàng đối với ngời sử dụng thì nó phải đợc sao chép vào trong siêu dữ liệu cách dùng thông thờng. + ở mức bản ghi/hàng siêu dữ liệu hiện trạng hầu nh luôn đợc lu trữ nh các nhãn thời gian. Có một số lợng lớn các siêu dữ liệu loại này bởi vì nó không đợc sao chép vào siêu dữ liệu thông thờng nhng nó đợc truy nhập trực tiếp bởi ngời sử dụng trong các tình huống. Ngời sử dụng rất ít khi phân biệt siêu dữ liệu điều khiển này với dữ liệu nghiệp vụ. Tơng tự thì siêu dữ liệu sử dụng cũng có mức cụ thể đó là file/bảng/khung nhìn tổng quan (view) và hàng/bản ghi và cột. Việc tạo lập và duy trì siêu dữ liệu sử dụng là nhiệm vụ của các công cụ đ ợc sử dụng trên đờng truy nhập tới dữ liệu. Các chức năng nh vậy có thể đã đợc kết hợp trong bất Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 8 kỳ 1 công cụ nào của ngời sử dụng. Các công cụ truy nhập dữ liệu hoặc các chức năng bảo vệ của CSDL. Siêu dữ liệu về cách sử dụng Điều quan trọng của siêu dữ liệu về cách sử dụng chỉ đợc nhận thức đối với trờng hợp Nhà kho dữ liệu với sự đa dạng về dữ liệu cũng nh 1 khối lợng lớn về dữ liệu mà luôn sẵn sàng cho ngời dùng. Siêu dữ liệu này đã tạo ra những thuận lợi nhất định đó là cấu trúc và việc lu trữ vật lý có thể đợc định nghĩa phù hợp nhất với các nhu cầu của Nhà kho dữ liệu. Tuy nhiên, sự mới mẻ của siêu dữ liệu về cách sử dụng có nghĩa là chỉ 1 số ít các công cụ tồn tại hiện nay có thể quản lý và sử dụng siêu dữ liệu này. Cấu trúc và cách lu trữ siêu dữ liệu này sẽ đợc thảo luận trong các phần tiếp theo. 2.2. Các kỹ thuật thiết kế Việc thiết kế 1 Nhà kho dữ liệu yêu cầu phải sử dụng 1 số các kỹ thuật mà nó ít đợc sử dụng trong phát triển các ứng dụng điều hành và hoặc trong các ứng dụng thông tin truyền thống. Sự cần thiết của các kỹ thuật này xuất phát từ 3 đặc trng của việc lu trữ. + Phạm vi của Nhà kho dữ liệu thờng bao gồm toàn bộ xí nghiệp. + Nhà kho dữ liệu chứa đựng bản ghi lịch sử của công việc + Nguồn của tất cả dữ liệu trong Nhà kho dữ liệudữ liệu đang tồn tại mà nó có thể bị phân tán, thay đổi trong cả cấu trúc và nội dung và chất lợng cũng có thể thay đổi. 2.2.1 Mô hình dữ liệu xí nghiệp Trong phần này ta sẽ xem xét các kỹ thuật mô hình áp dụng trong môi trờng thông tin nói chung và trong kiến trúc dữ liệu 3 lớp. Các thuật ngữ cơ sở: - Mục đích của việc mô hình hoá dữ liệu là rất đơn giản. Nó cung cấp 1 cách ghi chép đúng đắn đối với 1 vài khía cạnh của thế giới thực trong các ngữ cảnh đặc biệt. Mô hình hoá tạo cho ngời sử dụng hiểu rõ hơn về các đối tợng đã đợc mô hình hoa hoạt động nh thế nào, hậu quả của những hoạt đông đó và ảnh hởng nếu thay đổi nó Mô hình dữ liệu nghiệp vụ: cung cấp 1 cách nhìn tổng quát về nghiệp vụ, tập trung trên dữ liệu đợc sử dụng, cho phép thiết kế các hệ thống máy tính mà hỗ trợ các cách thực hiện nghiệp vụ. Vì vậy mô hình dữ liệu nghiệp vụ nhằm cung cấp: + Một sự ghi chép về các định nghĩa dữ liệu nghiệp vụ 1 cách đẩy đủ ý nghĩa và chính xác. + Xác định rõ ràng cấu trúc dữ liệu nghiệp vụ nhất quán và chính xác mà nó chứa thông tin hữu ích để chạy và quản lý các công việc. + 1 sự biểu thị các tính tơng tự khác nhau của dữ liệu từ các nguồn khác nhau và mối quan hệ giữa chúng. Mô hình qui trình nghiệp vụ: tập trung vào các hoạt động công việc, cung cấp: + Sự ghi chép về các định nghĩa qui trình nghiệp vụ 1 cách đầy đủ ý nghĩa và chính xác + Xác định các mối quan hệ giữa các quá trình xử lý nghiệp vụ và trong 1 quá trình xử lý. Thực thể, thuộc tính và quan hệ - Mô hình dữ liệu đợc sử dụng rộng rãi hiện nay là cách tiếp cận theo mô hình thực thể liên kết. Trong cách tiếp cận này một thực thể là bất kỳ 1 loại đối tợng nào mà công việc phải quan tâm tới. Mỗi thực thể có 1 định nghĩa công việc tơng ứng. Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 9 Một thực thể có thể là tơng đối cụ thể ở 1 trờng hợp nào đó, hoặc nó có thể rất chung đối với 1 trờng hợp khác. - Mỗi thực thể có 1 số thuộc tính. Một thuộc tính là bất kỳ 1 đặc trng nào đó của thực thể mà nó mô tả về thực thể và nó là sự quan tâm của công việc. - Một điều rất quan trọng trong mô hình thực thể liên kết là mối quan hệ giữa các thực thể (gọi là liên kết) mỗi liên kết nói lên sự tơng tác giữa 2 thực thể đợc liên kết. Vai trò của mô hình hoá xí nghiệp 1. Cung cấp 1 sự phát triển các hệ thống đơn lẻ dựa trên việc thúc đẩy sự kết hợp của các ứng dụng đã có. 2. Hỗ trợ việc chia sẻ dữ liệu giữa các lĩnh vực khác nhau của nghiệp vụ 3. Quản lý 1 cách có hiệu quả các tài nguyên dữ liệu bằng cách cung cấp 1 tập đơn lẻ các định nghĩa dữ liệu nhất quán 4. Hỗ trợ việc tạo lập và duy trì của các thông tin quản lý rộng lớn trong công ty - rất nhiều mô hình xí nghiệp đã cố gắng tập trung vào mục đích thứ nhất, và mục đích thứ 2 nh đã kể trên. Một cấu trúc mô hình dữ liệu xí nghiệp: - Có rất nhiều cách tiếp cận đối với 1 phơng pháp của việc mô hình hoá dữ liệu xí nghiệp. đã đợc đề xuất: Kerr (1991), Scheer và Hars (1992). 1 cấu trúc cụ thể của một mô hình dữ liệu xí nghiệp đợc chia lớp trong một hình tam giác trong đó đã chỉ ra là khối lợng thông tin trong mô hình sẽ nhỏ dần về phía đỉnh tam giác nhng nó tăng rất nhanh khi đi về phía đáy. - ở mức đỉnh của mô hình là lớp phạm vi và kiến trúc nó cung cấp 1 cách nhìn thống nhất về công viẹec. Nó xác định 1 số nhỏ các khái niệm về công việc (từ 10-20). Mục đích của lớp này là cung cấp 1 sự hiểu biết và 1 cách nhìn có thể hiểu đ ợc của công việc tới tất cả các lớp dới. - Lớp thứ 2 là các lớp dữ liệu nghiệp vụ: Lớp này cung cấp 1 phơng tiện định nghĩa các khái niệm của các khái niệm khác nhau. Và sẽ phân laọi chúng theo các luật công việc khác nhau. Lớp này cho phép các phần khác nhau của tổ chức xác minh các khái niệm nghiệp vụ cụ thể hơn. Lớp "Các lớp dữ liệu nghiệp vụ" cung cấp 1 liên kết từ các khái niệm tới lớp "mối quan hệ thực thể chung", nó là 1 lớp rất quan trọng của mô hình dữ liệu xí nghiệp (EDM). - Lớp "mô hình quan hệ thực thể chung" ERM: lớp ERM đợc cấu trúc nh 1 biểu đồ quan hệ thực thể kinh điển, một mô hình quan hệ thực thể chung là ột mô hình mà nó xác định và mô tả 1 cách cụ thể tất cả cacs thực thể, các thuộc tính và các mối quan hệ đợc sử dụng cho tất cả các công việc. - Lớp thứ 4 của mô hình chứa quan điểm ứng dụng logic (logical application views). Quan điểm này có quan hệ rất gần với mô hình quan hệ thực thể chung. Một thực thể đơn lẻ trong mô hình quan hệ thực thể có thể cuất hiện 1 số lần trong quan điểm ứng dụng logic, với các tập con các thuộc tính của nó, để có thể đáp ứng đợc các nhu cầu của các ứng dụng công việc khác nhau. Quan điểm ứng dụng logic là 1 quan hệ giữa các thự cthể trong lớp này với một thực thể đơn lẻ trong lớp trên. Để đảm bảo là dẫn đến các ứng dụng sử dụng dữ liệu một cách nhất quán nó cũng có thể chỉ ra các khả năng trong việc chia sẻ dữ liệu giữa các ứng dụng. - Lớp cuối cùng là lớp thiết kế dữ liệu vật lý, có các ràng buộc trong việc thực hiện vật lý, ví dụ: hiệu năng, nguồn dữ liệu vật lý, sự phân bố vật lý của dữ liệu giữa 1 số vùng. Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 10 [...]... dữ liệu nghiệp vụ, có bao gồm cả siêu dữ liệu c chức năng quản lý Nhà kho dữ liệu bao gồm: * Truy cập dữ liệu liên quan đến khuôn dạng vật lý và vị trí lu trữ của dữ liệu * Quản lý quá trình bao gồm quá trình tạo ra, làm tơI dữ liệu, đồng bộ dữ liệu giữa các lớp * Di chuyển dữ liệu vật lý từ ngoàI vào và bên trong Nhà kho dữ liệu * Bảo mật nhà kho dữ liệu bao gồm quyền truy cập và sử dụng nội dụng dữ. .. dữ liệu và các khái niệm về các lớp dữ liệu nghiệp vụ cũng nh các khái niệm về các thành phần siêu dữ liệu đã cung cấp lý thuyết cơ sở của một cấu trúc Nhà kho dữ liệu Các mục trớc ta đã mô tả các công cụ cơ bản để thiết kế Nhà kho dữ liệu Trong chơng này, sẽ giới thiệu một cách nhìn tổng quát của một cấu trúc Nhà kho dữ liệu 2.3.1 Dữ liệu nghiệp vụ trong Nhà kho dữ liệu Khi bắt đầu ở phần II thì dữ. .. chỉnh, dữ liệu sử dụng lại và dữ liệu riêng t Các kiểu dữ liệu này đợc đa vào Nhà kho dữ liệu từ các hệ thống điều hành hoặc từ các hệ thống mà tơng tác với Nhà kho dữ liệu nh các hệ thống điều hành( sẽ xem xét ở phần sau) * Nhà kho dữ liệu nghiệp vụ Nhà kho dữ liệu nghiệp vụ là sự thực hiện vật lý của lớp dữ liệu điều hoà, các đặc tr ng của lớp dữ liệu này đã đợc mô tả trong phần trên Đặc trng của BDW... chỉ gặp phải trong xây dựng Nhà kho dữ liệu thực và những trở ngại thờng gặp trong dự án án Nhà kho dữ liệu đó đợc vợt qua kèm theo một số ràng buộc nhất định Mục đích của mục này là giới thiệu những vấn đề chính sau: * Kích thớc và phạm vi của Nhà kho dữ liệu * Điều chỉnh đầu t trong Nhà kho dữ liệu * Các vấn đề về tổ chức * Sắp xếp Nhà kho dữ liệu nghiệp vụ (BDW) và Nhà kho thông tin nghiệp vụ (BIWs)... hiện cấu trúc Nhà kho dữ liệu 3.1.2 Điều chỉnh đầu t trong Nhà kho dữ liệu Mặc liên kết bằng nhiều cách khác nhau với các vấn đề kích thớc và phạm vi đã đề cập ở trên, đIều chỉnh Nhà kho dữ liệu là một vấn đề lớn Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 21 Rất cần để nhận thấy phạm vi và kích thớc của Nhà kho dữ liệu và quá trình thực hiện kéo dài 1 vài năm đòi hỏi đầu t đáng kể Các nhà cung cấp... dới nhân bản dữ liệu Bắt đầu với 1 cách nhìn là tại sao cách tiếp cận truyền thống để sao chép dữ liệu là không thích hợp trong môi trờng Nhà kho dữ liệu Điều này dẫn đến 1 định nghĩa về nhân bản dữ liệu Phần này sẽ kết thúc với 1 so sánh của nhân bản dữ liệu trong Nhà kho dữ liệu và một cách sử dụng khác của nhân bản dữ liệu - Sự đồng bộ hoá của CSDL phân tán * Trong khi kiến trúc dữ liệu và các... cho dữ liệu đích, các sự chuyển đổi dữ liệu mới v.v Mô hình hoá dữ liệu xí nghiệp và nhân bản dữ liệu Tạo ra quan hệ hoặc ánh xạ giữa dữ liệu nguồn và đích là yêu cầu đầu tiên và quan trọng nhất trong việc nhân bản Nhà kho dữ liệu đợc điều khiển bởi các nhu cầu của ngời sử dụng để liên kết dữ liệu tới thực tế nghiệp vụ Mô hình dữ liệu xí nghiệp chính là cơ sở lý thuyết cho mối quan hệ giữa dữ liệu. .. 3.1.1 Kích thớc và phạm vi Nhà kho dữ liệu Một Nhà kho dữ liệu thực thờng đợc xây dựng ở các tổ chức hoặc hãng lớn Và điều này có rất nhiều lý do khác nhau Những vấn đề khác liên quan đến yêu cầu nghiệp vụ Nhà kho dữ liệu thích hợp đợc nói đến ở phần sau Phải là các tổ chức và hãng lớn thì khuôn khổ của Nhà kho dữ liệu mới đáp ứng đợc những yêu cầu đó Hơn nữa, một Nhà kho dữ liệu rõ ràng là có dính líu... tính nhất quán và tính toàn vẹn của dữ liệu đợc lu trữ 2.3.2 Siêu dữ liệu trong Nhà kho dữ liệu - Trong cả 3 lớp của kiến trúc đều cần siêu dữ liệu Tuy nhiên không phải tất cả mọi lớp đều cần tất các siêu dữ liệu Giả sử 3 lớp thành phần của siêu dữ liệu ( đã mô tả ở mục trên) sẽ thể hiện mức độ quan trọng khác nhau trong các lớp của dữ liệu nghiệp vụ Luận đề Nhà kho Dữ liệu Version: 1.1 Trang 19 - Kiến... đích nhân bản dữ liệu - một cách sử dụng đặc thù " nhân bản dữ liệu" đợc sử dụng rộng rãi trong công nghiệp máy tính hiện nay Nó có nghĩa những thứ khác nhau cho những ngời khác nhau Trong trình bày này, nhân bản dữ liệu đợc định nghĩa dới dạng các nhu cầu của Nhà kho dữ liệu để xây dựng và duy trì các cấu trúc dữ liệu của lớp dữ liệu đIều hoà, lớp dữ liệu kết nhập và của kho siêu dữ liệu Một cách

Ngày đăng: 25/04/2013, 20:34

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan