Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

24 796 3
Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TIỂU LUẬN ĐỀ TÀI: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản điều hành” 1 MỞ ĐẦU Học viện Công nghệ Bưu chính viễn thông là một đơn vị thành viên của Tập đoàn Bưu chính Viễn thông Việt Nam có chức năng chính là đào tạo, nghiên cứu khoa học chuyển giao công nghệ trong lĩnh vực bưu chính, viễn thông, điện - điện tử công nghệ thông tin phục vụ sự phát triển của ngành Bưu chính Viễn thông của xã hội. Chính vì vậy việc quản lý, phân tích đánh giá thông tin về công tác quản lí, đào tạo dưới các góc độ khác nhau là một trong nhưng vấn đề cần được quan tâm, tôi đã chọn đề tài tốt nghiệp cao học ngành công nghệ thông tin của tôi với hướng phục vụ công tác này. Xuất phát từ thực tế đó, tôi đã chọn đề tài “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản điều hành” Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương pháp luận xử phân tích trực tuyến (OLAP). Trong đó tập trung vào hai công việc chính là tập hợp dữ liệu để tổ chức dữ liệu đa chiều, phân tích hiển thị dữ liệu để trợ giúp ra quyết định. Luận văn gồm 3 chương: Chương 1: Tổng quan các phương pháp khai thác dữ liệu Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa chiều trong xử phân tích trực tuyến 2 Chương 3: Xây dựng hệ thống trợ giúp quản với chức năng OLAP 3 Chương 1 TỔNG QUAN CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU 1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU Việc dùng các phương tiện tin học để tổ chức khai thác các CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển khai thác ở mọi qui mô khắp các lĩnh vực hoạt động của xã hội. Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếu không có những công cụ hỗ trợ tốt. Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu như chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”. Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980. Các nhà thống kê xem "khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu". Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thụât toán khai thác dữ liệu chuyên dùng 4 dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, có thể hiểu được. 1.1.1. Hình thành định nghĩa bài toán Đây là bước tìm hiểu lĩnh vực ứng dụng hình thành bài toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng bản chất của dữ liệu. 1.1.2. Thu thập tiền xử dữ liệu Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin Internet). 1.1.3. Khai phá dữ liệu rút ra các tri thức Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu. 1.1.4. Phân tích kiểm định kết quả Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả dự đoán. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu hơn cho người dùng. 1.1.5. Sử dụng các tri thức phát hiện được Các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các giai đoạn của quá trình khám phá tri 5 thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. 1.2. QUÁ TRÌNH KHAI PHÁ DỮ LIỆU Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu. Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô kết thúc với tri thức được chiết xuất ra. Hình. Kiến trúc hệ thống khai phá dữ liệu Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như trong hình. 1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU 1.3.1. Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một lớp). 1.3.2. Phân cụm dữ liệu 6 Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng. 1.3.3. Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được. 1.3.4. Hồi quy Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc. 1.3.5. Giải thuật di truyền Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên tiến hoá trong sinh học. 1.3.6. Mạng nơron Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người. 1.3.7. Cây quyết định Kỹ thuật cây quyết định là một công cụ mạnh hiệu quả trong việc phân lớp dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. 7 1.4. XỬ PHÂN TÍCH TRỰC TUYẾN 1.4.1. Về xử phân tích trực tuyến Xử phân tích trực tuyến (OLAP) là một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối cho dữ liệu trong các bảng chiều bảng sự kiện trong kho dữ liệu cung cấp khả năng thực hiện các truy vấn tinh vi phân tích cho các ứng dụng khách. OLAP được đặt ra để xử các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian. 1.4.2. Mô hình dữ liệu đa chiều Các nhà quản kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ như họ có khuynh hướng mô tả những gì mà công ty làm như sau:  “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.  Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó họ thêm vào những nhấn mạnh đặc biệt của họ như:  “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”. Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các nhãn trên mỗi cạnh của khối. Các điểm bên trong khối là các giao điểm của các cạnh. Với mô tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, Thời gian. Hầu hết 8 mọi người đều có thể nhanh chóng hiểu tưởng tượng rằng các điểm bên trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị trường Thời gian. Các chiều được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được mô tả bởi các thuộc tính như Năm, Quý, Tháng Ngày. Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi tiết), slice and dice (chọn chiếu), pivot (định hướng lại khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn phân tích dữ liệu rất tiện lợi. Những thao tác đó được biết như Xử lý phân tích trực tuyến. 1.5. KẾT LUẬN CHƯƠNG Chương trên đã tìm hiểu các phương pháp khai phá dữ liệu, quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Định hình mô hình dữ liệu đa chiều. 9 Chương 2 HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH SỬ DỤNG PHÂN TÍCH ĐA CHIỀU TRONG XỬ PHÂN TÍCH TRỰC TUYẾN 2.1. KIẾN TRÚC KHỐI OLAP 2.1.1. Giới thiệu dịch vụ OLAP của Microsoft SQL Server Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử trực tuyến. Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích cung cấp khả năng truy xuất nhanh đến thông tin khối cho các khách. Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi OLAP server) phần khách (là dịch vụ PivotTable). Hình. Kiến trúc OLAP Các đặc điểm của dịch vụ OLAP: [...]... thao tác trên các dữ liệu này có những đặc điểm sau: 1 Dữ liệu tích hợp 2 Theo chủ đề 3 Biến thời gian 4 Dữ liệu cố định 3.1.2.2 Cấu trúc dữ liệu cho kho dữ liệudữ liệu trong kho dữ liệu rất lớn không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích báo cáo Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều, được mô hình vào... viên học viên; (iii) công trình nghiên cứu khoa học của thày cô giáo trong Học viện Công nghệ Bưu chính Viễn thông… Dựa trên dữ liệu cơ bản đó, để thực hiện công tác trợ giúp quyết định, phục vụ quản lý, điều hành công tác đào tạo nghiên cứu khoa học trong Học viện Công nghệ Bưu chính Viễn thông, luận văn sẽ: 1 Tổ chức dữ liệu, dưới dạng kho dữ liệu; 2 Thể hiện dữ liệu dưới dạng đồ hoạ, phục vụ. .. tích những đặc tính những khả năng của DSS Dựa trên các kĩ thuật, phương pháp luận xử dữ liệu trực tuyến, nhằm tăng cường công tác quản nguồn nhân lực tại Học viện, đề tài luận văn đã tổ chức cơ sở dữ liệu về đào tạo nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữ liệu SQL SERVER Tuy các dữ liệu đơn giản, đủ để thể hiện vai trò khai phá dữ liệu của kĩ thuật OLAP Kiến nghị hướng nghiên... quyết định trực quan; 3 Sử dụngthuật OLAP, thể hiện dữ liệu dưới các dạng bảng xoay khác nhau, tiện cho việc xử lí dữ liệu ra quyết định 3.2 YÊU CẦU VỀ HỆ THỐNG, THIẾT KẾ HỆ THỐNG 3.2.1 Cơ sở dữ liệu về đào tạo nghiên cứu khoa học Hiện tại, Học viện chưa quản tác nghiệp rộng trên cơ sở dữ liệu trực tuyến Dữ liệu thường được tổ chức trong các cơ sở dữ liệu đơn lẻ Nhiệm vụ của đề tài luận... phần của dữ liệu (tương ứng thêm điều kiện vào câu lệnh WHERE trong SQL) 3.1.2.4 Cấu trúc của một hệ thống kho dữ liệu 20 Người ta thiết kế kho dữ liệu có ba tầng: 1 Tầng đáy; 2 Tầng giữa; 3 Tầng trên cùng; 3.1.2.5 Nhiệm vụ khai phá dữ liệu của luận văn Trong khuôn khổ luận văn này, tôi sử dụngthuật OLAP để khai phá dữ liệu, trong kho dữ liệu nhiều chiều Các dữ liệu về (i) công tác quản sinh... sở dữ liệu quản nguồn nhân lực” 3.2.2 Hạ tầng kĩ thuật Đề tài thực hiện trên máy đơn Mô hình tương lai yêu cầu cơ sở dữ liệu đặt trên máy chủ cơ sở dữ liệu của Học viện Các quyết định liên quan đến quản nguồn nhân lực sẽ thực hiện trên mạng Intranet, cho phép các người quản điều khiển tác nghiệp Các chức năng tìm kiếm, trích rút dữ liệu xử dữ liệu, theo hệ thống cơ sở dữ liệu truyền... điều hành của cán bộ Một số dữ liệu minh hoạ ở đây được thể hiện dưới dạng bảng tính MS EXCEL 3.4 THỬ NGHIỆM THỂ HIỆN DỮ LIỆU 3.4.1 Thể hiện đồ hoạ 3.4.2 Sử dụng bảng xoay của MS EXCEL 3.5 KẾT LUẬN CHƯƠNG Dựa trên các kĩ thuật, phương pháp luận xử dữ liệu trực tuyến, nhằm tăng cường công tác quản nguồn nhân lực tại Học viện Công nghệ Bưu chính Viễn thông, đề tài luận văn đã tổ chức cơ sở dữ liệu. .. tạo nghiên cứu khoa học, sử dụng hệ quản trị cơ sở dữ liệu SQL SERVER 23 KẾT LUẬN Một số vấn đề đã giải quyết: Luận văn đã tìm hiểu các phương pháp khai phá dữ liệu, quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu Định hình mô hình dữ liệu đa chiều Luận văn đã đề cập chi tiết về công. .. của dữ liệu chi tiết tổng hợp Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo các phần dành riêng 2.1.5 Mô hình kiến trúc dịch vụ OLAP Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server Khách Hình Kiến trúc dịch vụ OLAP 2.1.5.1 Kiến trúc thành phần Server Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo quản dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu. .. DSS được tạo thành từ 4 hệ thống con sau: 1 Quản trị dữ liệu 2 Quản trị mô hình 3 Truyền thông 4 Quản trị tri thức 16 Mô hình khái niệm của DSS được cho trong hình dưới đây cung cấp khả năng những hiểu biết cơ bản về cấu trúc chung các thành phần của DSS 2.2.6 Hệ con quản trị dữ liệu Hệ con quản trị dữ liệu bao gồm những thành phần sau: 1 Cơ sở dữ liệu về DSS 2 Hệ quản trị cơ sở dữ liệu 3 Phương . TIỂU LUẬN ĐỀ TÀI: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành . kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương

Ngày đăng: 21/02/2014, 05:20

Hình ảnh liên quan

Hình. Kiến trúc hệ thống khai phá dữ liệu - Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

nh..

Kiến trúc hệ thống khai phá dữ liệu Xem tại trang 6 của tài liệu.
Hình. Kiến trúc OLAP - Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

nh..

Kiến trúc OLAP Xem tại trang 10 của tài liệu.
2.1.5. Mơ hình kiến trúc dịch vụ OLAP - Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

2.1.5..

Mơ hình kiến trúc dịch vụ OLAP Xem tại trang 13 của tài liệu.
Hình. Hệ quản trị cơ sở dữ liệu sử dụng trong đề tài luận văn - Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

nh..

Hệ quản trị cơ sở dữ liệu sử dụng trong đề tài luận văn Xem tại trang 22 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan