XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIỆU VÀ CÔNG CỤ BUSSINESS INTELLIGENCE DEVELOPMENT STUDIO

41 1.3K 5
XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIỆU VÀ CÔNG CỤ BUSSINESS INTELLIGENCE DEVELOPMENT STUDIO

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGH THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SỸ ________________ KHAI PHÁ DỮ LIU VÀ KHO DỮ LIU Đề tài: XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIU VÀ CÔNG CỤ BUSSINESS INTELLIGENCE DEVELOPMENT STUDIO Giảng viên hướng dẫn : PGS.TS. ĐỖ PHÚC Học viên thực hiện : Lê Thị Xuân Diệu Mã số : CH1101076 TP. HCM, năm 2012 Khai phá dữ liệu và kho dữ liệu LỜI MỞ ĐẦU  Thời đại công nghệ thông tin càng ngày càng phát triển, với lượng dữ liệu thông tin cũng càng ngày càng một lớn dần, vấn đề đặt ra cho chúng ta là làm thế nào để lưu trữ và tận dụng tốt những nguồn thông tin mà chúng ta đang có. Với thực tế thì một minh chứng rõ ràng nhất cho chúng ta thấy là vấn đề kinh doanh của các công ty kinh doanh và sản xuất các sản phẩm cho người sử dụng. Nếu như không nắm bắt được thị trường, không khai thác được những tiềm năng khách hàng, không biết nhu cầu khách hàng của chúng ta đang cần gì thì việc kinh doanh sẽ không phát triển tốt hơn khi chúng ta nắm bắt được nhu cầu khách hàng và đáp ứng được nhu cầu khách hàng, có kế hoạch tiếp thị tốt cho những khách hàng tiềm năng. Trong bài tìm hiểu này với thời gian ngắn em xin trình bày vấn đề tìm hiểu của mình về khai thác dữ liệu và công cụ khai phá dữ liệu rất có tiềm năng của Microsoft tích hợp trong SQL server 2008R2 là BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học cơ sở dữ liệu nâng cao đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để em có thể hoàn thành môn học này. Em xin chân thành cảm ơn Lê Thị Xuân Diệu Khai phá dữ liệu và kho dữ liệu Phần I. KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIU 1. Tổng quan về cơ sở dữ liệu và sự xuất hiện của khai phá dữ liệu 1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đã được tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lĩnh vực hoạt động của con người và xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế giới cứ sau 20 tháng lại tăng gấp đôi. Kích thước và số lượng cơ sở dữ liệu thậm chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v… đều được ghi vào trong máy tính. Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, … Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các cơ sở dữ liệu đó. Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt động tác nghiệp của mình HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu 1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tin cũng được chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài chính, buôn bán thị trường v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các hệ thống thông tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu cầu trong thực tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó. Các quyết định cần phải có càng nhanh càng tốt và phải chính xác dựa trên những dữ liệu sẵn có trong khi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian ra quyết định cũng như khả năng hiểu hết được nội dung dữ liệu. Lúc này các mô hình CSDL truyền thống và ngôn ngữ SQL đã cho thấy không có khả năng thực hiện công việc này. Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có chất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó. Các kỹ thuật đó được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) và môi trường các dữ liệu có được gọi là các kho dữ liệu (data warehouse). Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. Nói cách khác, một kho dữ liệu bao gồm: - Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào. - Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập bảng dữ liệu của dữ liệu.” HV: Lê Thị Xuân Diệu CH1101076 Trang Dữ liệu nguồn Các công cụ trợ giúp và các ứng dụng Chiết xuất dữ liệu Làm sạch dữ liệu Nạp dữ liệu. MetaData Kho dữ liệu trong DBMS Kho dữ liệu trong DBMS Data Mart Hệ thống phân phối thông -n Các công cụ hỏi đáp, báo cáo Các công cụ OLAP Các công cụ khai phá dữ liệu Hình 1.1. Cấu trúc kho dữ liệu. Khai phá dữ liệu và kho dữ liệu Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau: - Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau. - Hỗ trợ cho một số người dùng có liên quan với các thông tin liên quan. - Là dữ liệu chỉ đọc. - Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin. - Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin. - Chứa các bảng dữ liệu có kích thước lớn. - Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng. Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm. Trong đó, dữ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu. Kho lưu trữ trung tâm được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu. HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần: - Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu. - Kho dữ liệu về dữ liệu (MetaData) - Các kỹ thuật xây kho - Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data marts): là nơi các dữ liệu được khoanh vùng theo chủ đề đến một giới hạn nào đó và có thể được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng. Với các kho dữ liệu này, cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp, nghĩa là với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu; ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh. HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu - Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp (OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những dữ liệu thô. Điểm mạnh và yếu của các kỹ thuật này ta sẽ phân tích kỹ hơn ở những phần sau. - Quản trị kho dữ liệu. - Hệ thống phân phối thông tin. Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức. Như đã đề cập ở trên, các kho dữ liệu được sử dụng theo ba cách chính: - Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công cụ vấn đáp và báo cáo. Tuy nhiên, nhờ có việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa CSDL và người dùng, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liệu khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức”. - Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết. Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giả tuyết từ các thông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách hàng). Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu này. Phương pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực tuyến (off-line). Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thương trường. Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trong nghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn. Đó chính là công nghệ Khai phá dữ liệu (data mining). Đây chính là ứng dụng thứ ba của kho dữ liệu. 2. Khai phá dữ liệu là gì? 2.1. Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năn cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. 3. Khai thác các kỹ thuật khai thác dữ liệu 3.1. Khai thác tập phổ biến và luật kết hợp Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Một luật kết hợp X->Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý khách hàng…từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn kho… Khai thác mẫu tuần tự: Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian. Một luật mô tả tuần tự có dạng tiêu biểu X->Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triến hành vi của đối tượng Phân lớp dữ liệu: Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dự liệu học. Các luật HV: Lê Thị Xuân Diệu CH1101076 Trang Khai phá dữ liệu và kho dữ liệu phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển. Áp dụng vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phân lớp khách hàng. Khai thác cụm: Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm sao cho mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn. HV: Lê Thị Xuân Diệu CH1101076 Trang 10 [...]... nhập của dữ liệu; • Làm việc tốt trên CSDL có số chiều cao; • Chấp nhận các ràng buộc do người dùng chỉ định; • Có thể hiểu và sử dụng được kết quả gom cụm HV: Lê Thị Xuân Diệu CH1101076 Trang 17 Khai phá dữ liệu và kho dữ liệu HV: Lê Thị Xuân Diệu CH1101076 Trang 18 Khai phá dữ liệu và kho dữ liệu Phần III GIỚI THIỆU CÔNG CỤ XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIỆU BUSINESS INTELLIGENCE DEVELOPMENT STUDIO. .. Khai phá dữ liệu và kho dữ liệu 4 2 Tạo một Data Source kết nối đến cơ sở dữ liệu AdventureWorksDW HV: Lê Thị Xuân Diệu CH1101076 Trang 21 Khai phá dữ liệu và kho dữ liệu 4 3 Tạo một Data Source View (Trong Data Source view chọn dữ liệu lấy từ View có tên “vTargetMail”) HV: Lê Thị Xuân Diệu CH1101076 Trang 22 Khai phá dữ liệu và kho dữ liệu HV: Lê Thị Xuân Diệu CH1101076 Trang 23 Khai phá dữ liệu và. .. STUDIO (BIDS) CỦA MICROSOFT Business Intelligence Development Studio (BIDS) là công cụ cho phép tổ chức và khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng như xây dựng mô hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của Microsoft BIDS cho phép triển khai các mô hình khai phá dữ liệu sau: 1 Microsoft Decision Tree (Cây quyết định) 2 Microsoft Clustering (Phân cụm) 3 Microsoft Navie Bayes (Phân... và bấm nút Detect để xác định nội dung và kiểu dữ liệu của các thuộc tính được sử dụng trong model HV: Lê Thị Xuân Diệu CH1101076 Trang 28 Khai phá dữ liệu và kho dữ liệu Bấm Next và đặt tên cho model là Decision Tree và bấm Finish HV: Lê Thị Xuân Diệu CH1101076 Trang 29 Khai phá dữ liệu và kho dữ liệu Màn hình của Mining Structure như sau: HV: Lê Thị Xuân Diệu CH1101076 Trang 30 Khai phá dữ liệu và. .. kho dữ liệu Thực thi bằng cách nhấn phím F5 ta có Decision Tree Model Khi tạo một Mining Structure ban đầu chỉ có một mô hình khai phá dữ liệu dựa trên kỹ thuật Decision Tree, trong phần này chúng ta có thể sử dụng các kỹ thuật khai phá dữ liệu khác để đạt được mục đích nghiên cứu cũng như so sánh hiệu quả khai phá dữ liệu của các mô hình để chọn ra mô hình tốt nhất Ở đây ta sử dụng thêm 2 mô hình. . .Khai phá dữ liệu và kho dữ liệu Phần I PHÂN LỚP DỮ LIỆU Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hính 1 Phân lớp quy nạp trên cây quyết định Cây quyết định gồm các nút trong biểu diễn... mục tiêu khai phá Cơ sở dữ liệu được sử dụng để minh họa trong bài tìm hiểu này là AdventureWorksDW, đây là kho dữ liệu của công ty Adventure Works chuyên sản xuất xe đạp Từ phiên bản SQL Server 2005 không tích hợp sẵn cơ sở dữ liệu này và khi có nhu cầu hoặc muốn thử nghiệm chúng ta có thể cài đặt thêm vào 3 Mục đích của việc xây dựng các mô hình khai phá dữ liệu: Để phân loại khách hàng và tìm ra... trình xây dựng mô hình khai phá dữ liệu BIDS như sau: a Tạo mới một project (Analysis Service Project) HV: Lê Thị Xuân Diệu CH1101076 Trang 19 Khai phá dữ liệu và kho dữ liệu b Tạo một Data Source c Tạo một Data Source view d Tạo một Mining model structure e Tạo các Mining models f Khai thác Mining models g Kiểm tra độ chính xác của Mining Models h Sử dụng Mining Models để dự đoán 2 Mô tả dữ liệu và mục... và 3 Mining Models là Decision Tree, Clustering và Naive Bayes được tạo ra và Deploy thành công như sau: HV: Lê Thị Xuân Diệu CH1101076 Trang 33 Khai phá dữ liệu và kho dữ liệu Attribute Discrimination HV: Lê Thị Xuân Diệu CH1101076 Trang 34 Khai phá dữ liệu và kho dữ liệu Sử dụng Attribute Discrimination Tab để khám phá mối quan hệ giữa các giá trị rời rạc của biến dự đoán (Predictable Variable) và. .. P và N và tập học S Lớp P có p phần tử và lớp N có n phần tử Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định bởi: I(p,n)=log2 Ví dụ tiêu biểu: play tennis HV: Lê Thị Xuân Diệu CH1101076 Trang 12 Khai phá dữ liệu và kho dữ liệu HV: Lê Thị Xuân Diệu CH1101076 Trang 13 Khai phá dữ liệu và kho dữ liệu 2 Phương pháp phân lớp BAYES Bài toán phân lớp có thể hình . 17 Khai phá dữ liệu và kho dữ liệu HV: Lê Thị Xuân Diệu CH1101076 Trang 18 Khai phá dữ liệu và kho dữ liệu Phần III. GIỚI THIU CÔNG CỤ XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIU BUSINESS INTELLIGENCE DEVELOPMENT. phân phối thông -n Các công cụ hỏi đáp, báo cáo Các công cụ OLAP Các công cụ khai phá dữ liệu Hình 1.1. Cấu trúc kho dữ liệu. Khai phá dữ liệu và kho dữ liệu Một kho dữ liệu có thể được coi là. MINH ĐẠI HỌC CÔNG NGH THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SỸ ________________ KHAI PHÁ DỮ LIU VÀ KHO DỮ LIU Đề tài: XÂY DỰNG MÔ HÌNH KHAI PHÁ DỮ LIU VÀ CÔNG CỤ BUSSINESS INTELLIGENCE DEVELOPMENT STUDIO

Ngày đăng: 09/04/2015, 22:58

Từ khóa liên quan

Mục lục

  • Phần I. KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

    • 1. Tổng quan về cơ sở dữ liệu và sự xuất hiện của khai phá dữ liệu

      • 1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống

      • 1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL

      • 2. Khai phá dữ liệu là gì?

        • 2.1. Khái niệm

        • 3. Khai thác các kỹ thuật khai thác dữ liệu

          • 3.1. Khai thác tập phổ biến và luật kết hợp

            • Là tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Một luật kết hợp X->Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời tập Y. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm lý khách hàng…từ đó đưa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn kho…

            • Khai thác mẫu tuần tự:

            • Là tiến trình khám phá các mẫu tuần tự phổ biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian. Một luật mô tả tuần tự có dạng tiêu biểu X->Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.

            • Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triến hành vi của đối tượng

            • Phân lớp dữ liệu:

            • Là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dự liệu học. Các luật phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy luật phát triển. Áp dụng vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có thể xây dựng các luật phân lớp khách hàng.

            • Khai thác cụm:

            • Là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm sao cho mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn.

            • Phần I. PHÂN LỚP DỮ LIỆU

              • Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước. Phân lớp dữ liệu gồm hai bước là xây dựng mô hình và vận hành mô hính

              • 1. Phân lớp quy nạp trên cây quyết định

                • Cây quyết định gồm các nút trong biểu diễn giá trị thuộc tính, các nhánh biểu diễn đầu ra của kiểm tra, nút lá biểu diễn nhãn lóp. Cây quyết định được tạo theo hai giai đoạn là tạo cây và tỉa nhánh.

                • Trong giai đoạn tạo cây, lúc bắt đầu tất cả các mẫu học đều nằm ở nút gốc, sau đó các mẫu học được phân chia một cách đệ quy dựa trên thuộc tính được chọn. Bước tỉa nhánh nhằm tìm và xóa những nhánh có phần tử không thể xếp vào lớp nào cả.

                • Bước vận hành nhằm kiểm tra những giá trị thuộc tính của mẫu đối với các giá trị trên nhánh của cây quyết định.

                • Thuật toán tạo cây quyết định bao gồm các bước sau:

                • Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị

                • Bước 2: Ban đầu tất cả mẫu học đều nằm ở gốc

                • Bước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc hóa)

                • Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn lựa

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan