ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids

109 1.3K 4
ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS MỤC LỤC MỤC LỤC 1 DANH MỤC CÁC TỪ VIẾT TẮT 3 DANH MỤC CÁC BẢNG 4 DANH MỤC HÌNH VẼ 5 LỜI NÓI ĐẦU 6 Chương 1 7 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 7 1.1 Giới thiệu về khai phá dữ liệu 7 1.2 Các nhiệm vụ của khai phá dữ liệu 8 1.3 Các loại dữ liệu được khai phá 9 1.4 Lịch sử phát triển của Khai phá dữ liệu 9 1.5 Ứng dụng của Khai phá dữ liệu 9 1.6 Phân loại 11 1.7 Một số thách thức đặt ra cho việc khai phá dữ liệu 11 Kết chương 11 Chương 2 12 QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU 12 2.1 Quy trình tổng quát thực hiện Khai phá dữ liệu 12 2.2 Tiến trình khám phá tri thức khi đi vào một bài toán cụ thể 13 2.3 Tiền xử lý dữ liệu 14 2.3.1 Làm sạch dữ liệu 15 2.3.1.1 Các giá trị thiếu 15 2.3.1.2 Dữ liệu nhiễu 16 2.3.2 Tích hợp và chuyển đổi dữ liệu 17 2.3.2.1 Tích hợp dữ liệu 17 2.3.2.2 Biến đổi dữ liệu 19 2.3.3 Rút gọn dữ liệu (Data reduction) 20 2.3.3.1 Rút gọn dữ liệu dùng Histogram 21 2.3.3.2 Lấy mẫu (Sampling) 22 2.3.4 Rời rạc hóa dữ liệu và tạo lược đồ phân cấp khái niệm 24 2.3.4.1 Rời rạc hóa bằng cách phân chia trực quan dùng cho dữ liệu dạng số 25 2.3.4.2 Tạo hệ thống phân cấp khái niệm cho dữ liệu phân loại 26 2.3 Phương pháp khai phá dữ liệu 26 2.4 Một số kỹ thuật dùng trong Data Mining 28 2.4.1 Cây quyết định 28 2.4.1.1 Giới thiệu chung 28 2.4.1.2 Các kiểu cây quyết định 29 2.4.1.3 Ưu điểm của cây quyết định 31 2.4.2 Luật kết hợp 31 2.4.2.1 Phát biểu bài toán khai phá luật kết hợp 32 2.4.2.2 Các hướng tiếp cận khai phá luật kết hợp 34 2.4.3 Mô hình dữ liệu đa chiều 35 2.4.3.1 Định nghĩa: 35 2.4.3.2 Các thao tác trên các chiều của MDDM 36 2.4.4 Khoảng cách ngắn nhất 37 2.4.5 K-Láng giềng gần nhất 38 2.4.6 Phân cụm 39 Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 1 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS 2.4.7 Kỹ thuật hiển thị dữ liệu 40 2.4.8 Mạng Neural 41 2.4.8.1 Tổng quan 41 2.4.8.2 Mô hình mạng Nơron 42 2.4.9Thuật toán di truyền 43 2.4.9.1 Giới thiệu chung 43 2.4.9.2 Các bước cơ bản của giải thuật di truyền 44 Kết chương 46 Chương 3 47 ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG IDS 47 3.1 Hệ thống IDS 47 3.1.1 Giới thiệu 47 3.1.2 Hệ thống phát hiện xâm nhập - IDS 47 3.1.2.1 IDS là gì? 47 3.1.2.2 Vai trò, chức năng của IDS 48 3.1.2.3 Mô hình hệ thống IDS mức vật lý 49 3.1.2.4 Cấu trúc và hoạt động bên trong của hệ thống IDS: 49 3.1.2.5 Phân loại 53 3.2 Khai phá dữ liệu trong IDS 54 3.2.1 NIDS dựa trên khai phá dữ liệu 54 3.2.1.1. Source of Audit Data: 54 3.2.1.2 Xử lý dữ liệu kiểm toán thô và xây dựng các thuộc tính 56 3.2.1.3 Các phương thức khai phá dữ liệu trong NIDS 57 3.2.2 Tình hình trong nước 60 3.3.3 Tình hình thế giới 61 3.3.3.1 Nghiên cứu sớm nhất 61 3.3.3.2 Nghiên cứu muộn hơn 64 3.3.3.3 Nghiên cứu gần đây và hiện nay 68 Chương 4 78 XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN TẤN CÔNG DoS SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU 79 4.1 Thuật toán phân cụm 79 4.1.1 Dẫn nhập 79 4.1.2 Các dạng dữ liệu trong phân tích cụm 79 4.2.2.1 Biến trị khoảng 80 4.2.2.2 Các biến nhị phân 82 4.2.2.3 Các biến phân loại (biến định danh), biến thứ tự, và biến tỉ lệ theo khoảng 83 4.2.3 Các phương pháp gom cụm 85 4.2.3.1 Các phương pháp phân hoạch 85 4.2.3.2 Các phương pháp phân cấp 86 4.2.4 Thuật toán gom cụm bằng phương pháp K-means 86 4.2.4.1 Thuật toán k-means 87 4.2.4.2 Kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids 90 4.2 Sơ đồ phân tích thiết kế chương trình (các mẫu) 91 91 4.2.1 Tập hợp dữ liệu và tiền xử lý 92 4.2.1.1 Tập hợp dữ liệu 92 4.2.1.2 Tiền xử lý 93 4.2.2 Khai phá dữ liệu phát hiện tấn công từ chối dịch vụ 94 Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 2 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS 4.2.2.1 Các mẫu bất thường của tấn công từ chối dịch vụ 94 4.2.2.2 Khai phá dữ liệu 96 4.2.3 Biểu diễn dữ liệu 97 Chương 5 99 KẾT QUẢ ĐẠT ĐƯỢC – ĐÁNH GIÁ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 99 5.1 Cài đặt 99 5.2 Kết quả đạt được 99 5.3 Kết luận 106 5.4 Hướng phát triển 107 107 TÀI LIỆU THAM KHẢO 108 DANH MỤC CÁC TỪ VIẾT TẮT AS Analysis Services BIDS Intelligence Development Studio BI Dev Studio Business Intelligent Developtment CSDL Cơ sở dữ liệu DM Data mining: Khai phá dữ liệu DMX Data Mining eXtensions DSV Data Source View DTS Data Transformation Services IDS/IPS Intrusion Detection System/ Intrusion Prevention System KDD Knowledge Discovery and Data Mining KTDL Khai thác dữ liệu KDL Kho dữ liệu MDDM Dimensional Data Model: Mô hình dữ liệu đa chiều MMPB Mining Model Prediction Builder MSE Mining Structure Editor Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 3 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS MSS Microsoft SQL Server OLAP Online Analytical Processing SRSWOR Simple random sample without replacement SRSWR Simple random sample with replacement DANH MỤC CÁC BẢNG Bảng 2.1: Tần số quan sát 19 Bảng 3.1: Dữ liệu chơi golf 30 Bảng 3.2: Ví dụ về một CSDL giao dịch – D 32 Bảng 3.3: Tập mục thường xuyên minsup = 50% 33 Bảng 3.4: Luật kết hợp sinh từ tập mục phổ biến ABE 34 Bảng 3.5: Dữ liệu điều tra việc sở hữu các tiện nghi 37 Bảng 3.6: Mẫu dữ liệu khách hàng 38 Bảng 3.7: Một số ví dụ dùng kỹ thuật k-láng giềng 39 Bảng 3.8: Bảng sự kiện cho biến nhị phân 82 Bảng 3.9: Một bảng quan hệ trong đó các bệnh nhân được mô tả bằng các biến nhị phân 83 Bảng 3.10: Bảng dữ liệu mẫu chứa các biến ở dạng hỗn hợp 83 Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 4 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS DANH MỤC HÌNH VẼ Hình 2.1: Data mining – một bước trong quá trình khám phá tri thức 13 Hình 2.2: Tổng quan tiến trình khai phá dữ liệu 14 Hình 2.3: Các hình thức tiền xử lý dữ liệu 15 Hình 2.4: Một histogram cho price sử dụng singleton bucket biểu diễn một cặp price value/frequency 21 Hình 2.5: Một histogram có độ rộng bằng nhau cho price 22 Hình 2.6: Phương pháp lấy mẫu 24 Hình 2.7: Một lược đồ phân cấp cho khái niệm price 25 Hình 2.8: Tự động tạo hệ thống phân cấp khái niệm dựa trên số lượng giá trị phân biệt của các thuộc tính 26 Hình 3.1: Kết quả của cây quyết định 30 Hình 3.2: Biểu diễn hình học cho mô hình dữ liệu n-chiều (với n=3) 35 Hình 3.3: Biến đổi bảng 2 chiều sang mô hình dữ liệu n-chiều 36 Hình 3.4: Các mẫu tin biểu diễn thành điểm trong một không gian bởi các thuộc tính của chúng và khoảng cách giữa chúng có thể được đo 38 Hình 3.6: Đồ thị dựa vào hai độ đo 41 Hình 3.7: Đồ thị tương tác 3 chiều 41 Hình 3.8: Mô phỏng kiến trúc mạng neural 42 Hình 3.5: Minh họa thuật toán k-means 87 Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 5 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS LỜI NÓI ĐẦU Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống không đáp ứng được kỳ vọng này, nên đã ra đời Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining). Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Trong phạm vi của đề tài nghiên cứu này, tôi xin được trình bày những kiến thức cơ bản về khai phá dữ liệu và việc ứng dụng khai phá dữ liệu trong hệ thống IDS/IPS. Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 6 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS Trong quá trình hoàn thành đề tài này tôi đã nhận được sự giúp đỡ chỉ bảo tận tình của các thầy cô giáo và bạn bè, đặc biệt là thầy giáo Vũ Đình Thu. Nhưng do giới hạn thời gian và năng lực nên không tránh khỏi những sai sót, rất mong nhận được sự góp ý hơn nữa của thầy cô và các bạn. Em chân thành cảm ơn các thầy, cô! Sinh viên thực hiện Vũ Thị Vân Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu về khai phá dữ liệu Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức hoặc những mẫu tiềm ẩn, chưa biết nhưng hữu ích từ các cơ sở dữ liệu lớn. Đồng thời là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực cho các tiến trình ra quyết định. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL, trích lọc dữ liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như nhau. Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức trong CSDL. Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 7 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS này, cây kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết. Nguồn dữ liệu phục vụ cho KTDL có thể là các CSDL lớn hay các kho dữ liệu (Datawarehouse) có hay không có cấu trúc. Các tác vụ khai phá dữ liệu có thể được phân thành hai loại: miêu tả và dự báo - Các tác vụ khai phá miêu tả mô tả các đặc tính chung của dữ liệu trong cơ sở dữ liệu. Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)… - Các tác vụ khai phá dự báo thực hiện việc suy luận trên dữ liệu hiện thời để đưa ra các dự báo. Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regression)… 1.2 Các nhiệm vụ của khai phá dữ liệu Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển trong lĩnh vực khai phá dữ liệu. Dựa trên những loại tri thức được khám phá, chúng ta có thể phân loại như theo các nhiệm cụ như sau:  Khai phá luật thuộc tính: tóm tắt những thuộc tính chung của tập dữ liệu nào đó trong cơ sở dữ liệu. Ví dụ như những triệu chứng của một căn bệnh S thì thường có thể được thể hiện qua một tâp các thuộc tính A.  Khai phá những luật phân biệt: khai phá những đặc trưng, những thuộc tính để phân biệt giữa tập dữ liệu này với tập dữ liệu khác. Ví dụ như nhằm phân biệt giữa các chứng bệnh thì một luật phân biệt được dùng để tóm tắt những triệu chứng nhằm phân biệt chứng bệnh xác định với những chứng bệnh khác.  Khám phá luật kết hợp: khai phá sự kết hợp giữa những đối tượng trong một tập dữ liệu. Giả sử hai tập đối tượng {A 1 , A 2 ,… ,A n } và {B 1 , B 2 ,… ,B n } thì luật kết hợp có dạng {A 1 ^A 2 ^…^ A n ) →{B 1 ^ B 2 ^… ^B n ).  Khám phá luật phân lớp: phân loại dữ liệu vào trong tập những lớp đã biết. Ví dụ như một số chiếc xe có những đặc tính chung để phân vào các lớp dựa trên cách tiêu thụ nhiên liệu hoặc có thể phân vào các lớp dựa trên trọng tải…  Phân nhóm: xác định một nhóm cho một tập các đối tượng dựa trên thuộc tính của chúng. Một số các tiêu chuẩn được sử dụng để xác định đối tượng có thuộc về nhóm hay không.  Dự báo: dự báo giá trị có thể đúng cuỷa những dữ liệu bị thiếu hoặc sự phân bố thuộc tính nào đó trong tập dữ liệu. Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 8 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS  Khám phá quy luật biến đổi: tìm những tập luật phản ánh những hành vi tiến hóa, biến đổi chung của một tập dữ liệu. Ví dụ như luật khám phá những yếu tố chính tác động lên sự thay đổi của những giá cổ phiếu nào đó. 1.3 Các loại dữ liệu được khai phá Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau. Hầu hết các kiểu dữ liệu được khai phá là những kiểu sau: Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan hệ. Hầu hết những hệ quản trị cơ sở dữ liệu hiện nay đều hỗ trợ mô hình này như: Oracle, IBM DB2, MS SQL Server, MS Access… Cơ sở dữ liệu đa chiều: cơ sở dữ liệu này được gọi là nhà kho dữ liệu, trong đó dữ liệu được chọn từ nhiều ngồn khác nhau và chứa những đặc tính lịch sử thông qua thuộc tính thời gian tường minh hay ngầm định. Cơ sở dữ liệu giao tác: đây là loại cơ sở dữ liệu được sử dụng nhiều trong siêu thị, thương mại, tài chính, ngân hàng… Cơ sở dữ liệu quan hệ - hướng đố tượng: mô hình cơ sở dữ liệu này lai giữa mô hình hướng đối tượng và mô hình cơ sở dữ liệu quan hệ. Cơ sở dữ liệu thời gian, không gian: chứa những thông tin về không gian địa lý hoặc thông tin theo thời gian. Cơ sở dữ liệu đa phương tiện: loại dữ liệu này bao gồm: âm thanh, ảnh, video, văn bản và nhiều kiểu dữ liệu định dạng khác. Ngày nay loại dữ liệu này được sử dụng nhiều trên mạng Internet. 1.4 Lịch sử phát triển của Khai phá dữ liệu - Những năm 1960: Xuất hiện CSDL theo mô hình mạng và mô hình phân cấp. - Những năm 1970: Thiết lập nền tẩng lý thuyết cho CSDL quan hệ, các hệ quản trị CSDL quan hệ. - Những năm 1980: Hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trị CSDL quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, ) và hệ quản trị hướng ứng dụng trong lĩnh vực không gian, khoa học, công nghiệp, nông nghiệp, địa lý - Những năm 1990-2000: phát triển Khai phá dữ liệu và kho dữ liệu, CSDL đa phương tiện, và CSDL Web. 1.5 Ứng dụng của Khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nưa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt.  So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 9 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS đủ hoặc biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn  Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.  Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được: - Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều CSDL. - Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức có sẵn về lĩnh vực. - Kết quả phân tích của hệ thống có thể sẽ rất nhiều và khó có thể làm rõ được. - Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu.  Khai thác dữ liệu được ứng dụng rộng rãi trong rất nhiều lĩnh vực như:  Ngân hàng: ◊ Xây dựng mô hình dự báo rủi ro tín dụng. ◊ Tìm kiếm tri thức, qui luật của thị trường chứng khoán và đầu tư bất động sản. ◊ Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lý rủi ro cho thương mại điện tử  Thương mại điện tử: ◊ Công cụ tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng. ◊ Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loại khách hàng trong một phân khu thị trường nhất định  Nhân sự: ◊ Giúp nhà tuyển dụng chọn ứng viên thích hợp nhất cho nhu cầu của công ty  Y học: ◊ Hỗ trợ bác sĩ phát hiện ra bệnh của bệnh nhân dựa trên các xét nghiệm đầu vào  An ninh, an toàn mạng ◊ Ứng dụng trong hệ thống phát hiện xâm nhập trái phép IDS/IPS để phát hiện ra các cuộc tấn công xâm nhập mạng trái phép.  Vv……và nhiều lĩnh vực khác  Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh: ∗ BRANDAID: mô hình marketing linh hoạt tập chung vào hàng tiêu dùng đóng gói. Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 10 [...]... của khai phá dữ liệu - Phân loại trong khai phá dữ liệu - Các lĩnh vực ứng dụng của khai phá dữ liệu - Một số thách thức trong khai phá dữ liệu Chương sau sẽ giới thiệu về quy trình và phương thức thực hiện khai phá dữ liệu cũng như một số kỹ thuật dùng trong khai phá dữ liệu Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 11 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS Chương 2... đó, khai phá dữ liệu trên tập dữ liệu thu gọn yêu cầu ít thao tác vào ra và hiệu quả hơn khai phá dữ liệu trên tập dữ liệu lớn hơn, tập dữ liệu chưa khái quát hóa Do các lợi ích này, các kỹ thuật rời rạc hóa dữ liệu và Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 24 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS các phân cấp khái niệm được áp dụng trước quá trình khai phá dữ liệu. .. của dữ liệu Quá trình tiền xử lỹ dữ liệu bao Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 14 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS gồm: Làm sạch dữ liệu, tích hợp và biến đổi dữ liệu, rút gọn dữ liệu, rời rạc hóa dữ liệu và xây dựng các lược đồ phân cấp khái niệm Hình 2.3: Các hình thức tiền xử lý dữ liệu 2.3.1 Làm sạch dữ liệu Dữ liệu trong thực tế thường không đầy đủ,... lĩnh vực ứng dụng và những tri thức tương ứng Xác định mục đích của tiến trình khai phá dữ liệu từ qua điểm của người dùng  Giai đoạn 2: chuẩn bị dữ liệu để khai phá, thu thập dữ liệu và dữ liệu mẫu  Giai đoạn 3: tiền xử lý dữ liệu, xóa các thông tin bị nhiễu trong dữ liệu, loại bỏ sự trùng lặp dữ liệu và xác định chiến lược để xử lý dữ liệu bị mất  Giai đoạn 4: chiếu dữ liệu, thu nhỏ dữ liệu và... phương tiện trong một năm, lập kế hoạch sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm năng 1.6 Phân loại Chúng ta có thể phân lớp hệ thống khai phá dữ liệu theo các tiêu chuẩn sau: Phân lớp dựa trên loại dữ liệu được khai phá: những hệ thống khai phá dữ liệu làm việc với cơ sở dữ liệu quan hệ, nhà kho dữ liệu, cơ sở dữ liệu giao tác, cơ sở dữ liệu hướng đối tượng, đa phương tiện và... dựa trên kiểu tri thức khai phá: hệ thống khai phá dữ liệu xuất kết quả kiểu tóm tắt, mô tả, luật kết hợp, phân lớp, phân nhóm và dự báo… Phân lớp dựa trên loại kỹ thuật được sử dụng: hệ thống khai phá sử dụng các kỹ thuật OLAP, kỹ thuật máy học (cây quyết định, mạng neural, thuật giải tiến hóa, tập thô và tập mờ…) Phân lớp dựa trên lĩnh vực áp dụng khai phá: hệ thống được dùng trong nhiều lĩnh vực:... tìm những đặc trưng để khai phá Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 13 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS  Giai đoạn 5: chọn một phương pháp khai phá dữ liệu thích hợp nhất trong số các phương pháp phổ biến như: tóm tắt, phân lớp, hồi quy, phân nhóm, kết hợp…  Giai đoạn 6: từ thuật toán đã chọn, mô hình hóa thuật toán để giải quyết trong trường hợp cụ thể... miền giá trị dữ liệu mô tả phần lớn dữ liệu đã cho (Ví dụ khoảng giữa của dữ liệu sau Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 25 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS khi cắt đi mỗi đầu 5%) Các giá trị quá cao hay quá thấp nằm ngoài top-level discretization sẽ hình thành các khoảng riêng biệt 2.3.4.2 Tạo hệ thống phân cấp khái niệm cho dữ liệu phân loại Dữ liệu phân... loại những phương pháp khai phá dữ liệu theo các nhóm sau: Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 26 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS  Phương pháp thống kê: hướng tiếp cận thống kê dựa trên nền tảng mô hình xác suất Cách thực hiện dựa trên việc kiểm chứng những lý thuyết đã xác định trước và dựa trên việc làm thích hợp những mô hình cho dữ liệu Thông thường những... nguồn dữ liệu ban đầu Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 12 Ứng dụng kỹ . Giới thiệu về khai phá dữ liệu 7 1.2 Các nhiệm vụ của khai phá dữ liệu 8 1.3 Các loại dữ liệu được khai phá 9 1.4 Lịch sử phát triển của Khai phá dữ liệu 9 1.5 Ứng dụng của Khai phá dữ liệu 9 1.6. liệu cũng như một số kỹ thuật dùng trong khai phá dữ liệu. Vũ thị Vân_Khoa An toàn Thông tin_Học viện Kỹ thuật Mật mã 11 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS Chương 2 QUY TRÌNH. tin_Học viện Kỹ thuật Mật mã 2 Ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống IDS 4.2.2.1 Các mẫu bất thường của tấn công từ chối dịch vụ 94 4.2.2.2 Khai phá dữ liệu 96 4.2.3 Biểu diễn dữ liệu 97 Chương

Ngày đăng: 19/12/2014, 20:02

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC HÌNH VẼ

  • LỜI NÓI ĐẦU

  • Chương 1

    • TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

    • 1.1 Giới thiệu về khai phá dữ liệu

    • 1.2 Các nhiệm vụ của khai phá dữ liệu

    • 1.3 Các loại dữ liệu được khai phá

    • 1.4 Lịch sử phát triển của Khai phá dữ liệu

    • 1.5 Ứng dụng của Khai phá dữ liệu

    • 1.6 Phân loại

    • 1.7 Một số thách thức đặt ra cho việc khai phá dữ liệu

    • Kết chương

    • Chương 2

    • QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU

      • 2.1 Quy trình tổng quát thực hiện Khai phá dữ liệu

      • 2.2 Tiến trình khám phá tri thức khi đi vào một bài toán cụ thể

      • 2.3 Tiền xử lý dữ liệu

        • 2.3.1 Làm sạch dữ liệu

          • 2.3.1.1 Các giá trị thiếu

          • 2.3.1.2 Dữ liệu nhiễu

          • 2.3.2 Tích hợp và chuyển đổi dữ liệu

            • 2.3.2.1 Tích hợp dữ liệu

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan