Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99

58 3K 14
Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99 Luận văn tốt nghiệp 2013. MỤC LỤC Trang 1 1 DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT Viết tắt Viết đầy đủ HMD Hệ miễn dịch KDD Knowledge Discovery and Data Mining DoS Denial of Services R2L Remote to Local U2R User to Root DANH MỤC HÌNH Trang 2 2 3 3 MỞ ĐẦU I. Lí do chọn đề tài Cùng với sự phát triển của ngành công nghệ thông tin là nhiều thách thức đặt ra trong vấn đề bảo vệ hệ thống máy tính khỏi sự xâm nhập của các đoạn mã độc hại. Có nhiều kỹ thuật khác nhau được sử dụng cho mục đích bảo vệ sự an toàn của hệ thống máy tính như tường lửa, phần mềm chống virus và các hệ thống phát hiện xâm nhập. Ta có thể áp dụng hệ miễn dịch (HMD) nhân tạo để làm tăng khả năng phát hiện và loại bỏ những đoạn mã độc hại trong máy tính Việc áp dụng HMD nhân tạo vào bảo mật, an ninh mạng mang lại hiệu quả tối ưu hơn so với việc bảo mật bằng các phương pháp truyền thống trước đây. Khi có xâm nhập mạng, HMD nhân tạo sẽ tự động phân tích những hoạt động lạ không được phép của hệ thống, của người sử dụng, từ đó đưa ra những cảnh báo sớm để ngăn chặn kịp thời. Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phải tích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu đủ lớn và trong một thời gian dài. KDD CUP 99 (hay viết ngắn gọn là KDD 99) là một cơ sở dữ liệu nổi tiếng, có thể được sử dụng để huấn luyện cho những hệ thống như vậy. KDD 99 là một cơ sở dữ liệu rất lớn với khoảng 5 triệu bản ghi. Nó bao gồm rất nhiều tấn công mạng được ghi nhận trong môi trường mạng máy tính quân đội Mỹ. Tập con dữ liệu chiếm khoảng 10% với nửa triệu bản ghi được khuyến cáo sử dụng cho huấn luyện cũng là một thách thức với nhiều hệ thống học máy. Có nhiều vấn đề đặt ra nhằm làm giảm độ phức tạp huấn luyện như phân loại các bản ghi, loại bỏ các bản ghi trùng lặp,… trong cơ sở dữ liệu này. Chính vì vậy em đã quyết định chọn đề tài “Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99” làm đề tài nghiên cứu khoa học của mình. II. Mục đích nghiên cứu Nghiên cứu phương pháp sinh tập bộ dò có khả năng phát hiện tấn công DOS trong tập dữ liệu KDD CUP 99. 4 4 III.Nhiệm vụ nghiên cứu - Tìm hiểu một số thuật toán sinh tập bộ dò. - Đưa ra phương pháp tiền xử lý dữ liệu KDD 99 để rời rạc hóa dữ liệu cho sinh tập bộ dò của hệ miễn dịch nhân tạo. - Cài đặt chương trình thực nghiệm về thuật toán sinh tập bộ dò và áp dụng cho nhận dạng tấn công mạng loại DOS. IV. Phương pháp nghiên cứu Trong quá trình nghiên cứu đề tài, em sử dụng phối hợp các phương pháp sau: − Nghiên cứu lý thuyết: Tìm đọc các tài liệu cập nhật, các tài liệu tiếng Anh về lĩnh vực nghiên cứu. − Tham khảo ý kiến chuyên gia: Tham khảo ý kiến từ các thầy cô trong trường, các chuyên gia về bảo mật mạng cũng như những chuyên gia nghiên cứu lý thuyết về hệ miễn dịch nhân tạo. − Thực nghiệm: cài đặt các thuật toán và đánh giá chương trình trên một số tệp dữ liệu KDD. V. Cấu trúc của đề tài Mở đầu Chương 1: Trình bày tổng quan về miễn dịch sinh học và hệ miễn dịch nhân tạo. Chương 2: Tìm hiểu về cơ sở dữ liệu KDD CUP 99 Chương 3: Rời rạc hóa dữ liệu và cài đặt chương trình, thực nghiệm với bộ dữ liệu KDD cụ thể Kết luận Tài liệu tham khảo 5 5 Chương 1 HỆ MIỄN DỊCH NHÂN TẠO I. Hệ miễn dịch 1.2.1. Khái niệm hệ miễn dịch Miễn dịch học bắt đầu được biết đến vào năm 1976 khi Edward Jenner làm thí nghiệm tiêm một lượng nhỏ virus đậu mùa vào động vật, sau đó động vật này có thể chống lại virus đậu mùa lây nhiễm từ lần thứ hai trở đi. Quá trình này được gọi là quá trình tiêm chủng. Từ đó khoa học về miễn dịch liên tục phát triển đến nay nó đã đạt được rất nhiều thành tựu cả về mặt lý thuyết cũng như thực tế. Có thể định nghĩa HMD như sau: HMD là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể [2]. 1.2.2. Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch HMD là một cơ chế bảo vệ tự nhiên hiệu quả và tức thời, cho phép cơ thể chống lại những lây nhiễm của các vi sinh vật bên ngoài. Nó bao gồm hai tầng bảo vệ là: Hệ thống miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi. Cả hai hệ thống hoạt động dựa trên các tế bào bạch huyết (white blood cells) còn gọi là bạch cầu (leukocyte). Trong đó HMD bẩm sinh chủ yếu dựa vào bạch cầu hạt (granulocyte) và đại thực bào (macrophage), còn HMD thích nghi dựa vào tế bào lymphô (lymphocyte – là một loại bạch cầu). Hình 1.1. Các dòng miễn dịch và các thành phần của nó 6 6 Các thành phần gồm có: − Đại thực bào (Macrophage): Là thành phần của HMD bẩm sinh. Đại thực bào có khả năng trình diện các kháng nguyên với các tế bào khác và được gọi là các tế bào trình diện kháng nguyên (antigen-presenting cells – APC). Đại thực bào là một tế bào dọn dẹp lớn (một thực bào) có trong mô liên kết và trong nhiều cơ quan như tuỷ xương, lách, hạch bạch huyết, gan và thần kinh trung ương. Đại thực bào có liên kết mật thiết với các bạch cầu hạt đơn nhân. Đại thực bào cố định (mô bào) ở tại chỗ trong các mô liên kết; đại thực bào tự do di chuyển giữa các tế bào và tụ tập ở các ổ nhiễm để loại bỏ vi trùng và các thể ngoại lai khác ra khỏi các mô và máu. − Bạch cầu hạt (Granulocyte): Là thành phần của HMD bẩm sinh. Bạch cầu hạt gồm các loại bạch cầu trung tính (Neutrophils), bạch cầu ưa eosin (Eosionphils), bạch cầu ái kiếm (Basophils) có khả năng nuốt và tiêu huỷ một số vi sinh vật và một số phần của kháng nguyên xâm nhập vào cơ thể. − Bạch cầu trung tính (Neutrophils – Bạch cầu đa hình): Một bạch cầu có nhân hình thuỳ và trong bào tương có nhiều hạt nhỏ màu đỏ tía, bạch cầu trung tính có khả năng nuốt và giết các vi trùng, tạo thành một cơ chế bảo vệ quan trọng chống lại các bệnh nhiễm. − Bạch cầu ưa eosin (Eosionphils): Là một loại bạch cầu trong bào tương có những hạt thô nhuộm màu đỏ cam. Chức năng của loại bạch cầu này chưa được biết đầy đủ, chỉ biết chúng có khả năng nuốt các hạt lạ, có mặt với số lượng lớn trong niêm mạc và các cơ quan bề mặt bao phủ trong cơ thể đồng thời có liên quan đến các đáp ứng dị ứng. − Bạch cầu ái kiếm (Basophils): Chức năng của bạch cầu ái kiếm chưa được biết rõ, chỉ biết chúng có khả năng nuốt các vật lạ có chứa histamine và heparin. − Lymphô bào (Lymphocyte): Là thành phần của HMD thích nghi. Là một loại bạch cầu ở trong các hạch bạch huyết, lách, tuyến ức, thành ruột, và tuỷ xương. Các lymphô bào có nhân đặc và bào tương màu xanh lạt sáng. Lymphô bào có thể chia ra lymphô bào B sản sinh ra kháng thể và lymphô bào T liên quan đến việc loại thải mô ghép. Lymphô bào có nhiệm vụ nhận diện và loại bỏ tác nhân gây bệnh. 7 7 1.2.3. Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản HMD chứa một tập tế bào (cells) và phần tử (molecules) bảo vệ cơ thể chống lại sự lây nhiễm. Khi bị các kháng nguyên tấn công HMD thích nghi sẽ được kích hoạt. Kháng nguyên có thể là những phần tử bên ngoài (antigen) như các phần tử trên bề mặt của các tác nhân gây bệnh hoặc các kháng nguyên do tế bào của cơ thể tạo ra (self-antigen) [2]. Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD. Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện kháng nguyên (Antigen presenting Cells – APC). Đầu tiên những kháng nguyên sẽ bị các cơ quan trình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành các peptide kháng nguyên. Một phần của những peptide này kết hợp với các phần tử MHC (major histocompatibility complex – phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) trên bề mặt của APC tạo thành phức hợp MHC/peptide (II). T-Cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng các phức hợp MHC/peptide khác nhau (III). Mỗi khi nhận diện được MHC/peptide, T- cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu) hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác của HMD hoạt động (IV). Hình 1.2. Sự nhận diện và cơ chế kích hoạt đơn giản APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên, MHC (major histocompatibility complex): Phức hợp các phần tử có nhiệm vụ trình diện 8 8 peptide kháng nguyên cho T-cell, pathogen: Tác nhân gây bệnh, Lymphokines: Là một loại bạch cầu, B-cell: Tế bào lymphô B, Actived B-cell: B-cell được kích hoạt, T-cell: Tế bào lymphô T, Activated T-cell: T-cell được kích hoạt, Plasma cell: Tương bào. Không giống T-cell (lymphô bào T), B-cell (lymphô bào B) có các cơ quan thụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ của những phần tử MHC (V). Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhận diện một kháng nguyên cụ thể. Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B- cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasma cell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn. Những kháng thể này sẽ vô hiệu hoá tác nhân gây bệnh. Một số B-cell và T-cell được kích hoạt này sẽ chuyển thành các tế bào ghi nhớ (memory cell). Chúng sẽ tiếp tục lưu thông trong cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyên tương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của HMD. 1.2.4. Các tầng bảo vệ của hệ miễn dịch Hình 1.3. Các tầng miễn dịch HMD có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo vệ trong 3 mức: 9 9  Mức vật lý (Physical Barriers) gồm lớp da và màng nhầy nằm ở các tuyến hô hấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không cho những chất lạ xâm nhập vào cơ thể.  Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi, nước mắt chứa những enzym có thể loại bỏ kháng nguyên. Các axit trong vùng da cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của một kháng nguyên.  HMD thích nghi và bẩm sinh: − HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm). Những bạch huyết này có các cơ quan thụ cảm trên bề mặt có thể nhận diện và bám vào các phần tử gây bệnh. Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện và loại bỏ. HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so với lần thứ nhất. − HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell. Các B-cell và T- cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó. Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên. Một số lymphô bào sẽ trở thành self có khả năng ghi nhớ lưu thông trong cơ thể. Khi có loại kháng nguyên tương tự lây nhiễm, sau đó HMD thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng. Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độ với kháng nguyên. Tóm lại, lympho bào gồm lympho 10 10 [...]... thường 17 Chương 2 CƠ SỞ DỮ LIỆU KDD 99 2.1 Tổng quan về cơ sở dữ liệu KDD 99 2.1.1 Khái quát KDD 99 KDDCUP 99 là tập dữ liệu được sử dụng trong cuộc thi Khám phá kiến thức và Khai thác dữ liệu quốc tế lần thứ 3 cùng với Hội nghị Khám phá kiến thức và Khai thác dữ liệu KDD- 99 lần thứ năm Nhiệm vụ trong cuộc thi là xây dựng một máy phát hiện xâm nhập mạng, một mô hình tiên đoán có khả năng phân biệt giữa... các vấn đề có thể có trong KDD 99 Cuối cùng là thảo luận các vấn đề mới quan sát thấy trong các tập hợp dữ liệu KDD Đối với mục đích riêng: các thí nghiệm đã lựa chọn tổng hợp trên cả hai dữ 1 liệu: dữ liệu nền và dữ liệu tấn công, và dữ liệu được khẳng định là tương tự như một số dữ liệu mẫu quan sát được từ trong một số cơ sở dữ liệu của lực lượng 24 24 không quân Tuy nhiên, không phân tích cũng không... nó vẫn có thể được áp dụng như một tập dữ liệu chuẩn để giúp các nhà nghiên cứu so sánh phương pháp phát hiện xâm nhập khác nhau 2.2.2 Mô tả tập dữ liệu KDD Từ năm 1999 , tập dữ liệu KDD 99 đã được sử dụng nhiều nhất cho việc thẩm định các phương pháp phát hiện bất thường Tập hợp dữ liệu này được chuẩn bị và được xây dựng dựa trên các dữ liệu bắt được trong chương trình đánh giá Hệ thống phát hiện bất... tập dữ liệu KDD, 41 thuộc được sử dụng trong KDD, không liên quan đến bất kỳ khiếm khuyết nào đã đề cập Tuy nhiên, KDD lại tồn tại các vấn đề bổ sung mà nó không có trong bộ dữ liệu DARPA Portnoy et al đã phân chia tập dữ liệu KDD lập thành mười tập con, mỗi tập con có chứa khoảng 490.000 bản ghi hoặc 10% tập dữ liệu Tuy nhiên, họ quan sát thấy rằng việc phân phối các cuộc tấn công trong tập hợp dữ liệu. .. phát hiện bất thường Sự khiếm khuyết quan trọng đầu tiên trong tập dữ liệu KDD là số lượng rất lớn các bản ghi dư thừa Phân tích tập dữ liệu huấn luyện KDD và tập dữ liệu thử nghiệm thấy rằng khoảng 78% và 75% các bản ghi được nhân đôi trong tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm, tương ứng Số lượng lớn các bản ghi dư thừa trong các tập dữ liệu huấn luyện sẽ gây ra cho các thuật toán học thiên... thống máy tính có thể coi các gói dữ liệu là tác nhân gây bệnh, chúng được phân đoạn cụ thể Việc sử dụng tập dữ liệu để phù hợp với các phân đoạn trong gói dữ liệu được gọi là mẫu (pattern) Bằng cách sử dụng mối quan hệ trưởng thành tương tự với HMD tự nhiên, mẫu có thể nhận ra các phân đoạn tác nhân gây bệnh trong các gói dữ liệu, khác biệt là phải kiểm soát ngưỡng quan hệ Nếu chúng ta có bộ điều khiển... hành vi của tập dữ liệu KDD 99 Trong thí nghiệm người ta để giá trị mặc định của ứng dụng Weka là các thông số đầu vào của các phương pháp này Điều tra các giấy tờ hiện có về phát hiện bất thường đã sử dụng tập dữ liệu KDD thì thấy rằng có hai phương pháp phổ biến áp dụng cho KDD Đầu tiên, phần KDD 99 huấn luyện đã được để sử dụng lấy mẫu cho cả hai tập huấn luyện và thử nghiệm Tuy nhiên, trong cách tiếp... 2.2.3 Vấn đề có thể có trong tập dữ liệu KDD 99 Như đề cập trong phần trước, KDD 99 được xây dựng dựa trên các dữ liệu DARPA'98, do các dữ liệu là tổng hợp nên kết quả là một số vấn đề có trong DARPA'98 vẫn còn tồn tại trong KDD 99 Tuy nhiên, có một vài cải tiến hơn nó có thể là có chủ ý hoặc vô ý, và cùng với một số vấn đề bổ sung nữa Trong phần sau đây, xem xét lại các vấn đề trong DARPA'98 và sau... nghiên cứu được thực hiện trong phát hiện bất thường và xem xét các khía cạnh khác nhau như phương pháp học máy và phương pháp tiếp cận phát hiện, tập hợp dữ liệu huấn luyện, tập hợp dữ liệu thử nghiệm, và phương pháp đánh giá Nghiên cứu cho thấy rằng có một vấn đề vốn có trong bộ dữ liệu KDDCUP 99, nó được sử dụng rộng rãi như là một tập dữ liệu công bố công khai trên mạng cho hệ thống phát hiện bất... luyện trên tập dữ liệu huấn luyện KDD 99, chúng ta điều tra sự liên quan của mỗi thuộc tính trong tập dữ liệu phát hiện xâm nhập KDD 99 Cuối cùng, thông tin đạt được sử dụng để xác định các thuộc tính phân biệt nhất cho mỗi lớp 2.3.2 Phương pháp Như đã nêu trong phần giới thiệu, mục đích cơ bản của công việc này là để xác định sự đóng góp của các thuộc tính trong số 41 thuộc tính trong tập dữ liệu phát . phân loại các bản ghi, loại bỏ các bản ghi trùng lặp,… trong cơ sở dữ liệu này. Chính vì vậy em đã quyết định chọn đề tài Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99 . Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99 Luận văn tốt nghiệp 2013. MỤC LỤC Trang 1 1 DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT Viết tắt Viết đầy đủ HMD Hệ miễn dịch KDD. thường áp ứng tự miễn dịch Chuông cảnh báo Self Ứng xử bình thường Nonself Ứng xử bất thường 17 17 Chương 2 CƠ SỞ DỮ LIỆU KDD 99 2.1. Tổng quan về cơ sở dữ liệu KDD 99 2.1.1. Khái quát KDD 99 KDDCUP

Ngày đăng: 22/07/2014, 11:07

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • Chương 1 HỆ MIỄN DỊCH NHÂN TẠO

    • I. Hệ miễn dịch

      • 1.2.1. Khái niệm hệ miễn dịch

      • 1.2.2. Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch

      • Hình 1.1. Các dòng miễn dịch và các thành phần của nó

        • 1.2.3. Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản

        • Hình 1.2. Sự nhận diện và cơ chế kích hoạt đơn giản

          • 1.2.4. Các tầng bảo vệ của hệ miễn dịch

          • Hình 1.3. Các tầng miễn dịch

          • Hình 1.4. Liên kết (Binding)

            • 1.2.5. Phân biệt self và nonself

              • 1.1.5.1. Phép chọn lọc tích cực

              • 1.1.5.2. Phép chọn lọc tiêu cực

              • II. Hệ miễn dịch nhân tạo

                • 1.2.1. Hệ miễn dịch nhân tạo là gì?

                • 1.2.2. Cấu trúc cơ bản của hệ miễn dịch nhân tạo

                  • 1.2.2.1. Mô hình chung cho các hệ thống phỏng tiến hoá sinh học

                  • 1.2.2.2. Mô hình cho hệ miễn dịch nhân tạo

                  • 1.2.3. Nhận dạng mẫu gần đúng trong HMD nhân tạo

                  • Hình 1.6. Nhận diện mẫu gần đúng

                    • 1.2.4. Thuật toán chọn lọc tích cực và tiêu cực

                      • 1.2.4.1. Thuật toán chọn lọc tích cực (Positive Selection Algorithms)

                      • 1.2.4.2. Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms)

                      • 1.2.5. Sự tương quan giữa hệ miễn dịch với môi trường mạng

                      • Chương 2 CƠ SỞ DỮ LIỆU KDD 99

                        • 2.1. Tổng quan về cơ sở dữ liệu KDD 99

                          • 2.1.1. Khái quát KDD 99

                          • 2.1.2. Nguồn gốc các thuộc tính

                          • 2.2. Phân tích chi tiết về tập dữ liệu KDD 99

                            • 2.2.1. Giới thiệu

                            • 2.2.2. Mô tả tập dữ liệu KDD

                            • 2.2.3. Vấn đề có thể có trong tập dữ liệu KDD 99

Tài liệu cùng người dùng

Tài liệu liên quan