ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP

61 1.8K 12
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP MỞ ĐẦU Với sự phát triển mạnh mẽ trong lĩnh vực khoa học và công nghệ, Internet đang dần đi sâu hơn vào đời sống văn hóa, xã hội của con người, đã và đang mang lại nhiều lợi ích trong nhiều lĩnh vực của cuộc sống. Nó đang dần trở thành một thành phần quan trọng không thể tách rời của xã hội thông tin hiện đại. Ưu điểm của Internet so với các phương tiện trao đổi thông tin khác là sự đa dạng về các kiểu dữ liệu như: dữ liệu âm thanh, hình ảnh, văn bản và video và sự phong phú về nguồn dữ liệu. Các ứng dụng, phần mềm trợ giúp cho con người không ngừng phát triển và cải tiến. Từ đó, con người có thể tự động hóa nhiều khâu góp phần giảm sức lực lao động thủ công, cơ chế làm việc nhanh gọn hơn. Tuy nhiên, Internet cũng có hai mặt của nó. Đi cùng với những ưu điểm là những nhược điểm không thể tránh khỏi, làm tăng nguy cơ người dùng phải đối mặt với những nguy hiểm do chính con người tạo ra với mục đích xấu. Với sự đầy đủ và tiện dụng của Internet, nó đã bị những người có ý định xấu sử dụng với mục đích tấn công, xâm nhập tài nguyên mạng trái phép, nhằm vụ lợi cho bản thân. Trong hệ thống mạng, các máy chủ thường là mục tiêu chính của các cuộc tấn công. Kẻ xấu có thể xâm nhập hệ thống trái phép, cài đặt thêm các phần mềm gián điệp, làm tê liệt hệ thống hoặc chiếm quyền điều khiển hệ thống. Các gói tin trao đổi trên đường truyền cũng có thể bị giả mạo, bị nghe trộm hoặc thay đổi gói tin. Những hành vi trên có thể gây ra những hậu quả vô cùng to lớn, ảnh hưởng đến các cá nhân hoặc các tổ chức có liên quan. Do đó, việc nghiên cứu phát triển các phương pháp phòng chống xâm nhập mạng hiệu quả là rất cần thiết hiện nay. Hiện nay đã có một số phương pháp phát hiện đột nhập mạng được nghiên cứu và phát triển. Đồ án này trình bày một phương pháp tiếp cận cho việc xây dựng một mô hình phát hiện đột nhập dựa trên máy vec-tơ hỗ trợ kết hợp với giải thuật đồng huấn luyện, với mong muốn nâng cao khả năng phát hiện các cuộc tấn công đột nhập mạng. Đồ án gồm có bốn chương được tổ chức như sau: Chương 1: Tổng quan về phát hiện đột nhập: Trình bày khái quát về các yêu cầu đảm bảo an toàn cho hệ thống máy tính và mạng, các phương pháp tấn công hệ thống và tổng quan về hệ thống phát hiện đột nhập cũng như các kỹ thuật xử lý dữ liệu trong phát hiện đột nhập. Nội dung cuối của chương mô tả cách tiếp cận của phương pháp SVM kết hợp giải thuật đồng huấn luyện vào lĩnh vực phát hiện đột nhập. Chương 2: Cơ sở lý thuyết của phương pháp SVM và đồng huấn luyện: Trình bày về cơ sở lý thuyết được nghiên cứu sử dụng trong phương pháp, bao gồm cơ sở lý thuyết về phương pháp phân loại dựa trên máy vec-tơ hỗ trợ và nội dung cơ bản của giải thuật đồng huấn luyện. Chương 3: Xây dựng mô hình phát hiện đột nhập: Nội dung của chương tập trung trình bày quá trình xây dựng mô hình phát hiện đột nhập dựa trên phương pháp SVM kết hợp giải thuật đồng huấn luyện và các kết quả thực tế rút ra được khi áp dụng vào tập dữ liệu KDD 99. Chương 4: Kết luận: Tổng kết lại toàn bộ những vấn đề đã thực hiện được trong đồ án này. Dựa trên những kết quả thu được để từ đó nêu ra những hướng nghiên cứu và phát triển trong tương lai nhằm cải thiện hiệu quả của phương pháp được nghiên cứu.

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP Giảng viên hướng dẫn Sinh viên thực Lớp Khoá Hệ : : : : : TS HOÀNG XUÂN DẬU HOÀNG MINH D08CNPM2 11 (2008-2013) Chính quy Hà Nội, tháng 12 /2012 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP Giảng viên hướng dẫn Sinh viên thực Lớp Khoá Hệ : : : : : TS HOÀNG XUÂN DẬU HOÀNG MINH D08CNPM2 11 (2008-2013) Chính quy Hà Nội, tháng 12 /2012 Đồ Án Tốt Nghiệp Đại Học Mở đầu MỞ ĐẦU Với phát triển mạnh mẽ lĩnh vực khoa học công nghệ, Internet dần sâu vào đời sống văn hóa, xã hội người, mang lại nhiều lợi ích nhiều lĩnh vực sống Nó dần trở thành thành phần quan trọng tách rời xã hội thông tin đại Ưu điểm Internet so với phương tiện trao đổi thông tin khác đa dạng kiểu liệu như: liệu âm thanh, hình ảnh, văn video phong phú nguồn liệu Các ứng dụng, phần mềm trợ giúp cho người khơng ngừng phát triển cải tiến Từ đó, người tự động hóa nhiều khâu góp phần giảm sức lực lao động thủ công, chế làm việc nhanh gọn Tuy nhiên, Internet có hai mặt Đi với ưu điểm nhược điểm tránh khỏi, làm tăng nguy người dùng phải đối mặt với nguy hiểm người tạo với mục đích xấu Với đầy đủ tiện dụng Internet, bị người có ý định xấu sử dụng với mục đích cơng, xâm nhập tài ngun mạng trái phép, nhằm vụ lợi cho thân Trong hệ thống mạng, máy chủ thường mục tiêu cơng Kẻ xấu xâm nhập hệ thống trái phép, cài đặt thêm phần mềm gián điệp, làm tê liệt hệ thống chiếm quyền điều khiển hệ thống Các gói tin trao đổi đường truyền bị giả mạo, bị nghe trộm thay đổi gói tin Những hành vi gây hậu vơ to lớn, ảnh hưởng đến cá nhân tổ chức có liên quan Do đó, việc nghiên cứu phát triển phương pháp phòng chống xâm nhập mạng hiệu cần thiết Hiện có số phương pháp phát đột nhập mạng nghiên cứu phát triển Đồ án trình bày phương pháp tiếp cận cho việc xây dựng mơ hình phát đột nhập dựa máy vec-tơ hỗ trợ kết hợp với giải thuật đồng huấn luyện, với mong muốn nâng cao khả phát công đột nhập mạng Đồ án gồm có bốn chương tổ chức sau: Chương 1: Tổng quan phát đột nhập: Trình bày khái quát yêu cầu đảm bảo an toàn cho hệ thống máy tính mạng, phương pháp công hệ thống tổng quan hệ thống phát đột nhập kỹ thuật xử lý liệu phát đột nhập Nội dung cuối chương mô tả cách tiếp cận phương pháp SVM kết hợp giải thuật đồng huấn luyện vào lĩnh vực phát đột nhập Chương 2: Cơ sở lý thuyết phương pháp SVM đồng huấn luyện: Trình bày sở lý thuyết nghiên cứu sử dụng phương pháp, bao gồm sở lý thuyết phương pháp phân loại dựa máy vec-tơ hỗ trợ nội dung giải thuật đồng huấn luyện Chương 3: Xây dựng mơ hình phát đột nhập: Nội dung chương tập trung trình bày q trình xây dựng mơ hình phát đột nhập dựa phương pháp SVM kết hợp giải thuật đồng huấn luyện kết thực tế rút áp dụng vào tập liệu KDD 99 Chương 4: Kết luận: Tổng kết lại toàn vấn đề thực đồ án Dựa kết thu để từ nêu hướng nghiên cứu phát triển tương lai nhằm cải thiện hiệu phương pháp nghiên cứu Hoàng Minh – D08CNPM2 Đồ Án Tốt Nghiệp Đại Học Mở đầu Do hạn chế mặt kiến thức thời gian, đồ án khơng tránh khỏi thiếu sót Vì em mong nhận ý kiến đóng góp thầy giáo bạn sinh viên để em nâng cao kiến thức nhằm phục vụ cho nghiên cứu sau Hoàng Minh – D08CNPM2 Đồ Án Tốt Nghiệp Đại Học Lời cảm ơn LỜI CẢM ƠN Đầu tiên em xin gửi lời biết ơn sâu sắc tới Thầy giáo, Tiến sĩ Hồng Xn Dậu, người thầy tận tình bảo, định hướng cho em suốt trình thực đồ án vừa qua, đồng thời giúp em tiếp cận nhiều phương pháp tư nghiên cứu khoa học Em xin gửi lời cảm ơn chân thành tới tất thầy cô giáo khoa Công nghệ thông tin thầy cô giáo khoa Cơ – Học viện Cơng nghệ Bưu Viễn thơng tận tình giúp đỡ, dạy dỗ động viên em suốt trình học tập nghiên cứu trường Em xin gửi lời cảm ơn sâu sắc chân thành đến gia đình, bạn bè tận tình giúp đỡ, động viên đóng góp ý kiến quý báu giúp em hoàn thiện đồ án Xin chân thành cảm ơn! Hà Nội, tháng 12 năm 2012 Sinh viên thực Hoàng Minh Hoàng Minh – D08CNPM2 NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của Người hướng dẫn) ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Điểm: …………………….………(bằng chữ: … …………… ….) Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp? Hà Nội, ngày tháng 12 năm 2012 CÁN BỘ - GIẢNG VIÊN HƯỚNG DẪN (ký, họ tên) Hoàng Minh – D08CNPM2 NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM (Của Người phản biện) ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Điểm: …………………….………(bằng chữ: … …………… ….) Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp? Hà Nội, ngày tháng 12 năm 2012 CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN (ký, họ tên) Hoàng Minh – D08CNPM2 Đồ Án Tốt Nghiệp Đại Học Mục lục MỤC LỤC MỞ ĐẦU LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC HÌNH VẼ 10 DANH MỤC CÁC BẢNG, BIỂU ĐỒ 11 KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT 12 CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN ĐỘT NHẬP 13 1.1 TỔNG QUAN VỀ PHÁT HIỆN ĐỘT NHẬP 13 1.1.1 Các yêu cầu an tồn hệ thống máy tính mạng 13 1.1.2 Các phương pháp công hệ thống 13 1.1.3 Hệ thống phát xâm nhập 18 1.1.4 Các phương pháp phát xâm nhập 19 1.2 CÁC KỸ THUẬT XỬ LÝ DỮ LIỆU TRONG PHÁT HIỆN ĐỘT NHẬP 24 1.2.1 Phân tích thống kê 24 1.2.2 Phân biệt ý định người dùng 24 1.2.3 Phát xâm nhập dựa luật 24 1.2.4 Phân tích trạng thái phiên 25 1.2.5 Hệ thống chuyên gia 25 1.2.6 Kỹ thuật mạng nơ-ron 25 1.2.7 Phương pháp Colored Petri Nets 25 1.2.8 Phương pháp loại suy miễn dịch máy tính 25 1.2.9 Học máy 25 1.3 MƠ TẢ BÀI TỐN ĐỀ XUẤT TRONG ĐỒ ÁN 26 1.4 KẾT CHƯƠNG 27 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP SVM VÀ ĐỒNG HUẤN LUYỆN 28 2.1 TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI 28 2.1.1 Khái niệm phân lớp 28 2.1.2 Giới thiệu học có giám sát, học không giám sát học bán giám sát 28 2.1.3 Một số phương pháp phân lớp 30 2.2 CƠ SỞ LÝ THUYẾT VỀ PHƯƠNG PHÁP SVM 32 2.2.1 Tổng quan SVM 32 2.2.2 Phân lớp tuyến tính 34 2.2.3 Phân lớp tuyến tính với trường hợp không phân tách 38 2.2.4 Phân lớp phi tuyến tính 41 2.3 GIỚI THIỆU VỀ GIẢI THUẬT ĐỒNG HUẤN LUYỆN 44 2.3.1 Thuật toán đồng huấn luyện 44 2.3.2 Quy trình thực thuật toán đồng huấn luyện 45 2.4 KẾT HỢP SVM VÀ ĐỒNG HUẤN LUYỆN VÀO BÀI TOÁN PHÁT HIỆN ĐỘT NHẬP 45 2.5 KẾT CHƯƠNG 46 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH PHÁT HIỆN ĐỘT NHẬP 47 3.1 XÂY DỰNG MƠ HÌNH PHÁT HIỆN ĐỘT NHẬP 47 3.1.1 Tiền xử lý liệu 48 3.1.2 Tách đặc trưng riêng biệt 48 3.1.3 Huấn luyện xây dựng mơ hình 48 Hoàng Minh – D08CNPM2 Đồ Án Tốt Nghiệp Đại Học Mục lục 3.1.4 Kiểm thử mơ hình 48 3.2 CÀI ĐẶT MƠ HÌNH 49 3.2.1 Tập liệu thử nghiệm 49 3.2.2 Cài đặt mơ hình 53 3.3 KẾT QUẢ THỰC NGHIỆM 54 3.3.1.Thực nghiệm quan sát tính xác phân loại 54 3.3.2.Thực nghiệm quan sát phụ thuộc độ xác vào tập liệu huấn luyện gán nhãn 57 3.4 KẾT CHƯƠNG 58 CHƯƠNG 4: KẾT LUẬN 59 4.1 KẾT QUẢ ĐẠT ĐƯỢC 59 4.2 HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI 59 DANH MỤC TÀI LIỆU THAM KHẢO 60 Hoàng Minh – D08CNPM2 Đồ Án Tốt Nghiệp Đại Học Danh mục hình vẽ DANH MỤC CÁC HÌNH VẼ Hình 1.1 Tấn cơng gián đoạn 16 Hình 1.2 Tấn cơng thay đổi 17 Hình 1.3 Tấn cơng giả mạo 17 Hình 1.4 Tấn cơng nghe trộm 17 Hình 1.5 Tấn cơng từ chối dịch vụ 18 Hình 1.6 Sơ đồ chức hệ thống phát xâm nhập 19 Hình 1.7 Mơ hình Network – Based IDS 20 Hình 1.8 Mơ hình Host Based IDS 22 Hình 1.9 Mơ hình phát mẫu sai (Misuse Detection) 23 Hình 1.10 Mơ hình phát khơng bình thường (Anomaly Detection) 24 Hình 2.1 Minh họa biên tốn phân lớp 33 Hình 2.2 Minh họa biên cực đại toán phân lớp 33 Hình 2.3 Mặt phẳng phân tách theo giá trị vector pháp tuyến ngưỡng 34 Hình 2.4 Minh họa độ rộng biên 35 Hình 2.5 Minh họa đường viền biên 35 Hình 2.6 Ví dụ tốn phân loại tuyến tính không tách biệt 38 Hình 2.7 Các điểm lỗi liệu 39 Hình 2.8 Ảnh hưởng tham số C đến toán phân lớp 39 Hình 2.9 Chuyển đổi khơng gian biểu diễn 41 Hình 2.10 Khơng gian đầu vào 42 Hình 2.11 Khơng gian đặc trưng 42 Hình 2.12 Minh họa hàm nhân đa thức 43 Hình 2.13 Sơ đồ biểu diễn quy trình thuật tốn đồng huấn luyện 45 Hình 2.14 Sơ đồ thiết lập thuật toán đồng huấn luyện 45 Hình 2.15 Mơ tả thuật tốn SVM kết hợp đồng huấn luyện 46 Hình 3.1 Mơ hình phát đột nhập 47 Hoàng Minh – D08CNPM2 10 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập CHƯƠNG 3: XÂY DỰNG MƠ HÌNH PHÁT HIỆN ĐỘT NHẬP Chương trình bày quy trình bước để xây dựng nên mơ hình phát đột nhập dựa sở lý thuyết SVM đồng huấn luyện trình bày chương Chương sâu vào tập liệu thực quy ước chúng để tập liệu đầu vào đảm bảo tính quán tránh dư thừa liệu, từ mơ hình phát đột nhập dựa tập liệu huấn luyện sử dụng để phát loại đột nhập 3.1 XÂY DỰNG MƠ HÌNH PHÁT HIỆN ĐỘT NHẬP Quy trình xây dựng mơ hình phát đột nhập gồm có: - Quá trình tiền xử lý liệu - Quá trình tách tập đặc trưng riêng biệt - Quá trình huấn luyện xây dựng mơ hình - Q trình kiểm thử mơ hình Tập liệu KDD Cup 99 Tiền xử lý liệu Tập liệu huấn luyện Tách tập đặc trưng riêng biệt Chia tập liệu Tập liệu kiểm thử Bộ phân loại huấn luyện Bộ phân loại kiểm thử Hình 3.1 Mơ hình phát đột nhập Hoàng Minh – D08CNPM2 47 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập 3.1.1 Tiền xử lý liệu Dữ liệu truyền mạng đa dạng phong phú Cũng thế, sở liệu kết nối mạng bao gồm nhiều tham số với thuộc tính khác Các thuộc tính mang tính chất liên tục (như thuộc tính thời gian, đếm…) mang tính chất rời rạc (như kiểu giao thức kết nối, cờ trạng thái…) Để xây dựng mơ hình liệu phải xử lý dạng thống trước đưa vào mơ hình Thống liệu giúp cho việc xây dựng mơ hình xác tăng hiệu xử lý phát đột nhập 3.1.2 Tách đặc trưng riêng biệt Đây trình chia tập đặc trưng ban đầu thành hai tập độc lập Việc chia phải đảm bảo hai tập độc lập lẫn tập biểu diễn đầy đủ liệu Quá trình phân loại tập khơng ảnh hưởng đến q trình phân loại tập 3.1.3 Huấn luyện xây dựng mô hình Mục đích bước xây dựng mơ hình xác định tập lớp liệu Mơ hình xây dựng cách phân tích liệu sở liệu, liệu xác định giá trị thuộc tính Giả sử liệu thuộc lớp đựơc định nghĩa trước, điều xác định thuộc tính, gọi thuộc tính phân lớp Trong ngữ cảnh toán phân lớp, liệu xem mẫu, ví dụ, hay đối tượng Những liệu phân tích để xây dựng mơ hình phân lớp lấy từ tập liệu học hay liệu huấn luyện (training data set) Những liệu riêng lẻ tạo thành tập liệu huấn luyện gọi mẫu huấn luyện (training samples) chọn ngẫu nhiên từ kho mẫu Mơ hình đưa sau phân tích xong tập liệu huấn luyện thường có dạng quy tắc phân lớp, định hay cơng thức tốn học Luật phân lớp sử dụng để phân loại mẫu liệu liệu tương lai, cung cấp tri thức hữu ích chứa sở liệu 3.1.4 Kiểm thử mô hình Mục tiêu bước kiểm tra đánh giá Bước sử dụng mơ hình phân lớp xây dựng bước huấn luyện vào việc phân lớp Đầu tiên, đánh giá độ xác mơ hình hay phân lớp này, cách sử dụng tập mẫu phân lớp để thử (test) gọi thử (test set) Những mẫu chọn ngẫu nhiên độc lập với mẫu học bước huấn luyện gọi mẫu thử (test sample) Độ xác mơ hình phân lớp dựa thử tỷ lệ mẫu thử phân lớp mơ hình phân lớp Nghĩa với mẫu thử, so sánh lớp mà mẫu thử thuộc với lớp mà mơ hình phân lớp dự đốn cho mẫu thử Lưu ý, độ xác mơ hình dựa tập liệu huấn luyện, mơ hình đánh giá tối ưu, phân lớp hồn tồn mẫu học, trường hợp này, mơ hình hướng tới q khít (overfitting) liệu Vì phải sử dụng liệu liệu thử Nếu độ xác mơ hình xem xét chấp nhận mơ hình dùng để phân lớp cho liệu đối tượng tương lai Hoàng Minh – D08CNPM2 48 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập 3.2 CÀI ĐẶT MƠ HÌNH 3.2.1 Tập liệu thử nghiệm Tập liệu sử dụng đồ án tập sở liệu KDD (Knowledge Discovery and Data Mining – 1999) – tập liệu sử dụng hội nghị công cụ khám phá tri thức khai phá liệu giới lần thứ năm 1999 Tập liệu tạo the Defense Advanced Research Projects Agency (DARPA) năm 1998 nhằm tạo tiêu chuẩn để đánh giá hệ thống phát đột nhập Nó đánh giá tỉ lệ phát phát sai hệ thống, cách đính kèm nhiều kiểu mẫu công biết mẫu công Trên 300 mẫu công bao gồm liệu tuần thu thập liệu đánh giá Trên 300 mẫu cơng gồm 32 kiểu công khác kịch công khác biểu diễn tập tin KDD Tập liệu huấn luyện gồm gigabytes liệu nén nhị phân xử lý thành triệu ghi kết nối lấy từ tuần thu thập liệu lưu lượng mạng Tương tự đó, liệu kiểm thử bao gồm triệu ghi kết nối lấy từ tuần thu thập lưu lượng mạng Tập KDD 99 chứa tất 24 kiểu công cho huấn luyện, kèm theo 14 kiểu công tập kiểm thử Bốn lớp công tập KDD 99 bao gồm: - Denial of Services (DoS): kiểu công mà kẻ công thực hành động làm cho máy tính nguồn tài nguyên dung lượng bị bận tải liên tục để nắm quyền điều khiển yêu cầu từ chối truy cập người dùng đến máy tính - Remote to User Attacks (R2L): kiểu công mà kẻ công gửi gói tin đến máy tính mạng mà khơng có tài khoản máy tính đó, giả mạo để có quyền truy cập cục người dùng bình thường máy tính - User to Superuser or Root Attacks (U2R): kiểu công mà kẻ công chiếm quyền truy cập người dùng bình thường hệ thống sử dụng quyền để cơng chiếm quyền hệ thống - Probing (Probe): kiểu công mà kẻ cơng thăm dị qt mạng máy tính để thu thập thơng tin tìm điểm yếu hệ thống.Từ với danh sách máy tính dịch vụ thực thi mạng đó, kẻ cơng sử dụng chúng để khai thác thơng tin tài ngun Hồng Minh – D08CNPM2 49 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.1 Các kiểu công lớp công tập liệu KDD Cup 99 # Lớp công Kiểu công Normal Normal DoS apache2, back, land, mailbomb, neptune , pod, processtable, smurf, teardrop, udpstrom Probe ipsweep, mscan, nmap, portsweep, saint, satan R2L ftp_write, guess_passwd, imap, multihop, named, phf, sendmail, spy, snmpgetattack, snmpguess ,warezclient, warezmaster, worm, xlock, xsnoop U2R buffer_overflow, httptunnel, loadmodule, perl, ps, rootkit, sqlattack, xtern Mỗi process chứa nhiều lời gọi hệ thống (system calls), lời gọi hệ thống ghi văn Mọi process tập liệu KDD 99 bao gồm 41 thuộc tính liệt kê bảng 3.2 Hồng Minh – D08CNPM2 50 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.2 Các thuộc tính tập liệu KDD Cup 99 STT Đặc trưng STT Đặc trưng duration 22 is_guest_login protocol_type 23 count service 24 srv_count flag 25 serror_rate src_bytes 26 srv_serror_rate dst_bytes 27 rerror_rate land 28 srv_rerror_rate wrong_fragment 29 same_srv_rate urgent 30 diff_srv_rate 10 hot 31 srv_diff_host_rate 11 num_failed_logins 32 dst_host_count 12 logged_in 33 dst_host_srv_count 13 num_compromised 34 dst_host_same_srv_rate 14 root_shell 35 dst_host_diff_srv_rate 15 su_attempted 36 dst_host_same_src_port_rate 16 num_root 37 dst_host_srv_diff_host_rate 17 num_file_creations 38 dst_host_serror_rate 18 num_shells 39 dst_host_srv_serror_rate 19 num_access_files 40 dst_host_rerror_rate 20 num_outbound_cmds 41 dst_host_srv_rerror_rate 21 is_host_login Như nói phần tiền xử lý liệu, đặc trưng phải chuyển sang dạng số phương pháp phân loại SVM chấp nhận đầu vào dạng số cho liệu huấn luyện kiểm thử Vì có số giả thiết gán số cho đặc trưng văn liệt kê bảng 3.3 Hoàng Minh – D08CNPM2 51 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.3 Các giá trị thuộc tính chuyển đổi sang dạng số Kiểu Lớp Chuyển đổi Tấn cơng/Bình thường Tấn cơng Lớp Chuyển đổi imap4 23 Bình thường iso_tsap 24 Kiểu giao thức TCP Klogin 25 (Protocol Type) UDP Kshell 26 ICMP Ldap 27 OTH Link 28 REJ Login 29 RSTO Mtp 30 RSTOS0 Name 31 RSTR netbios_dgm 32 S0 netbios_ns 33 S1 netbios_ssn 34 S2 Netstat 35 S3 Nnsp 36 SF 10 nntp 37 SH 11 telnet 38 Auth Time 39 Bgp Uucp 40 Courier uucp_path 41 csnet_ns Vmnet 42 Ctf Whois 43 Daytime Z39_50 44 Discard ntp_u 45 Domain Other 46 domain_u pop_2 47 Echo 10 pop_3 48 eco_i 11 Printer 49 ecr_i 12 Private 50 Efs 13 remote_job 51 Exec 14 Rje 52 Finger 15 Shell 53 ftp 16 smtp 54 ftp_data 17 sql_net 55 Gopher 18 Ssh 56 Hostnames 19 Sunrpc 57 http 20 Supdup 58 http_443 21 Systat 59 IRC 22 X11 60 Cờ (Flag) Dịch vụ (Service) Hoàng Minh – D08CNPM2 Kiểu Dịch vụ (Service) 52 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập 3.2.2 Cài đặt mơ hình Bước q trình cài đặt mơ hình lựa chọn tập liệu Do tập liệu KDD Cup 99 lớn, em sử dụng tập liệu Các kết thử nghiệm so sánh với phương pháp phát dựa thuật toán phân loại C-SVM theo tài liệu tham khảo [2] đưa Thuật toán C-SVM trình bày phần 2.2.3 Để so sánh xác việc phân loại hai thuật toán SVM co-training C-SVM, em sử dụng tập liệu tập KDD CUP 99, bao gồm: tập chứa 62206 ghi, 93309 ghi Mỗi tập liệu thử nghiệm theo quy trình sau: Từ tập liệu KDD CUP 99 ta tách thành hai phần, bao gồm phần dùng cho trình huấn luyện phần cịn lại dùng cho q trình kiểm thử Phần liệu dùng cho trình huấn luyện áp dụng thuật toán SVM cotraining C-SVM để xây dựng mơ hình phát đột nhập tương ứng Mơ hình có khả gán nhãn cho mẫu liệu truyền vào dạng công hay bình thường Trong trình kiểm thử, phần liệu dùng cho kiểm thử đưa vào mô hình phát đột nhập để kiểm chứng tính xác mơ hình Để đánh giá độ xác mơ hình phát đột nhập, ta xét ma trận (Confusion matrix): Gọi a số lượng dự đốn xác mẫu ‘negative’ Gọi b số lượng dự đốn khơng xác mẫu ‘positive’ Gọi c số lượng dự đốn khơng xác mẫu ‘negative’ Gọi d số lượng dự đốn xác mẫu ‘positive’ Bảng 3.4 Các thơng số dự đốn độ xác Dự đốn Negative Negative a b Positive Nhãn thật Positive c d Các thơng số đánh giá độ xác mơ hình bao gồm: Độ xác (Accuracy – AC) số lượng mẫu dự đoán AC  ad abcd True Positive (TP): tỉ lệ phát mẫu công (các nhãn positive gán nhãn positive) TP  d cd False Positive (FP): tỉ lệ phát sai mẫu công lại gán nhãn công (các nhãn negative bị gán nhãn nhầm positive) Hoàng Minh – D08CNPM2 53 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập FP  b ab True Negative (TN): tỉ lệ phát mẫu công (các nhãn negative gán nhãn negative) TN  a ab False Negative (FN): tỉ lệ phát sai mẫu cơng lại gãn nhãn bình thường (các nhãn positive bị gán nhãn nhầm negative) FN  P Precision (P): c cd d bd Quá trình thực nghiệm thực theo hai hướng:  Hướng quan sát tính xác phân loại hai thuật toán SVM cotraining C-SVM theo chiều hướng tăng dần tập liệu kiểm thử  Hướng quan sát phụ thuộc độ xác vào tập huấn luyện gán nhãn hai thuật toán SVM co-training C-SVM theo chiều hướng giảm dần tập liệu huấn luyện gán nhãn 3.3 KẾT QUẢ THỰC NGHIỆM 3.3.1.Thực nghiệm quan sát tính xác phân loại  Thực nghiệm 1: Quan sát tập liệu KDD CUP 99 chứa 62206 ghi Ta chia tập thành hai tập: tập liệu huấn luyện tập liệu kiểm thử Hai tập chia theo tỉ lệ phần trăm so với tập cha Xét thực nghiệm với tập liệu kiểm thử 5%, 20%, 40% so với tập cha Bảng 3.5 Độ xác với 5% liệu kiểm thử tập 62206 ghi C-SVM Số ghi gán nhãn 2989 Số ghi gãn nhãn sai 160 121 94.85% 96.12% Tỉ lệ gán nhãn sai Hoàng Minh – D08CNPM2 2950 Tỉ lệ gán nhãn Tập 5% liệu kiểm thử SVM co-training 5.15% 3.88% 54 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.6 Độ xác với 20% liệu kiểm thử tập 62206 ghi C-SVM Tập 20% Số ghi gãn nhãn sai liệu kiểm thử Tỉ lệ gán nhãn Tỉ lệ gán nhãn sai 11876 12309 565 132 95.46 % 98.94 % 4.54 % Số ghi gán nhãn SVM co-training 1.06 % Bảng 3.7 Độ xác với 40% liệu kiểm thử tập 62206 ghi C-SVM Tập 40% Số ghi gãn nhãn sai liệu kiểm thử Tỉ lệ gán nhãn Tỉ lệ gán nhãn sai 23859 24640 1023 242 95.89 % 99.02 % 4.11 % Số ghi gán nhãn SVM co-training 0.98 % Biểu đồ thể tương quan độ xác mơ hình thuật tốn SVM cotraining với C-SVM: Biểu Đồ 3.1 Độ xác hai thuật tốn tập 62206 ghi 100 Độ xác (%) 99 98 97 C-SVM 96 SVM Co-training 95 94 93 92 5% 20% 40% Tập liệu kiểm thử  Thực nghiệm 2: Quan sát tập liệu KDD CUP 99 chứa 93309 ghi Ta chia tập thành hai tập: tập liệu huấn luyện tập liệu kiểm thử Hai tập chia theo tỉ lệ phần trăm so với tập cha Xét thực nghiệm với tập liệu kiểm thử 5%, 20%, 40% so với tập cha Hoàng Minh – D08CNPM2 55 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.8 Độ xác với 5% liệu kiểm thử tập 93309 ghi C-SVM Số ghi gán nhãn Tập 5% liệu Số ghi gãn nhãn sai kiểm thử Tỉ lệ gán nhãn Tỉ lệ gán nhãn sai SVM co-training 4430 4588 235 77 94.98 % 98.35 % 5.02 % 1.65 % Bảng 3.9 Độ xác với 20% liệu kiểm thử tập 93309 ghi C-SVM Số ghi gán nhãn Tập 20% Số ghi gãn nhãn sai liệu kiểm thử Tỉ lệ gán nhãn Tỉ lệ gán nhãn sai SVM co-training 17863 18473 799 188 95.72 % 98.99 % 4.28 % 0.71 % Bảng 3.10 Độ xác với 40% liệu kiểm thử tập 93309 ghi C-SVM Số ghi gán nhãn Tập 40% Số ghi gãn nhãn sai liệu kiểm thử Tỉ lệ gán nhãn Tỉ lệ gán nhãn sai SVM co-training 35584 36976 1740 348 95.34 % 99.07 % 4.66 % 0.93 % Biểu đồ thể tương quan độ xác mơ hình thuật tốn SVM cotraining với C-SVM: Hồng Minh – D08CNPM2 56 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Độ xác (%) Biểu Đồ 3.2 Độ xác hai thuật toán tập 93309 ghi 100 99 98 97 96 95 94 93 92 C-SVM SVM Co-training 5% 20% 40% Tập liệu kiểm thử 3.3.2.Thực nghiệm quan sát phụ thuộc độ xác vào tập liệu huấn luyện gán nhãn Bảng 3.11 Độ xác hai thuật toán với 5% liệu gán nhãn C-SVM Số ghi gán nhãn Tập 5% liệu Số ghi gãn nhãn sai mẫu gán Tỉ lệ gán nhãn nhãn Tỉ lệ gán nhãn sai SVM co-training 12235 12309 206 132 98.34 % 98.94 % 1.66 % 1.06 % Bảng 3.12 Độ xác hai thuật tốn với 20% liệu gán nhãn C-SVM Số ghi gán nhãn Tập 20% Số ghi gãn nhãn sai liệu mẫu gán Tỉ lệ gán nhãn nhãn Tỉ lệ gán nhãn sai Hoàng Minh – D08CNPM2 SVM co-training 18503 18530 159 132 99.15 % 99.29 % 1.85 % 0.71 % 57 Đồ Án Tốt Nghiệp Đại Học Chương – Xây dựng mơ hình phát đột nhập Bảng 3.13 Độ xác hai thuật tốn với 40% liệu gán nhãn C-SVM Số ghi gán nhãn Tập 40% Số ghi gãn nhãn sai liệu mẫu gán Tỉ lệ gán nhãn nhãn Tỉ lệ gán nhãn sai SVM co-training 30944 30973 159 130 99.49 % 99.58 % 0.51 % 0.42 % Biểu đồ thể phụ thuộc vào tập huấn luyện mẫu gán nhãn Biểu Đồ 3.3 Sự phụ thuộc độ xác vào tập liệu mẫu gán nhãn 99.8 99.6 Độ xác (%) 99.4 99.2 99 98.8 98.6 C-SVM 98.4 SVM-cotraining 98.2 98 97.8 97.6 50% 30% 5% Tập liệu mẫu gán nhãn 3.4 KẾT CHƯƠNG Chương đồ án trình bày q trình xây dựng mơ hình phát đột nhập hai thuật toán SVM kết hợp đồng huấn luyện C-SVM, dựa lý thuyết trình bày từ chương trước Từ đó, hiểu q trình xây dựng mơ hình phải trải qua bước bao gồm: tiền xử lý liệu, tách lọc thuộc tính, huấn luyện mơ hình kiểm thử mơ hình Thơng qua việc cài đặt thử nghiệm thực tế tập liệu KDD 99, kết thu mang đến tin cậy việc phát đột nhập thuật tốn SVM kết hợp với đồng huấn luyện Qua thấy tính xác hiệu thuật toán SVM co-training so với phương pháp C-SVM Mơ hình nghiên cứu phát triển thêm tương lại nhằm tối ưu hiệu suất hệ thống, giảm thời gian xử lý phát đột nhập Hoàng Minh – D08CNPM2 58 Đồ Án Tốt Nghiệp Đại Học Chương – Kết luận CHƯƠNG 4: KẾT LUẬN 4.1 KẾT QUẢ ĐẠT ĐƯỢC Đồ án trình bày bước xây dựng mơ hình phát đột nhập dựa phương pháp phân loại SVM kết hợp với giải thuật đồng huấn luyện Dựa sở lý thuyết phương pháp SVM giải thuật đồng huấn luyện, mơ hình đạt số kết định việc phát đột nhập thơng qua q trình thử nghiệm tập liệu KDD 99 Nội dung chi tiết phần mà đồ án làm sau:  Đưa nhìn khái quát vấn đề hệ thống mạng, ưu nhược điểm yêu cầu cần thiết để đảm bảo an tồn cho mạng Thơng qua nhằm nâng cao ý thức người dùng trước nguy tiềm ẩn mạng máy tính  Trình bày cách khái quát sở lý thuyết phương pháp phân lớp dựa máy vec-tơ hỗ trợ, thuật toán đồng huấn luyện cách kết hợp để tạo phương pháp phát xâm nhập mạng  Xây dựng cài đặt thành cơng mơ hình phát đột nhập dựa SVM kết hợp đồng huấn luyện thử nghiệm tập liệu KDD Cup 99 Từ rút hiệu mơ hình so với mơ hình sử dụng phân lớp C-SVM 4.2 HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI Dựa ý tưởng điều chưa thực tại, em đề phương hướng nghiên cứu phát triển tương lai sau:  Tối ưu hóa cài đặt giải thuật trình phát đột nhập Hiện thời gian để mơ hình phân loại phát đột nhập chậm so với yêu cầu cần thiết việc tìm nhanh chóng mẫu phát đột nhập mạng  Nâng cao độ xác phát đột nhập mơ hình tập liệu có hàng triệu ghi Ngồi phải nâng cao khả phát đột nhập với mẫu, phương pháp phát chưa xuất  Cải tiến mơ hình nhằm giảm phụ thuộc mơ hình vào số lượng tập liệu gán nhãn ban đầu Do mẫu gán nhãn có số lượng tốn nhiều cơng sức chi phí để tạo ra, việc giảm thiểu số lượng mẫu liệu gán nhãn mà giữ độ xác mơ hình cần thiết Hoàng Minh – D08CNPM2 59 Đồ Án Tốt Nghiệp Đại Học Danh mục tài liệu tham khảo DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Nhật Quang, Học máy, Viện Công nghệ thông tin truyền thơng, 2011 Trần Thị Oanh, Thuật tốn self-training co-training ứng dụng phân lớp văn bản, Đại học Công nghệ, Hà Nội, 2006 Tiếng Anh: Chih-Wei Hsu, Chih-Chung Chang, Chih-Jen Lin, A Practical Guide to Support Vector Classification, Department of Computer Science, 2003 Asa Ben-Hur, Jason Weston, A User’s Guide to Support Vector Machines, Colorado State University Carlos Guestrin, Co-training for Semi-supervised learning, Carnegie Mellon University, 2007 Stijin Vanderlooy, Co-training of Version Space Support Vector Machines, Transnational University Limburg, 2004-2005 Felix Feger, Irena Koprinska, Co-training Using RBF Nets and Diffirent Feature Splits Seong-Bae-Park, Byoung-Tak-Zhang, Co-trained support vector machines for large scale unstructured document classification using unlabeled data and syntactic information, School of Computer Science and Engineering, Seoul National University, 2003 Avrim Blum, Tom Mitchell, Combining Labeled and Unlabeled Data with CoTraining, Carnegie Mellon University Bertrand Portier, Jerome Curtil, Data Mining Techniques for Intrusion Detection, The University of Texas, 2000 Shailendra Kumar, Preeti Jain, Effective Anomaly based Intrusion Detection using Rough Set Thery and Support Vector Machine, Samarat Ashok Technological Institute, 2011 10 Dustin Boswell, Introduction to Support Vector Machines, 2002 11 Wu Shuyue, Yu Jie, Fan Xiaoping, Research on Intrusion Detection method based on SVM Co-training, Central South University , Human International Economics University, National University of Defense Technology, 2011 12 Andrew W.Moore, Support Vector Machines, School of Computer University, 2001 13 Jason Weston, Support Vector Machine and Statistical Learning Theory, NEC Labs America Hoàng Minh – D08CNPM2 60 Đồ Án Tốt Nghiệp Đại Học Danh mục tài liệu tham khảo 14 Rung-Ching Chen, Kai-Fan Cheng, Chia-Fen Hsieh, Using Rough Set and Support Vector Machine for Network Intrusion Detection, Department of Information Management Chaoyang University of Technology, 2009 Danh mục Website tham khảo: http://www.support-vector-machines.org/ http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html http://weka.wikispaces.com/Use+WEKA+in+your+Java+code http://www.cs.columbia.edu/~wenke/papers/usenix/usenix.html Hoàng Minh – D08CNPM2 61 ... GIẢI THUẬT ĐỒNG HUẤN LUYỆN 44 2.3.1 Thuật toán đồng huấn luyện 44 2.3.2 Quy trình thực thuật tốn đồng huấn luyện 45 2.4 KẾT HỢP SVM VÀ ĐỒNG HUẤN LUYỆN VÀO BÀI TOÁN PHÁT HIỆN... Nội, tháng 12 /2012 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THƠNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU THUẬT TOÁN SVM KẾT HỢP ĐỒNG HUẤN LUYỆN VÀ ỨNG DỤNG TRONG PHÁT HIỆN ĐỘT NHẬP... Machine – SVM) kết hợp đồng huấn luyện Thuật toán đồng huấn luyện thuật toán thuộc phần học bán giám sát Đây phương pháp kết hợp sử dụng liệu gán nhãn liệu chưa gán nhãn, đó, liệu gán nhãn cần

Ngày đăng: 13/05/2014, 11:32

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan