Một cách tiếp cận để giảm chiều dữ liệu trong việc xây dựng các hệ thống phát hiện (tt)

8 143 0
Một cách tiếp cận để giảm chiều dữ liệu trong việc xây dựng các hệ thống phát hiện (tt)

Đang tải... (xem toàn văn)

Thông tin tài liệu

MỘT CÁCH TIẾP CẬN ĐỂ GIẢM CHIỀU DỮ LIỆU TRONG VIỆC XÂY DỰNG CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG HIỆU QUẢ Hoàng N gọc Thanh Trường đại học Lạc Hồng Đồng Nai, Việt Nam e-mail: thanhhn.dbv@gmail.com Trần Văn Lăng Viện Cơ học Tin học ứng dụng, VAST Tp Hồ Chí Minh, Việt Nam e-mail: langtv@vast.vn Tóm tăt - Chức hệ thống phát xâm nhập mạng (Intrusion Detection System: IDS) đế bảo vệ hệ thống, phân tích dự báo hành vi truy cập mạng người sử dụng Những hành vi xem xét bình thường công Các phương pháp máy học sử dụng IDS nhờ khả học hỏi từ mẫu liệu khứ đế nhận mẫu công Các phương pháp hiệu lại có chi phí tính tốn tương đối cao Trong đó, khối lượng tốc độ liệu mạng phát triến ngày nhanh, vấn đề chi phí máy tính cần phải giải Bài viết đề cập đến việc sử dụng thuật toán kết hợp với độ đo thông tin đế rút gọn thuộc tính tập liệu cần phân tích Nhờ đó, giúp xây dựng IDS với chi phí thấp hiệu cao phù hợp với mạng quy mô lớn Kết thử nghiệm tập liệu NSL-KDD99 sử dụng đánh giá chéo 5-fold minh chứng: với tập thuộc tính tối ưu phù hợp vói kiếu phân lớp phương pháp máy học, độ xác phân lớp IDS cải thiện với thời gian tính tốn "khơng có mơ hình" phương pháp gây chi phí tính tốn tương đối cao Hơn nữa, khối lượng tốc độ liệu mạng phát triển ngày nhanh, vấn đề chi phí máy tính cần phải giải [1] Một giải pháp quan trọng nhằm giảm chi phí tính tốn rút gọn số thuộc tính liệu cần phân tích Có nhiều tiếp cận khác vấn đề học giả trình bày [2, 3, 4] Tuy nhiên, thuộc tính lựa chọn không phụ thuộc vào kiểu phân lớp mà phụ thuộc vào phương pháp máy học, đến chưa có nghiên cứu đánh giá đầy đủ thuộc tính phù hợp ứng với kiểu phân lớp, phương pháp máy học sử dụng IDS Nội dung báo đề xuất sử dụng độ đo thông tin như: tỷ suất lợi ích thuộc tính tương quan để xếp hạng độ quan trọng thuộc tính tập liệu cần phân tích Sau đó, sử dụng hai thuật toán Backward Elimination Ranking (BER) Forward Selection Ranking (FSR) [1] để loại bỏ thuộc tính khơng cần thiết Từ đó, tìm tập thuộc tính rút gọn tốt ứng với kiểu phân lớp phương pháp máy học Việc rút gọn số thuộc tính liệu giúp cải thiện hiệu IDS dựa máy học, cụ thể giảm thời gian huấn luyện kiểm tra, đồng thời tăng độ xác phân lớp Từ khóa: Máy học; An ninh mạng; Rút gọn thuộc tính I GIỚI THIỆU Do tiến công nghệ gần đây, dịch vụ dựa mạng ngày đóng vai trò quan trọng xã hội đại Kẻ xâm nhập khơng ngừng tìm kiếm lỗ hổng hệ thống máy tính để truy cập trái phép vào nhân hệ thống Tuy nhiên, IDS chưa đủ linh hoạt, khả mở rộng không cao, khơng đủ mạnh để đối phó với công Trước đây, phương pháp dựa luật chiếm ưu Những phương pháp tìm xâm nhập cách so sánh đặc tính liệu cần phân tích với dấu hiệu công biết Khi lưu lượng mạng phát triển nhanh chóng, việc cập nhật dấu hiệu cơng ngày trở nên khó khăn, tẻ nhạt tốn nhiều thời gian Kể từ đó, phương pháp máy học giới thiệu để giải vấn đề phát xâm nhập Máy học đề cập đến thuật tốn máy tính có khả học hỏi từ mẫu liệu khứ để nhận mẫu công Dựa máy học, IDS hoạt động tốt nhiều báo cáo thực tế triển khai Tuy nhiên, tài sản II TẬP DỮ LIỆU Trước phân lớp đưa vào sử dụng để phát xâm nhập mạng, phân lớp phải trải qua trình huấn luyện kiểm tra, việc huấn luyện kiểm tra thực tập liệu gán nhãn trước Theo thống kê [5], tập liệu sử dụng phổ biến thí nghiệm KDD99, tạo cách xử lý phần liệu TCPDUMP lấy tuần từ hệ thống phát xâm nhập DARPA 1998 KDD99 gồm tập liệu huấn luyện kiểm tra Tập liệu huấn luyện có 4.898.431 ghi, ghi có 41 thuộc tính (loại giao thức, dịch vụ cờ) dán nhãn bình thường cơng cách xác với kiếu cơng cụ [6] Số thứ tự tên thuộc tính mô tả chi tiết Bảng Bảng TẬP 41 THUỘCTÍNHCỦATẬP DỮLIỆUKDD99 duration 22 is guest login protocol type 23 count service 24 srv count flag 25 serror rate src bytes 26 srv serror rate dst bytes 27 rerror rate land 28 srv rerror rate wrong fragment 29 same srv rate urgent 30 diff srv rate 10 hot 31 srv diff host rate 11 num failed logins 32 dst host count 12 logged in 33 dst host srv count 13 num compromised 34 dst host same srv rate 14 root shell 35 dst host diff srv rate 15 su attempted 36 dst host same src_port rate 16 num root 37 dst host srv diff host rate 17 num file creations 38 dst host serror rate 18 num shells 39 dst host srv serror rate 19 num access files 40 dst host rerror rate 20 21 num outbound cmds 41 dst host srv rerror rate is host login Tập liệu huấn luyện chứa 22 kiểu công thêm 17 kiểu tập liệu kiểm tra, phân thành nhóm: (1) Denial of Service (DoS), gồm kiểu cơng như: neptune, smurf, pod, teardrop, Ở đó, kẻ cơng làm cho tài ngun tính tốn nhớ tải để xử lý yêu cầu hợp lệ, từ chối người dùng hợp lệ truy cập máy (2) Remote to Local (R2L), gồm kiểu công như: guess-passwd, ftp-write, imap, phf, Ở đó, kẻ cơng khơng có tài khoản có khả gửi gói tin đến máy qua mạng, khai thác số lỗ hổng để đạt quyền truy cập cục người sử dụng máy (3) User to Root (U2R), gồm kiểu công như: buffer-overflow, load-module, perl, rootkit, Ở đó, kẻ cơng bắt đầu với quyền truy cập bình thường sau khai thác số lỗ hổng để đạt quyền truy cập root hệ thống (4) Probe, gồm kiểu cơng như: port-sweep, ip-sweep, nmap, Ở đó, kẻ công nỗ lực thu thập thông tin mạng máy tính nhằm phá vỡ khả kiểm sốt an ninh Năm 2009, Tavallaee đồng nghiệp [6] tiến hành phân tích thốngliệu KDD99 Các tác giả tìm thấy số lượng lớn ghi thừa, 78% tập liệu huấn luyện 75% tập liệu kiếm tra Số lượng ghi trùng lặp ngăn chặn thuật toán máy học với ghi không xuất thường xuyên công U2R Các tác giả lưu ý ghi trùng lặp tập liệu KDD99 làm cho kết đánh giá bị sai lệch, thuật toán phát tốt với ghi xuất thường xuyên Tavallaee đồng nghiệp [6] tạo liệu NSL-KDD từ tập liệu KDD99 đế giải vấn đề đề cập trên, cách loại bỏ ghi thừa Tập liệu huấn luyện NSL-KDD gồm 125.973 ghi tập liệu kiếm tra gồm 22.544 ghi, nhiều so với tập liệu KDD99 Các tác giả cho kích thước tập liệu NSL-KDD hợp lý, sử dụng tập liệu hoàn chỉnh mà không cần phải lấy mẫu ngẫu nhiên Điều cho phép xem xét cách quán so sánh cơng trình nghiên cứu khác Thơng tin chi tiết kiếu công tập liệu NSL-KDD mô tả Bảng Bảng Thông tin tập liệu NSL-KDD Phân lớp Tên công Normal Số ghi Tỷ lệ % 67.343 53, 45 Probe ipsweep, mscan, nmap, portsweep, saint, satan 11.656 9, 26 DoS apache2, back, land, mailbomb, neptune, pod, processtable, smurf, teardrop, udpstorm 45.927 36, 46 U2R buffer overflow, httptunnel, loadmodule, perl, ps, rootkit, sqlattack, xterm 52 0, 04 R2L ftp write, guess_passwd, imap, multihop, named, phf, sendmail, snmpgetattack, snmpguess, spy, warezclient, warezmaster, worm, xlock, xsnoop 995 0, 79 125.973 100% Tổng cộng III GIẢI PHÁP Đế tìm tập thuộc tính phù hợp với kiếu phân lớp phương pháp máy học Trước tiên, tùy kiếu phân lớp, thuộc tính thứ tự (giảm dần) dựa vào độ đo thơng tin Sau đó, thuật tốn lựa chọn thuộc tính áp dụng đế lựa chọn thuộc tính phù hợp ứng với phương pháp máy học Phần tiếp sau trình bày sơ lược độ đo thông tin, mơ hình máy học, tiêu chí đánh giá, thuật tốn lựa chọn thuộc tính sử dụng thí nghiệm A Các độ đo thơng tin Các độ đo thông tin đề xuất sử dụng đế xếp hạng độ quan trọng thuộc tính tập liệu cần phân tích gồm: tỷ suất lợi ích (Gain Ratio: GR) thuộc tính tương quan (Correlation Attribute: CA) Giả thiết: S: Tập liệu huấn luyện Si: Lớp tập lớp Ci (i=1, m) aj Giá trị thuộc tính A (j=1, v) Chỉ số thông tin (Information) cho phân lớp: I(Si, S2 SM) = - i r=1ệ l o g ( f ) Giả sử thuộc tính A chọn để huấn luyện, A={S’1, S’2, S’v} Khi đó, số thơng tin mong muốn (Entropy) cho phân lớp A tính theo cơng thức: E“ - ỉ ; i ^ ( - f f i , ặ i o g 2ậ ) Trong đó, S’ij trường hợp phân lớp S’ (1) Độ lợi thơng tin có thuộc tính A tính sau [7]: Gain(A) - I(Si, s2, , Sm) - Ent(A) (2) Tỷ suất lợi ích tính sau [7]: Gain Ratio(A) - Gain(A)/Split Info(A) (3) Tương quan thuộc tính định mức độ phụ thuộc thuộc tính, đại diện cho mối quan hệ tuyến tính thuộc tính [7]: ỵ iM i- Ã m - Ẽ ) rab Ẩ NaAaB Ở đây, N số ghi, at bi giá trị tương ứng A B ghi thứ i, A B giá trị trung bình A B; ƠA ƠB độ lệch chuẩn A, B B Các mơ hình máy học Phần trình bày tóm tắt số mơ hình máy học [8] sử dụng thực nghiệm để tìm tập thuộc tính tối thiểu phù hợp ứng với kiểu phân lớp: (1) K láng giềng gần (k-NN): phương pháp truyền thống phi tham số đơn giản để phân lớp liệu Nó tính khoảng cách xấp xỉ điểm khác dựa liệu đầu vào sau định điểm khơng dán nhãn vào lớp k láng giềng gần Trong trình phân lớp, k tham số quan trọng giá trị khác k tạo kết khác Nếu k lớn đáng kể, láng giềng sử dụng để dự đoán làm cho thời gian phân lớp lớn ảnh hưởng đến tính xác dự báo (2) Máy vectơ hỗ trợ (SVM): Là giải thuật máy học dựa lý thuyết học thống kê Vapnik (1998) đề xuất Bài toán SVM toán phân lớp loại lớp: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp ký hiệu +1 -1, mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phang (3) Mạng nơ ron nhân tạo (ANN): Là mơ hình xử lý thông tin mô hoạt động hệ thống thần kinh sinh vật (Haykin, 1999), bao gồm số lượng lớn nơ ron gắn kết để xử lý thông tin Mạng nơ ron nhiều lớp (MLP) cấu trúc mạng nơ ron sử dụng rộng rãi toán phân lớp MLP gồm lớp đầu, tập hợp nút đầu vào; nhiều lớp ẩn nút tính tốn lớp đầu nút tính tốn Mỗi kết nối nơ ron gắn với trọng số điều chỉnh suốt q trình huấn luyện Ngồi ra, thuật toán lan truyền ngược sử dụng để đào tạo MLP (4) Cây định (DT): Với ưu điểm mình, DT đánh giá công cụ mạnh, phổ biến đặc biệt thích hợp cho khai khống liệu nói chung phân lớp liệu nói riêng Ngồi ưu điểm như: xây dựng tương đối nhanh, đơn giản Việc phân lớp dựa DT đạt tương tự, xác so với phương pháp phân lớp khác Các thí nghiệm thực phần sau minh chứng cho nhận định C Tiêu chí đánh giá Nếu FP số mẫu bị phân lớp sai dương tính; TP số mẫu phân lớp dương tính; FN số mẫu bị phân lớp sai âm tính; TN số mẫu phân lớp âm tính Việc đánh giá hiệu IDS thực qua việc đo so sánh số [9]: - Accuracy - (TP + TN) / (TP + FP + TN + FN) - Sensitivity - Recall - TPR - TP / (TP + FN) - Specificity - TNR - TN / (TN + f P) - Efficiency - (Sensitivity + Specificity) / - Độ xác cảnh báo: Precise - TP / (TP+FP) - Thời gian huấn luyện - Thời gian kiểm tra Có nhiều phương pháp đánh giá độ xác dự báo như: đánh giá chéo K-fold, Holdout, Re­ substitution Leave-one-out [10] Trong đó, đánh giá chéo K-fold xem hiệu quả, phù hợp với IDS Theo đó, ghi phân ngẫu nhiên thành k tập con; tập định tập liệu kiểm tra tập lại xử lý tập liệu huấn luyện Sau đó, q trình đánh giá chéo lặp lại k lần, độ xác phân lớp kiểm tra thơng qua độ xác phân lớp trung bình từ k lần đánh giá Đánh giá chéo K-fold đặc biệt phù hợp với nguồn liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực D Thuật tốn chọn lựa thuộc tính Có hai thuật tốn lựa chọn thuộc tính đề xuất thực Forward Selection Ranking (FSR) Backward Elimination Ranking (BER) Thuật toán (FSR), xuất phát từ tập thuộc tính rỗng, sau thuộc tính chọn để bổ sung việc bổ sung thuộc tính giúp cải thiện độ xác phân lớp hệ thống, thuộc tính có độ đo thơng tin lớn chọn để bổ sung trước Lưu đồ giải thuật thuật tốn trình bày Hình Thuật tốn thứ hai (BER), xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộc tính chọn để loại bỏ việc loại bỏ thuộc tính giúp cải thiện độ xác phân lớp hệ thống, thuộc tính có độ đo thơng tin nhỏ chọn để loại bỏ trước Lưu đồ giải thuật thuật tốn trình bày Hình Hình Thuật tốn lựa chọn thuộc tính BER IV KẾT QUẢ THÍ NGHIỆM Thông tin chi tiết tập liệu dùng thí nghiệm, số mẫu tin cụ thể ứng với kiểu công tập liệu thống kê Bảng Bảng CÁCtập Dữ liệu thí nghiệm Tên tập liệu NSL-KDD Probe-U2R-R2L Hình Thuật tốn lựa chọn thuộc tính FSR Các chương trình, thuật tốn thí nghiệm sử dụng ngơn ngữ lập trình C#, dựa thư viện, khung làm việc máy học Accord.NET (http://accordframework.net) sở liệu SQL Server 2014 Thuật toán định dùng C4.5; thuật toán k láng giềng gần dùng k=5, kết chọn sau chạy thử kiểm tra với giá trị khác k; thuật tốn SVM dùng SVM tuyến tính Số mẫu tin ứng với kiểu công Normal DoS Probe U2R 11.656 52 995 41.102 52 1.126 67.343 45.927 R2L Trong đó, tập liệu NSL-KDD sử dụng cho phân lớp Normal DoS, tập liệu ProbeU2R-R2L gồm tất mẫu tin kiểu cơng Probe, U2R R2L rút trích từ tập liệu KDD99, sử dụng cho phân lớp lại: Probe, U2R R2L Đó tỷ lệ mẫu tin kiểu công Probe, U2R R2L tập liệu NSLKDD ít, khơng đảm bảo độ xác phân lớp đánh giá hiệu thuật toán Tiếp theo, tùy kiểu phân lớp Normal, DoS, Probe, U2R R2L, ta tiến hành tính tốn độ đo thơng tin thuộc tính Kết tính tốn xếp độ đo thơng tin thuộc tính trình bày Bảng với độ đo thông tin đề xuất tỷ suất lợi ích GR thuộc tính tương quan CA Bảng CÁCthuộc tính xếp theo độ đo thông tin Phân lớp Độ đo thông tin Các thuộc tính theo thứ tự giảm dần độ đo thông tin GR 12, 26, 4, 25, 39, 30, 38, 6, 5, 29, 3, 37, 8, 33, 34, 35, 31, 41, 23, 32, 28, 16, 27, 36, 19, 2, 13, 15, 10, 1, 40, 17, 11, 24, 14, 18, 22, 7, 9, 20, 21 CA 29, 33, 34, 12, 39, 38, 25, 26, 4, 23, 32, 3, 2, 28, 41, 27, 40, 35, 30, 31, 8, 36, 37, 1, 22, 19, 15, 17, 14, 10, 16, 13, 18, 7, 5, 6, 11, 9, 21, 24, 20 GR 26, 37, 16, 40, CA 29, 39, 38, 25, 26, 34, 23, 33, 4, 12, 32, 3, 31, 36, 37, 2, 8, 40, 1, 27, 28, 22, 41, 35, 10, 24, 19, 14, 11, 17, 15, 18, 7, 30, 16, 13, 9, 5, 6, 21, 20 GR 12, 15, 40, 26, CA 12, 10, 22, 35, 27, 40, 4, 34, 29, 41, 28, 3, 30, 11, 14, 32, 23, 31, 24, 19, 13, 18, 26, 37, 39, 17, 2, 25, 16, 38, 9, 1, 15, 33, 36, 6, 5, 20, 8, 7, 21 GR 14, 35, 31, 20, 13, 27, 29, 22, CA 14, 40, 33, 36, 18, 12, 17, 13, 16, 9, 27, 32, 35, 34, 4, 28, 41, 3, 29, 19, 31, 30, 23, 24, 38, 2, 26, 39, 37, 1, 10, 11, 22, 25, 5, 6, 15, 7, 8, 20, 21 GR 12, 22, 10, 6, 11, 16, 13, 19, 15, 5, 3, 37, 39, 1, 41, 35, 34, 30, 33, 29, 40, 4, 2, 32, 28, 23, 27, 31, 17, 25, 24, 26, 38, 36, 18, 20, 9, 8, 14, 7, 21 CA 12, 22, 10, 35, 27, 40, 4, 3, 29, 34, 41, 28, 30, 11, 23, 32, 31, 24, 19, 26, 37, 39, 25, 2, 38, 16, 13, 1, 9, 17, 15, 18, 33, 14, 36, 6, 5, 7, 20, 8, 21 Normal DoS Probe U2R R2L 25, 39, 4, 38, 5, 30, 12, 6, 29, 8, 35, 3, 34, 23, 33, 31, 32, 1, 13, 36, 22, 10, 19, 17, 14, 2, 11, 15, 18, 24, 9, 27, 7, 41, 28, 20, 21 22, 10, 6, 11, 14, 17, 19, 18, 9, 13, 5, 16, 3, 37, 39, 1, 41, 35, 34, 30, 33, 29, 4, 2, 28, 32, 23, 27, 31, 25, 24, 38, 36, 20, 8, 7, 21 17, 18, 16, 6, 10, 1, 12, 5, 3, 41, 40, 4, 32, 23, 28, 33, 34, 38, 24, 2, 30, 26, 25, 8, 39, 37, 7, 15, 9, 19, 36, 11, 21 Sau đó, hai thuật tốn lựa chọn thuộc tính BER FSR áp dụng để lựa chọn thuộc tính phù hợp ứng với phương pháp máy học Kết độ xác phân lớp (accuracy) độ nhạy (sensitivity) sử dụng đánh giá chéo 5-fold tốt ứng với kiểu phân lớp, độ đo thông tin, mơ hình máy học trình bày bảng từ Bảng đến Bảng 14 Theo đó, cột GR thể độ xác (hoặc độ nhạy) phân lớp sử dụng độ đo thông tin tỷ suất lợi ích cột CA thể độ xác (hoặc độ nhạy) phân lớp sử dụng độ đo thơng tin thuộc tính tương quan, cuối cột FULL thể độ xác (hoặc độ nhạy) phân lớp sử dụng đầy đủ 41 thuộc tính Dễ dàng nhận thấy trường hợp, độ xác độ nhạy phân lớp với tập thuộc tính rút gọn cải thiện so với tập thuộc tính đầy đủ Với phân lớp Normal, phương pháp máy học dùng DT với thuộc tính chọn nhờ thuật toán kết hợp BER-GR cho kết tốt độ xác (99.73%) lẫn độ nhạy (99.74%) Với phân lớp DoS, phương pháp máy học dùng DT với thuộc tính chọn nhờ thuật toán kết hợp BER-CA cho kết tốt độ xác (99.98%) lẫn độ nhạy (99.97%) Tương tự, với phân lớp Probe, phương pháp máy học dùng DT với thuộc tính chọn nhờ thuật toán kết hợp BER-CA cho kết tốt độ xác (99.93%) lẫn độ nhạy (99.96%) Riêng phân lớp U2R, phương pháp máy học dùng DT với thuộc tính chọn nhờ thuật tốn kết hợp BER-GR kết tốt độ xác 99.91%, độ nhạy đạt 88.61%, thấp so với sử dụng đầy đủ 41 thuộc tính 99.87% Tương tự, với phân lớp R2L, phương pháp máy học dùng DT với thuộc tính chọn nhờ thuật toán kết hợp BER-CA cho kết tốt độ xác 99.91%, nhiên độ nhạy đạt 99.01%, thấp chút so với sử dụng đầy đủ 41 thuộc tính 99.83% Bảng Đ ỘCHÍNHXÁCPHÂNLỚPNORMAL BƠ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 92.74% 94.81% 99.73% 99.31% 95.50% 95.62% 99.68% CA 91.87% 94.74% 99.71% 99.31% 95.50% 95.64% 99.67% FULL 89.56% 94.11% 99.71% 99.11% 95.31% 95.47% 99.61% Bảng Đ ỘCHÍNHXÁCPHÂNLỚPD os BÔ phân lớp Naive Bayes SVM Cây định Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 97.46% 97.62% 99.98% 99.90% 98.06% 98.67% 99.68% CA 97.93% 97.59% 99.97% 99.90% 98.03% 98.63% 99.67% FULL 82.92% 97.48% 99.97% 99.85% 97.95% 98.36% 99.88% Bảng Đ ỘCHÍNHXÁCPHÂNLỚPPROBE BƠ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 99.59% 99.39% 99.93% 99.91% 99.30% 99.61% 99.91% CA 99.58% 99.27% 99.93% 99.92% 99.28% 99.62% 99.93% FULL 99.56% 99.14% 99.86% 99.84% 99.27% 99.54% 99.90% Bảng Đ ỘCHÍNHXÁCPHÂNLỚPU2R Bộ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 99.79% 99.79% 99.91% 99.86% 99.81% 99.81% 99.90% CA 99.85% 99.78% 99.90% 99.85% 99.81% 99.82% 99.89% FULL 88.37% 99.71% 99.87% 99.84% 99.80% 99.80% 99.85% Bảng Đ ỘCHÍNHXÁCPHÂNLỚPR2L Bộ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Bảng 10 GR 99.50% 99.10% 99.90% 99.86% 99.22% 99.57% 99.87% CA 99.50% 99.05% 99.91% 99.85% 99.22% 99.57% 99.87% FULL 99.36% 98.96% 99.83% 99.76% 99.17% 99.52% 99.81% ĐỘNHẠYPHANLỚPNORMAL Bộ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Bảng 11 99.74% 99.38% 97.09% 96.46% 99.73% CA 91.71% 96.45% 99.73% 99.38% 97.10% 96.70% 99.69% FULL 88.41% 95.90% 99.73% 99.18% 96.41% 96.41% 99.66% Đ ỘNHẠYPHÂNLỚPD os Bộ phân lớp Naive Bayes SVM Cây định Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần Bảng 12 GR 95.63% 96.37% GR 94.72% 95.30% 99.97% 99.82% 96.05% 97.34% 99.89% CA 95.89% 94.95% 99.97% 99.85% 96.23% 97.14% 99.92% FULL 97.89% 94.69% 99.97% 99.71% 95.77% 96.91% 99.86% Đ ỘNHẠYPHÂNLỚPPROBE Bộ phân lớp Naive Bayes SVM Cây định Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 99.86% 99.85% 99.95% 99.96% 99.54% 99.86% 99.96% CA 99.86% 99.76% 99.96% 99.96% 99.52% 99.85% 99.96% FULL 99.56% 99.14% 99.86% 99.84% 99.27% 99.54% 99.90% Hồi quy logistic đa thức K láng giềng gần Bảng 14 Bộ phân lớp Naive Bayes SVM Cây đinh Mạng nơ ron Hồi quy logistic Đ ỘNHẠYPHÂNLỚP U2R GR 48.60% 48.60% 88.61% 64.12% 46.26% CA 70.64% 37.57% 84.56% 62.89% 52.00% FULL 88.37% 99.74% 99.87% 99.84% 99.80% 55.33% 73.21% 99.80% 99.85% Đ ỘNHẠYPHÂNLỚPR2L Bộ phân lớp Naive Bayes SVM Cây định Mạng nơ ron Hồi quy logistic Hồi quy logistic đa thức K láng giềng gần GR 98.19% 91.77% 99.02% 99.23% 96.27% 96.68% 99.22% CA 98.47% 91.07% 99.01% 99.31% 96.16% 96.68% 99.31% FULL 99.36% 98.96% 99.83% 99.76% 99.17% 99.52% 99.81% Từ kết đạt giúp ta xác định phương pháp máy học, thuộc tính phù hợp sử dụng để có độ xác phân lớp tốt tương ứng với kiểu phân lớp, Bảng 15 trình bày chi tiết kết đạt Ở đây, đánh giá chéo k-fold với k=5 chọn, k lớn, tập huấn luyện lớn nhiều so với tập kiểm tra, kết đánh giá không phản ánh chất phương pháp máy học Đó lý đánh giá chéo 5-fold nhiều học giả lựa chọn CÁCthuộc tính lựa chọn với kiểu phân lớp Bảng 15 Tập số Kiểu phân lớp Normal 9, 7, 22, 14, 24, 11, 40, 1, 10, 15, 13, 2, 19, 36, 27, 16, 32, 23, 41, 35, 34, 33, 8, 37, 3, 29, 5, 6, 38, 30, 39, 4, 26, 12 DoS 41, 7, 40, 13, 1, 33, 23, 34, 3, 37, 35, 8, 29, 6, 12, 30, 5, 38, 4, 39, 25, 26 Kỹ thuật máy học Cây định C4.5 Các thuộc tính lựa chọn Probe 5, 6, 25, 23, 3, 40, 35, 22, 10, 12 U2R 36, 22, 2, 32, 3, 5, 12, 1, 16, 18, 17, 13, 14 R2L 5, 6, 36, 33, 16, 38, 19, 23, 11, 29, 3, 4, 40, 35, 22, 12 Bảng 16 Thời gian huấn luyện kiểm tra với tập thuộc tính rút gọn so với tập 41 thuộc tính đầy đủ Kiểu phân lớp Thời gian huấn luyện (giây) Thời gian tiết kiệm Normal 105 26% DoS 25 63% 83% Probe Bảng 13 51.51% 47.35% Phương pháp máy học Cây định C4.5 U2R 82% R2L 60% Bảng 16 thời gian huấn luyện phân lớp đạt thực tập thuộc tính rút gọn ứng với kiểu phân lớp Cột Thời gian tiết kiệm tỷ lệ phần trăm thời gian tiết kiệm so với trường hợp khơng rút gọn thuộc tính đặc thù liệu kiểu công phương pháp máy học, phương pháp rút gọn thuộc tính sử dụng độ đo thơng tin kết hợp với thuật tốn rút gọn thuộc tính phù hợp cho tập thuộc tính phù hợp Qua đó, cải thiện độ xác dự báo tổng thể phân lớp lai đa tầng giảm thời gian huấn luyện kiểm tra tồn hệ thống, điều đồng nghĩa với việc giảm chi phí tính tốn IDS, phù hợp với thực tế khối lượng tốc độ liệu mạng ngày lớn Đồng thời, kết thí nghiệm đặt vấn đề cần tiếp tục nghiên cứu, đặc biệt nội dung: (1) Việc nghiên cứu sử dụng độ đo khác để rút gọn thuộc tính, đem lại hiệu cao phát triển IDS (2) Việc nghiên cứu sử dụng phương pháp kết hợp (ensemble methods) nhiều định như: boosting, bagging hay stacking giúp cải thiện độ xác phân lớp so với việc sử dụng định (3) Thực việc kiểm tra, đánh giá kết đạt liệu đương đại phát chống xâm nhập UNSW-NB15 Trung tâm An ninh mạng Úc thực năm 2015 [12] (4) Năng lực xử lý liệu tính tốn hệ thống máy đóng vai trò quan trọng việc khai thác thuật tốn phương pháp máy học Từ nâng cao hiệu xử lý, tiếp cận theo hướng trí tuệ nhân tạo Từ kết đạt trên, ta xây dựng phân lớp lai đa tầng dựa mơ hình phân đa lớp truyền thống One-Versus-Rest (OVR) [11] với tập thuộc tính lựa chọn phù hợp trước phân lớp tầng mơ tả Hình Theo đó, liệu truy cập mạng đưa vào tầng 1, thuộc tính phù hợp chọn lựa phân lớp bình thường công, truy cập công, hệ thống cảnh báo cho người quản trị, đồng thời liệu chuyển sang tầng 2, thuộc tính phù hợp lại chọn lựa phân lớp để xác định có phải kiểu công DoS hay không? không, liệu chuyển sang tầng kế tiếp, thuộc tính phù hợp lại chọn lựa phân lớp để xác định xác kiểu cơng cụ thể, trường hợp khơng xác định được, kiểu cơng chưa biết đến Kết thí nghiệm, độ xác dự báo tổng thể phân lớp lai đa tầng có rút gọn thuộc tính đạt 99.73% phân lớp truy cập bình thường 99.73% phân lớp kiểu công, tốt so với việc khơng rút gọn thuộc tính có tỷ lệ tương ứng 99.71% 99.57% Hơn nữa, thời gian huấn luyện kiểm tra, phân lớp lai đa tầng có rút gọn thuộc tính giảm xấp xỉ 34% so với trường hợp khơng rút gọn thuộc tính V KẾT LUẬN Từ kết thí nghiệm, ta nhận thấy: tính chất Cảnh báo cho người quản trị Bộ phân lớp DT với tập thuộc tính số Hình Kiểu ng Probe A ,k Kiểu công U2R Kiểu cơng R2L > Y es ■xf DoS? y ịN Ĩ Bộ phân lớp DT với tập thuộc tính số No Bộ phân lớp DT với tập thuộc tính số Kiểu công DoS Yes Yes B ộ phân lớpADT với tập thuộc tính số Yes Bộ phân lớp DT với tập thuộc tính số Kiến trúc phân lớp lai đa tầng với tập thuộc tính lựa chọn phù hợp tầng TÀI LIỆU THAM KHẢO [1] Al-Jarrah O Y., Siddiqui A., et al., “Machine-LearningBased Feature Selection Techniques for Large-Scale Network Intrusion Detection”, In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, pp 177-181 [2] Calix R A., Sankaran R., “Feature Ranking and Support Vector Machines Classification Analysis of the NSLKDD Intrusion Detection Corpus”, Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 2013, pp 292-295 [3] Moradi Koupaie H., Ibrahim S., Hosseinkhani J., “Outlier detection in stream data by machine learning and feature selection methods”, International Journal of Advanced Computer Science and Information Technology (IJa C s IT), 2014, vol 2, pp 17-24 [4] Patel S., Sondhi J., ”A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature Optimization Technique”, International Journal of Computer Applications, 2014, vol 93(14), pp 43-47 [5] [6] Aburomma A A., Reaz M B I., ”Evolution of Intrusion Detection Systems Based on Machine Learning Methods”, Australian Journal of Basic and Applied Sciences, vol 7(7), pp 799-813 Tavallaee, Mahbod; Bagheri, Ebrahim; Lu, Wei; Ghorbani, Ali A., “A detailed analysis of the KDD CUP 99 data set”, 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, 2009, pp.1-6 [7] Jiawei Han and Micheline kamber, “Data Mining Concepts and Techniques”, Publisher Elsevier, 2001, pp 67-69, 296-301 [8] Gaidhane R., Vaidya C., Raghuwanshi M., “Survey: Learning Techniques for Intrusion Detection System”, International Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, vol 1(2), pp 21­ 28 [9] Marina Sokolova, Guy Lapalme, “A systematic analysis of performance measures for classification tasks”, Information Processing and Management 45, 2009, pp 427-437 [10] Li W., Liu Z., “A method of SVM with Normalization in Intrusion Detection”, Procedia Environmental Sciences 11, 2011, vol Part A(0), pp 256-262 [11] Neha Mehra, Surendra Gupta, “Survey on multiclass classification methods”, International Journal of Computer Science and Information Technologies, 2013, vol (4), pp 572-576 [12] Moustafa, Nour, and Jill Slay, "UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)", Military Communications and Information Systems Conference (MilCIS), 2015 IEEE, 2015 ... tập liệu dùng thí nghiệm, số mẫu tin cụ thể ứng với kiểu công tập liệu thống kê Bảng Bảng CÁCtập Dữ liệu thí nghiệm Tên tập liệu NSL-KDD Probe-U2R-R2L Hình Thuật tốn lựa chọn thuộc tính FSR Các. .. xử lý liệu tính tốn hệ thống máy đóng vai trò quan trọng việc khai thác thuật tốn phương pháp máy học Từ nâng cao hiệu xử lý, tiếp cận theo hướng trí tuệ nhân tạo Từ kết đạt trên, ta xây dựng. .. (BER), xuất phát từ tập đầy đủ 41 thuộc tính, sau thuộc tính chọn để loại bỏ việc loại bỏ thuộc tính giúp cải thiện độ xác phân lớp hệ thống, thuộc tính có độ đo thông tin nhỏ chọn để loại bỏ

Ngày đăng: 29/08/2018, 13:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan