Tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

70 580 2
Tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN & TRUYN THễNG Trn Huy Phong TèM HIU, NGHIấN CU H THNG PHT HIN XM NHP DA TRấN KHAI PH D LIU LUN VN THC S KHOA HC MY TNH Thỏi Nguyờn - 2015 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn ii LI CAM OAN Tụi xin cam oan s liu v kt qu nghiờn cu lun ny l trung thc v cha c s dng bo v hc hm, hc v no Tụi xin cam oan: Mi s giỳp cho vic thc hin lun ny ó c cỏm n, cỏc thụng tin trớch dn lun ny u ó c ch rừ ngun gc Thỏi nguyờn, ngy thỏng nm TC GI LUN VN Trn Huy Phong S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn iii LI CM N Trong thi gian nghiờn cu v thc hin lun ny, em ó may mn c cỏc thy cụ ch bo, dỡu dt v c gia ỡnh, bn bố quan tõm, ng viờn Em xin by t li cm n sõu sc nht ti tt c cỏc th, cỏ nhõn ó to iu kin giỳp em sut quỏ trỡnh thc hin nghiờn cu lun ny Trc ht em xin trõn trng cm n Ban giỏm hiu trng i hc Cụng ngh thụng tin v truyn thụng, Phũng o to v Khoa Sau i hc ca nh trng cựng cỏc thy cụ giỏo, nhng ngi ó trang b kin thc cho em sut quỏ trỡnh hc Vi lũng bit n chõn thnh v sõu sc nht, em xin trõn trng cm n thy giỏo- TS Trn c S, ngi thy ó trc tip ch bo, hng dn khoa hc v giỳp em sut quỏ trỡnh nghiờn cu, hon thnh lun ny Xin chõn thnh cm n tt c cỏc bn bố, ng nghip ó ng viờn, giỳp nhit tỡnh v úng gúp nhiu ý kin quý bỏu em hon thnh lun ny Do thi gian nghiờn cu cú hn, lun ca em chc hn khụng th trỏnh nhng s sut, thiu sút, em rt mong nhn c s úng gúp ca cỏc thy cụ giỏo cựng ton th bn c Xin trõn trng cm n! Thỏi nguyờn, ngythỏng.nm TC GI LUN VN Trn Huy Phong S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn iv MC LC M U 1 Lý chn ti: Mc tiờu nghiờn cu: i tng v phm vi nghiờn cu: í ngha thc tin ca lun vn: Phng phỏp nghiờn cu: CHNG I: TNG QUAN V H THNG PHT HIN XM NHP 1.1 Khỏi nim v h thng phỏt hin xõm nhp 1.2 Chc nng v vai trũ ca h thng phỏt hin xõm nhp .5 1.2.1 Chc nng nhim v ca IDS 1.2.2 Vai trũ ca h thng phỏt hin xõm nhp 1.3 Mụ hỡnh kin trỳc ca h thng phỏt hin xõm nhp 1.3.1 Cỏc thnh phn c bn: 1.3.2 Kin trỳc ca h thng IDS: 11 1.4 Phõn loi cỏc h thng phỏt hin xõm nhp 13 1.4.1 H thng phỏt hin xõm nhp mỏy ch (HIDS) 14 1.4.2 H thng phỏt hin xõm nhp mng (NIDS) 16 1.5 Cỏc k thut phỏt hin xõm nhp ca h thng IDS 18 1.5.1 Phỏt hin da vo du hiu ( Signature-base detection) 18 1.5.2 Phỏt hin da trờn s bt thng (Abnormaly - base detection) 19 1.5.3 K thut phỏt hin da vo phõn tớch trng thỏi giao thc 19 1.5.4 Phỏt hin da trờn mụ hỡnh 20 1.6 H thng phỏt hin xõm nhp da trờn khai phỏ d liu 20 CHNG II: KHAI PH D LIU 23 2.1 Khỏi nim v khai phỏ d liu 23 2.2 Cỏc bi toỏn chớnh khai phỏ d liu 25 2.2.1 Phõn lp (Classification) 25 2.2.1.1 Quỏ trỡnh phõn lp 25 2.2.1.2 D oỏn 27 2.2.2 Phõn cm (Clustering) 27 2.2.3 Hi quy v d bỏo ( Regression and Prediction) 27 2.2.3.1 Hi quy 27 2.2.3.2 D bỏo 28 2.2.4 Tng hp (summarization) 28 2.2.5 Mụ hỡnh hoỏ s ph thuc (dependency modeling) 28 2.2.6 Phỏt hin s bin i v lch (change and deviation dectection) 29 2.3 ng dng v phõn loi khai phỏ d liu 29 2.3.1 ng dng 29 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn v 2.3.2 Phõn loi 30 2.4 Nhng thỏch thc v khú khn khai phỏ d liu 31 2.4.1 Nhng thỏch thc khai phỏ d liu 31 2.4.2 Nhng khú khn khai phỏ d liu 31 2.4.2.1 Cỏc v c s d liu 31 2.4.2.2 Mt s khỏc 34 CHNG III: Mễ HèNH H THNG PHT HIN XM NHP DA TRấN KHAI PH D LIU S DNG K THUT PHN LP 36 3.1 ỏnh giỏ cỏc k thut phõn lp 36 3.1.1 Khỏi nim phõn lp 36 3.1.1.1 Khỏi nim 36 3.1.1.2 Mc ớch ca phõn lp 37 3.1.1.3 Cỏc tiờu ỏnh giỏ thut toỏn phõn lp 38 3.1.1.4 Cỏc phng phỏp ỏnh giỏ chớnh xỏc ca mụ hỡnh phõn lp 39 3.1.2 Phõn lp da trờn phng phỏp hc Naùve bayes 39 3.1.2.1 Gii thiu 39 3.1.2.2 B phõn lp Naùve bayes 40 3.1.3 Phõn lp da trờn cõy quyt nh (Decision Tree) 41 3.1.3.1 Khỏi nim cõy quyt nh 41 3.1.3.2 Gii thut qui np cõy quyt nh (ID3) 42 3.1.3.3 li thụng tin (Information Gain) cõy quyt nh 43 3.1.3.4 Ni dung gii thut hc cõy quyt nh c bn ID3 43 3.1.3.5 Nhng thiu sút ca gii thut ID3 46 3.1.3.6 Cỏc cn xem xột phõn lp da trờn cõy quyt nh 46 3.2 Xõy dng mụ hỡnh phỏt hin xõm nhp trỏi phộp s dng cỏc k thut phõn lp 48 3.2.1 Mụ hỡnh bi toỏn 48 3.2.1.1 Thu thp d liu 49 3.2.1.2 Trớch rỳt v la chn cỏc thuc tớnh 52 3.2.1.3 Xõy dng b phõn lp 55 3.2.2 Tin hnh thc nghim 55 3.2.2.1 Phõn lp a lp 55 3.2.2.2 B phõn lp nh phõn 56 3.3 Phõn tớch ỏnh giỏ kt qu 58 KT LUN 60 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn vi DANH MC VIT TT Ký Hiu í Ngha Ting Anh IDS Intrusion Detection System H thng phỏt hin xõm nhp NIDS Network-base IDS HIDS Host-based IDS KDD Knowledge Discovery and Phỏt hin tri thc Data Mining AAFID Autonomous Agents for Tỏc nhõn t tr cho vic phỏt hin Intrusion Detection xõm phm C s d liu CSDL OLAP On Line Analytical Processing Cụng c phõn tớch trc tuyn DARPA Defense Advanced C quan d ỏn phũng th tiờn tin Research Projects Agency CPU Central Processing Unit n v x lý trung tõm DoS Denial-of-Service Tn cụng t chi dch v MADAMID Mining Audit Data for Automated Models for mụ hỡnh t ng phỏt hin xõm Instruction Detection nhp RIPPER WEKA Khai phỏ d liu c s dng Thut toỏn phõn lp da vo lut Waikato Enviroment for krowledge Analysis S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn vii DANH MC HèNH V Hỡnh 1.1- IDS-gii phỏp bo mt b sung cho Firewall Hỡnh 1.2 - Quỏ trỡnh thc hin ca IDS Hỡnh 1.3 - Mụ t chớnh sỏch bo mt Hỡnh 1.4 - Cỏc thnh phn chớnh ca IDS 10 Hỡnh 1.5- Mt vớ d v IDS 11 Hỡnh 1.6 - Gii phỏp kin trỳc a tỏc nhõn 12 Hỡnh 1.7 - Phõn loi h thng phỏt hin xõm nhp 13 Hỡnh 1.8 - Mụ hỡnh HIDS 14 Hỡnh 1.9 - Mụ hỡnh Network IDS 17 Hỡnh 1.10 - Mụ t du hiu xõm nhp 18 Hỡnh 1.11 - Quỏ trỡnh khai phỏ d liu nhm xõy dng mụ hỡnh phỏt hin xõm nhp trỏi phộp [9] 21 Hỡnh 2.1 - Cỏc bc xõy dng mt h thng khai phỏ d liu 24 Hỡnh 2.2 - Quỏ trỡnh hc 26 Hỡnh 2.3 - Quỏ trỡnh phõn lp 26 Hỡnh 3.1 c lng chớnh xỏc mụ hỡnh phõn lp vi phng phỏp holduot 39 Hỡnh 3.2 - Cỏc bc xõy dng mụ hỡnh xõm nhp trỏi phộp 48 Hỡnh 3.3 - Quỏ trỡnh khai phỏ tri thc 49 Hỡnh 3.4 - Mụ hỡnh DoS attack 50 DANH MC BNG Bng 3.1 - D liu chi tenis 45 Bng 3.2 - Mụ t lp tn cụng t chi dch v (DoS) 50 Bng 3.3 - Bng mụ t lp tn cụng trinh sỏt h thng Probe 51 Bng 3.4 - Bng mụ t lp tn cụng chim quyn h thng U2R 51 Bng 3.5 - Bng mụ t lp tn cụng khai thỏc im yu t xa R2L 52 Bng 3.6- Mụ t 41 thuc tớnh ca d liu KDD Cup 1999 53 Bng 3.7 Phõn phi s lng bn ghi 54 Bng 3.8- chớnh xỏc b phõn lp a lp 56 Bng 3.9- Thng kờ kt qu trờn b phõn lp nh phõn s dng cõy quyt nh 57 Bng 3.10 - Thng kờ kt qu trờn b phõn lp nh phõn s dng Naùve Bayes 57 DANH MC BIU Biu 3.1 - Biu so sỏnh chớnh xỏc (%) ca hai thut toỏn 58 Biu 3.2 - Biu so sỏnh thi gian xõy dng mụ hỡnh (giõy) ca hai thut toỏn 59 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn M U Lý chn ti: K t mng Internet i n nay, th gii ó chng kin s thay i vụ cựng to ln v kỡ diu v nhiu mt ca i sng ngi Nn kinh t th gii v i sng xó hi ó cú nhiu s bin i v ngy cng ph thuc vo cụng ngh thụng tin núi chung cng nh cụng ngh Internet núi riờng iu ú cng dn n mt mt trỏi, ú l cng ngy cng nhiu cỏc thụng tin quan trng ca cỏc c quan, t chc hay cỏ nhõn lu tr trờn cỏc mng mỏy tớnh, m a s cỏc mng mỏy tớnh ny li khụng m bo an ton, bo mt thụng tin tuyt i i cựng vi s phỏt trin ú l nhng nguy c tn cụng v xõm nhp mng khụng ngng gia tng Cỏc i tng tn cụng v hỡnh thc tn cụng mng ngy mt a dng, tinh vi v phc hn Vn bo mt, an ton cho cỏc h thng thụng tin núi chung v h thng mng núi riờng l mt cp bỏch v rt ỏng c quan tõm Bi vy, bo v cỏc h thng thụng tin ngi ta s dng nhiu cỏc gii phỏp k thut khỏc nh h thng tng la, mó hoỏ, mng riờng o (VPN), phũng chng virusTrong ú phỏt hin xõm nhp trỏi phộp (IDS) l mt nhng cụng ngh quan trng nht nhm giỳp cỏc t chc phỏt hin v ngn chn kp thi cỏc tn cụng thi gian thc, cng nh d oỏn c cỏc nguy c tn cụng tng lai [3], [5] Chớnh vỡ vy, nghiờn cu v h thng IDS s giỳp chỳng ta nõng cao kh nng xõy dng h thng phũng th cho vic giỏm sỏt an ninh mng Hai phng phỏp c bn phỏt hin xõm nhp trỏi phộp l da trờn lut v da trờn cỏc du hiu bt thng [1], [2], [6], [7] Phng phỏp da trờn lut cú th phỏt hin cỏc tn cụng da trờn mt c s d liu cỏc du hiu ó c nh ngha trc Phng phỏp ny thng cú chớnh xỏc cao cng nh ớt a cỏc cnh bỏo nhm Tuy nhiờn, ca phng phỏp ny l khụng th phỏt hin c cỏc tn cụng mi cha c nh ngha hoc cp nht c s d liu Phng phỏp da trờn cỏc du hiu bt thng cú th giỳp xỏc nh cỏc tn cụng mi nhng thng cho chớnh xỏc thp hn so vi phng phỏp da trờn lut S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn Hin nay, Khai phỏ d liu ó cú nhiu bc phỏt trin vt bc v cú nhiu ng dng k thut bng cỏc thut toỏn khỏc thc t Khai phỏ d liu l mt phng phỏp tip cn mi vic phỏt hin xõm nhp Xõy dng mụ hỡnh h thng phỏt hin xõm nhp da trờn khai phỏ d liu l mt hng phỏt trin mi v hiu qu xõy dng h thng IDS Xut phỏt t nhng yờu cu v lý trờn, em la chn ti lun l: "Tỡm hiu, nghiờn cu h thng phỏt hin xõm nhp da trờn khai phỏ d liu" Lun nghiờn cu khai phỏ d liu v nghiờn cu ng dng mụ hỡnh h thng phỏt hin xõm nhp trỏi phộp da trờn khai phỏ d liu; T ú ỏnh giỏ hiu nng ca h thng phỏt hin xõm nhp i vi cỏc thut toỏn phõn lp khỏc thc t Mc tiờu nghiờn cu: - Nghiờn cu tng quan v h thng phỏt hin xõm nhp - Nghiờn cu mt s thut toỏn khai phỏ d liu - ng dng mt s thut toỏn khai phỏ d liu phỏt hin xõm nhp, so sỏnh s hiu qu ca cỏc thut toỏn - ỏnh giỏ hiu nng cho mụ hỡnh ú bng cỏc thut toỏn phõn lp khỏc nh: Naùve Bayes, Decision Tree i tng v phm vi nghiờn cu: - Nghiờn cu mụ hỡnh h thng IDS hin v ỏnh giỏ u, nhc im ca IDS - Nghiờn cu cỏc bi toỏn, k thut khai phỏ d liu - ng dng ca khai phỏ d liu h thng phỏt hin xõm nhp - Mt s thut toỏn phõn lp d liu - ỏnh giỏ hiu nng cỏc k thut phõn lp cho h thng phỏt hin xõm nhp da trờn khai phỏ d liu í ngha thc tin ca lun vn: - Nghiờn cu ng dng mụ hỡnh h thng phỏt hin xõm nhp da trờn khai phỏ d liu gii quyt cỏc tn ti ca h thng IDS hin - ỏnh giỏ hiu qu phõn lp cho mụ hỡnh ng thi xut la chn cỏc k thut phõn lp phự hp vi tng loi tn cụng c th cho h thng phỏt hin xõm nhp da trờn khai phỏ d liu ó xut S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn Phng phỏp nghiờn cu: Vic giỏm sỏt cỏc hnh ng trờn mng cú th thu thp v phõn tớch phỏt hin cỏc tn cụng mng Cỏc hnh ng ny cú th tỡm thy cỏc log ca ng dng nh to, xúa file, truy cp vo cú mt khu, gi cỏc lnh ca h thng Vic phõn tớch phỏt hin cỏc tn cụng da trờn d liu v cỏc hnh ng ny cú th thc hin thụng qua cỏc thut toỏn phõn lp d liu, phõn lp thnh cỏc lp tn cụng ó bit trc hoc lp truy cp bỡnh thng Nghiờn cu cỏc ti liu liờn quan lnh vc khai phỏ d liu v phỏt hin xõm nhp Tỡm hiu, nghiờn cu cỏc k thut phỏt hin xõm nhp da trờn phng phỏp thng kờ v khai phỏ d liu Trờn c s nghiờn cu v phõn tớch d liu DARPA [15] Phõn tớch bng lý thuyt v thc nghim xỏc nh cỏc thuc tớnh quan trng ca d liu cú nh hng n mt hnh ng tn cụng c th, t ú trớch rỳt v chuyn i thnh nh dng phự hp cho cỏc thut toỏn hc phõn lp Nghiờn cu xõy dng cỏc thc nghim s dng phn mm Weka [14], ỏnh giỏ hiu qu ca cỏc thut toỏn hc phõn lp trờn d liu DARPA S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 49 3.2.1.1 Thu thp d liu Hỡnh 3.3 - Quỏ trỡnh khai phỏ tri thc thc hin ỏnh giỏ cỏc thut toỏn phõn lp vic xõy dng cỏc mụ hỡnh phỏt hin xõm nhp trỏi phộp, phn thc nghim em s s dng d liu KDD Cup 1999[11] c xõy dng t nm 1998 ca t chc DARPA (cc quc phũng M v qun lý bi Trung tõm thớ nghim MIT Lincoln) õy l d liu c trớch rỳt t gúi tin cú nh dng ca giao thc TCP c thu thp thụng qua thi gian tun thu thp c cỏc d liu tn cụng, cỏc cuc tn cụng ó c gi lp theo cỏc hnh ng v mc tiờu c th ca k tn cụng Tp d liu bao gm mt kiu d liu bỡnh thng (normal) v 22 kiu tn cụng khỏc c phõn loi thnh lp: T chi dch v (DoS), trinh sỏt h thng (Probe), chim quyn h thng (U2L) v khai thỏc im yu (R2L) Lp t chi dch v (DoS - Denial of Service Attack): Cho dự a dng v kớch c v hỡnh dng, t subtle malformed packet n fullblown packet storm, Denial of Service (DoS) attack cú mc ớch chung l úng bng hay chn ng ti nguyờn ca h thng ớch Cui cựng, mc tiờu tr nờn khụng th tip cn v khụng th tr li DoS tn cụng vo cỏc mc tiờu bao gm ba dng l mng, h thng v ng dng S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 50 Hỡnh 3.4 - Mụ hỡnh DoS attack - Network flooding bao gm SYN flood, Ping flood hay multi echo request - Phỏ hoi h thng, thit b bao gm Ping of Death, Teardrop, Bonk, LAND, cỏc kiu tn cụng nhm li dng l hng trờn h iu hnh nhm phỏ hoi, gõy quỏ ti h thng S kin ny cú th xy bng cỏch gi gúi tin cú nh dng khỏc thng ti h thng v thit b, chỳng cú th c to bng cỏc cụng c tn cụng c lp trỡnh trc - Phỏ hoi, gõy quỏ ti ng dng bao gm cỏc k thut phỏ hoi v gõy quỏ ti h thng bng cỏch li cng im yu trờn ng dng, c s d liu, email, trang web Mt s kiu tn cụng DoS ph bin c lit kờ di bng sau: Bng 3.2 - Mụ t lp tn cụng t chi dch v (DoS) TT Tờn tn cụng Mụ t Pod Smurfe Gi cỏc gúi tin cú kớch thc ln thụng qua lnh Ping n mỏy ớch Li dng Router mng gi Broadcast Neptune t nhp vo h thng Teardrop Gi chng chộo gúi tin Back Tn cụng n cỏc ng nh tuyn Land Lm chm, hoc b treo h thng ng dng S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 51 Trinh sỏt h thng (Probe): L loi tn cụng cú mc ớch l thu thp cỏc thụng tin liờn quan n cu hỡnh ca mt h thng mỏy tớnh hoc h thng mng nhm mc ớch phỏ hoi Phng thc chung l s dng cỏc cụng c quột, tỡm kim cỏc cng m hay a ch IP Bng 3.3 - Bng mụ t lp tn cụng trinh sỏt h thng Probe TT Tờn tn cụng Mụ t Santan Cụng c quột cng v thm Portsweep S dng cỏc gúi tin kt ni xỏc nh cng m Nmap Cụng c quột cng Ipsweep S dng cỏc gúi ping xỏc nh IP Lp tn cụng chim quyn h thng ( U2R - User-to-root): õy l loi tn cụng nhm chim ot quyn cao nht hoc chim dng, kim soỏt mt mỏy tớnh k tn cụng cú mt ti khon ng nhp bỡnh thng (Vi quyn hn ch) Phng thc ca kiu tn cụng ny l truy cp vo h thng nh mt ngi dựng bỡnh thng sau ú s dng cỏc phng phỏp leo thang c quyn ly quyn qun tr h thng Bng 3.4 - Bng mụ t lp tn cụng chim quyn h thng U2R TT Tờn tn cụng Buffer_overflow Loadmodule Perl Rootkit Mụ t Lm trn b m Li dng cỏc im yu, thc thi cỏc module qun tr h thng Cụng c tng quyn user Cụng c iu hnh cao nht h tthng Lp tn cụng khai thỏc im yu t xa ( R2L - Remote-to-Local): õy l kiu tn cụng k tn cụng gi cỏc gúi tin hoc on mó n mt mỏy tớnh qua Internet li dng cỏc im yu ca mỏy tớnh ú, t ú khai thỏc cỏc c quyn ca cỏc ngi dựng cc b (local) S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 52 Bng 3.5 - Bng mụ t lp tn cụng khai thỏc im yu t xa R2L TT Tờn tn cụng Mụ t Guess_password oỏn password Ftpwirte Thay i quyn truy cp vo FTP Imap Tn cụng vo dch v mail Phf Tn cụng vo c s d liu Web Spy Tn cụng vo trỡnh duyt Web bt k Warezclient Tn cụng theo kiu bom tn Warezmaster Tn cụng lm thay i lp tc Multihop Tn cụng nhiu dng cựng mt lỳc 3.2.1.2 Trớch rỳt v la chn cỏc thuc tớnh Da vo d liu KDD Cup 1999 vi cỏc c trng trớch chn nh: cỏc kt ni TCP cỏ nhõn, cỏc kt ni n mỏy ch vựng v cỏc kt ni n mỏy ch nh kt ni hin hnh hai giõy liờn tc Lun ó la chn cỏc thuc tớnh c bn t cỏc gúi tin kt ni n ca mt giao thc TCP, chng hn nh khong thi gian kt ni, kiu giao thc, s lng byte d liu, cỏc c ch tỡnh trng li kt ni hoc bỡnh thng Cỏc thuc tớnh ca mt kt ni n c thụng qua cỏc lnh vc tri thc, k c cỏc hot ng to tin v mt s hot ng c gng truy cp vo h thng Trớch chn thuc tớnh (feature selection, feature extraction) l nhim v rt quan trng giai on tin x lý d liu trin khai cỏc mụ hỡnh khai phỏ d liu Mt gp phi l cỏc d liu dựng xõy dng cỏc mụ hỡnh khai phỏ d liu thng cha nhiu thụng tin khụng cn thit cho vic xõy dng mụ hỡnh Chng hn, mt d liu gm hng trm thuc tớnh dựng mụ t v khỏch hng ca mt doanh nghip c thu thp, nhiờn xõy dng mt mụ hỡnh khai phỏ d liu no ú ch cn khong 50 thuc tớnh t hng trm thuc tớnh ú Nu ta d dng tt c cỏc thuc tớnh ( hng trm, hng ngn) ca khỏch hng xõy dng mụ hỡnh thỡ cn phi cú b x lý trung tõm CPU phi ln, nhiu b nh quỏ trỡnh hc mụ hỡnh, thm trớ cỏc thuc tớnh khụng cn thit ú lm gim chớnh xỏc ca mụ hỡnh v gõy khú khn vic phỏt hin tri thc S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 53 Trong d liu ny, da vo cỏc c trng trớch chn ta thu c 41 thuc tớnh vi a s l thuc tớnh liờn tc Bng thuc tớnh c mụ t nh sau: Bng 3.6- Mụ t 41 thuc tớnh ca d liu KDD Cup 1999 TT Tờn thuc tớnh Kiu thuc tớnh Mụ t Duration Khong thi gian (s) ca kt ni Liờn tc Protocol_Type Kiu giao thc (TCP,UDPP, ICMP) Ri rc Service Cỏc dch v trờn mng Ri rc Flag Tỡnh trng bỡnh thng hay li kt ni Ri rc src_bytes S lng byte d liu t ngun n ớch Liờn tc dst_bytes S lng byte d liu t ớch n ngun Liờn tc Land nu kt ni n mỏy ch; ngc li wrong_fragment S sai phõn mnh Ri rc Liờn tc Urgent S lng gúi tin khn cp Liờn tc 10 Hot S lng "núng" cỏc ch s Liờn tc 11 num_failed_logins S ln ng nhp tht bi Liờn tc 12 logged_in nu thnh cụng; nu tht bi Ri rc 13 num_compromised S iu kin tho hip Liờn tc 14 root_shell nu gc t c; ngc li Ri rc 15 su_attempted nu l quyn root; ngc li Ri rc 16 num_root S root truy cp Liờn tc 17 num_file_creations S lng to tin Liờn tc 18 num_shells S lng cnh bỏo Liờn tc 19 num_access_files S hot ng trờn cỏc tin kim soỏt truy cp Liờn tc 20 num_outbound_cmd S cỏc lnh gi i mt phiờn ftp 21 Is_host_login 22 Is_guest_login nu ng nhp vo thuc danh sỏch núng; ngc li Liờn tc Ri rc ng nhp l mt khỏch; ngc li 23 Count Ri rc S lng kt ni cựng mt mỏy ch cựng giõy Liờn tc 24 srv_count S lng kt ni cựng mt dch v giõy Liờn tc S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 54 25 serror_rate % cỏc kt ni "SYN" li Liờn tc 26 srv_serror_rate % cỏc kt ni "SYN" li Liờn tc 27 rerror_rate % ca cỏc kt ni "REJ" li Liờn tc 28 srv_serror_rate % ca cỏc kt ni "REJ" li Liờn tc 29 same_srv_rate 30 diff_srv_rate % kt ni cỏc dch v tng t % cỏc kt ni n cỏc dch v khỏc Liờn tc Liờn tc 31 srv_diff_host_rate % cỏc kt ni n cỏc mỏy ch khỏc Liờn tc 32 dst_host_count S lng kt ni n mỏy ch ngun Liờn tc 33 dst_host_rsv_count S lng kt ni t ngun n ớch Liờn tc 34 dst_host_same_srv_rate % kt ni mỏy ch ớch n ngun cỏc dch v Liờn tc tng t 35 dst_host_diff_srv_rate % mỏy ch kt ni t ớch n ngun qua cỏc Liờn tc dch v khỏc 36 dst_host_same_srv_por % kt ni mỏy ch ớch n ngun cỏc dch v Liờn tc t_rate tng t qua cng 37 dst_host_srv_diff_host % mỏy ch kt ni t ớch n ngun qua cỏc Liờn tc _rate dch v khỏc 38 dst_host_serror_rate % ca cỏc kt ni mỏy ch ớch "SYN" li 39 dst_host_srv_serror % ca cỏc kt ni mỏy ch ớch n ngun Liờn tc "SYN" li 40 dst_host_rerror_rate % ca cỏc kt ni mỏy ch ớch "REJ" li Liờn tc Liờn tc 41 dst_host_srv_rerror_rate % ca cỏc kt ni mỏy ch ớch n ngun "REJ" li Liờn tc Do d liu KDD Cup 1999 rt ln, em trớch chn 10% s d liu ny lm thc nghim Bao gm: 19.899 bn ghi v cú 41 thuc tớnh Phõn phi ca cỏc bn ghi nh sau: Bng 3.7 Phõn phi s lng bn ghi Lớp Normal DoS Probe U2R R2L Số l-ợng ghi 8783 7934 1225 958 999 S húa bi Trung tõm Hc liu HTN Tỉ lệ % 44,1 39,9 6,2 4,8 http://www.lrc.tnu.edu.vn 55 Tổng cộng 19899 3.2.1.3 Xõy dng b phõn lp 100 Lun thc hin cỏc thc nghim xõy dng cỏc mụ hỡnh phỏt hin xõm nhp trỏi phộp da trờn cỏc thut toỏn phõn lp Decision Tree, Naùve Bayes ỏnh giỏ hiu qu cỏc thut toỏn lờn khớa cnh chớnh xỏc ca thut toỏn vic phõn lp Mc ớch chớnh ca cỏc mụ hỡnh phỏt hin xõm nhp trỏi phộp l phõn lp d liu vo mt bn kiu tn cụng hoc kiu normal Tp d liu thc nghim bao gm 19.899 bn ghi, 41 thuc tớnh v 22 kiu tn cụng chia lm lp khỏc ó mụ t trờn Trong phn thc nghim ny, em s dng phn mm WEKA (Waikato Enviroment for Krowledge Analysis) c ci t trờn mỏy tớnh vi cu hỡnh l h iu hnh Windows 32 bit, b vi x lý Intelđ Core i3-2330 CPU @ 2.20 Ghz, b nh RAM 4Gb Cỏc thc nghim c xõy dng vi cỏc thut toỏn phõn lp Decision Tree, Naùve Bayes 3.2.2 Tin hnh thc nghim 3.2.2.1 Phõn lp a lp Kt qu thc nghim s dng phng phỏp ỏnh giỏ chộo 10 ln v phõn thnh lp cú kt qu v chớnh xỏc nh sau: S dng cõy quyt nh: S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 56 S dng Naùve Bayes: Bng 3.8- chớnh xỏc b phõn lp a lp Normal DoS Probe U2R R2L Cõy quyt nh 99,8% 99,9% 99,0% 97,7% 98,2% Naùve Bayes 97,3% 87,3% 68,3% 86,8% 87,1% 3.2.2.2 B phõn lp nh phõn Bi thc nghim ó tin hnh xõy dng thc nghim trờn d liu c cu trỳc li t d liu gc, mi thc nghim xõy dng mt b phõn lp d oỏn mt lp tn cụng c th Trong ú mi c cu trỳc li bng cỏch gi li giỏ tr thuc tớnh ca mt kiu tn cụng v gp tt c cỏc kiu tn cụng cũn li thnh mt giỏ tr Vớ d: i vi lp normal, d liu cu trỳc li thnh hai lp: mt lp l normal (bỡnh thng) v lp cũn li bao gm c lp khỏc (Probe, DoS, U2R, R2L) Kt qu cỏc thc nghim ó thng kờ thi gian v chớnh xỏc phng phỏp ỏnh giỏ chộo 10 ln da trờn cõy quyt nh v Naùve Bayes vi b phõn lp hai lp S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 57 Lp DoS s dng thut toỏn cõy quyt nh: Lp normal s dng thut toỏn Naùve Bayes: Da vo kt qu thc nghim, ta cú cỏc bng thng kờ nh sau: Bng 3.9- Thng kờ kt qu trờn b phõn lp nh phõn s dng cõy quyt nh Normal DoS Probe U2R R2L Thi gian xõy dng mụ hỡnh (giõy) 1,49 1,16 1,69 1,62 2,09 Mc ỳng (%) 99,4 100 99 97,6 93,8 Bng 3.10 - Thng kờ kt qu trờn b phõn lp nh phõn s dng Naùve Bayes Thi gian xõy dng mụ hỡnh (giõy) Normal 0,23 0,19 DoS 0,21 Probe 0,19 U2R 0,22 R2L S húa bi Trung tõm Hc liu HTN Mc ỳng (%) 98,1 86,5 93,6 91,9 95,7 http://www.lrc.tnu.edu.vn 58 3.3 Phõn tớch ỏnh giỏ kt qu So sỏnh mc chớnh xỏc ca cỏc b phõn lp a lp cú th thy i vi lp Probe, R2L v U2R chim t l rt thp c s d liu thỡ cõy quyt nh cho kt qu tt hn rt nhiu so vi Naùve bayes, iu ny chng t cõy quyt nh phự hp hn Naùve bayes d liu nh i vi cỏc b phõn lp hai lp s dng cõy quyt nh cng nh s dng Naùve Bayes, cú th nhn thy cỏc b phõn lp hai lp cho kt qu tt hn cỏc b phõn lp a lp Vỡ vy on ny ch so sỏnh cỏc b phõn lp hai lp vi c hai tiờu v chớnh xỏc cng nh thi gian xõy dng mụ hỡnh Kt qu so sỏnh chớnh xỏc c th hin thụng qua Biu 3.1, kt qu so sỏnh thi gian xõy dng mụ hỡnh c th hin thụng qua biu 3.2 105 100 95 90 85 80 75 Normal DoS Probe U2R R2L DT 99,4 100 99 97,6 93,8 NB 98,1 86,5 93,6 91,9 95,7 Biu 3.1 - Biu so sỏnh chớnh xỏc (%) ca hai thut toỏn Biu 3.1 cho thy cõy quyt nh cho chớnh xỏc tt hn cho cỏc lp Normal, Probe, DoS v U2R so vi Naùve Bayes, nú cú chớnh xỏc thp hn mt ớt cho lp R2L so vi thut toỏn Naùve Bayes Qua mc thay i v chớnh xỏc ca hai thut toỏn cú th thy cõy quyt nh cú chớnh xỏc n nh hn vi c d liu ln v d liu nh S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 59 2,5 1,5 0,5 Normal DoS Probe U2R R2L DT 1,49 1,16 1,69 1,62 2,09 NB 0,23 0,19 0,21 0,19 0,22 Biu 3.2 - Biu so sỏnh thi gian xõy dng mụ hỡnh (giõy) ca hai thut toỏn Trờn Biu 3.2, chỳng ta thy thi gian xõy dng mụ hỡnh Naùve bayes l tt hn rt nhiu so vi thi gian xõy dng mụ hỡnh s dng cõy quyt nh Vỡ vy vic s dng b phõn lp Naive bayes cho cỏc h thng phỏt hin xõm nhp trỏi phộp s lm tng hiu nng ca h thng lờn ỏng k S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 60 KT LUN Qua thi gian nghiờn cu, lun ó thu c mt s kt qu nh sau: - V mt lý lun: Lun ó trỡnh by mt cỏch tng quan nhng v lý thuyt ca h thng phỏt hin xõm nhp IDS; bao gm: Khỏi nim, mụ hỡnh kin trỳc ca h thng phỏt hin xõm nhp; V cỏc k thut phỏt hin xõm nhp ca h thng IDS lun ó nờu c cỏc k thut nh: phỏt hin da vo du hiu, phỏt hin da trờn s kin bt thng, phỏt hin da vo phõn tớch trng thỏi giao thc v phỏt hin da trờn mụ hỡnh ng thi lun cng ó a cỏc ỏnh giỏ v u im, hn ch ca h thng phỏt hin xõm nhp IDS hin Bờn cnh ú em ó nghiờn cu v trỡnh by cỏc k thut khai phỏ d liu, ng dng mụ hỡnh, qua ú ỏnh giỏ hiu nng h thng IDS da trờn khai phỏ d liu s dng k thut phõn lp; Cỏc bi toỏn chớnh khai phỏ d liu nh: phõn lp, phõn cm, hi quy v d bỏo; ng dng v phõn loi khai phỏ d liu; Nhng thỏch thc v khú khn khai phỏ d liu - V mt thc nghim: Lun ó nh ngha c bi toỏn phỏt hin xõm nhp trỏi phộp da trờn khai phỏ d liu s dng k thut phõn lp v s dng d liu mụ phng tn cụng KDD Cup 1999 v a c mụ hỡnh bi toỏn Lun ó trỡnh by thc nghim ỏnh giỏ chớnh xỏc s dng hai k thut phõn lp Naùve Bayes v Decision Tree Qua phõn tớch ỏnh giỏ cỏc kt qu thc nghim, lun ó khng nh c k thut phõn lp cõy quyt nh t c chớnh xỏc tt hn so vi thut toỏn Naùve Bayes nhng v thi gian xõy dng mụ hỡnh thỡ thut toỏn Naùve Bayes tt hn rt nhiu so vi cõy quyt nh Thc nghim ó th hin c yờu cu ca lun l ỏnh giỏ c hiu qu phõn lp cho mụ hỡnh bi toỏn - Hng phỏt trin ca Lun vn: T kt qu ca cỏc thc nghim, em cú th a mt mụ hỡnh tớch hp la chn cỏc thut toỏn hiu qu cho mi loi tn cụng c th Quan sỏt trờn cỏc biu v cỏc bng cú th thy rng i vi mi loi tn cụng nht nh, mt s mụ hỡnh phõn lp s cho kt qu tt hn cỏc mụ hỡnh cũn li, ú thut toỏn cú th la chn cỏc ng viờn tt nht cho mi loi tn cụng Do S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 61 ú, gi thit rng h thng IDS c tớch hp nhiu b phõn lp khỏc v cú kh nng thc hin song song cựng lỳc cỏc b phõn lp ny Em ó bc u nghiờn cu mụ hỡnh phỏt hin xõm nhp ng dng hiu qu cỏc thut toỏn phõn lp: Naùve Bayes v Decision Tree Hng phỏt trin tng lai, em s nghiờn cu mụ hỡnh phỏt hin tn cụng da trờn vic kt hp nhiu b phõn lp khỏc nhm tn dng c u th ca mi b phõn lp cho mi loi tn cụng c th S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 62 TI LIU THAM KHO [1] E Eskin, A Arnold, M Prerau, and L Portnoy A geometric framework for unsupervised anomaly detection Application of Data, 2002 [2] Y Liao and V.R Vemuri Use of k-nearest neighbor classifier for intrusion detection Computer Security, 21(5):439- 448, 2002 [3] Nguyen Quang Trung Master Thesis: Intrusion Detection System for Classifying Process Behavior Technical Unversity of Denmark, Kongens Luyngby, 2010 [4] Ian H Witten, Eibe Frank, Mark A Hall Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011 [5] Zonghua Zhang, Hong Shen, Application of online-training SVMs for real-time intrusion detection with different considerations Computer Communications, 28(12):1428-1442, 2005 [6] Haiyan Qiao, Jianfeng Peng, Chuan Feng, and Jerzy W Rozenblit Behavior Analysis-Based Learning Framework for Host Level Intrusion Detection In Proceedings of the 14th Annual IEEE International Conference and Workshops on the Engineering of Computer-Based Systems(ECBS '07) IEEE Computer Society, Washington, DC, USA, 441-447, 2007 [7] Ling Ma and Nazli Goharian Query length impact on misuse detection in information retrieval systems In Proceedings of the 2005 ACM symposium on Applied computing(SAC '05), Lorie M Liebrock (Ed.) ACM, New York, NY, USA, 1070-1075, 2005 [8] W.Lee and S.Stolfo Data mining Approaches for Instruction Detection Inproceeding of the 7th USENIX Security Sysposimun 1998 [9] W lee A data mining Framework for Constructing Features and Mo dels for Instruction Detection Systems PhD Thesis, Computer Science, Columbia University, June 1999 [10] William Cohen Learning Tree and Rule with Set-Valued Features American Assocition for Artificial Intelligence (AAAI), 1996 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn 63 [11] KDD cup 99 Intrusion detection data set: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html [12] R Grossman, S Kasif, R Moore, D Rocke, and J Ullman Data Mining Research: Opportunities and Challenges, A report of three NSF workshops on Mining Large, Massive, and Distributed Data, January 1998 [13] S.Peddabachigari, A Abraham and J.Thomas, Intrusion Detection Systems Using Decision Trees and Support Vector Machines, Vector machines, International Journal of Applied Science, 188-134, 2004 [14] WEKA: http://sourceforge.net/projects/weka/ [15] M Mahoney and P Chan, An Analysis of the 1999 DARPA/LincolnLaboratory Evaluation Data for Network Anomaly Detection, LEC-TURE NOTES IN COMPUTER SCIENCE, pp 220238, 2003 S húa bi Trung tõm Hc liu HTN http://www.lrc.tnu.edu.vn ... nghiên cứu hệ thống phát xâm nhập dựa khai phá liệu" Luận văn nghiên cứu khai phá liệu nghiên cứu ứng dụng mô hình hệ thống phát xâm nhập trái phép dựa khai phá liệu; Từ đánh giá hiệu hệ thống phát. .. thƣờng Nghiên cứu tài liệu liên quan lĩnh vực khai phá liệu phát xâm nhập Tìm hiểu, nghiên cứu kỹ thuật phát xâm nhập dựa phƣơng pháp thống kê khai phá liệu Trên sở nghiên cứu phân tích tập liệu. .. IDS; Mô hình kiến trúc hệ thống phát xâm nhập; Phân loại hệ thống IDS; Các kỹ thuật phát xâm nhập hệ thống IDS; Hệ thống phát xâm nhập dựa khai phá liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ngày đăng: 23/03/2017, 13:50

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan