ứng dụng bản đồ tự tổ chức som (self organizing map) phát hiện phát tán virus máy tính qua hành vi

96 649 1
ứng dụng bản đồ tự tổ chức som (self organizing map) phát hiện phát tán virus máy tính qua hành vi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG NGUYỄN QUỐC DOANH ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC SOM (Self Organizing Map) PHÁT HIỆN PHÁT TÁN VIRUS MÁY TÍNH QUA HÀNH VI Chuyên ngành: Công nghệ thông tin Mã số: 60.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH NGỌC MINH Đồng Nai – Năm 2012 MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH Trang CHƢƠNG 1 - MỞ ĐẦU 1 1.1 Giới thiệu đề tài 1 1.1.1 Lý do chọn đề tài 1 1.1.2 Mục tiêu của đề tài 2 1.1.3 Các giai đoạn thực hiện đề tài 3 1.2 Đối tƣợng, phạm vi nghiên cứu của đề tài 3 1.2.1 Các hệ học 3 1.2.2 Học giám sát 4 1.2.3 Học không giám sát 4 1.2.4 Bản đồ tự tổ chức (SOM) 5 1.2.3 Sâu máy tính và các hệ thống đích 5 1.3 Cấu trúc chung luận luận văn 6 1.4 Ý nghĩa thực tiễn của đề tài 7 CHƢƠNG 2 - TÌM HIỂU HỆ THỐNG PHÁT HIỆN XÂM NHẬP 9 2.1 Khái niệm 9 2.2 Các thành phần và chức năng của IDS 9 2.2.1 Thành phần thu thập gói tin 11 2.2.2 Thành phần phát hiện gói tin 11 2.2.3 Thành phần phản hồi 11 2.3 Phân loại IDS 12 2.3.1 Network Base IDS (NIDS) 12 2.3.2 Host Based IDS (HIDS) .13 2.4 Hệ thống phát hiện xâm nhập theo dấu hiệu cho trƣớc (Misuse-based IDS) và hệ thống phát hiện xâm nhập bất thƣờng (Anomaly-based IDS) 14 2.4.1 Misuse – based system 14 2.4.2 Anomaly – based system 15 2.5 Phân loại các dấu hiệu 16 2.5.1 Phát hiện dấu hiệu bất thƣờng 16 2.5.2 Các mẫu hành vi thông thƣờng- phát hiện bất thƣờng 16 2.5.3 Các dấu hiệu có hành vi bất thƣờng – phát hiện dấu hiệu 17 CHƢƠNG 3 - BẢN ĐỒ TỰ TỔ CHỨC 20 3.1. Giới thiệu 20 3.2. Cấu trúc mạng Kohonen 21 3.3 Thuật giải Bản đồ tự tổ chức (SOM) 22 3.3.1 Khởi tạo: 22 3.3.2 Chọn phần tử đại diện: 22 3.3.3 Tìm mẫu khớp tốt nhất (BMU) : 22 3.3.4 Xây dựng các phần tử lân cận: 23 3.3.5 Hiệu chỉnh trọng số của các phần tử lân cận 24 3.3.6 Vòng lặp 26 3.7. Chất lƣợng “Bản đồ tự tổ chức” 26 3.8. Các phƣơng pháp trực quan minh họa “Bản đồ tự tổ chức” 27 3.9. Phƣơng pháp tìm ngƣỡng cảnh báo 29 3.10. Phát hiện tấn công ứng dụng “Bản đồ tự tổ chức” 30 3.4 Ƣu và nhƣợc điểm của SOM 31 3.4.1 Ƣu điểm 31 3.4.2 Nhƣợc điểm 31 CHƢƠNG 4: CÁCH THỨC PHÁT TÁN CỦA VIRUS, WORM VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 32 4.1. Các cơ chế phát hiện phát tán virus máy tính 32 4.1.1. Phát hiện virus dựa vào chuỗi nhận dạng 32 4.1.2. Phát hiện virus dựa vào hành vi 33 4.1.3. Phát hiện virus dựa vào ý định 33 4.2. Tổng quan về sâu máy tính(worm) 34 4.2.1. Khái niệm sâu 34 4.2.2 Sâu máy tính và các virus khác phát tán nhƣ thế nào? 34 4.3. Sự phát triển của virus và worm 35 4.3.1 Khái quát : 35 4.3.2 Các thế hệ phát triển của virus, worm : 35 4.4 Số liệu chung về tình hình virus và an ninh mạng năm 2011 38 4.5 Báo cáo tình hình virus tại Việt Nam – tháng 11/2011 (theo Kaspersky) 39 4.5.1 Malware nhắm vào Hệ thống phát hiện xâm nhập (IDS) 39 4.5.2. Những quốc gia có số lƣợng tấn công cao nhất vào máy tính 40 4.5.3 Những quốc gia có tỉ lệ phát hiện các đối tƣợng độc hại cao nhất 40 4.5.4 Các quốc gia có tỷ lệ bị lây nhiễm cao đƣợc ghi nhận 41 4.5.5 Các vấn đề mở của công nghệ anti-virus 41 4.6 Hƣớng tiếp cận của đề tài 42 4.6.1 Tiếp cận máy học và Bản đồ tự tổ chức (SOM) 43 4.6.2 Giới thiệu các đặc trƣng và ý nghĩa 43 4.7 Đề xuất các đặc trƣng 47 4.8. Thuật toán xây dựng đặc trƣng 48 4.8.1 Gán trọng số cho các nhóm đặc trƣng 49 4.8.2 Chuẩn hóa các đặc trƣng 49 CHƢƠNG 5: THIẾT KẾ XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM 51 5.1 Mô hình tổng quát 51 5.2 Tiền xử lý 52 5.3 Xây dựng bản đồ 53 5.3.1 Xác định các tham số quan trọng cho thuật toán SOM 53 5.3.2 Cài đặt thuật toán SOM 53 5.4 Kết quả mạng SOM sau quá trình học. 55 5.5 Bản đồ tham số đặc trƣng 57 5.6 Thực nghiệm Lab phát tán mã độc, virus, worm. 58 5.6.1. Mô tả môi trƣờng thực nghiệm. 58 5.6.2 Môi trƣờng thực nghiệm: 58 5.6.2.1 Phần mềm tạo máy ảo VMware Workstation 58 5.6.2.2 Phần mềm đóng băng ổ cứng Deep Freeze: 59 5.7 Mô hình đề xuất 60 5.7.1 Xây dựng mô hình thực nghiệm 60 5.7.2 Cấu hình máy phát hiện xâm nhập IDS: 60 5.7.3 Cấu hình máy Mail Sever: 60 5.7.4 Cấu hình máy trạm: 61 5.8. Phân tích cách thức hoạt động của một số sâu 61 5.8.1 Worm Mydoom.s 61 5.8.2 Worm W32.NetSky.P 62 5.8.3 Worm Sasser 63 5.8.4 Loveletter 64 5.8.5. Phân tích sâu Blaster 69 5.9 Phƣơng pháp phát hiện mã độc phát tán ứng dụng Bản đồ tự tổ chức 72 5.10 Chƣơng trình thực nghiệm phát hiện xâm nhập mã độc 74 5.10.1 Tải tập tin dữ liệu học 74 5.10.2 Hiển thị nội dung véc-tơ học 75 5.10.3 Khởi tạo bản đồ: 76 5.10.4 Huấn luyện bản đồ 77 5.10.5 Dò tìm xâm nhập bất thƣờng 77 5.10.5.1 Thực nghiệm 1 78 5.10.5.2 Thực nghiệm 2 79 5.10.5.3 Thực nghiệm 3 81 5.10.5.4 Thực nghiệm 4 83 5.10.6 Huấn luyện và tính chất lƣợng “Bản đồ tự tổ chức” 85 5.11 Ứng dụng ngƣỡng cảnh báo vào thực nghiệm 87 5.12 Đánh giá kết quả thực nghiệm 87 5.13 Kết luận 88 CHƢƠNG 6: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 89 6.1 Những đóng góp của đề tài 89 6.2 Hạn chế của đề tài và cách khắc phục 89 6.3 Hƣớng phát triển đề tài 89 TÀI LIỆU THAM KHẢO TIẾNG VIỆT TÀI LIỆU THAM KHẢO TIẾNG ANH CÁC ĐỊA CHỈ INTERNET -1- CHƢƠNG 1: MỞ ĐẦU 1.1 Giới thiệu đề tài 1.1.1 Lý do chọn đề tài Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới, công nghệ thông tin vừa là công cụ, vừa là động lực thúc đẩy quá trình công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn đất nước hội nhập quốc tế, Công nghệ thông tin giữ vai trò đặc biệt quan trọng trong việc xử lý tính toán dữ liệu, kết nối thông tin liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống. Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập trái phép vào các hệ thống Công nghệ thông tin cả chiều rộng (lây lan trên quy mô toàn thế giới) và chiều sâu (can thiệp vào hệ thống đích). Mỗi ngày các hệ thống mạng phải đối phó với hàng loạt đợt tấn công bằng mã độc (Malware) của tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt, gây thiệt hại không nhỏ. Một trong những loại virus máy tính gây thiệt hại đến kinh tế, xã hội và an ninh trên mạng hiện nay đó chính là sử dụng các loại mã độc (malware), sâu máy tính (worm). Mã độc được kết hợp với một số kỹ thuật tấn công khác sẽ tạo nên một khả năng rất mạnh đối với kẻ tấn công. Chúng có thể tự động len lỏi tìm đến các mục tiêu máy tính được nối mạng và lấy cắp những thông tin từ mục tiêu này mà người sử dụng không hay biết gì, mã độc thực sự trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống Công nghệ thông tin hiện nay. Trong bối cảnh đó đề tài “Ứng dụng Bản đồ tự tổ chức (SOM - Self Organizing Map) phát hiện phát tán virus qua hành vi” được tiến hành nhằm góp phần giải quyết vấn đề bảo vệ an toàn dữ liệu cho các hệ thống Công nghệ thông tin hiện nay. -2- 1.1.2 Mục tiêu của đề tài - Nghiên cứu hệ thống phát hiện xâm nhập (IDS – Intrusion Detection System). - Nghiên cứu các cách lây lan của virus, worm phổ biến hiện nay. - Nghiên cứu và cài đặt cách thức lấy các tham số đặc trưng của mã độc trong hệ thống mạng. - Khảo sát, phân tích thuật toán Bản đồ tự tổ chức (SOM). - Ứng dụng bản đồ tự tổ chức SOM để trích chọn các tham số đặc trưng của một hệ thống mạng trong trạng thái “bất thường” rồi triển khai, phân tích, so sánh thông tin về hoạt động mạng trong thời gian thực. Sau đó so sánh với những trạng thái thu nhận khi “bất thường” để phát hiện ra các tấn công của sâu máy tính thông qua hành vi bất thường. - Trên cơ sở nhận dạng, phát hiện dấu hiệu “bất thường” các trường hợp lây nhiễm, tiềm ẩn đã biết trên hệ thống đích “Ứng dụng Bản đồ tự tổ chức (SOM - Self Organizing Map) phát hiện phát tán virus qua hành vi.” 1.1.3 Các giai đoạn thực hiện đề tài Quá trình nghiên cứu đề tài được tiến hành qua các giai đoạn như sau Giai đoạn 1: Xây dựng hệ thống mạng - Xây dựng hệ thống mạng để làm thực nghiệm (Lab), giả lập phát tán mã độc trên hệ thống mạng máy tính. Giai đoạn 2: Thu thập dữ liệu - Khảo sát tình hình thực tiễn, thu thập các mẫu sâu máy tính hiện nay, các phần mềm tạo sâu máy tính trong nước và nước ngoài… - Nghiên cứu tài liệu, tìm hiểu các phương pháp lây nhiễm, phát tán sâu máy tính vào hệ thống mạng. Giai đoạn 3: Thực nghiệm - Xác định các tham số liên quan đến hệ thống máy tính bị ảnh hưởng bởi mã độc tấn công, cách thức lấy thông tin liên quan tới các tham số đã xác định. Kết quả cuối cùng là tập các véc-tơ để học. -3- - Từ tập véc-tơ học thu được, sử dụng chương trình SOM tạo nơron sinh ngẫu nhiên để có được nơron sau khi học. - Phát tán sâu máy tính trong hệ thống mạng, hiệu chỉnh bán kính IDS sao cho phù hợp và ghi nhận kết quả cảnh báo Giai đoạn 4: Tổng kết - Khái quát hóa và rút ra kết luận chung cho đề tài. - Viết báo cáo, công bố kết quả nghiên cứu đề tài 1.2 Đối tƣợng, phạm vi nghiên cứu của đề tài 1.2.1 Các hệ học Trong nhiều tình huống, tri thức là không có sẵn. Phần lớn người lập trình không có đủ kiến thức thuộc về lĩnh vực chuyên môn nên không biết cách mô tả các luật trong từng lĩnh vực cụ thể. Do thiếu tri thức nên bài toán không được biểu diễn tường minh theo luật, sự kiện hay các quan hệ. Vì vậy cần xây dựng các hệ thống học có khả năng thu nhận kiến thức từ các chuyên gia và học tập từ các ví dụ do chuyên gia cung cấp. Máy học (Machine Learning) là các hệ chương trình có khả năng thực thi công việc dựa trên kinh nghiệm, tự khám phá tri thức bằng các cấu trúc dữ liệu và thuật giải đặc biệt. Có hai tiếp cận cho hệ thống học là học từ ký hiệu và học từ dữ liệu số. Học từ ký hiệu bao gồm việc hình thức hóa, sửa chữa các luật tường minh, sự kiện và các quan hệ. Học từ dữ liệu số áp dụng cho các hệ thống sử dụng các mô hình có liên quan đến các kỹ thuật tối ưu các tham số. Các hệ học có ưu điểm:  Xử lý dữ liệu với khối lượng lớn.  Hỗ trợ các kỹ thuật phân tích, xử lý, trích chọn và chi tiết hóa dữ liệu  Phát sinh luật từ dữ liệu, thích hợp cho các trường hợp cần tham khảo ý kiến chuyên gia tư vấn cho các lĩnh vực cụ thể, có tính chuyên sâu.  Hỗ trợ quyết định xử lý liên quan đến kinh nghiệm của con người… -4- Các hệ học có hai giai đoạn cơ bản: Học dữ liệu và xử lý dữ liệu. - Học dữ liệu là quá trình phân tích và tìm ra những điểm tương đồng trong dữ liệu để sản sinh luật. - Giai đoạn xử lý ước lượng đặc tính dữ liệu mới dựa trên luật đã được phát sinh ở giai đoạn học. Có thể chia các quá trình học thành hai dạng chính:[4] học có giám sát (suppervised learning) và học không giám sát (unsuppervised learning). 1.2.2 Học giám sát Quá trình học giám sát được tiến hành trên một tập dữ liệu mẫu với giá trị được phân loại (gán nhãn) sẵn. Tập dữ liệu luyện gồm: S = {x i , c j | i = 1,…, M; j = 1,…, C} Trong đó x i là véc-tơ n chiều (gọi là đặc trưng của dữ liệu) c j là số lớp biết trước Thuật toán học sẽ tìm kiếm trên không gian giả thuyết giải pháp tốt nhất cho ánh xạ f với c = f(x). Kết quả tìm được phản ánh đặc trưng của mẫu dữ liệu. Các thuật toán học tìm cách phát sinh một tập giả thuyết bằng cách tìm ra các đặc trưng và giá trị tương ứng với mẫu dữ liệu của mỗi lớp. Sau đó áp dụng các tập giả thuyết tìm được để phân loại (classification) các mẫu dữ liệu mới vào các lớp tương ứng. Bài toán nhận dạng virus đã biết là quá trình học có giám sát. Thư viện S chứa k mẫu virus đã biết, mỗi mẫu virus xi có p thuộc tính. Mục tiêu của quá trình chẩn đoán virus là xác định xem đối tượng có nhiễm virus xi hay không và nếu nhiễm thì thuộc lớp virus đã biết trước c j nào. 1.2.3 Học không giám sát Thay vì có mục tiêu tường minh, hệ tìm kiếm quy luật hình thành các mẫu và khám phá mối quan hệ của dữ liệu. Các bài toán gom cụm dữ liệu [...]... công mới phát hiện) -20- CHƢƠNG 3 - BẢN ĐỒ TỰ TỔ CHỨC (SOM- Self Organizing Map) 3.1 Giới thiệu SOM (Self- Organizing Map) bản đồ tự tổ chức, còn được biết đến như là bản đồ đặc trưng tự tổ chức SOFM (Self- Organizing Feature Map) là kỹ thuật trực quan hóa dữ liệu (data visualation) Giải thuật được xây dựng bởi giáo sư Teuvo Kohonen dựa trên kiến trúc mạng Kohonen Điểm nổi bật của thuật giải SOM là nó... cận máy học trong lĩnh vực nhận dạng phát tán mã độc qua hành vi Chương 5: Trình bày phương pháp thiết kế chương trình thực nghiệm xây dựng trên cơ sở các nghiên cứu lý thuyết của đề tài Phần đầu Chương 5 mô tả mô hình tổng quát thuật toán Bản đồ tự tổ chức SOM trong vi c phát hiện phát tán mã độc lây lan trong hệ thống mạng Áp dụng tiếp cận máy học và Bản đồ tự tổ chức SOM, sẽ được triển khai qua. .. luyện bản đồ tự tổ chức , mô hình hóa bản đồ, chạy giám sát hệ thống và đưa ra cảnh báo cho nhà quản trị mạng khi có mã độc tấn công xâm nhập - Ứng dụng bản đồ tự tổ chức SOM , xây dựng một chương trình IDS chạy trên Linux giám sát hệ thống để phát hiện phát tán mã độc qua hành vi -9- CHƢƠNG 2 - TÌM HIỂU HỆ THỐNG PHÁT HIỆN XÂM NHẬP IDS (Intrusion Detection System) 2.1 Khái niệm Hệ thống phát hiện. .. loại các hành động, IDS phải lợi dụng phương pháp phát hiện bất thường, đôi khi là hành vi cơ bản hoặc các dấu hiệu tấn công,… 2.5.2 Các mẫu hành vi thông thƣờng- phát hiện bất thƣờng Các mẫu hành vi thông thường rất hữu ích trong vi c dự đoán người dùng và hành vi hệ thống Do đó các bộ phát hiện bất thường xây dựng profile thể hiện vi c sử dụng thông thường và sau đó sử dụng dữ liệu hành vi thông... thứ hai nằm lân cận nhau trong Bản đồ tự tổ chức 3.8 Các phƣơng pháp trực quan minh họa Bản đồ tự tổ chức Để trực quan hóa kết quả của Bản đồ tự tổ chức , chúng ta có rất nhiều cách mô hình hóa chúng [10] như sau: -28- Hình 3.7 Ma trận U Hình 3.8 Không gian điểm Hình 3.9 Biểu đồ cột với mỗi ô là một nơron của Bản đồ tự tổ chức Ngoài ra, còn có các dạng biểu đồ khác như: cấu trúc nhóm, mật độ... với các nhóm virus 1.2.4 Bản đồ tự tổ chức (SOM) Con người có khả năng sử dụng kinh nghiệm quá khứ để thích nghi với những thay đổi của môi trường Sự thích nghi đó không cần hướng dẫn hay chỉ đạo từ bên ngoài Mạng nơron thực hiện theo nguyên lý đó gọi là mạng tự tổ chức hay Bản đồ tự tổ chức SOM được Kohonen phát triển vào đầu thập những năm 80, nên cũng thường được gọi là mạng Kohonen SOM được dùng... giữa Anti Virus và sâu máy tính là cuộc đấu trí giữa chuyên gia hệ thống và tin tặc Xuất phát từ nhận định này, đề tài chọn cách phối hợp tiếp cận học (machine learning) để tìm lời giải cho bài toán phát hiện sâu máy tính qua hành vi -6- Sâu máy tính là một chương trình có khả năng tự nhân bản và tự lây nhiễm trong hệ thống tuy nhiên nó có khả năng tự đóng gói”, điều đó có nghĩa là sâu máy tính không... kiếm sổ địa chỉ và tự gửi bản thân nó đến các địa chỉ thu nhặt được Vi c gửi đồng thời cho toàn bộ các địa chỉ thường gây quá tải cho mạng hoặc cho máy chủ mail Netsky, Mydoom là ví dụ cho thể loại này Để kiểm tra và đánh giá kết quả, một chương trình thực nghiệm sẽ được thiết kế dựa trên mô hình mạng Kohonen ứng dụng Bản đồ tự tổ chức SOM nhằm phát hiện các hành vi, quy luật phát tán của mã độc từ... lƣợng Bản đồ tự tổ chức Bản đồ tự tổ chức [21], những tiến trình học khác nhau tạo thành những bản đồ SOM khác nhau, khi bắt đầu với những tập dữ liệu khởi tạo mi(1) khác nhau và áp dụng những trình tự khác nhau với tập véc-tơ huấn luyện V(t), những tham số học khác nhau Bản đồ „tốt‟ là bản đồ có (lỗi lượng tử trung bình) thấp nhất Từ tập dữ liệu đầu vào, chúng ta có thể tạo bản đồ tốt nhất có thể... thống phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật, virus và đưa ra cảnh báo cho nhà quản trị 2.2 Các thành phần và chức năng của IDS  IDS bao gồm các thành phần chính - Thành phần thu thập thông tin gói tin - Thành phần phát hiện gói tin - Thành phần xử . NGUYỄN QUỐC DOANH ỨNG DỤNG BẢN ĐỒ TỰ TỔ CHỨC SOM (Self Organizing Map) PHÁT HIỆN PHÁT TÁN VIRUS MÁY TÍNH QUA HÀNH VI Chuyên ngành: Công nghệ thông tin Mã số:. thống đích Ứng dụng Bản đồ tự tổ chức (SOM - Self Organizing Map) phát hiện phát tán virus qua hành vi. ” 1.1.3 Các giai đoạn thực hiện đề tài Quá trình nghiên cứu đề tài được tiến hành qua các. thống Công nghệ thông tin hiện nay. Trong bối cảnh đó đề tài Ứng dụng Bản đồ tự tổ chức (SOM - Self Organizing Map) phát hiện phát tán virus qua hành vi được tiến hành nhằm góp phần giải

Ngày đăng: 25/11/2014, 15:32

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan