NGHIÊN CỨU MỘT SỐ THUẬT TOÁN THÔNG MINH TRONG MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO, ỨNG DỤNG XÂY DỰNG HỆ THỐNG PHÁT HIỆN VIRUS MÁY TÍNH

18 944 3
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN THÔNG MINH TRONG MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO, ỨNG DỤNG XÂY DỰNG HỆ THỐNG PHÁT HIỆN VIRUS MÁY TÍNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH BỘ MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG  BÁO CÁO NGHIÊN CỨU MỘT SỐ THUẬT TOÁN THÔNG MINH TRONG MÁY HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO, ỨNG DỤNG XÂY DỰNG HỆ THỐNG PHÁT HIỆN VIRUS MÁY TÍNH GVHD: GS. TSKH. Hoàng Văn Kiếm Học viên: Nguyễn Vĩnh Kha MSHV: CH1101096 KHÓA: K6-2011 LỚP: CH06 TP. Hồ Chí Minh – 05/2012 1 MỤC LỤC 2 I. GIỚI THIỆU Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý trái phép vào các hệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới) và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay. Để phòng chống virus máy tính, các hệ thống CNTT sử dụng các phần mềm chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉ phát huy tác dụng trên các mẫu virus xác định, khả năng dự đoán virus mới còn hạn chế nên thường bị động khi có dịch virus bùng phát. Đã có nhiều giải pháp ứng dụng TTNT đã ra đời nhằm mục đích dự báo, chuẩn đoán các mẫu virus mới. Trong đó, điển hình nhất chính là hệ miễn dịch (HMD) nhân tạo - một phương pháp cách tiếp cận của tin sinh học - là khái niệm chỉ các hệ thống thông minh nhân tạo, giải quyết vấn đề dựa trên các nguyên lý, chức năng và mô hình hoạt động của HMD con người. Giống như miễn dịch sinh học, HMD nhân tạo có một số đặc trưng chính quan trọng như: chống chịu nhiễu, học không có giám sát, ghi nhớ, phân tán và tự tổ chức. HMD nhân tạo được đánh giá như một phương pháp tính toán mềm mới có hiệu quả. Phạm vi ứng dụng của HMD nhân tạo không chỉ đơn thuần giới hạn ở các bài toán nhận dạngmà nó thực sự thu hút được sự chú ý của các nhà nghiên cứu thông qua những ứng dụng trong các lĩnh vực như bảo mật và an toàn thông tin, học máy, robot học, điều khiển học, tối ưu hoá… Ở Việt Nam, các công trình, tài liệu nghiên cứu về HMD nhân tạo còn rất ít. Chính vì vậy chúng tôi đã thực hiện nghiên cứu đề tài: “Nghiên cứu một số thuật toán thông minh trong máy học và hệ miễn dịch nhân tạo. Ứng dụng xây dựng hệ thống phát hiện virus máy tính”. Chúng tôi đã xây dựng một chương trình dựa trên lý thuyết của HMD nhân tạo nhằm mục đích bước đầu áp dụng HMD nhân tạo vào việc phát hiện virus. Ngoài phần giới thiệu, báo cáo bao gồm: Chương II. Các cơ chế chuẩn đoán virus và một số vấn đề liên quan Chương III. Một số đặc điểm cơ bản của hệ miễn dịch sinh học Chương IV. Tổng quan về hệ miễn dịch nhân tạo Chương V. Xây dựng hệ thống phát hiện virus Chương VI. Kết luận và hướng phát triển II. CÁC CƠ CHẾ CHUẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN Cho đến nay, có ba kỹ thuật nhận dạng virus máy tính đã được áp dụng: Dựa vào chuỗi nhận dạng virus (signature-based approach): phát hiện các virus đã biết trên tập dữ liệu chẩn đoán với độ chính xác cao. Tuy nhiên kỹ thuật này lại có những nhược điểm như cồng kềnh, bị động và khả năng nhầm lẫn dẫn đến mất mát dữ liệu sạch. Dựa vào hành vi nghi ngờ virus (suspicious behavior-based approach): cách tiếp cận này nghiên cứu virus máy tính dưới góc độ thi hành của tập mã lệnh. Cách tiếp cận này dựa vào khái niệm hành vi để xây dựng cơ chế nhận dạng thông qua tập các thủ tục, hành vi của chúng. Do các virus giống nhau thường có hành vi như nhau nên AV có thể nhận dạng các virus cùng họ. Tuy nhiên AV khó phân biệt được các hành vi giống nhau nhưng mục đích khác nhau nên tiếp cận này ít được sử dụng cho máy lẻ, trạm làm việc, vốn dành cho người dùng ít kinh nghiệm. 3 Dựa vào ý định virus (intention-based approach): lưu giữ hình ảnh chi tiết của máy tính trong tình trạng sạch, sau đó tiếp tục theo dõi trạng thái hệ thống. Những thay đổi quan trọng trong tập tin, cấu hình hệ thống hay HĐH đều được cảnh báo như một mối hiểm họa tiềm tàng. Khi những thay đổi này được đánh giá nguy hiểm, hệ sẽ khôi phục máy về tình trạng ban đầu. Mặc dù đơn giản nhưng tiếp cận này tỏ ra khá hiệu quả vì nó có thể bảo vệ máy tính khỏi các mối đe dọa chưa được biết đến, kể cả virus máy tính. Tuy nhiên tiếp cận này kém hiệu quả khi các điểm trạng thái được ghi nhận lúc hệ thống bị nhiễm virus lạ. Mặt khác, hệ cũng cần bộ nhớ ngoài đủ lớn để lưu toàn bộ hình ảnh hệ thống qua từng thời điểm. III. MỘT SỐ ĐẶC ĐIỂM CƠ BẢN CỦA HỆ MIỄN DỊCH SINH HỌC A. Các khái niệm miễn dịch sinh học Hệ miễn dịch (HMD) là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể. Chức năng của hệ miễn dịch sinh học là nhận dạng tế bào và phân chia chúng thành hai nhóm khác nhau: self (những tế bào của cơ thể tạo ra) và non-self (những tế bào lạ), đồng thời loại bỏ các tế bào thuộc loại non-self. B. Các thành phần chủ yếu của hệ miễn dịch HMD là một cơ chế bảo vệ tự nhiên hiệu quả và tức thời, cho phép cơ thể chống lại những lây nhiễm của các vi sinh vật bên ngoài. Nó bao gồm hai tầng bảo vệ là: Hệ thống miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi. Cả hai hệ thống hoạt động dựa trên các tế bào bạch huyết (white blood cells) còn gọi là bạch cầu (leukocyte). Trong đó HMD bẩm sinh chủ yếu dựa vào bạch cầu hạt (granulocyte) và đại thực bào (macrophage), còn HMD thích nghi dựa vào tế bào lympho (lymphocyte – là một loại bạch cầu). HMD sinh học bao gồm các thành phần sau: - Đại thực bào (Macrophage), - Bạch cầu hạt (Granulocyte), - Bạch cầu trung tính (Neutrophils – Bạch cầu đa hình), - Bạch cầu ưa eosin (Eosionphils), - Bạch cầu ái kiềm (Basophils), - Lympho bào (Lymphocyte). C. Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản HMD chứa một tập tế bào (cells) và phần tử (molecules) bảo vệ cơ thể chống lại sự lây nhiễm. Khi bị các kháng nguyên tấn công HMD thích nghi sẽ được kích hoạt. Kháng nguyên có thể là những phần tử bên ngoài (antigen) như các phần tử trên bề mặt của các tác nhân gây bệnh hoặc các kháng nguyên do tế bào của cơ thể tạo ra (self-antigen). D. Chức năng sinh học của hệ miễn dịch Có nhiều bộ phận sản sinh bạch cầu trong cơ thể tạo nên HMD, những thành phần này gọi là cơ quan lymphoid (lymphoid organ – cơ quan sản sinh bạch cầu), mỗi thành phần giữ một vai trò nhất định trong việc sản sinh, trưởng thành và phát triển của các lympho bào (lymphocyte – là một loại bạch cầu), chủ yếu là B-cell và T-cell. Các cơ quan lymphoid có thể được chia thành 2 loại: - Loại cơ quan tiên phát (primary lymphoid organs), chúng có nhiệm vụ sản sinh lympho bào và tăng độ thích hợp của chúng với các kháng nguyên bằng cơ chế chọn lọc và đột biến. Loại cơ quan tiên phát bao gồm: tủy xương (Bone marrow), tuyến ức (Thymus). 4 - Loại cơ quan thứ phát (secondary lymphoid organs). Tại những cơ quan này các lympho bào sau khi sinh ra tương tác với tác nhân kích thích kháng nguyên (antigentic stimuli) làm cho đáp ứng miễn dịch thích nghi được kích hoạt. Loại cơ quan thứ phát bao gồm: hạch hạt nhân ở họng và amydam (Tonsils và adenoid), các nút Lympho (Lympho nodes), ruột thừa và máng Peyer (Appendix và peyer’s patches), lách (spleen), mạch lymphatic (Lymphatic vessels- Lymphatic system). Hình 3.1 cho thấy các cơ quan lymphoid (lymphoid organs) phân bố trong cơ thể. Hình 3.1: Các cơ quan sản sinh bạch cầu HMD có thể coi như một kiến trúc phân tầng với cơ chế điều chỉnh và bảo vệ trong một số mức như hình 3.2. Hình 3.2: Kiến trúc đa tầng của HMD Pathogens: Tác nhân gây bệnh, Skin: Lớp da, Biochemical Barriers: Hàng rào sinh hóa, Innate immune response: Đáp ứng miễn dịch bẩm sinh, Adaptive immune response: đáp ứng miễn dịch thích nghi, Phagocyte: Thực bào, Lymphocyte: Lympho bào (là một loại bạch cầu). Các hàng rào vật lý (Physical barriers): Gồm lớp da và màng nhầy nằm ở các tuyến hô hấp và tiêu hóa chứa đại thực bào (macrophage) và kháng thể ngăn không cho những chất lạ xâm nhập vào cơ thể. 5 Hàng rào sinh hóa (Biochemical barriers): Các chất lưu như nước bọt, mồ hôi nước mắt chứa những enzym có thể loại bỏ kháng nguyên. Các Axit trong da cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống sót và sản sinh của một kháng nguyên. HMD thích nghi và bẩm sinh: Hai tuyến chính của HMD sẽ được trình bày kỹ hơn trong phần sau. E. Hệ miễn dịch bẩm sinh (Innate immune system) HMD bẩm sinh hoạt động dựa vào bạch huyết cầu là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm). Những bạch huyết này có các cơ quan thụ cảm bề mặt có thể nhận diện và bám vào các phần tử gây bệnh. Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện và loại bỏ. HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần 2 không có gì khác so với lần 1. Đây là điểm khác biệt cơ bản so với HMD thích nghi. F.Hệ miễn dịch thích nghi (Adaptive immune system) HMD thích nghi hoạt động với thành phần chính là các lympho bào (lymphocyte - là một loại bạch cầu) bao gồm (B-cell và T-cell). Các B-cell và T-cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó. Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lympho bào sẽ kết hợp với kháng nguyên làm cho các lympho bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhân diện và loại bỏ kháng nguyên. Một số lympho bào sẽ trở thành tế bào có khả năng ghi nhớ lưu thông trong cơ thể.Khi có loại kháng nguyên tương tự lây nhiễm, HMD thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng. Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ. Do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện nó sau mỗi lần “đụng độ” với kháng nguyên. G. Nhận dạng mẫu (Pattern Recognition) Dưới quan điểm về nhận dạng mẫu trong HMD, đặc trưng quan trọng nhất của B-cell và T- cell là chúng mang những phần tử cảm thụ trên bề mặt có khả năng nhân dạng kháng nguyên. Các cơ quan thụ cảm B-cell (B-cell Receptor) và cơ quan thụ cảm T-cell (T-cell Receptor) nhận diện kháng nguyên với những đặc điểm khác nhau. Cơ quan thụ cảm B-cell tương tác với các phần tử kháng nguyên một cách tự do, trong khi các cơ quan thụ cảm T-cell chỉ nhận diện các kháng nguyên được gắn kết trên một phần tử bề mặt (phần tử nằm trên bề mặt của một tế bào trình diện kháng nguyên – APC) gọi là MHC (Majoy Histocompatibility Complex - MHC đây là phức hợp các phần tử làm nhiệm vụ trình diện peptide kháng nguyên cho T-cell). Vai trò chính của B-cell là sinh ra một loại kháng thể chuyên dụng, đây là thuộc tính đơn đặc trưng (monospecificity) của B-cell. Trong khi đó chức năng của T-cell là điều chỉnh các tế bào khác và tấn công trực tiếp các tế bào gây ra sự lây nhiễm trong cơ thể. B-cell trình diện các phần tử kháng thể trên bề mặt của chúng, và trưởng thành trong tuỷ xương, còn quá trình trưởng thành của T-cell xảy ra trong tuyến ức. H. Phân biệt Self và Nonself Trong quá trình chọn lọc các tế bào B-cell và T-cell, HMD thích nghi bên cạnh việc phải chọn ra những tế bào có khả năng nhận biết được những tế bào lạ (antigen hay nonSelf), còn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (antigen hay đơn giản là Self). Tương ứng với hai quá trình này ta có quá trình chọn lọc tích cực và quá trình chọn lọc tiêu cực. 6 Hai quá trình này xảy ra với cả B-cell và T-cell với nguyên lý khá giống nhau, nên khi xây dựng thuật toán cho nó sẽ chỉ xét với T-cell. Phép chọn lọc tích cực (Positive Selection) a) Nguyên tắc lựa chọn Phép chọn lọc tích cực đối với các lympho bào (T-cell và B-cell) nhằm mục đích tránh sự góp mặt của những lympho bào không có ích. Những lympho bào mà cơ quan thụ cảm chúng không có khả năng nhận diện được kháng nguyên sẽ bị loại bỏ. Kết quả cuối cùng của phép chọn lọc tích cực là những lympho bào có khả năng nhận diện được kháng nguyên. b) Chọn lọc tích cực với T-cell Tất cả T-cell có cơ quan thụ cảm nhận diện được một phần của kháng nguyên (peptide), mà peptide này đã kết hợp với MHC tạo thành phức chất MHC/peptide, cần được chọn vào quần thể có giá trị và giải phóng khỏi tuyến ức để nó thực hiện nhiệm vụ miễn dịch của mình. Quá trình chọn lọc tích cực đảm bảo chỉ những T- cell mà cơ quan thụ cảm của nó có thể nhận diện kháng nguyên (nhận diện được phức hợp MHC/peptide) mới được đi ra khỏi tuyến ức, lưu thông trong cơ thể. Quá trình này xảy ra trong tuyến ức, do đó nó được gọi là phép chọn lọc tích cực trung tâm, hay phép chọn lọc tích cực trong tuyến ức. Ở quá trình chọn lọc tích cực này độ thích hợp của kháng thể và kháng nguyên không đủ lớn để tạo ra quá trình chọn lọc Clone (clonal selection) mà nó chỉ là tiền đề cho quá trình chọn lọc Clone. c) Chọn lọc tích cực với B-cell Trong quá trình sản sinh B-cell, nhiều B-cell sau khi đột biến cơ quan thụ cảm của nó không thể kết hợp được với kháng nguyên sẽ bị loại bỏ. Một số B-cell có cơ quan thụ cảm (BCR hay antibody) sau khi đột biến kết hợp được với kháng nguyên sẽ được duy trì, một số B-cell tốt (B- cell có độ thích hợp cao) sẽ trở thành B-cell ghi nhớ sống lâu trong cơ thể. Chọn lọc tiêu cực (Negative Selection) a) Nguyên tắc lựa chọn Phép chọn lọc tiêu cực của các lympho bào (T-cell và B-cell) nhằm mục đích loại bỏ những lympho bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do cơ thể tạo ra (self - antigen hoặc self - peptide – gọi đơn giản là self) và có khả năng tiêu diệt những tế bào này. b) Chọn lọc tiêu cực với T-cell Tất cả T-cell có cơ quan thụ cảm nhận diện được self-peptide hay self-antigen hay đơn giản là self (phần kháng nguyên do cơ thể tạo ra), mà self-peptide này đã kết hợp với phần tử MHC tạo thành phức hợp MHC/self-peptide. Quá trình này đảm bảo rằng T-cell rời khỏi tuyến ức không thể nhận dạng được bất kỳ tế bào nào do cơ thể sinh ra. c) Chọn lọc tiêu cực với B-cell Trong quá trình sản sinh nhiều B-cell mà cơ quan thụ cảm của nó có thể kết hợp với các tế bào của cơ thể (self - antgen) sẽ bị loại bỏ. Chọn lọc nhân bản (Clonal Selection) Khái niệm về chọn lọc nhân bản được dùng để miêu tả chức năng của hệ miễn dịch thu được nhằm làm đa dạng hóa các kháng thể giúp cơ thể chống lại sự xâm nhập của các kháng nguyên. Trong suốt quá trình tăng sinh các kháng thể, sự đột biến gen xuất hiện trong các kháng thể mới nhằm làm tăng ái lực với các kháng nguyên. Điều này khiến cho khả năng phát hiện kháng nguyên của các kháng thể này được cải thiện theo thời gian. Việc chọn lọc này có thể xem như một mô hình thu nhỏ của thuyết tiến hóa Darwin khi các kháng thể thích hợp nhất được lựa chọn và được biến đổi gen để tăng tính đa dạng của quần thể. 7 Hình 3.3: Quá trình chọn lọc nhân bản IV. TỔNG QUAN VỀ HỆ MIỄN DỊCH NHÂN TẠO A. Khái niệm về hệ miễn dịch nhân tạo “HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của học thuyết miễn dịch và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải các bài toán thực tế.” (Castro & Timmis - 2002) B. Phạm vi ứng dụng của hệ miễn dịch nhân tạo HMD nhân tạo có phạm vi ứng dụng rất rất rộng rãi, các ứng dụng của nó phải kể đến là: - Nhận dạng mẫu - Kiểm tra lỗi và những dấu hiệu bất thường của hệ thống - Phân tích dữ liệu - Lập lịch - Học máy - Điều khiển tự động - Tìm kiếm và tối ưu - An toàn thông minh C. Cấu trúc cơ bản của hệ miễn dịch nhân tạo Mô hình chung cho các hệ thống phỏng tiến hoá sinh học Cấu trúc cơ bản của hệ thống phỏng sinh học cần có 3 yếu tố cơ bản sau: - Biểu diễn các thành phần của hệ thống. - Cơ chế đánh giá tương tác của các cá thể với môi trường và các cá thể với nhau. Môi trường thường mô phỏng bởi một tập kích thích vào, một hoặc nhiều hàm đo độ thích nghi của cá thể với môi trường. - Các thủ tục thích nghi điều khiển tính động của hệ thống, tức là làm cho hoạt động của hệ thống thay đổi theo thời gian. Đây cũng là điểm cơ bản của cấu trúc để thiết kế HMD nhân tạo, đó là: Mô hình hoá các thành phần của HMD gồm tế bào các phần tử miễn dịch; xây dựng một tập hàm xác định độ thích hợp, để định lượng sự tương tác của các phần tử nhân tạo, và một tập thuật toán để điều khiển tính động của hệ AIS. Mô hình cho hệ miễn dịch nhân tạo 8 Hình 4.1: Cấu trúc phân tầng của HMD nhân tạo Tầng đầu tiên là lĩnh vực ứng dụng. Đối với lĩnh vực ứng dụng khác nhau sẽ quyết định những thành phần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phần cũng khác nhau. Tầng thứ hai là biểu diễn các thành phần: Trong AIS phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng nguyên. Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá độ thích hợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan. Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toán miễn dịch như thuật toán chọn lọc tích cực, thuật toán chọn lọc tiêu cực, thuật toán chọn lọc Clone, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệ AIS. Tầng thứ năm là đưa ra lời giải cho bài toán: Lời giải cho bài toán sẽ được cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định. Các mô hình trừu tượng của hệ miễn dịch và tương tác giữa chúng a) Tổng quát hoá các thành phần sinh học của hệ miễn dịch Ta giả thiết rằng các cơ quan thụ cảm trên bề mặt của mọi bạch cầu được gọi chung là kháng thể và phần tử mà các cơ quan thụ cảm này nhận diện được gọi chung là kháng nguyên. Khả năng nhận diện của các cơ quan thụ cảm với phần tử gây bệnh được gọi là độ thích hợp (Affinity hay Degree of match) của kháng thể với kháng nguyên. b) Không gian hình dạng (Shape - Space) Kết hợp với kháng thể và kháng nguyên chính là sự kết hợp của khối lồi và lõm trên bề mặt 2 phần tử như hình 4.2. Để mô tả hình dạng tổng quát của kháng thể và kháng nguyên cũng như thể hiện sự kết hợp giữa chúng, ta có thể biểu diễn kháng thể và kháng nguyên là một tập các khối lồi, lõm với 3 tham số chiều cao, chiều rộng và chiều dài. Ta có thể biểu diễn kháng thể và kháng nguyên như một tập L tham số. Hình 4.2: Kháng thể nhận diện kháng nguyên dựa vào phần bù Như vậy mỗi kháng thể và kháng nguyên có thể coi như một chuỗi thuộc tính m=<m1,m2, …,mL> trong không gian hình dạng S, L chiều. Mỗi phần tử chính là một điểm trong không gian S. 9 Chuỗi thuộc tính có thể được tạo bởi bất kì kiểu thuộc tính nào như kiểu số thực, số nguyên, bit và ký hiệu. Kiểu thuộc tính của các phần phụ thuộc vào bài toán và là yếu tố quan trọng để từ đó xác định tương tác của phần tử. Có một số kiểu không gian hình dạng chủ yếu sau: - Không gian thực (Real - shape - space): Chuỗi thuộc tính có các phần tử nhận giá trị thực. - Không gian nguyên (Integer - shape - space): Chuỗi thuộc tính có các phần tử nhận giá trị nguyên. - Không gian Hamming (Hamming - shape - space): Chuỗi thuộc tính có các phần tử nhận một giá trị nào đó trong bảng hữu hạn k mẫu tự. - Không gian ký hiệu (Symbolic - shape - space): Thường tạo bởi các thuộc tính có kiểu khác nhau, trong đó có ít nhất một thuộc tính là kiểu ký hiệu. Không mất tính tổng quát ta có thể giả sử kháng thể và kháng nguyên có cùng độ dài là L. Tổng quát một kháng thể được biểu diễn bởi vector Ab=<Ab1,Ab2,…,AbL> và một kháng nguyên được biểu diễn bởi vector Ag=<Ag1,Ag2,…,AgL> để xác định tương tác của các kháng thể với nhau và kháng thể với kháng nguyên có thể dùng công thức tính khoảng cách để đo độ thích hợp của 2 phần tử. c) Đánh giá tương tác giữa các phần tử - Không gian Euclid và không gian Mahattan: Không gian toạ độ thực dùng công thức tính toán khoảng cách (4.1) được gọi là không gian Euclid, dùng công thức tính toán khoảng cách (4.2) được gọi là không gian Mahattan: ( ) 2 L i i i l D Ab Ag = = − ∑ (4.1) L i i i l D Ab Ag = = − ∑ (4.2) Để đánh giá độ thích hợp giữa các thành phần của AIS, trong không gian thực có thể dùng khoảng cách Euclid hoặc khoảng cách Mahattan. - Không gian Hamming: Không gian hình dạng Hamming, các kháng nguyên và kháng thể được biểu diễn như các dãy ký hiệu trên một tập hữu hạn k mẫu tự. Công thức tính toán cách Hamming (4.3) dùng để đánh giá độ thích hợp giữa 2 chuỗi thuộc tính có độ dài L trong không gian Hamming. Với k=2 ta có không gian Hamming nhị phân, k=3 ta có không gian Hamming tam phân. L i i l D δ = = ∑ , 1 0 i i i i i Ab Ag Ab Ag δ ≠  =  =  (4.3) Tuỳ thuộc vào bài toán, một không gian nguyên cũng có thể được áp dụng. Trong không gian này các thuộc tính tương ứng với các biến có giá trị nguyên. Không gian nguyên có thể được xem như một trường hợp đặc biệt của không gian Hamming. Các công thức trên không chỉ dùng để biểu diễn tương tác giữa các kháng thể với kháng nguyên, mà còn có thể dùng để biểu diễn tương tác giữa các phần tử trong HMD. Ta có thể coi các công thức trên là những công thức chung để xác định tương tác giữa các phần tử trong HMD. Ngoài ra để xác định tương tác giữa các phần tử, ta quy định một ngưỡng nào đó, tuỳ từng bài toán và từng trường hợp cụ thể nếu khoảng cách D giữa 2 phần tử nhỏ hơn hoặc lớn hơn ngưỡng ta có 2 phần tử tương tác với nhau, hay có thể nhận diện được nhau. Một số thuật toán miễn dịch 10 [...]... được chọn trong khoảng (0, 1] còn ρ nằm trong khoảng [1, 10] Hình 5.5: Mô hình tổng quát của thuật toán CLONALG E Mô hình tổng thể hệ thống VDS Bảng sau cho ta thấy được ánh xạ từ hệ miễn dịch sinh học qua hệ thống phát hiện virus máy tính được xây dựng trên cơ sở hệ miễn dịch sinh học Hình 5.6: Ánh xạ hệ miễn dịch sinh học và hệ thống phát hiện virus Yêu cầu của hệ thống VDS - Xây dựng hệ thống VDS... cứu, phát triển và ứng dụng hệ miễn dịch nhân tạo trong việc giải các bài toán tối ưu’, Luận văn Thạc sĩ kỹ thuật, Học viện kỹ thuật quân sự, 2006 [3] Tống Minh Đạt, ‘Tìm hiểu hệ miễn dịch nhân tạo trong máy học và ứng dụng để xây dựng hệ thống đảm bảo an toàn mạng máy tính , Luận văn Thạc sĩ CNTT, Đại học CNTT, ĐHQG Tp.HCM, 2008 [4] Phạm Đình Lâm, ‘Tìm hiểu hệ miễn dịch nhân tạo và ứng dụng , khóa luận... LUẬN VÀ HƯỚNG PHÁT TRIỂN A Kết luận Đề tài dựa trên sự tìm hiểu kiến thức về hệ miễn dịch sinh học, thuật toán so khớp trùng rContiguous, thuật toán chọn lọc âm tính, thuật toán chọn lọc nhân bản để xây dựng mô hình hệ miễn dịch nhân tạo (AIS) và cài đặt chương trình cụ thể dùng để phát hiện virus máy tính (VDS) Đề tài đã mô hình hóa thành công mô hình của hệ miễn dịch nhân tạo ứng dụng trong lĩnh vực... hợp không giống nhau cho các thuật toán, với mỗi thuật toán sẽ có những cách đánh giá khác nhau V XÂY DỰNG HỆ THỐNG PHÁT HIỆN VIRUS A Xây dựng bộ phát hiện (Detector) Trong hệ thống phát hiện virus (VDS) mà chúng tôi xây dựng sau đây, các bộ phát hiện sẽ có chiều dài l = 32 và là các chuỗi bit nhị phân, tức là m = 2 Các chuỗi nay sẽ được rút trích trực tiếp từ các file virus theo nguyên tắc sau: Hình... trong lĩnh vực nhận dạng mẫu virus Mặc dù mô hình còn đơn giản nhưng đã thể hiện được một cách đầy đủ và rõ ràng các thành phần của HMD, mối liên hệ giữa các thành phần này và tương tác giữa chúng Tuy nhiên, đề tài chỉ dừng lại ở một phần nào đó của hệ miễn dịch, chỉ ứng dụng một số thuật toán miễn dịch vào xây dựng hệ thống Bên cạnh đó, ứng dụng chỉ được thử nghiệm trên một lượng dữ liệu mẫu không... để phát hiện các dữ liệu virus (yếu tố nonSelf trong hệ miễn dịch) Tập dữ liệu detector này sẽ được sử dụng làm bộ detector để tiếp xúc với dữ liệu có dấu hiệu virus (bao gồm cả dữ liệu bình thường và dữ liệu là virus) D Chọn lọc nhân bản và siêu biến đổi Học thuyết chọn lọc nhân bản được sử dụng làm cơ sở để cải tiến hệ miễn dịch nhân tạo trong các tác vụ về tối ưu hóa tính toán và nhận dạng mẫu Trong. .. trình còn thấp và do tính nguy hiểm của việc lưu trữ các file virus B Hướng phát triển Hoàn thiện chương trình phát hiện virus máy tính và đồng thời xây dựng các module nhằm tiêu diệt các file virus sau khi phát hiện, bóc tách các dữ liệu virus đã lây nhiễm vào dữ liệu Đây là hướng phát triển có ý nghĩa thực tiễn cao trong việc góp phần bảo vệ an toàn thông tin hiện nay và cũng chính là hướng phát triển... các thuật toán Heuristic để tăng tốc độ làm việc của thuật toán nhằm làm giảm thời gian xử lý Ứng dụng các thuật toán phân lớp như KNN, Naïve Bayes, SVM hoặc Neural Network… để tối ưu hóa việc nhận dạng virus 17 Tham khảo [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, Hệ miễn dịch nhân tạo và ứng dụng , Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên, 2007 [2] Phạm Văn Việt, Nghiên cứu, phát. .. bộ phát hiện đã trưởng thành nhằm tính toán tỉ lệ tương đồng giữa file cần kiểm tra với các file virus và đưa ra kết luận - Các bộ phát hiện trưởng thành được lưu trữ trong CSDL và có thể cập nhật liên tục các bộ phát hiện mới vào CSDL nhằm giúp chương trình có khả năng phát hiện nhiều loại virus riêng biệt - Hệ thống chạy được trên hệ điều hành Windows có NET framework 3.5 trở lên VI KẾT LUẬN VÀ HƯỚNG... cho thuật toán - và một tập dùng để chứa các kháng thể còn lại r dùng để bổ sung vào hệ thống nhằm làm tăng cường tính đa dạng của kháng thể b) Vòng lặp: Thuật toán sẽ được tiếp tục bằng cách thực thi một vòng lặp liên tục việc cho hệ thống tiếp xúc với các kháng nguyên đã được biết trước Mỗi một vòng lặp cho hệ thống tiếp xúc với một kháng nguyên mới được gọi là một quá trình phát sinh Các bước nằm trong . thực hiện nghiên cứu đề tài: Nghiên cứu một số thuật toán thông minh trong máy học và hệ miễn dịch nhân tạo. Ứng dụng xây dựng hệ thống phát hiện virus máy tính . Chúng tôi đã xây dựng một chương. qua hệ thống phát hiện virus máy tính được xây dựng trên cơ sở hệ miễn dịch sinh học Hình 5.6: Ánh xạ hệ miễn dịch sinh học và hệ thống phát hiện virus Yêu cầu của hệ thống VDS - Xây dựng hệ thống. HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH BỘ MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG  BÁO CÁO NGHIÊN CỨU MỘT SỐ THUẬT TOÁN THÔNG MINH TRONG MÁY HỌC

Ngày đăng: 10/04/2015, 16:26

Từ khóa liên quan

Mục lục

  • I. GIỚI THIỆU

  • II. CÁC CƠ CHẾ CHUẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN

  • III. MỘT SỐ ĐẶC ĐIỂM CƠ BẢN CỦA HỆ MIỄN DỊCH SINH HỌC

  • IV. TỔNG QUAN VỀ HỆ MIỄN DỊCH NHÂN TẠO

  • V. XÂY DỰNG HỆ THỐNG PHÁT HIỆN VIRUS

  • VI. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tài liệu cùng người dùng

Tài liệu liên quan