Báo cáo thực tập hệ thống SVM

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHÊ THÔNG TIN I BÁO CÁO THỰC TẬP Giảng viên hướng dẫn : TS Hoàng Xuân Dậu HÀ NỘI, 7/2012 Page I.Giới thiệu Thiết kế đặt hệ thống phát đột nhập vấn đề nghiên cứu quan trọng an toàn mạng Các hệ thống phát đột nhâp học đề xuất gặp phải thách thức môi trường internet Không phải thổi phòng trạng thái mà hệ thống phát đột nhập phải hệ thống đại Kĩ thuật phát đột nhập chia thành nhóm : phát sai phát dị thường Phát sai nhận các hành động đột nhập dựa hành vi biết từ trình phát triển Phát sai tương tự phần mềm diệt vi rút Chúng so sánh liệu với sở liệu virus có sẵn Phát sai tập hợp hành vi công từ sở liệu thuộc tính Do chúng có hạn chế phát đột nhập xảy ví dụ kiện chưa xảy Phát di thường khác biệt so với phát sai Phát dị thường dựa phân tích liệu kiện nhận mẫu hành động xuất cách bình thường Nếu kiện xảy mẫu, chúng báo cáo xâm nhập Có thể xem phương pháp phương pháp tiếp cận nửa học máy Có nhiều kĩ thuật học máy sử dụng phát đột nhập dị thường Qiao giới thiệu phương pháp phát đột nhập dựa vào mô hình ẩn Markov để phân tích tập liệu UNM Lee thiết lập mô hình phất đột nhập kết hợp luật kết hợp logic mờ điều chế mãu cho phất dột nhâp Mohajeran phát triển hệ thống phát đôt nhập kết hợp mạng nơron logic mờ phân tích tập liệu KDD, Wang áp dụng thuật toán di truyền dánh giá hàm thành viên cho khai phái mờ luật kết hợp SVM (SVM) kĩ thuật phổ biến cho phát đột nhâp dị thường SVM huấn luyện vector vào không gian đặc trưng có số chiều lớn hơn, gán nhãn vector vào lớp SVM phân loại liệu giới hạn tập vector hỗ trợ chúng thành viên tập liệu huấn luyện nằm lề siêu phẳng không gian đặc trưng SVM cung cấp chế chung để phù hợp với bề mặt siêu phẳng liệu thông qua hàm nhân Có nhiều hàm (tuyến tính, đa giác, xích ma) cho SVM trình huấn luyện, lựa chọn vector hỗ trợ theo bề mặt hạt nhân Lý SVM cho phát đột nhâp Thứ nhát tốc độ : hiệu suất thời gian thực yếu tố quan trọng hàng đầu cho hệ thống phát đột nhập, Thứ hai khả mở rộng : SVM tương đối không nhảy cảm với số lượng điểm liệu phân loại phưc tạp không phụ thuộc vào chiều không gian có khă học tập lớn mẫu II.Nội dung SVM giới thiệu V.Vapnik đồng nghiệp ông vào năm 1970 Nga sau phổ biến vào năm 1990 SVM có đặc điểm làm cho trở thành thuật toán phổ biến Không có tảng lý thuyết mà thực phân loại xác so với hầu hết thuật toán khác nhiều ứng dụng đặc biết ứng dụng liên quan đến liệu nhiều chiều Ý tưởng phương pháp : cho trước tập huấn luyện biểu diễn không gian vector Phương pháp tìm siêu phẳng f định tốt chia điểm không gian thành hai lớp tương ứng lớp + lớp - Chất lượng siêu phẳng Page đỉnh khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên lớn mặt phẳng định tốt, đồng thời việc phân loại xác Cho tập hợp ví dụ huấn luyện D Với vector đầu vào r chiều không gian giá trị thực , nhãn lớp (giá trị đầu ra) {1, -1} biểu thị lớp dương -1 biểu thị lớp âm Để xây dựng phân loại, SVM tìm hàm tuyến tính có dạng sau : (1) vector đầu vào xi gán vào lớp dương f(xi) 0, lớp âm ngược lại, tức là, (2) F(x) hàm giá trị thực gọi vector trọng số b gọi độ dịch chuyển dot product w and x Phương trình (1) viết sau: (3) Với biến biểu diễn tọa độ thứ i vector x Bản chất SVM tìm siêu phẳng: (4) để chia mẫu huấn luyện thành dương âm Siêu phẳng gọi đường biên định bề mặt định Về mặt hình học, siêu phẳng + b=0 phân chia không gian đầu othành hai nửa không gian: nửa cho mẫu dương nửa khác cho mẫu âm Nhớ lại siêu phẳng thường gọi đường không gian 2-chiều plane không gian chiều Hình cho thấy ví dụ không gian chiều Mẫu dương biểu diễn hình chữ nhật đặc nhỏ, mẫu âm biểu diễn hình tròn rỗng nhỏ Đường dày siêu phẳng biên định (một đường trường hợp này), chia điểm liệu dương (phía đường) âm (phía đường) Phương trình (1), gọi quy tắc định phân lớp SVM, sử dụng để tạo định phân lớp trường hợp thử nghiệm Page Hình (A) A đường thẳng chia tập liệu (B) biên dịnh 1.SVM tuyến tính : trường hợp chia Phần nghiên cứu trường hợp đơn giản SVM tuyến tính Nó giả thiết liệu dương âm chia tuyến tính Theo đại số tuyến tính, biết + b = 0, w định nghĩa đường pháp tuyến với siêu phẳng (xem hình 2) Không thay đổi vector chuẩn w, biến b di chuyển siêu phẳng song song với Cũng lưu ý + b = có mức độ tự vốn có Chúng ta thay đổi tỉ lệ siêu phẳng thành mà không thay đổi hàm/ siêu phẳng Hình Siêu phẳng phân chia lề của SVM : Vector hỗ trợ khoanh tròn Khi SVM đạt cực đại lề điểm liệu dương âm, tìm lề Gọi d+ khoảng cách ngắn từ siêu phẳng để chia tới điểm liệu dương gần nhất, d- khoảng cách ngắn từ siêu phẳng để chia tới điểm liệu âm gần Khi lề siêu phẳng để chia (d+)+(d-) SVM tìm siêu phẳng để chia với lề lớn nhất, gọi lề siêu phẳng cực đại, làm đường biên định Hãy ý đến điểm liệu dương () âm () mà gần siêu phẳng Chúng ta định nghĩa hai siêu phẳng, , mà qua song song với +b=0 Chúng ta thay đổi tỉ lệ w b để thu được: (5) (6) Page Cái mà cho biết liệu huấn luyện rơi vào siêu phẳng Bây ta tính toán khoảng cách hai lề siêu phẳng Khoảng cách lề ((d+)+ (d-)) Theo không gian vector đại số tuyến tính khoảng cách Euclidena từ điểm xi tới siêu phẳng +b=0 là: (7) Với chuẩn véc tơ w, (8) Để tính d+ , thay tính khoảng cách từ tới siêu phẳng chia +b=0, lấy điểm +b=0 tính khoảng cách từ +b=0 tính khoảng cách từ tới +b=1 cách áp dụng phương trình (40) ý +b=0, (9) Tương tự , ta tính khoảng cách từ tới +b=-1 để thu đường định ( +b=0 ) nằm hai đường , : Do đó, (10) SVM tìm siêu phẳng để chia mà lề đạt cực đại, điều đưa vấn đề đánh giá Giá trị lề cực đại tương tự cực tiểu giá trị Mô tả SVM chia tuyến tính sau: Định nghĩa (Linear SVM: Separable Case): Với tập mẫu huấn luyện chia tuyến tính , trình học giải cực tiểu hóa ràng buộc sau: (11) Ràng buộc tổng quát hóa sau: Giải vấn đề (11) tạo giải pháp cho w b Kể từ hàm mục tiêu bậc hai lồi ràng buộc tuyến tính thông số w b, sử dụng Page phương pháp hệ số nhân Lagrange chuẩn để giải Thay đánh giá hàm mục tiêu, ta cần đánh giá Lagrangian vấn đề,nó xem xét ràng buộc lúc Cần quan tâm đến ràng buộc rõ ràng chúng giảm bớt giải pháp khả thi Khi ràng buộc bất đẳng thức biểu diễn sử dụng “ ”, Lagrange xây dựng cách ràng buộc nhân với hệ số nhân dương trừ vào hàm mục tiêu, cụ thể là: (12) hệ số nhân lagrange Lí thuyết đánh giá nói giải pháp đánh giá cho biểu thức phải thỏa mãn điều kiện định, gọi điều kiện Kunhn- Tucker, giữ vai trò quan trọng đánh giá ràng buộc Ở đây, ta giới thiệu tóm tắt điều kiện Các vấn để tổng hóa : (13) Trong f hàm mục tiêu la hàm ràng buộc Lagrangian (13) là, (14) Một giải pháp đánh giá vấn đề (13) phải thỏa mãn điều kiện cần thiết (nhưng chưa đủ) sau : (15) (16) (17) (18) Các điều kiện gọi điều kiện Kuhn-Tucker, ý (16) tập ràng buộc đầu có (13) Điều kiện (18) gọi điều kiện bổ sung, ngụ ý điểm giải : Để cực tiểu vấn đề (11), điều kiện Kuhn-Tucker : Page (19) (20) (21) (22) (23) Bất đẳng thức (21) tập ràng buộc ban đầu lưu ý có hệ số nhân Lagrange αi cho điểm liệu huấn luyện, điều kiện bổ sung (23) cho thấy điểm liệu nằm mép siêu phẳng (tức là, H + H-) có αi> mà làm cho yi (〈 w ⋅ xi 〉 + b)- = Những điểm liệu gọi vectơ hỗ trợ Tất điểm liệu khác có αi = Bất đẳng dối ngẫu phương trình (11) là: (24) Sau giải vấn đề (24) ta thu giá trị , chúng dùng để tính vector trọng số w độ lệch b sử dụng đẳng thức (19) (23) Thay phụ thuộc vào vector hỗ trợ (α i> 0) để tính b, thực tế tất vector hỗ trợ sử dụng để tính b, sau đưa giá trị trung bình chúng làm giá trị cuối b Đường biên định cuối : (25) Trong sv tập số không gian vector liệu hấn luyện Testing : áp dụng (25) để phân lớp với tập thể z, chúng phân loại sử dụng sau : (26) Nếu (26) trả 1, z phân vào lớp dương ngược lại z chia vào lớp âm Page 2.SVM tuyến tính: Trường hợp chia Trường hợp chia tuyến tính tình lý tưởng Tuy nhiên thực tế, liệu huấn luyện bị nhiễu , tức chứa lỗi nhiều lí khác Chẳng hạn, số mẫu gán nhãn không xác Hơn vấn đề thực tế có số mức độ ngẫu nhiên Ngay hai vector đầu vào giống hệt nhau, nhãn chúng khác Để SVM hữu dụng, phải cho phép nhiễu liệu huấn luyện Tuy nhiên, với liệu nhiễu SVM chia tuyến tính không tìm hướng giải pháp ràng buộc đạt Chẳng hạn, hình 3, có điểm âm miền dương, có điểm dương miền âm Một cách rõ ràng hơn, giải pháp tìm thấy cho vấn đề Nhớ lại tảng cho trường hợp chia tuyến tính là: (27) Để cho phép lỗi liệu, nới lỏng buộc lề dc bẳng cách đưa biến slack, () sau: Do có buộc : Biểu diễn hình học minh họa hình 3, có hai điểm liệu lỗi , (được khoanh tròn) miền không xác Page Hình Trường hợp không phân chia Chúng ta cần để ý lỗi hàm mục tiêu Một cách thông thường gán giá trị mở rộng cho lỗi để thay đổi hàm mục tiêu để: (28) Với C tham số quy định người dùng K=1 sử dụng phổ biến, có tiến mà hệ số nhân Lagrangian xuất biểu thức đối ngẫu Ta quan tâm thảo luận trường hợp k=1 phía Vấn đề đánh giá trở thành: (29) Công thức gọi lề mềm SVM Lagrangian (biểu diễn ) biểu thức sau: (30) Trong đó, , sau : hệ số nhân Lagrange Điều kiện Kuhn-Tucker tốt điều kiện Page (31) (32) (33) (34) (35) (36) (37) (38) (39) Trong trường hợp chia tuyến tính, sau ta chuyển biểu thức ban đầu sang biểu thức đối ngẫu cách thiết lập zero dẫn xuất phần Largangian (30) biến ban đầu (tức w,b ), thay kết liên quan trở lại Lagrangian Đó là, thay phương trình (31), (32), (33) vào Lagrangian ban đầu (30) Từ đẳng thức (33), C - = 0, suy C Do đó, biểu thức đối ngẫu (29) : (40) Vấn đề đối ngẫu (40) giải số lượng, giá trị kết sau sử dụng để tính w b W tính sử dụng phương trình (31) b tính sử dụng điều kiện bổ sung Kuhn-Tucker (38) (39), < [...]... lại của lớp dương tính và cũng được gọi là nhạy cảm trong thống kê.Ngoài ra còn có một biện pháp khác trong thống kê được gọi là đặc trưng, đó là tỷ lệ đúng âm tính (TNR), hoặc nhớ lại của lớp tiêu cực TNR được định nghĩa như sau: III.Kết luận SVM là một hệ thống học tuyến tính nhằm tìm đường quyết định mức lền lớn nhất để chia điểm dương và âm SVM tương đương với việc giải quyết bài toán tối ưu bậc... trong học máy mà không cần hàm chuyển đổi Tuy nhiên SVM cũng có một số hạn chế : - SVM chỉ làm việc với không gian đầu vào là các số thực →Đối với các thuộc tính định danh (nominal), cần chuyển các giá trị định danh thành các giá trị số - SVM chỉlàm việc (thực hiện phân lớp) với 2 lớp Đối với các bài toán phân lớp gồm nhiều lớp, cần chuyển thành một tập các bài toán phân lớp gồm 2 lớp, và sau đó giải... Siêu phẳng phân tách (ranh giới quyết định phân lớp) xác định được bởi SVM thường khó hiểu đối với người dùng Vấn đề (khó giải thích quyết định phân lớp) này càng nghiêm trọng, nếu các hàm nhân (kernel functions) được sử dụng SVM thường được dùng trong các bài toán ứng dụng mà trong đó việc giải thích hoạt động (quyết định) của hệ thống cho người dùng không phải là một yêu cầu quan trọng IV.Tài liệu... chính xác mẫu dương chia cho tổng số các mẫu thực tế dương trong các thiết lập thử nghiệm Các ý nghĩa trực quan của hai biện pháp này là khá rõ ràng Tỉ lệ dương tính thật (TPR) được định nghĩa là một phần trong các trường hợp dương tính thực được phân loại chính xác : Tỷ lệ dương tính giả (FPR) được định nghĩa là một phần trong số các trường hợp âm tính thực tế được phân loại vào lớp tích cực, TPR... một trong các đặc tính quan trọng nhất của SVM : giải pháp là rời rạc Đa số các điểm dữ liệu huấn luyện là nằm ngoài vùng mép và của chúng trong hướng giải pháp bằng 0 Chỉ những điểm dữ liệu đó là nằm trên mép (cụ thể (+b)=1, là các support vector trong trường hợp có thể chia), hoặc các lỗi là khác zero Nếu không có thuộc tính rời rạc này , SVM sẽ không thực hiện cho bộ dữ liệu lớn Đường quyết định... (54) (55) 4.Cải tiến SVM với trọng số đặc trưng Các hàm nhân thường được sử dụng là hàm tuyến tính, hàm đa thức, hàm bán kính cơ bản, hàm xích ma Tuy nhiên các hàm đó không xem xét sự khác biệt giữa các đặc trưng của dữ liệu Từ hàm nhân tổng quát có thể thấy rằng dữ liệu huấn luận và test tương đương Xử lý các đặc trưng tương đương là không hiệu quả và làm giảm độ chính xác của SVM Một giải pháp được... Công thức của hàm nhân mới trong đó w là một vector gồm cố trọng số của đặc trưng của tập dữ liệu Khi đó hàm biệt thức phi tuyến tính với trọng số đặc trưng Nhân cải tiến này là độc lập với hàm nhân đặc biệt Với các ứng dụng khác nhau, có thể chọn hàm nhân thích hợp áp dụng trọng số đặc trưng Chúng ta sử dụng lý thuyết tập thô ddeeer tính toán và khởi tao trọng số từ dữ liệu huấn luyện Nguyên lý cơ bản... mà đưa ra kết quả phân loại tốt nhất trên bộ dữ liệu xem xét Xem xét chéo là được sử dụng phổ biến như vậy 3 .SVM phi tuyến tính : hàm nhân Ở hai trường hợp các mẫu dương và âm có thể được tách tuyến tính, tức là đường biên quyết định phải là một siêu phẳng Tuy nhiên đối với nhiều bộ dữ liệu thực tế, các đường biên quyết định là không tuyến tính Để giải quyết với dữ liệu chia không tuyến tính công thức... trong dạng tường minh cảu nó Do vậy nếu chúng ta có một cách tính toán tích vô hướng trong không gian đặc trưng F sử dụng vector đầu vào hoặc ngay cả ánh xạ hàm chức năng của chính nó Trong SVM, điều này được thực hiện thông qua việc sử dụng hàm nhân, biểu diễn bởi K, (50) Đây là các hàm chức năng chính xác để tính toán các tích vô hướng trong không gian đặc trưng đã chuyển đổi sử dụng vector x và... xạ thực sử dụng trong ví dụ Một cách ngẫu nhiên, nói chung số lượng các chiều trong không gian fature cho hàm nhân đa thức là , là một số lượng lớn ngay cả với một số lượng hợp lý (r) của các thuộc tính trong không gian đầu vào May mắn thay, bằng cách sử dụng hàm nhân (51), số lượng các chiều trong không gian đặc trưng không quan trọng Các dẫn xuất trong (52) là chỉ cho mục đích minh họa Trong thực ... đặt hệ thống phát đột nhập vấn đề nghiên cứu quan trọng an toàn mạng Các hệ thống phát đột nhâp học đề xuất gặp phải thách thức môi trường internet Không phải thổi phòng trạng thái mà hệ thống. .. xích ma) cho SVM trình huấn luyện, lựa chọn vector hỗ trợ theo bề mặt hạt nhân Lý SVM cho phát đột nhâp Thứ nhát tốc độ : hiệu suất thời gian thực yếu tố quan trọng hàng đầu cho hệ thống phát đột... Tuy nhiên SVM có số hạn chế : - SVM làm việc với không gian đầu vào số thực →Đối với thuộc tính định danh (nominal), cần chuyển giá trị định danh thành giá trị số - SVM chỉlàm việc (thực phân

Ngày đăng: 21/02/2016, 09:43

Xem thêm: Báo cáo thực tập hệ thống SVM, Báo cáo thực tập hệ thống SVM

Báo cáo thực tập hệ thống SVM

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan