Nghiên cứu các kỹ thuật xử lý và phân tích log tt

23 218 3
Nghiên cứu các kỹ thuật xử lý và phân tích log tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Đặng Trần Lê Anh NGHIÊN CỨU CÁC KỸ THUẬT XỬ LÝ VÀ PHÂN TÍCH LOG Chun ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2019 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS HOÀNG XUÂN DẬU Phản biện 1: TS NGUYỄN VĨNH AN Phản biện 2: PGS TS PHẠM VĂN CƯỜNG Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: 00 ngày 19 tháng năm 2019 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Log (còn gọi nhật ký, hay vết) mục thông tin hệ điều hành, ứng dụng sinh trình hoạt động Mỗi ghi log thường sinh theo hoạt động, kiện, nên gọi nhật ký kiện (event log) Các nguồn sinh log phổ biến bao gồm thiết bị mạng (như router, firewall,…), hệ điều hành, máy chủ dịch vụ (máy chủ web, máy chủ sở liệu, máy chủ DNS, email,…) chương trình ứng dụng Mục đích việc thu thập, xử lý phân tích log bao gồm:  Kiểm tra tuân thủ sách an ninh;  Kiểm tra tuân thủ vấn đề kiểm toán luật pháp;  Phục vụ điều tra số;  Phục vụ phản ứng cố an tồn thơng tin ;  Hiểu hành vi người dùng trực tuyến, sở tối ưu hóa hệ thống cho phục vụ tốt cho người dùng quảng cáo trực tuyến Như vậy, việc xử lý phân tích log có nhiều ứng dụng, đặc biệt đảm bảo an tồn thơng tin cải thiện chất lượng hệ thống dịch vụ kèm theo, quảng cáo trực tuyến Hiện nay, giới có số tảng công cụ cho thu thập, xử lý phân tích dạng log phiên thương mại mã mở IBM Qradar SIEM, Splunk, Graylog Logstash, Tuy nhiên, việc nghiên cứu sâu phương pháp xử lý phân tích log ứng dụng Việt Nam cần tiếp tục thực Đây mục đích đề tài luận văn Luận văn bao gồm ba chương với nội dung sau: - Chương 1: Giới thiệu tổng quan log truy nhập phân tích log: khái niệm log truy nhập, dạng log truy nhập, phương pháp xử lý phân tích log, ứng dụng phân tích log giới thiệu số tảng, cơng cụ phân tích log - Chương 2: Trình bày kỹ thuật phân tích log truy nhập: mơ hình xử lý log, vấn đề thu thập tiền xử lý log, kỹ thuật phân tích log nhận dạng mẫu phân tích mẫu - Chương 3: Trình bày tổng quan kiến trúc, thành phần tính cơng cụ xử lý, phân tích log Graylog Chi tiết q trình cài đặt mô-đun thu thập log, hệ thống xử lý, phân tích log Graylog Đồng thời, đưa số kịch thử nghiệm kết 2 CHƯƠNG - TỔNG QUAN VỀ LOG TRUY NHẬP VÀ PHÂN TÍCH LOG 1.1 Tổng quan log truy nhập 1.1.1 Khái niệm log truy nhập Log truy cập hay nhật ký, vết truy cập (gọi tắt log) danh sách ghi mà hệ thống ghi lại xuất yêu cầu truy cập tài nguyên hệ thống Chẳng hạn, log truy cập web (gọi tắt web log) chứa tất yêu cầu truy nhập tài nguyên website Các tài nguyên website, file ảnh, mẫu định dạng file mã Javascript Khi người dùng thăm trang web để tìm sản phẩm, máy chủ web tải xuống thông tin ảnh sản phẩm log truy cập ghi lại yêu cầu người dùng đến tài nguyên thơng tin ảnh sản phẩm Có nhiều nguồn sinh log hệ thống, log sinh hệ điều hành, log sinh máy chủ dịch vụ mạng, log sinh ứng dụng log sinh thiết bị mạng thiết bị đảm bảo an tồn thơng tin Log sinh hệ điều hành thường bao gồm ghi kiện khởi động hệ thống, kiện đăng nhập, đăng xuất người dùng, yêu cầu truy cập file, thư mục, yêu cầu kích hoạt ứng dụng, yêu cầu truy cập phần cứng, yêu cầu truy cập dịch vụ mạng, lỗi xuất trình hoạt động… Hệ điều hành Microsoft Windows sử dụng công cụ Event Viewer, hệ điều hành thuộc họ Unix/Linux sử dụng công cụ Syslog để quản lý lưu trữ log thân hệ điều hành module phụ trợ sinh 1.1.2 Các dạng log truy nhập Log truy nhập sinh hệ điều hành ứng dụng thường có định dạng riêng Do phần thử nghiệm luận văn thực web log, nên mục giới thiệu định dạng web log sử dụng phổ biến bao gồm định dạng web log chuẩn NCSA (NCSA Common Log Format), định dạng web log kết hợp (NCSA Combined Log Format), định dang web log mở rộng W3C (W3C Extended Log Format) định dạng web log máy chủ web Microsoft IIS (Microsoft IIS Log Format) 1.1.2.1 NCSA Common Log Format NCSA Common Log Format, hay thường gọi tắt Common Log Format, định dạng web log với trường cố định mà tùy chỉnh Dạng web log ghi lại thông tin yêu cầu người dùng, hostname (tên) máy khách, tên người dùng, ngày, giờ, loại yêu cầu, mã trạng thái HTTP trả về, số lượng byte gửi server Các trường phân ghi log phân cách dấu trắng Những trường không chứa liệu biểu diễn dấu (-), ký tự không in biểu diễn dấu (+) 1.1.2.2 NCSA Combined Log Format NCSA Combined Log Format gọi tắt Combined Log Format tương tự Common Log Format, ngoại trừ việc bổ sung thêm hai trường thông tin cuối Referrer (Liên kết tham chiếu) User agent (Máy khách người dùng) 1.1.2.3 W3C Extended Log Format Hiện nay, W3C Extended Log Format đề xuất The World Wide Web Consortium (W3C) định dạng sử dụng rộng rãi hầu hết máy chủ web hỗ trợ Định dạng web log có khả năng:  Hỗ trợ kiểm sốt thơng tin ghi web log  Hỗ trợ định dạng web log chung cho proxy, máy khách máy chủ web  Cung cấp chế mạnh mẽ xử lý vấn đề ký tự thoát (character escaping)  Cho phép trao đổi liệu nhân học (demographic)  Hỗ trợ tổng hợp liệu 1.1.2.4 Microsoft IIS Log Format Microsoft IIS máy chủ web chạy hệ điều hành Microsoft Windows Server Như trình bày, IIS hỗ trợ nhiều định dạng web log khác như: NCSA Common Log Format, W3C Extended Log Format Microsoft IIS Log Format Các định dạng NCSA Common Log Format W3C Extended Log Format trình bày Mục tập trung mơ tả định dạng Microsoft IIS Log Format Microsoft IIS Log Format chứa thông tin như: Địa IP máy khách, tên người dùng, ngày thực yêu cầu, mã trạng thái dịch vụ, số lượng byte nhận Ngồi ra, chứa thơng tin chi tiết hành động thực hiện, file đích, thời gian thực Các trường ghi log phân cách dấu phẩy, trường không chứa thông tin thay dấu ‘-‘, ký tự không in thay dấu ‘+’ 1.1.3 Thu thập, xử lý phân tích log truy nhập Thu thập, xử lý phân tích log khâu hệ thống phân tích log Hình 1.1 biểu diễn khâu cụ thể trình thu thập, xử lý phân tích log thường áp dụng thực tế Theo đó, khâu xử lý cụ thể gồm: - Thu thập liệu log khâu ghi log thơ từ nguồn sinh log thu thập chuyển trung tâm xử lý - Làm liệu khâu ghi log thơ làm để giảm bớt liệu nhiễu Hình 1.1: Các khâu q trình thu thập, xử lý phân tích log - Chuẩn hóa liệu khâu chuẩn hóa liệu log Do log thu thập từ nhiều nguồn với nhiều định dạng khác nên cần thiết phải chuẩn hóa đưa dạng có cấu trúc, làm đầu vào cho khâu phân tích log - Phân tích liệu khâu quan trọng q trình phân tích log Đây khâu áp dụng để trích xuất thơng tin quan trọng ứng dụng cho đảm bảo an tồn thơng tin ứng dụng khác - Kết thu khâu kết xuất kết giao diện người dùng Hình 1.2: Kiến trúc điển hình hệ thống thu thập, xử lý phân tích log Hình 1.2 biểu diễn kiến trúc điển hình hệ thống thu thập, xử lý phân tích log Theo đó, thành phần hệ thống gồm: - Thu thập mô-đun giám sát, thu thập log từ nguồn sinh log khác Các thu thập thường cài đặt hệ thống giám sát Bộ thu thập đơn giản thu thập ghi log thô gửi trung gian, thực nhiệm vụ làm chuẩn hóa liệu log 5 - Trung gian mô-đun tiếp nhận liệu log từ nhiều nguồn gửi đến Sau tiếp nhận, liệu log làm sạch, chuẩn hóa chuyển tiếp cho khâu - Lập mục mô-đun lập số cho liệu log Lập số khâu quan trọng phục vụ tìm kiếm, trích chọn liệu log khâu - Tìm kiếm & Lưu trữ khâu cung cấp tính tìm kiếm, trích chọn liệu log quan trọng quản lý, lưu trữ log - Giao diện web giao diện người dùng web cho hệ thống quản lý phân tích log 1.2 Ứng dụng phân tích log truy nhập Việc phân tích log truy cập thường thực cho mục đích: (1) đảm bảo an tồn thơng tin cho hệ thống, (2) hỗ trợ khắc phục cố hệ thống, (3) hỗ trợ điều tra số (4) hỗ trợ hiểu hành vi người dùng trực tuyến Có thể thấy, phân tích log truy cập phục vụ đảm bảo an tồn thơng tin cho hệ thống mục đích Cụ thể, phân tích log truy cập hỗ trợ việc giám sát, kiểm tra việc tuân thủ sách bảo mật, sách kiểm tốn quan, tổ chức Hơn phân tích log truy cập hỗ trợ phản ứng lại cố an tồn thơng tin thơng qua việc hỗ trợ xác định nguyên nhân yếu tố gây an tồn Nhiều cơng cụ đảm bảo an tồn thông tin dựa việc giám sát, thu thập, xử lý phân tích log nghiên cứu, phát triển triển khai thực tế, IBM QRadar SIEM, VNCS Web Monitoring hệ thống phát xâm nhập OSSEC Các công cụ giám sát, thu thập dạng log sinh hệ điều hành, dịch vụ, ứng dụng hệ thống cần giám sát nhằm phát hành vi bất thường dạng công, xâm nhập 1.3 Một số tảng cơng cụ phân tích log Có nhiều tảng cơng cụ xử lý, phân tích log truy cập thương mại mã nguồn mở cung cấp Splunk, Sumo Logic, Monitoring, Logstash, Graylog, LOGalyze, Webzlizer OSSEC… Mục giới thiệu khái quát tính ưu nhược điểm số tảng cơng cụ phân tích log điển hình, bao gồm Graylog, Logstash OSSEC 1.3.1 Graylog Graylog tảng mã nguồn mở cho phép xử lý, phân tích log truy cập từ nhiều nguồn theo thời gian thực Việc thu thập liệu log thực mềm dẻo nhờ khả hỗ trợ công cụ thu thập log bên thứ ba, beats, fluentd nxlog Graylog có khả phân tích hành vi người dùng, ứng dụng cho phép phát cảnh báo truy cập bất thường trích xuất mẫu hành vi truy cập phục vụ cho tối ưu hóa trang web Graylog cho phép ánh xạ từ ID sang tên truy nhập người dùng ánh xạ từ địa IP sang vị trí địa lý 1.3.2 Logstash Logstash công cụ mã nguồn mở cho phép thu thập, xử lý quản lý file log Logstash không hoạt động độc lập mà kết hợp sử dụng với công cụ Elasticsearch (tham khảo https://www.elastic.co) để lập số tìm kiếm liệu, cơng cụ Kibana (tham khảo https://www.elastic.co/products/kibana) để biểu diễn liệu dạng biểu đồ Ưu điểm bật Logstash mã mở chi phí cài đặt vận hành tương đối thấp Tuy nhiên, nhược điểm Logstash phụ thuộc vào công cụ khác triển khai nhiều ngôn ngữ khác dẫn đến khó khăn triển khai bảo trì hệ thống 1.3.3 OSSEC OSSEC hệ thống phát xâm nhập cho máy (host) (Host-based Intrusion Detection) mã nguồn mở, thực phân tích log, kiểm tra tính tồn vẹn, phát rootkit cảnh báo thời gian thực OSSEC cung cấp kiến trúc đa tảng tập trung, cho phép quản lý bảo mật máy tính từ vị trí trung tâm OSSEC kiểm tra tính tồn vẹn file hệ thống, phát rootkit có cơng cụ phân tích log mạnh mẽ có khả phân tích gần loại log tạo hệ thống Việc phân tích log thực số dịch vụ Apache, Bind, LDAP ghi log bên thứ ba từ thiết bị Cisco Ngoài ra, OSSEC chứa mơ đun hành động phản hồi phản ứng lại công mối đe dọa phát 1.4 Kết luận chương Chương trình bày khái quát log truy nhập, nguồn sinh log, tổng quan thu thập, xử lý phân tích log Chương giới thiệu chi tiết định dạng log truy nhập phổ biến, khâu xử lý, phân tích log ứng dụng phân tích log Đồng thời, chương khảo sát số tảng cơng cụ phân tích log phổ biến 7 CHƯƠNG - CÁC KỸ THUẬT PHÂN TÍCH LOG TRUY NHẬP 2.1 Mơ hình xử lý log Hình 2.1 mơ tả mơ hình xử lý log truy nhập, mơ hình gồm pha chính: Pha tiền xử lý chuẩn hóa; Pha nhận dạng mẫu; Pha phân tích mẫu; Pha dự đốn hành vi người dùng Do luận văn chủ yếu thực thực nghiệm web log, nên mục chương tập trung trình bày kỹ thuật xử lý phân tích web log Hình 2.1: Mơ hình xử lý log truy nhập Tiền xử lý chuẩn hóa: Trong pha này, hệ thống nhận liệu log từ nguồn khác nhau, trích xuất thơng tin cần thiết đưa định dạng thống Ngoài ra, pha chịu trách nhiệm tiền xử lý số thông tin như: người dùng, phiên làm việc… Pha gồm bước sau: làm hợp liệu, nhận dạng người dùng, nhận dạng phiên làm việc Trong xử lý web log, bổ sung thêm bước nhận dạng pageview, hoàn thiện đường dẫn Nhận dạng mẫu: Pha sử dụng phương pháp thuật toán như: thống kê, học máy, khai phá liệu, nhận dạng mẫu để xác định mẫu người dùng Trong phân tích web log, mẫu cần xác định bao gồm: trang web ưa thích, thời gian xem trung bình trang web, lĩnh vực quan tâm… Pha sử dụng kỹ thuật phân tích liệu như: phân tích thống kê, phân cụm, phân lớp, luật kết hợp, mẫu tuần tự, hay mơ hình hóa phụ thuộc Phân tích mẫu: Pha có nhiệm vụ phân tích mẫu tìm pha trước, mẫu khơng có nhiều giá trị loại bỏ chúng khỏi q trình phân tích log Pha thực nhờ câu truy vấn SQL, sử dụng phân tích xử lý trực tuyến hay nhờ kỹ thuật hiển thị hóa liệu để lọc phân tích mẫu Dự đốn hành vi người dùng: Sau phân tích lọc mẫu, mẫu lại dùng để đưa kết luận hành vi người dùng Với phân tích web log, hành vi người dùng điển hình gồm: trang web thường xuyên truy cập, lĩnh vực quan tâm, thời gian trung bình xem trang web… 2.2 Thu thập tiền xử lý 2.2.1 Thu thập log Log truy nhập sinh nhiều vị trí khác mạng, có nhiều cách để thu thập log Log nhận từ nhiều nguồn khác như: từ file, từ mạng internet hay từ đầu ứng dụng khác… Một số nguồn thu thập log cụ thể kể như:  Nhận kiện từ framework Elastic Beats  Đọc kết truy vấn từ cụm Elasticsearch  Lấy kiện từ file log  Nhận đầu cơng cụ dòng lệnh kiện  Tạo kiện dựa tin SNMP  Đọc tin syslog  Đọc kiện từ TCP socket  Đọc kiện thông qua UDP  Đọc kiện thông qua UNIX socket 2.2.2 Tiền xử lý chuẩn hóa Q trình tiền xử lý chuẩn hóa thực việc làm hợp liệu từ nhiều nguồn khác nhau, nhận dạng người dùng, nhận dang phiên làm việc, nhận dạng pageview… kết hợp liệu clickstream với nội dung trang web hay liệu cá nhân người dùng Quá trình cung cấp liệu tối ưu thống cho q trình phân tích web log 2.2.2.1 Làm hợp liệu Ở trang web lớn, nội dung log lưu nhiều nguồn khác Hợp liệu cho phép tổng hợp liệu từ file log có dạng khác Trong trường hợp nguồn liệu khơng có chế dùng chung định danh phiên để hợp liệu dùng phương pháp dựa kinh nghiệm dựa trường “referrer” server log, kết hợp với phương pháp nhận dạng người dùng nhận dạng phiên làm việc để thực hợp liệu Làm liệu nhằm xóa bỏ tham chiếu khơng liên quan khơng quan trọng cho mục đích phân tích log như: file CSS trang web, file icon, âm trang web Quá trình xóa bỏ trường liệu file log không cung cấp nhiều thông tin quan trọng cho trình phân tích log phiên giao thức HTTP 2.2.2.2 Nhận dạng người dùng Trong trường hợp website truy cập khơng có chế xác thực phương pháp dùng để phân biệt người dùng truy cập dựa vào cookie Phương pháp cho kết với độ xác cao, nhiên lo ngại tính riêng tư nên khơng phải tất người dùng cho phép trình duyệt lưu cookie Nếu dùng địa IP khơng đủ để nhận dạng người dùng riêng biệt Nguyên nhân chủ yếu ISP proxy server gán lại địa IP cho người dùng sau khoảng thời gian định Ngồi ra, có nhiều người dùng mạng LAN sử dụng chung địa public IP Vì vậy, trường hợp hai lần truy cập khác có địa IP lại từ hai người dùng khác hồn tồn xảy Để tăng tính xác việc nhận dạng người dùng dựa địa IP, ta kết hợp thêm thông tin khác user agent hay refferer 2.2.2.3 Nhận dạng phiên làm việc Quá trình nhận dạng phiên làm việc phân ghi hoạt động người dùng thành phiên, phiên biểu diễn lần truy cập website người dùng Với website khơng có chế để xác thực người dùng chế bổ sung khác nhúng thêm định danh phiên (session id) phải dùng phương pháp dựa kinh nghiệm - heuristics methods để nhận dạng phiên làm việc Ta xem tập phiên thực tế người 10 dùng website R Một phân loại phiên dựa kinh nghiệm - sessionization heuristic h thử để ánh xạ R thành tập hợp phiên Ch Thông thường, phân loại phiên dựa kinh nghiệm gồm hai loại chính: dựa vào thời gian dựa vào cấu trúc website 2.2.2.4 Nhận dạng pageview Việc nhận dạng trang người dùng xem - pageview phụ thuộc nhiều vào cấu trúc nội dung trang web Mỗi pageview xem tập hợp đối tượng web hay kiện phát sinh Ví dụ click vào đường dẫn, xem trang sản phẩm, thêm sản phẩm vào giỏ hàng Với trang web động, pageview kết hợp nội dung tĩnh động tạo server dựa tập tham số đầu vào Ngồi ra, ta xem pageview tập hợp trang, đối tượng liên quan đến lĩnh vực Ví dụ, với trang web thương mại điện tử, pageview tương ứng với kiện phát sinh khác như: xem sản phẩm, đăng ký tài khoản, thay đổi giỏ hàng, tốn… 2.2.2.5 Hồn thiện đường dẫn Một phần quan trọng khác trình tiền xử lý chuẩn hóa, thường thực sau nhận dạng phiên làm việc hồn thiện đường dẫn Phía máy khách proxy server lưu lại cache trang web mà người dùng truy cập, dẫn đến việc thiếu sai sót tham chiếu trang web server log Ví dụ, phiên làm việc, người dùng truy cập trang web A lần sau lần đầu truy cập, trang web A proxy server lưu lại cache Đến lần truy cập thứ hai, yêu cầu gửi proxy server trả cho máy khách trang web A lưu lại từ trước mà không gửi yêu cầu truy cập lên máy chủ web, điều dẫn đến yêu cầu truy cập trang web A lần thứ hai không lưu lại server log Với vấn đề này, ta sử dụng phương pháp dựa kinh nghiệm kết hợp với cấu trúc website để phát tham chiếu bị thiếu sai để đưa phương án giải phù hợp 2.3 Các kỹ thuật phân tích log 2.3.1 Các kỹ thuật nhận dạng mẫu 2.3.1.1 Phân tích thống kê Thống kê kỹ thuật phổ biến phân tích log Bằng cách phân tích file phiên làm việc người dùng, ta thực phương pháp thống kê khác như: lấy trung bình, tần suất… với biến khác như: trang xem, số lượt xem, thời gian xem trang web Nhiều cơng cụ phân tích cho kết báo cáo 11 định kỳ thống kê trang web như: trang web truy cập nhiều nhất, thời gian trung bình xem trang web, số lượt truy cập trung bình trang web… Loại phân tích thống kê có nhiều thơng tin hữu ích cho cải thiện hiệu hệ thống hay cho việc marketing 2.3.1.2 Luật kết hợp Phương pháp nhằm phát luật kết hợp thành phần liệu sở liệu Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Hình 2.2: Quá trình sử dụng luật kết hợp Hình 2.2 mơ tả cách ta sử dụng luật kết hợp Có thể lấy ví dụ đơn giản luật kết hợp sau: Phân tích sở liệu bán hàng nhận thông tin khách hàng mua card hình có khuynh hướng mua quạt tản nhiệt lần mua miêu tả luật kết hợp sau: “Mua card hình  Mua quạt tản nhiệt” [Độ hỗ trợ: 4%, độ tin cậy: 70%] Độ hỗ trợ độ tin cậy hai độ đo đáng quan tâm luật Chúng tương ứng phản ánh hữu ích chắn luật khám phá Độ hỗ trợ 4% có nghĩa 4% tất tác vụ phân tích card hình quạt tản nhiệt mua Còn độ tin cậy 70% có nghĩa 70% khách hàng mua card hình mua quạt tản nhiệt 2.3.1.3 Phân lớp Nhiệm vụ tốn phân lớp cần tìm mơ hình phân lớp để có liệu xác định liệu thuộc vào phân lớp Có nhiều tốn phân lớp liệu phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị Trong phân tích log truy nhập, phân lớp thường dùng để ánh xạ người dùng vào lớp hay loại cụ thể Việc phân lớp phân tích web log thực nhờ thuật tốn học máy có giám sát như: định, thuật toán Naive Bayes, thuật tốn K láng giềng gần nhất… Ví dụ, việc phân lớp log máy chủ giúp phân loại 46% 12 người dùng đặt hàng sản phẩm trang ‘laptop dell’ có độ tuổi từ 18-23 sống miền Bắc chủ yếu 2.3.1.4 Phân cụm Mục đích phân cụm tìm chất bên nhóm liệu Các thuật tốn phân cụm sinh cụm Tuy nhiên, khơng có tiêu chí xem tốt để đánh giá hiệu phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: data redution, “natural clustes”, “useful” clusters, outlier detection Trong phân tích log, có hai kiểu phân cụm thực hiện: usage cluster page cluster Việc phân cụm người dùng có mẫu giống có nhiều thơng tin giá trị cho marketing thương mại điện tử Ví dụ, với nhóm người định đưa gợi ý mua hàng phù hợp với sở thích nhóm người dùng mà thơi 2.3.2 Phân tích mẫu Đây bước cuối trình phân tích log truy nhập Q trình nhằm lọc luật hay mẫu khơng có nhiều giá trị tạo bước nhận dạng mẫu Có nhiều phương pháp để thực việc này, phương pháp phổ biến sử dụng nhiều nhờ câu truy vấn SQL sử dụng phân tích xử lý trực tuyến - OLAP Ngoài ra, bước ta áp dụng kỹ thuật trực quan hóa liệu sơ đồ, biểu đồ thống kê để phục vụ phân tích mẫu 2.4 Kết luận chương Chương giới thiệu mơ hình xử lý log truy nhập nêu phương pháp thu thập log Chương trình bày bước tiền xử lý chuẩn hóa log như: làm hợp liệu, nhận dạng người dùng, nhận dạng phiên làm việc, nhận dạng pageview hoàn thiện đường dẫn Ngoài ra, chương nêu chi tiết bước để phân tích log bao gồm nhận dạng mẫu phân tích mẫu 13 CHƯƠNG - CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Giới thiệu tảng công cụ thử nghiệm 3.1.1 Kiến trúc Graylog Graylog công cụ quản lý log mã nguồn mở, phân tích ghi đến, trích xuất liệu quan trọng từ chúng, cung cấp tính tìm kiếm trực quan hóa nhật ký giao diện web Graylog viết Java sử dụng vài công cụ mã nguồn mở Elasticsearch, MongoDB Hai công cụ kết hợp với Graylog Graylog UI tạo thành giải pháp quản lý log mạnh mẽ Mỗi hệ thống Graylog tối thiểu bao gồm Graylog Server, MongoDB Elasticsearch Mỗi thành phần yêu cầu bắt buộc thay cơng cụ khác Trong mơ hình triển khai Graylog tối giản, tất ba thành phần cài đặt máy chủ Một thiết lập Graylog tối giản sử dụng cho hệ thống nhỏ, quan trọng để thử nghiệm Hình 3.1 thể kiến trúc Graylog tối giản, khơng có thành phần thừa thiết lập cách dễ dàng, nhanh chóng Hình 3.1: Kiến trúc Graylog tối giản Đối với môi trường lớn hơn, u cầu tính khả dụng cao, Graylog triển khai với cấu hình multi-node phức tạp Cả Graylog Elasticsearch nhóm lại để cung cấp khả phục hồi trường hợp lỗi nút Hệ thống multi-node thường triển khai để xử lý khối lượng lớn ghi log 14 3.1.2 Các thành phần Graylog Graylog bao gồm bốn thành phần chính, Graylog UI, Graylog Server, MongoDB ElasticSearch Elasticsearch cơng cụ tìm kiếm mã nguồn mở mạnh có khả mở rộng cao Có tìm kiếm, phân tích lưu trữ lượng lớn liệu hoạt động cơng cụ phân tích gần thời gian thực Có nghĩa có độ trễ nhỏ thời gian liệu lập mục chúng có sẵn để tìm kiếm Elasticsearch lưu trữ mục theo định dạng tinh vi tối ưu hóa cho tìm kiếm tồn văn Chỉ mục tập hợp liệu, Elasticsearch gọi tài liệu, với đặc điểm tương tự Graylog sử dụng cụm Elasticsearch chuyên dụng bao gồm nhiều nút Tất nút Elasticsearch định nghĩa file cấu hình Graylog: /etc/graylog/server/server.conf MongoDB sở liệu NoSQL lưu trữ liệu theo cấu trúc có định dạng JSON Graylog sử dụng MongoDB để lưu trữ thông tin cấu hình, metadata web UI, chẳng hạn người dùng, quyền, luồng, mục, thơng tin cấu hình, v.v MongoDB không lưu trữ liệu log, chạy máy chủ chun dụng khơng có tác động lớn đến máy chủ Graylog Graylog User Interface cho phép truy cập vào giao diện web trực quan, cung cấp khả tìm kiếm, phân tích làm việc với liệu tổng hợp Graylog UI tìm nạp tất liệu thông qua HTTP từ Graylog REST API API sử dụng làm kênh giao tiếp máy chủ UI máy chủ Graylog Ưu điểm với liệu từ REST API, xây dựng lối vào riêng theo nhu cầu Graylog Server thành phần chịu trách nhiệm nhận liệu từ máy khách mục đích tích hợp giao tiếp với thành phần khác 3.1.3 Các tính Graylog Một nhật ký nhận máy chủ Graylog, sau xử lý Bộ lọc tin, xử lý tin chịu trách nhiệm phân tích cú pháp, thay đổi thiết lập trường tĩnh cho nhật ký hợp lệ Log thay đổi theo quy tắc xác định trước định tuyến thành danh mục gọi Luồng Đối với luồng khác nhau, xác định quy tắc dựa quy tắc cụ thể 3.1.3.1 Thu thập log Graylog hỗ trợ ba loại nguồn liệu đầu vào khác nhau: - Các giao thức định dạng chuẩn 15 - Công cụ thu thập bên thứ ba - GELF 3.1.3.2 Xử lý Xử lý log nhận thực Luồng Graylog Luồng nhóm ảo log cho phép phân loại log theo quy tắc định Nghĩa nhóm ghi theo trường khác nhau, chẳng hạn mức độ nghiêm trọng log địa IP nguồn Các Luồng hỗ trợ hai loại quy tắc khác Đầu tiên tin phải khớp với tất quy tắc đưa (logic AND) tin phải khớp với quy tắc đưa (logic OR) Log đến xử lý trực tiếp Bộ lọc tin Bộ lọc tin chuỗi chịu trách nhiệm phân tích log, thiết lập trường tĩnh gán log cho luồng thích hợp Hệ thống phân tích tin thành phần gọi Bộ trích xuất, trích xuất trường tĩnh từ tin log 3.1.3.3 Chuyển tiếp lưu trữ Graylog chuyển tiếp log tới hệ thống khác lưu chúng cục máy chủ Graylog hỗ trợ chuyển tiếp log tới hệ thống khác SIEM máy chủ Linux khác định dạng hỗ trợ GELF Lưu trữ tin điều cần thiết cho mục đích phân tích Nó quan trọng muốn phân tích log khoảng thời gian khác so sánh kết từ chúng Hay muốn tìm kiếm, đồng thời hiển thị theo dõi thay đổi theo thời gian Đối với trường hợp vậy, log phải có sẵn Log cũ thời gian định khơng bắt buộc phải có sẵn lúc nên lưu trữ Chính sách lưu trữ hiểu cho mục Graylog lưu trữ log cục khơng lưu trữ log hệ thống bên ngồi khác sở liệu NAS 3.2 Cài đặt 3.2.1 Các mô đun thu thập log 3.2.1.1 Cài đặt Rsyslog máy chủ Linux Trên máy máy chủ chạy Linux ta cài đặt ứng dụng Rsyslog để thu thập log từ máy chủ Trong đề tài này, ta tiến hành cài đặt Rsylog máy chủ web chạy CentOS - Tiến hành cài đặt Rsyslog: yum install rsyslog - Kiểm tra trạng thái: systemctl status rsyslog.service 16 - Cấu hình file “rsyslog.conf” vi /etc/rsyslog.conf $ModLoad imudp $UDPServerRun 514 $ModLoad imtcp $InputTCPServerRun 514 *.*@10.99.3.47:514 Trong 10.99.3.47 địa IP máy chủ cài đặt Graylog Server 3.2.1.2 Cài đặt NXLog máy chủ Windows Trên máy chủ chạy hệ điều hành Windows, ta cài đặt phần mềm NXLog để thu thập log từ máy chủ - Tải NXLog từ địa chỉ: https://nxlog.co/products/nxlog-community-edition/download - Cài đặt NXLog - Cấu hình NXLog để gửi tin tới máy chủ Graylog: Thêm cấu hình vào file “C:\Program Files (x86)\nxlog\conf\nxlog.conf” Module im_msvistalog Module om_udp Host 10.99.3.47 Port 12201 OutputType GELF - Run services.msc, Start the nxlog service 3.2.2 Hệ thống xử lý phân tích log Đối với hệ thống xử lý phân tích log, ta cài đặt thành phần Elasticsearch, MongoDB, Graylog Server máy chủ với cấu sau:  CentOS (64bit)  GB RAM  40 GB HDD 17 3.2.2.1 Cài đặt Elastichsearch - Cài đặt Java trước tiến hành cài đặt Elasticsearch yum install java - Thêm GPG signing key cho Elasticsearch: rpm import https://artifacts.elastic.co/GPG-KEY-elasticsearch - Thêm Elasticsearch repository câu lệnh: vi /etc/yum.repos.d/elasticsearch.repo [elasticsearch-5.x] name=Elasticsearch repository for 5.x packages baseurl=https://artifacts.elastic.co/packages/5.x/yum gpgcheck=1 gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch enabled=1 autorefresh=1 type=rpm-md - Cài đặt Elasticsearch: yum install elasticsearch 3.2.2.2 Cài đặt MongoDB - Thêm repository cho MongoDB: vi /etc/yum.repos.d/mongodb-org-3.2.repo [mongodb-org-3.2] name=MongoDB Repository baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodborg/3.2/x86_64/ gpgcheck=1 enabled=1 gpgkey=https://www.mongodb.org/static/pgp/server-3.2.asc - Cài đặt MongoDB: yum install mongodb-org 3.2.2.3 Cài đặt Graylog - Thêm Graylog repository: 18 rpm -Uvh repository_latest.rpm https://packages.graylog2.org/repo/packages/graylog-2.4- - Cài đặt Graylog Server yum install graylog-server - Cài đặt EPEL repo, cài đặt “pwgen” để tạo secret key cho Graylog: yum install epel-release yum install pwgen - Tạo secret key cho Graylog: pwgen -N -s 96 (lưu lại kết quả) - Thiết lập hash password cho root user sử dụng Graylog web server: echo -n password | sha256sum (lưu lại kết quả) - Chỉnh sửa file “server.conf” vi /etc/graylog/server/server.conf password_secret = root_password_sha2 = rest_listen_uri = http://10.99.3.47:9000/api/ web_listen_uri = http://10.99.3.47:9000/ rest_transport_uri = http://10.99.3.47:9000/api/ Sau cài đặt thành cơng, ta truy cập Graylog Web Interface Hình 3.2: Giao diện truy cập Graylog Web Interface 19 3.3 Các kịch thử nghiệm kết 3.3.1 Các kịch thử nghiệm Cài đặt mô đun thu thập log lên số máy chủ web server, mail server… để chuyển log Graylog Server, sau quản lý tập trung nguồn log thơng qua Graylog Web Interface: - Thêm input NXLog để thu thập log máy chủ web Microsoft IIS - Tạo Input GELF UDP để nhận log định đạng GELF thông qua cổng 12201 - Tạo Input Syslog UDP để nhận log từ Syslog qua cổng 514 3.3.2 Một số kết - Quản lý tập trung nguồn máy chủ cung cấp log: Hình 3.3: Quản lý nguồn cung cấp log Graylog - Xem log theo thời gian thực, quản lý log với cơng cụ tìm kiếm mạnh mẽ sử dụng Elasticsearch 20 Hình 3.4: Giao diện tìm kiếm log Graylog - Xem báo cáo thơng tin truy cập website: Hình 3.5: Các địa truy cập nhiều 3.4 Kết luận chương Chương trình bày khái quát kiến trúc, thành phần tính Graylog Chương mơ tả q trình cài đặt thử nghiệm thu thập, sau xử lý liệu log, từ xuất báo cáo tình trạng truy cập website, user bị công, địa IP cơng, cảnh báo có bất thường 21 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn tập trung nghiên cứu log truy nhập, dạng log truy nhập, kỹ thuật phân tích xử lý phân tích log Cụ thể luận văn đạt kết sau:  Nghiên cứu kỹ thuật xử lý phân tích log để biết tình trạng hoạt động máy chủ dịch vụ, nắm bắt hành vi người dùng, nhận biết khả an tồn thơng tin hệ thống, giúp nâng cao hiệu công tác vận hành, quản trị hệ thống dịch vụ  Giúp hiểu rõ trình xử lý log, kỹ thuật phân tích log, cơng cụ hỗ trợ xử lý, phân tích log, từ lập phương án triển khai hệ thống xử lý phân tích log hoạt động hiệu  Đưa mơ hình thử nghiệm với đầy đủ bước thu thập, chuẩn hóa, xử lý phân tích log, triển khai sử dụng thực tế Luận văn phát triển hướng sau: Tiếp tục với thử nghiệm với nhiều loại log khác Xây dựng hệ thống cảnh báo an tồn thơng tin với bước xử lý thực cách tự động như: tự động gửi tin nhắn, email cho người quản trị có tượng bất thường; tự động chuyển địa IP bất thường sang hệ tường lửa chặn nó… Nghiên cứu ứng dụng việc xử lý phân tích log vào nhiều lĩnh vực khác ... Luận văn tập trung nghiên cứu log truy nhập, dạng log truy nhập, kỹ thuật phân tích xử lý phân tích log Cụ thể luận văn đạt kết sau:  Nghiên cứu kỹ thuật xử lý phân tích log để biết tình trạng... phân tích log - Chương 2: Trình bày kỹ thuật phân tích log truy nhập: mơ hình xử lý log, vấn đề thu thập tiền xử lý log, kỹ thuật phân tích log nhận dạng mẫu phân tích mẫu - Chương 3: Trình bày tổng... thống dịch vụ  Giúp hiểu rõ trình xử lý log, kỹ thuật phân tích log, cơng cụ hỗ trợ xử lý, phân tích log, từ lập phương án triển khai hệ thống xử lý phân tích log hoạt động hiệu  Đưa mơ hình

Ngày đăng: 05/02/2020, 11:27

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan