Bài tập lớn môn an toàn mang, học viện bưu chính viễn thông (42)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THƠNG TIN HỌC PHẦN: AN TỒN MẠNG Bài báo cáo: Tìm hiểu cơng cụ waybackurls Giảng viên hướng dẫn: TS Đặng Minh Tuấn Sinh viên thực hiện: Trần Thái Hùng Nhóm 02 B18DCAT104 Hà Nội, ngày 22 tháng 12 năm 2021 Mục Lục LỜI MỞ ĐẦU Chương 1: Giới thiệu, lịch sử hình thành 3 1.1 Giới thiệu sơ lược Waybackurls 1.2 Internet Archive gì? 1.3 Wayback Machine gì? Chương 2: Hướng dẫn cài đặt sử dụng 2.1 Cài đặt máy Linux 2.2 Sử dụng waybackurls Chương 3: Bài Lab Kịch Demo Lab Lab Lab Lab Chương 4: So sánh, Đánh giá Kết luận 4.1 So sánh với tool Crawl tự động khác 4.1.1 Ưu Điểm 4.1.2 Nhược Điểm 4.2 Đánh giá, kết luận waybackurls Tài liệu tham khảo 6 15 15 18 21 25 27 27 27 27 28 29 LỜI MỞ ĐẦU Thu thập thông tin bước tảng cho thành cơng kiểm thử thâm nhập Càng có nhiều thơng tin hữu ích mục tiêu, tìm thấy nhiều lỗ hổng mục tiêu tìm vấn đề nghiêm trọng mục tiêu cách khai thác chúng Trong kiểm thử xâm nhập web, Web crawling kiểm thử xâm nhập web khía cạnh quan trọng q trình lập mục liệu trang web cách sử dụng scripts tự động chương trình crawling Các chương trình thu thập thơng tin phổ biến như: web crawler, spider, spider bot, and a crawler Waybackurls tool dựa Golang sử dụng để thu thập thông tin tên miền sdin, tìm nạp URL biết từ Wayback Machines, xuất chúng stdout Với tiểu luận tìm hiểu Waybackurls với đề tài “ Mở đầu Giới thiệu, lịch sử hình thành Hướng dẫn cài đặt, sử dụng Các demo So sánh, đánh giá, kết luận” tìm hiểu cách thức hoạt động tool Chương 1: Giới thiệu, lịch sử hình thành 1.1 Giới thiệu sơ lược Waybackurls: - Đây tool viết dựa golang tonomnom - Mơ tả ngắn gọn cơng việc theo tác giả: tìm urls có sẵn Wayback Machine cho *.domain Có khái niệm ta cần tìm hiểu là: Internet Archive Wayback Machine 1.2 Internet Archive gì? - thư viện số phi lợi nhuận có trụ sở San Francisco với sứ mệnh lưu trữ nội dung Web Internet - Thư viện cho phép tất người truy cập tự nội dung tài liệu số, bao gồm trang web, phần mềm ứng dụng/trị chơi, âm thanh/hình ảnh/video, gần triệu sách cơng cộng Tính đến tháng 05 năm 2014, thư viện có liệu đạt 15 Petabyte - Internet Archive bắt đầu vào năm 1996 cách lưu trữ Internet, phương tiện bắt đầu sử dụng Giống báo chí, nội dung xuất web phù du - không giống báo chí, khơng lưu Ngày nay, Internet Archive có 25 năm lịch sử web truy cập thông qua Wayback Machine - Sứ mệnh tự xưng "bảo tồn vật văn hóa xã hội cung cấp quyền truy cập vào chúng Nếu thư viện tiếp tục thúc đẩy giáo dục học thuật thời đại ngày nay, cần thiết phải mở rộng chức vào giới kỹ thuật số ” “Internet Archive làm việc để ngăn chặn Internet - phương tiện có ý nghĩa lịch sử quan trọng - vật liệu ‘kỹ thuật số ’ biến vào khứ ” Internet Archive trích dẫn tầm quan trọng quyền truy cập mở miễn phí vào tác phẩm coi “cần thiết cho giáo dục trì xã hội." 1.3 Wayback Machine gì? - WayBack Machine dịch vụ cung cấp Internet Archive cho phép người truy cập phiên lưu trữ trang web - WayBack Machine coi thiết bị hiển thị Web vào ngày cụ thể nào, cung cấp cho người dùng cửa sổ hiển thị trang web khứ - Máy WayBack cho phép nhập URL, chọn phạm vi ngày bắt đầu tìm phiên lưu trữ trang web mong muốn - Ví dụ: kể từ tháng năm 2013, tìm kiếm đơn giản “www.yahoo.com” cho thấy trang web thu thập thơng tin 38.583 lần, tháng 10 năm 1996 - Cách mà WayBack Machine biên dịch lưu trữ thông tin phức tạp Tuy nhiên, q trình đơn giản hóa phần Internet Archive hợp tác với Alexa Internet, Inc., thiết kế mục ba chiều cho phép duyệt tài liệu web Alexa Internet, Công ty thuộc Amazon, “đã tạo công ty thu thập liệu Web lớn nhất, phát triển sở hạ tầng để xử lý phục vụ lượng lớn liệu ” Kể từ đầu năm 1996, Alexa thu thập liệu web dịch vụ cho nhà nghiên cứu, học giả tương lai bên quan tâm khác, Alexa Internet đóng góp lần thu thập liệu web lên Internet Archive - Trình thu thập thơng tin web chương trình phần mềm “lướt Web tự động lưu trữ tệp trang web, bảo quản tệp chúng tồn tại thời điểm thu thập.” Một mơ tả khác cung cấp:“trình thu thập thơng tin chương trình tự động quét Internet chụp ảnh trang web mà hướng dẫn để truy cập ” - Alexa Internet phát triển trình thu thập thơng tin web tập hợp khoảng 1,6 terabyte (1.600 gigabyte) nội dung web ngày Mỗi ảnh chụp nhanh web khoảng hai tháng để hoàn thành; Tuy nhiên, kể từ 1996, Internet Alexa thu thập ảnh 4,5 tỷ web pages từ 16 triệu websites - Có nhiều nguồn khác lưu trữ trang web, bao gồm Gigablast, Google Bot Google, v.v Tuy nhiên, Internet không ngừng phát triển số nguồn ngừng hoạt động thay phiên Ví dụ, Yahoo! công bố vào tháng năm 2009 dịch vụ lưu trữ nó, Yahoo! MyWeb, ngừng hoạt động thay Yahoo! Bookmarks dịch vụ khác, Delicious - Trái ngược với tính chất thời số trang web lưu trữ khác, Internet Archive’s WayBack Machine lưu trữ hình ảnh công chúng sử dụng Nhiều dịch vụ khác bắt đầu sau năm 1996 không giữ lại nhiều lưu trữ Wayback Machine Ví dụ, Gigablast thành lập vào năm 2000 dường giữ lại lưu nhớ cache trang web Một tìm kiếm cho Yahoo! Được lưu vào nhớ đệm có kết ảnh chụp hình từ ngày tháng 11 năm 2011(rất cũ) - Đôi dịch vụ lưu trữ web phụ thuộc vào Wayback Machine có nhiều ảnh chụp hình - Ngồi ra, Internet Archive mở rộng theo dõi khả Google thông báo HTTP Archive họ hợp với Internet Archive Trong WayBack Machine theo dõi nội dung web, HTTP Archive Google theo dõi nội dung xây dựng phục vụ HTTP Archive kết nối với Internet Archive ghi lại lịch sử cho hệ tương lai Chương 2: Hướng dẫn cài đặt sử dụng 2.1 Cài đặt máy Linux: Bước 1: Cài đặt golang: Kiểm tra xem golang cài đặt máy: go version chưa có cài đặt: apt install golang Bước 2: Tải tool waybackurls thơng qua tiện ích Go sử dụng câu lệnh: sudo go get github.com/tomnomnom/waybackurls Bước 3: Kiểm tra menu help để hiểu rõ tool tùy chọn: 2.2 Sử dụng waybackurls: Ví dụ 1: Quét đơn giản: waybackurls geeksforgeeks.org Bây hình bên dưới, ta thu thập thành cơng tất URL Wayback có từ tên miền mục tiêu geekforgeeks.org Hầu hết URL thu thập công cụ waybackurls Chương 3: Bài Lab Kịch Demo Lab 1: Mục tiêu: tripadvisor.com Các tools sử dụng: subfinder, httprobe, waybackurls Kịch demo: - Sử dụng subfinder để liệt kê sub domain tripadvisor.com lưu vào file subfinder.txt - Sau cho danh sách sub domain chạy qua httprobe để lọc lấy live sub domain lưu vào file live-responsible.txt - Tiếp theo cho danh sách live sub domain chạy qua waybackurls lưu vào file allurl.txt Kết quả: lưu vào file subfinder.txt 16 Sử dụng hprobe lọc live sub domain: Command hprobe định nghĩa file ~/.profile sử dụng httprobe 17 Sử dụng waybackurls live sub domain: Kết quả: lưu vào file allurl.txt 18 Lab 2: Mục tiêu: testasp.vulnweb.com Các tools sử dụng: waybackurls, gf-pattern, kxss Kịch demo: - Sử dụng waybackurls testasp.vulnweb.com - Sau đưa kết qua gf-pattern với pattern xss để lọc urls có khả dính lỗi xss - Sau sử dụng kxss để test lỗi xss tìm xác urls dính lỗi Sử dụng waybackurls + gf pattern: 19 Kết quả: Sử dụng waybackurls + gf + kxss: 20 Kết quả: 21 Lab 3: Mục tiêu: testasp.vulweb.com Các tools sử dụng: waybackurls, gf-pattern, sqlmap Kịch demo: - Sử dụng waybackurls testasp.vulnweb.com - Sau đưa kết qua gf-pattern với pattern sqli để lọc urls có khả dính lỗi sql injection - Tiếp sử dụng sqlmap với urls tìm Sử dụng waybackurls với gf-pattern: Tìm thơng tin server với sqlmap: 22 Kết quả: Liệt kê database sử dụng sqlmap: 23 Kết quả: Liệt kê bảng database acuforum: 24 Kết quả: 25 Lab 4: Mục tiêu: lanhongco.com Các tools sử dụng: waybackurls Đối sử dụng waybackurls đem lại thơng tin có ích Sử dụng waybackurls với mục tiêu ta tìm thấy trang đăng nhập admin bao gồm tài khoản mật Kết quả: 26 27 Chương 4: So sánh, Đánh giá Kết luận 4.1 So sánh với tool Crawl tự động khác ( Burp Spider, dirbuster, sublist3r, ) 4.1.1 Ưu Điểm: - Điểm khác biệt lớn waybackurls tools kể waybackurls thuộc loại Passive Reconnaissance Các tools thuộc Active Reconnaissance Do an tồn ẩn danh cao - Wayback url gửi yêu cầu đến Wayback Machine lấy urls tốc độ nhanh chứa lượng lớn urls - Các tools crawl khác thông thường gửi nhiều yêu cầu trực tiếp đến website dựa list tên đường dẫn theo kiểu bruteforce gây ý hệ thống log dễ bị phát List đường dẫn thường chứa nhiều đường dẫn không tồn dẫn đến kết tìm kiếm bị thu hẹp Và tất kiểu brute-force với list lớn tốc độ chậm - waybackurls không lấy URLs webiste trạng thái mà cịn chứa URLs q khứ Đó file thơng tin nhạy cảm trang web, đường link chứa thông tin cá nhân, tokenId api 4.1.2 Nhược Điểm: - Vì lượng URLs lấy lớn khơng cịn hoạt động nên cần khâu xử lý lọc lấy URLs hoạt động - Bên cạnh cần có kĩ xử lí, bóc tách, phân tích khối lượng lớn thơng tin chứa URLs Nó dễ gây nhầm lẫn thời gian 28 4.2 Đánh giá, kết luận waybackurls: - Reconnaissance bước mà hacker thực hiện, nơi họ cố gắng thu thập nhiều thông tin mục tiêu tốt Thông thường, hacker bắt đầu cách thám thụ động, không liên quan đến tương tác trực tiếp, khó phát khơng liên quan đến việc sử dụng công cụ động chạm vào trang web, mạng máy tính mục tiêu - Internet Archive chứa gần toàn url, ảnh chụp hình thuộc trang web waybackurls tool passive reconnaissance hiệu tận dụng điều để mang lại nhìn chi tiết cấu trúc file, thư mục mục tiêu - Thơng tin nhiều trở nên vô dụng ta khơng tận dụng Bởi số lượng lớn URLs mà waybackurls lấy về, cần có kĩ để phân tích thơng tin kiến thức tools kết hợp lại với để bóc tách thơng tin Ví dụ: - Để lọc URLs cịn hoạt động cần dùng: httpx - Sau đó, sử dụng GF-Patterns để tìm url dễ bị cơng (Như XSS, LFI, SSRF & SQLI ) - Hoặc sử dụng kxss để tìm url chứa lỗi xss 29 Tài liệu tham khảo [1] https://www.sciencedirect.com/topics/computer-science/ waybackmachine [2] http://www.jthtl.org/content/articles/V11I1/JTHTLv11i1_Ande rsen.PDF [3] https://github.com/tomnomnom/waybackurls [4] https://archive.org/about/ [5] https://help.archive.org/hc/en-us/articles/360004716091-Way backMachine-General-Information 30 ... Archive gì? - thư viện số phi lợi nhuận có trụ sở San Francisco với sứ mệnh lưu trữ nội dung Web Internet - Thư viện cho phép tất người truy cập tự nội dung tài liệu số, bao gồm trang web, phần mềm... ) 4.1.1 Ưu Điểm: - Điểm khác biệt lớn waybackurls tools kể waybackurls thuộc loại Passive Reconnaissance Các tools thuộc Active Reconnaissance Do an tồn ẩn danh cao - Wayback url gửi yêu cầu... liên quan đến việc sử dụng công cụ động chạm vào trang web, mạng máy tính mục tiêu - Internet Archive chứa gần toàn url, ảnh chụp hình thuộc trang web waybackurls tool passive reconnaissance hiệu