Tiểu luận An toàn và bảo mật hệ thống thông tin Cách thức thu thập dữ liệu tự động từ 1 website và cách phòng chống sao chép dữ liệu cho website

NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ ––––oo0oo–––– ĐỀ TÀI:Cách thức thu thập liệu tự động từ website cách phòng chống chép liệu cho website GVHD: Th.s Trương Hoài Phan Lớp: K09406 Lâm Hoàng Anh - K094061100 Vũ Thanh Tiến Dũng - K094061113 Nguyễn Thị Diệu Anh - K094061102 Trần Quang Đạt - K094061117 Đỗ Minh Trung - K094061206 Hồ Chí Minh, Ngày 09 tháng 11 năm 2014 K09406 Mục Lục I Tổng quan đề tài Lý chọn đề tài Ngày công nghệ thông tin phát triển vượt trội, Internet phổ biến rộng rãi, kho tài nguyên Internet ngày thêm phong phú Mọi tài nguyên internet đa số thông qua website, website sợi dây kết nối người lại với nhau, thơng qua website người liên hệ, trao đổi, chia sẻ với cách nhanh chóng hiệu Vì lẽ nội dung website quan trọng Đối với doanh nghiệp chí so sánh tài nguyên cần phải bảo vệ Xuất phát từ nhu cầu thực tế đó, nhóm định chọn đề tài phương thức thu thập liệu từ website cách phòng chống chép liệu cho website để nghiên cứu Mục tiêu Tìm hiểu cách thức thu thập, tìm kiếm liên kết website để lấy nội dung, cách bóc tách, xử lý liệu thu thập Từ tiến hành phịng chống việc lấy nội dung website Tiến hành thu thập nội dung, xử lý liệu website thực tế Đồng thời xây dựng tạm website để áp dụng cá biện pháp phịng chống tìm hiểu Đối tượng phạm vi nghiên cứu Page K09406 Đối tượng ngiên cứu đề tài việc tập trung nghiên cứu Cơ sở lý thuyết tổng quan cách thức thu thập nội dung website Phạm vi nghiên cứu áp dụng cho website tin tức Phương pháp nghiên cứu Phương pháp bàn giấy: Nhóm thực việc thu thập tài liệu qua Internet cách thức tiến hành lấy nội dung xử lý nội dung website Tài liệu sử dụng chủ yếu tài liệu tìm Google Phương pháp thực nghiệm : Với phương pháp này, nhóm tiến hành thực thực tế với website mẫu II Nội dung đề tài A Lấy thông tin: Cơ sở lý thuyết: Dựa mơ hình tìm kiếm thơng tin Crawler – Web Spider(CWS), CWS có khả tìm kiếm thu thập tài nguyên Internet (hình ảnh, email, số điện thoại, viết, tài liệu,…) tùy theo nhucầu Mô tả trình hoạt động:Các cơng cụ CWS hoạt động dựa chu trình vịng lặp có điểm dừng • Input: Website web page • Output: Text (data) Website spider tiến hành nhận Input website web page (web page gồm nhiều web page), xác định yêu cầu nội dung tìm kiếm, thu thập; xác định phạm vi hoạt động Với tiêu chí trên, Web spider tiến hành điều khiển robot (con bọ có chức tìm kiếm, thu thập) duyệt trang web phạm vi xác định, request đến Server nhận Page source trang về, sau tiếp tục trình hoạt động Page K09406 Một phận Web spider tiến hành nhận Page source trả về, xác định yêu cầu nội dung tìm kiếm, thu thập, tiến hành q trình bóc tách liệu Đối với Page source khớp với nội dung cần thu thập, lưu vào Database Ngược lại, khơng khớp, tiếp tục vịng lặp tìm kiếm thu thập đến khớp nội dung dừng lại Cấu trúc Crawler-Web spider: Cấu trúc Crawler – Web Spider Page K09406 Một CWS có phần chính: • • • • Thành phần giao diện người dùng điều khiển.(UI Control) Thành phần Robot (tìm kiếm trang web) Thành phần thu thập liệu thô – Page source(Crawler) Thành phần bóc tách liệu (Extractor) 3.1 Thành phần UI Control: Giao diện hỗ trợ người dùng điều khiển trạng thái q trình; tùy chỉnh điều kiện, phạm vi, mục tiêu tìm kiếm nội dung cần thu thập từ website 3.2 Thành phần Robot: Tìm kiếm link website Có phương pháp tìm kiếm: tìm kiếm theo tìm kiếm theo nội dung • Đối với tìm kiếm theo có phương pháp: tìm kiếm theo chiều sâu tìm kiếm theo chiều rộng Tìm kiếm theo chiều rộng Page K09406 • Tìm kiếm theo chiều sâu Đối với tìm kiếm theo nội dung: sử dụng phương pháp vét cạn, lấy tất phần tử link liên kết trongnội dung thu thập được, tiếp tục mở rộng tìm kiếm nội dung sang trang web khác, trình dừng lại gặp điều kiện kết thúc đặt thành phần UI 3.3 Thành phần thu thập liệu thô (Crawler): Thực chức Request tới Web server link liên kết, sau trả Page source dạng HTML Crawler sử dụng số phương thức truyền liệu GET, POST,…gửi Request đến Web sever, yêu cầu nội dung trang web 3.4 Thành phần bóc tách liệu (Extractor): Nhận yêu cầu từ Robot, Extractor lấy nội dung Page source trả từ trình Crawler tiến hành phân tích, bóc tách theo u cầu Có phương pháp hỗ trợ việc bóc tách : • Html Agility Pack: kết hợp với chức Xpath, chuyển liệu thô (HTML) sang XHTML (HTML + XML), chuyển liệu thành dạng DOM, thu thập nội dung theo dạng • Regular expression: Xác định điểm đầu điểm kết thúc nội dung cần thu thập • SubString: Xác định nội dung cần lấy vị trí nội dung dài chữ Xây dựngCrawler-Webspider đơn giản 4.1 Xây dựng UI Control • Mục tiêu: Hỗ trợ người dùng tùy chỉnh giá trị: địa website cần thu thập, điều kiện thu thập, nội dung thu thập Page K09406 • Demo giao diện: 4.2 Xây dựng Robot • Mục tiêu: duyệt đối tượng website chuỗi nhiều website • Các phương pháp tiếp cận: Sitemap, RSS, Link Onpage o RSS a Giới thiệu RSS RSS (viết tắt từ Really Simple Syndication) tiêu chuẩn định dạng tài liệu dựa XML nhằm giúp người sử dụng dễ dàng cập nhật tra cứu thơng tin cách nhanh chóng thuận tiện cách tóm lược thơng tin vào đoạn liệu ngắn gọn, hợp chuẩn b Mô tả cách lấy link RSS Tìm kiếm link RSS trang web: Sau xác định link địa RSS trang web, tiến hành gửi nội dung Page Source cho Crawler với yêu cầu trả danh sách địa liên kết Một số ví dụ địa RSS: Dantri.com.vn http://dantri.com.vn/rss/ Vnexpress.net http://vnexpress.net/rss/gl/trang-chu.rss Thanhnien.com.vn http://www.thanhnien.com.vn/pages/rss.aspx 24h.com.vn http://www.24h.com.vn/rss/ Tuoitre.vn http://tuoitre.vn/Rss/Index.html Mfo.mquiz.net http://mfo.mquiz.net/News/?Function=RSS Page K09406  Hầu hết trang web tin tức hỗ trợ RSS c Các bước thực - Tìm kiếm link RSS:  Cách 1: Dùng Crawler đọc Page source địa trang web, dùng Extractor tìm kiếm link RSS với cơng thức so khớp: alcollect = GCF.getObject(nd,“ 0) { Bitmap image = new Bitmap(400, 30); Graphics g = null; g = Graphics.FromImage(image); Font f = new Font("Arial", 10, FontStyle.Regular); SolidBrush b = new SolidBrush(Color.White); g.FillRectangle(b, 0, 0, 400, 30); g.DrawString(textToWrite, f, Brushes.Blue, 2, 5); f.Dispose(); image.Save(context.Response.OutputStream, System.Drawing.Imaging.ImageFormat.Jpeg); } } } Chức ghi ảnh từ HttpContext c Ưu điểm: • Nội dung mã hóa, bảo vệ • Hạn chế khả Extract nội dung d Nhược điểm: • Yêu cầu cấu hình hệ thống Server, khó thực • Tốc độ load trang web lâu 4.2 Tối ưu hóa Page Source a Mơ tả:Sử dụng thuật tốn loại bỏ dấu cách, khoảng trống thẻ (tag) HTML, nội dung PageSource HTML trả tạo thành khối dịng Page 27 K09406 Giao diện phía người dùng Nội dung PageSource tạo thành khối dòng Page 28 K09406 a Code demo: //Chức tối ưu code, loại bỏ dấu cách xuống dòng Public static String minify(String input){ Return Regex.Replace(input, ">\s+

Tiểu luận An toàn và bảo mật hệ thống thông tin Cách thức thu thập dữ liệu tự động từ 1 website và cách phòng chống sao chép dữ liệu cho website

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan