Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc

Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 TRƯỜNG ………………… KHOA……………………… - Báo cáo tốt nghiệp Đề tài: TÌM HIỂU VỀ TRÌNH THU THẬP WEB VÀ XÂY DỰNG TRANG WEB VÀ XÂY DỰNG TRANG TỔNG TỔNG HỢP THƠNG TIN I Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy Hồng Xn Huấn, thuộc mơn Khoa học máy tính, khoa Cơng nghệ thông tin, trường Đại học Công Nghệ, ĐHQGHN Trong trình thực khóa luận, thầy nhiệt tình giúp đỡ, giải đáp thắc mắc tạo động lực giúp tơi hồn thành khóa luận tốt nghiệp Tơi xin bày tỏ lời cảm ơn tới thầy mơn nói riêng khoa Cơng nghệ thơng tin nói chung nhiệt tình giảng dạy để giúp chúng tơi có ngày hơm Cuối lời cảm ơn tới gia đình, bạn bè người sát cánh bên lúc khó khăn, ln ủng hộ giúp đỡ để tơi hồn thành khóa luận II Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 TÓM TẮT NỘI DUNG Do nhu cầu thu thập thông tin người ngày tăng, lượng thông tin internet ngày phong phú nên vấn đề tổng hợp thông tin ngày trở nên thiết Với lượng liệu lớn việc thu thập tay tốn nhiều công sức, không đạt hiệu cao, cần cơng nghệ tổng hợp thơng tin cách tự động trình thu thập web đời Đề tài khóa luận đặt vấn đề tìm hiểu trình thu thập thông tin web bước đầu xây dựng ứng dụng có khả tổng hợp thông tin tự động từ trang báo điện tử lớn trang Dân trí (http://dantri.com.vn) Ứng dụng viết ngơn ngữ lập trình PHP tương tác với sở liệu mySQL xây dựng dựa tiêu chí: tốc độ thu thập nhanh, sở liệu gọn nhẹ, đảm bảo tính tồn vẹn tài liệu gốc III Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 MỤC LỤC MỞ ĐẦU CHƯƠNG TÌM HIỂU VỀ TRÌNH THU THẬP WEB .3 1.1 GIỚI THIỆU VỀ TRÌNH THU THẬP WEB 1.2 CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP 1.2.1 Frontier 1.2.2 Lược sử kho lưu trữ trang .7 1.2.3 Cách lấy trang 1.2.3.1 Tiêu chuẩn loại trừ robot 1.2.4 Bóc tách trang 10 1.2.4.1 Tiêu chuẩn trích xuất URL 11 1.2.4.2 Mơ hình thẻ HTML dạng .12 1.2.5 Trình thu thập đa luồng .13 1.3 CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU 15 1.3.1 Chiến lược thu thập liệu theo chiều sâu 16 1.3.2 Chiến lược thu thập liệu theo chiều rộng .16 1.3.3 Chiến lược thu thập liệu theo ngẫu nhiên 17 1.3.4 Chiến lược thu thập liệu theo lựa chọn tốt ngây thơ 17 1.4 ĐÁNH GIÁ CỦA TRÌNH THU THẬP 19 1.4.1 Độ quan trọng trang web 20 1.4.2 Phân tích tổng quát 21 1.4.2.1 Thước đo độ xác 22 1.4.2.2 Thước đo độ hoàn chỉnh .22 CHƯƠNG XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN .25 2.1 CÁC KIẾN THỨC NỀN TẢNG .25 IV Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 2.1.1 Mạng toàn cầu .25 2.1.2 Giao thức truyền tải siêu văn 28 2.1.3 Ngôn ngữ đánh dấu siêu văn 28 2.2 CÁC CÔNG NGHỆ LIÊN QUAN 30 2.2.1 Ngơn ngữ lập trình PHP 30 2.2.1.1 Biểu thức quy 31 2.2.1.2 Các hàm xử lý chuỗi .34 2.2.1.2.1 Tìm kiếm chuỗi chuỗi 34 2.2.1.2.2 Tìm vị trí chuỗi 34 2.2.1.2.3 Hàm so sánh chuỗi 34 2.2.1.2.4 Kiểm tra chiều dài chuỗi 35 2.2.2 MySQL 35 2.2.3 Một số công nghệ tiện ích khác 37 2.2.3.1 Add-ons firebug firefox 37 2.2.3.2 Ajax .37 2.3 PHÂN TÍCH 38 2.3.1 Cấu trúc viết trang báo điện tử 38 2.3.2 Các cách thu thập viết 42 2.3.2.1 Cách làm truyền thống 42 2.3.2.1.1 Các bước thực 42 2.3.2.1.2 Nhận xét 44 2.3.2.2 Cách làm 45 2.3.2.2.1 Các bước thực 45 2.3.2.2.2 Nhận xét 46 2.4 THIẾT KẾ 47 2.4.1 Cấu trúc sở liệu 47 V Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 2.4.1.1 Danh sách bảng 47 2.4.1.2 Chi tiết bảng 47 2.4.2 Phần quản trị sở liệu 49 2.4.3 Phần giao diện trang web 50 CHƯƠNG 3: KẾT LUẬN 50 3.1 CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC 51 3.2 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .51 TÀI LIỆU THAM KHẢO 53 VI Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 BẢNG DANH MỤC CÁC HÌNH MINH HỌA Hình 1: Một vịng thu thập web Hình 2: Mơ hinh tương ứng với mã nguồn HTML .12 Hình 3: Một mơ hình trình thu thập đa luồng .14 Hình 4: Hình minh họa độ hồn chỉnh độ xác 21 Hình 5: Hình họa thu hồi mục tiêu 23 Hình 6: So sánh thuật tốn breadth-first naive best-first 24 Hình 7: World wide web .26 Hình Tương tác client server .28 Hình 9: Add-ons firebug trình duyệt firefox 37 Hình 10: Cấu trúc phần viết 39 Hình 11: Cấu trúc phần chuyên mục 40 Hình 12: Cấu trúc phần trang chủ .41 Hình 13: Giao diện phần quản trị sở liệu 49 Hình 14: Giao diện trang web tổng hợp thơng tin 50 VII Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 MỞ ĐẦU Ngày nhờ bùng nổ công nghệ thông tin, lịch sử nhân loại bước sang trang Những thành tựu ngành công nghệ thông tin vô to lớn, chi phối làm thay đổi mặt đời sống xã hội, làm cho sống người văn minh, đại Sự đời internet bước tiến vĩ loại, yếu tố quan trọng bậc chi phối sống ngày Nhờ có internet giới trở nên ‘phẳng’ hơn, nơi trái đất học tập tìm kiếm thơng tin Theo guồng quay sống, giới internet ngày rộng lớn phong phú Cứ phút trơi qua có thêm hàng triệu trang web sinh để làm giàu cho vốn tài nguyên tri thức nhân loại Nhưng mà việc chọn lọc, tìm kiếm thơng tin lại trở nên khó khăn Với kho liệu đồ sộ internet, vấn đề trích xuất tổng hợp thông tin trở thành vấn đề thực cấp thiết Nếu giải vấn đề loại bỏ chướng ngại lớn đường tổng hợp thông tin nhân loại Đề tài khóa luận đặt vấn đề tìm hiểu trình thu thập thơng tin web bước đầu xây dựng ứng dụng có khả tổng hợp thơng tin tự động từ trang báo điện tử lớn Đề tài thành công bước không nhỏ giúp cho việc tổng hợp thông tin trở nên đơn giản hơn, giảm nhiều chi phí cơng sức so với việc tổng hợp thủ công, tiền đề để xây dựng nên hệ thống máy tìm kiếm, giống google, cho người Việt Nam Nội dung khóa luận tập trung vào mục tiêu sau: - Đưa nhìn tổng quát trình thu thập web (web crawler) - Xây dựng ứng dụng website tổng hợp thơng tin có khả thu thập tin từ trang báo lớn Dân trí Để giải mục tiêu này, khóa luận chia thành ba chương lớn: Chương 1: Tìm hiểu trình thu thập web Trong chương này, tìm hiểu khái niệm trình thu thập web Phần lớn nội dung chương sâu vào việc tìm hiểu thành phần cấu thành nên trình thu thập, chiến lược thu thập liệu, việc đánh giá trình thu thập trang web Qua có tranh chung Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thơng tin 2010 trình thu thập web, hiểu giá trị thực tiễn mà mang lại đời sống người Chương 2: Xây dựng ứng dụng website tổng hợp thơng tin Phần đầu chương trình bày kiến thức tảng công nghệ liên quan, phần đánh giá phân tích giải pháp nhằm nâng cao hiệu suất trình thu thập, phần cuối chương việc thực hóa ứng dụng thơng qua việc xây dựng hệ thống sở liệu thiết kế giao diện website Cũng phần nêu hai cách thu thập thông tin Một cách làm phổ biến gọi cách làm truyền thống, cách làm tơi tìm Cách làm tối ưu giải hạn chế cách làm truyền thống Chương 3: Kết luận Phần kết luận phần cuối khóa luận nhìn lại điều làm khóa luận này, nêu lên vấn đề cịn vướng mắc, từ đề hướng phát triển cho đề tài Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thơng tin 2010 CHƯƠNG TÌM HIỂU VỀ TRÌNH THU THẬP WEB 1.1 GIỚI THIỆU VỀ TRÌNH THU THẬP WEB Trình thu thập web (Web crawler) chương trình khai thác cấu trúc đồ thị web di chuyển từ trang qua trang khác Thời kỳ đầu có tên tượng bọ web, rơ-bốt, nhện sâu, ngày tên gọi phổ biến trình thu thập web [1] Mặc dù cụm từ ‘thu thập’ không lột tả hết tốc độ chương trình này, chúng có tốc độ làm việc đáng kinh ngạc, thu thập liệu lên đến hàng chục ngàn trang vòng vài phút Từ thời kỳ đầu, động lực quan trọng thúc đẩy trình phát triển việc thiết kế trình thu thập web lấy nội dung trang web thêm chúng đường dẫn chúng vào kho lưu trữ trang – kiểu kho lưu trữ dùng để phục vụ cho ứng dụng cụ thể công cụ tìm kiếm web (search engine) Các trình thu thập thường bắt đầu cách chọn số đường dẫn (URL) ứng với trang web ghé thăm đầu tiên, trang gọi trang hạt giống Khi ghé thăm trang hạt giống, trình thu thập đọc nội dung trang web, lọc tất siêu liên kết (hyperlink) có trang web đưa URL tương ứng với chúng vào danh sách gọi biên giới (frontier) Dựa vào danh sách này, trình thu thập tiếp tục trình duyệt đệ quy để ghé thăm tất URL chưa duyệt Quá trình dừng lại trình thu thập thu thập đủ số trang u cầu frontier rỗng, tức khơng cịn URL để duyệt Tuy mơ tả đơn giản đằng sau chúng nhiều vấn đề hóc búa liên quan đến kết nối mạng, bẫy nhện, tiêu chuẩn trích xuất URL, chuẩn hóa trang HTML, bóc tách nội dung trang HTML vv Ở phần sau khóa luận tơi trình bày đến vấn đề hướng giải chúng Sau có danh sách URL dùng cho việc thu thập, ta thực trình lấy trang Tất trang lấy lần lưu vào kho lưu trữ giống sở liệu cơng cụ tìm kiếm, đến không cần thu thập thêm Tuy nhiên web thực thể động với không gian liên tục phát triển thay đổi nhanh cách chóng mặt, thơng tin phải liên tục thu thập để giúp ứng dụng cập nhật, ví dụ bổ sung trang loại bỏ trang bị xóa, di chuyển cập nhật trang bị sửa đổi Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thơng tin 2010 Hình 10: Cấu trúc phần viết - Phần nội dung chuyên mục (category): Chuyên mục bao gồm viết chủ đề Phần nội dung chuyên mục hiển thị phần mô tả viết Phần mô tả viết bao gồm: trường tiêu đề, trường giới thiệu, trường hình ảnh 39 Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 Hình 11: Cấu trúc phần chuyên mục - Phần nội dung trang chủ: Trang chủ bao gồm chuyên mục lớn (còn gọi chuyên mục cha) Phần nội dung trang chủ hiển thị phần mô tả chuyên mục cha Trong phần mô tả có phần mơ tả viết chuyên mục tiêu đề viết khác chuyên mục 40 Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 Hình 12: Cấu trúc phần trang chủ Thơng qua cấu trúc viết ta thấy để xây dựng thành công trang web thu thập tin tự động ta cần phải thu thập phần nội dung viết phần nội dung chuyên mục Cách làm phổ biến thu thập toàn nội dung viết lưu vào sở liệu để tiện cho việc xây dựng trang web, gọi cách làm truyền thống Trong trình tìm hiểu xây dựng trang web, nhận số khuyết điểm cách làm này, từ tìm cách làm có số cải tiến sáng tạo hạn chế khuyết điểm cách làm truyền thống Ở phần sau khóa luận tơi trình bày hai cách làm phân tích ưu nhược điểm chúng 41 Tìm hiểu trình thu thập web xây dựng trang web tổng hợp thông tin 2010 2.3.2 Các cách thu thập viết 2.3.2.1 Cách làm truyền thống 2.3.2.1.1 Các bước thực Quá trình thu thập viết chia thành bước: Bước 1: Thu thập URL viết Ở bước thu thập tất đường dẫn URL ứng với trang viết Tất trang báo điện tử lưu trữ viết theo chuyên mục (category), việc làm làm cho trang báo trực quan thuận tiện cho người dùng muốn tìm kiếm thơng tin Với trang báo điện tử lớn Dân trí ngồi viết cịn có nhiều chuyên mục quảng cáo, đường dẫn javascrips, mục viết lồng (ví dụ phần tiêu điểm, tin bật ) vấn đề đặt trước hết phải lọc URL viết theo category, sau phải có chế để tránh lấy URL nhiều lần Để lấy đường dẫn URL ta dùng hàm preg_math với $pattern biểu thức quy lấy siêu liên kết Kết thu mảng với phần tử URL Sau ví dụ minh họa việc lấy URL danh mục phapluat trang Dân trí:

Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan