Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh

83 779 2
Luận văn thạc sĩ công nghệ thông tin  xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã được công bố, trên các website. Các phương pháp nêu trong luận văn được rút từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu. Đồng Nai, ngày 15 tháng 10 năm 2011 Tác giả Cao Nguyễn Thủy Tiên LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy cô trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT. Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện luận văn. Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học – TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiện luận văn. Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này. Biên Hòa, ngày 15 tháng 10 năm 2011 Cao Nguyễn Thủy Tiên MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU v MỞ ĐẦU 1 1. Tóm lược đề tài 1 2. Mục tiêu đề tài 1 3. Nội dung thực hiện 1 4. Phạm vi ứng dụng 2 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 3 1.1. Bộ lọc web 3 1.1.1. Khái niệm 3 1.1.2. Đặc điểm web có nội dung không lành mạnh 4 1.1.3. Nguyên nhân cần xây dựng bộ lọc web 7 1.2. Các phương pháp lọc web có nội dung không lành mạnh 7 1.2.1. Bộ lọc web dựa vào địa chỉ mạng 7 1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) 9 1.2.3. Bộ lọc web dựa vào DNS 12 1.2.4. Bộ lọc web dựa vào từ khóa (key word) 13 1.3. Những phần mềm lọc web hiện nay 14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16 2.1. Tổng quan khai phá dữ liệu 16 2.1.1. Khai phá Text 16 2.1.1.1. Khái niệm 16 2.1.1.2 Một số loại khai phá Text 16 2.1.1.3. Quy trình khai phá Text 17 2.1.2. Khai phá web 18 2.1.2.1. Khái niệm 18 2.1.2.2. Phân loại khai phá web 18 2.1.2.3. Phương pháp biểu diễn trang web 19 2.1.3 Xử lý văn bản tự động 21 2.1.3.1. Rút trích đặc trưng văn bản 21 2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22 2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes 25 2.2.1. Giới thiệu 25 2.2.2. Học Bayes (Bayes Learning) 25 2.2.3. Công thức Bayes 28 2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes 30 2.3. Phương pháp tách từ trong tiếng Việt 31 2.3.1. Tình hình nghiên cứu 31 2.3.2. Một số phương pháp tách từ 32 2.3.2.1. Tách câu dựa trên Maximum Entropy 32 2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34 2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35 2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37 2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ nghĩa 38 2.3.3. So sánh các phương pháp tách từ tiếng Việt 40 2.4. Phân tích nội dung website 42 2.4.1. Phân loại nội dung website 42 2.4.2. Đặc trưng của ngôn ngữ tiếng Việt 43 2.4.3. Phương pháp xử lý nội dung website 44 2.4.4. Phân tích câu 45 CHƯƠNG 3: ỨNG DỤNG 47 3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh 47 3.1.1. Ý tưởng đề xuất 47 3.1.2. Hướng tiếp cận 47 3.1.3. Tiến trình thu thập nội dung 48 3.1.4. Quy trình thực hiện 49 3.1.4.1. Tiến trình 1 50 3.1.4.2. Tiến trình 2 53 3.1.4.3. Tiến trình 3 55 3.2. Kiến trúc hệ thống chương trình 56 3.2.1 Trình duyệt web với các chức năng cơ bản thông thường 56 3.2.2. Các chức năng cơ bản của hệ thống 56 3.3. Chức năng của chương trình 57 3.3.1.Giao diện chính của chương trình 57 3.3.2. Sơ đồ chức năng của chương trình 58 3.3.2.1. Chức năng đăng nhập hệ thống 58 3.3.2.2. Chức năng chương trình 59 3.4. Chức năng học từ tiếng Việt 60 3.5. Chức năng xử lý 61 3.5.1. Lấy nội dung website cần phân tích 61 3.5.2. Quản lý bộ từ điển tiếng Việt 61 3.5.3. Phân tích câu đối với nội dung website tiếng Việt 62 3.5.4. Phân tích nội dung website tiếng Việt 63 3.6. Chức năng huấn luyện từ cho việc lọc nội dung 63 3.6.1. Huấn luyện từ tiếng Anh 64 3.6.2. Huấn luyện từ tiếng Việt 64 3.7. Phân loại nội dung website 65 3.7.1. Nội dung tiếng Anh 65 3.7.2. Nội dung tiếng Việt 65 3.8. Quản lý các thông số hệ thống 66 3.9. Quản lý các danh sách 67 3.9.1. Black List 67 3.9.2. White List 68 3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được 68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập 3 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6 Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới 6 Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18 Hình 2.2 – Quy trình tách từ 37 Hình 3.1 – Tiến trình thu thập nội dung 49 Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh 50 Hình 3.3 – Mô hình tách câu trong tiếng Việt 51 Hình 3.4 – Mô hình tách từ đơn tiếng Việt 52 Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53 Hình 3.6 – Mô hình tính xác suất cho từ ghép 54 Hình 3.7 – Mô hình cập nhật bộ từ điển 55 Hình 3.8 – Giao diện chính của chương trình 57 Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website 58 Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58 Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt 61 Hình 3.12 – Lấy nội dung website cần phân tích 61 Hình 3.13 – Bộ từ điển tiếng Việt 62 Hình 3.14 – Phân tích câu trong tiếng Việt 62 Hình 3.15 – Phân tích nội dung website tiếng Việt 63 Hình 3.16 – Huấn luyện từ tiếng Anh 64 Hình 3.17 – Huấn luyện từ tiếng Việt 64 Hình 3.18 – Phân lớp nội dung website tiếng Anh 65 Hình 3.19 – Phân lớp nội dung website tiếng Việt 66 Hình 3.20 – Quản lý thông số hệ thống 67 Hình 3.21 – Danh sách Black List 67 Hình 3.22 – Danh sách White List 68 [...]... web có nội dung bằng tiếng Việt không lành mạnh 2 Mục tiêu đề tài Tìm hiểu đặc trưng cũng như sự phát triển của website có nội dung không lành mạnh, kết hợp phân tích các hệ thống lọc web hiện có Từ đó đề xuất mô hình có thể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngôn ngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụng khai phá dữ liệu văn. .. pháp lọc web phù hợp và xây dựng mô hình − Cài đặt bộ lọc web hiện thực hóa vấn đề nghiên cứu 4 Phạm vi ứng dụng Đề tài Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh được ứng dụng bằng một trình duyệt giúp phụ huynh kiểm soát được quá trình truy cập vào các website của con em mình, hạn chế truy cập vào các website có nội dung không lành mạnh 3 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ. .. Bayes nhằm xác định ngưỡng xác suất website không lành mạnh để có hướng xử lý phù hợp Bênh cạnh đó, hiện thực hóa mô hình thành một trình duyệt web có khả năng tự động ngăn chặn những website tiếng Việt có nội dung không lành mạnh 3 Nội dung thực hiện Nội dung chính cần thực hiện trong đề tài gồm các phần sau: − Nghiên cứu tổng quan các hệ thống lọc web “đen” thông dụng hiện nay, xác định những điểm bất... sẽ trình bày một số phương pháp lọc website có nội dung không lành mạnh 1.2 Các phương pháp lọc web có nội dung không lành mạnh 1.2.1 Bộ lọc web dựa vào địa chỉ mạng  Bức tường lửa (Firewall) Firewall là một kỹ thuật được tích hợp vào hệ thống mạng để chống sự truy cập trái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập không mong muốn vào hệ thống Thông thường Firewall được đặt... chúng Việc mở rộng nội dung văn bản từ các văn bản kề cận nó xuất phát từ nhận định cho rằng, việc sử dụng các siêu liên kết có nguồn gốc từ sự liên quan về nội dung giữa chúng Có 04 phương án xây dựng biểu diễn một trang web: – Nội bộ trang hiện thời – Hợp không phân biệt nội dung trang hiện thời và kề cận – Hợp phân biệt nội dung trang hiện thời với trang kề cận – Tổng quát hóa của cách 3 với 4 mức... sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc nameserver sẽ trả về thông tin bất hợp lệ khi yêu cầu phân giải một hostname của website bị lọc Như vậy không thể truy cập đến tài liệu trên của máy chủ chứa Website Tuy nhiên, các website không bị lọc sẽ cho phép truy cập miễn là chúng nó có một hostname khác từ các website bị lọc Vì tên của chúng không được hỗ trợ thông tin bất hợp... kiểm soát và loại nội dung đi qua bộ lọc Các bộ lọc web thường được sử dụng trong các trường học, thư viện, các dịch vụ Internet công cộng và tại gia đình nhằm giữ an toàn cho đối tượng thanh thiếu niên tránh được những nội dung không lành mạnh vì lứa tuổi này chưa có ý thức việc mình làm Hình 1.1 – Màn hình trình duyệt cấm truy cập 4 1.1.2 Đặc điểm web có nội dung không lành mạnh Hiện nay, nhiều người... Phương pháp lọc theo URL không thể đọc các hostfield Cho nên, bộ lọc không có hiệu quả phát hiện một tài nguyên nào trên một địa chỉ IP mà yêu cầu thực sự định hướng vào Tóm lại, các server cần có bộ lọc để thực hiện loại bỏ một số trang web không tốt, nhưng nó có thể làm cho hệ thống chậm lại 1.2.3 Bộ lọc web dựa vào DNS Những website bị lọc sẽ hoàn toàn không thể truy cập được đến tất cả các cấu hình... của nội dung trang web đề cập đến Cặp thẻ đề mục …, …,… được qui định để hiển thị các đề mục trong nội dung trang web 21 Tiêu đề và các đề mục thường nêu các ý chính, quan trọng của trang web Do đó, có thể gán cho nội dung (các từ khóa xuất hiện) trong các cặp thẻ này có trọng số cao hơn so với các nội dung khác (các từ khóa ở các vị trí khác) 2.1.3 Xử lý văn bản tự động Xử lý văn. .. 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ lọc web 1.1.1 Khái niệm Bộ lọc web là phần mềm có chức năng lọc nội dung hiển thị trên một trình duyệt hay khóa một vài vị trí của website mà người dùng cố gắng truy cập vào Bộ lọc kiểm tra nội dung hay địa chỉ của trang web dựa vào tập luật và được thay thế nội dung không mong muốn bằng một trang web thay thế, thường trang này có nội dung có dòng “Access Dinied” Quản trị . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai,. 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin Xây dựng bộ lọc phát hiện các website. 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬN

Ngày đăng: 06/10/2014, 16:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan