Thông tin tài liệu
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã được công bố, trên các website. Các phương pháp nêu trong luận văn được rút từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu. Đồng Nai, ngày 15 tháng 10 năm 2011 Tác giả Cao Nguyễn Thủy Tiên LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy cô trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT. Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện luận văn. Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học – TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiện luận văn. Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này. Biên Hòa, ngày 15 tháng 10 năm 2011 Cao Nguyễn Thủy Tiên MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN . ii MỤC LỤC iii DANH MỤC HÌNH VẼ . iv DANH MỤC BẢNG BIỂU .v MỞ ĐẦU 1 1. Tóm lược đề tài 1 2. Mục tiêu đề tài .1 3. Nội dung thực hiện 1 4. Phạm vi ứng dụng 2 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .3 1.1. Bộ lọc web 3 1.1.1. Khái niệm 3 1.1.2. Đặc điểm web có nội dung không lành mạnh .4 1.1.3. Nguyên nhân cần xây dựng bộ lọc web 7 1.2. Các phương pháp lọc web có nội dung không lành mạnh .7 1.2.1. Bộ lọc web dựa vào địa chỉ mạng .7 1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) .9 1.2.3. Bộ lọc web dựa vào DNS 12 1.2.4. Bộ lọc web dựa vào từ khóa (key word) .13 1.3. Những phần mềm lọc web hiện nay .14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16 2.1. Tổng quan khai phá dữ liệu 16 2.1.1. Khai phá Text 16 2.1.1.1. Khái niệm .16 2.1.1.2 Một số loại khai phá Text .16 2.1.1.3. Quy trình khai phá Text .17 2.1.2. Khai phá web .18 2.1.2.1. Khái niệm .18 2.1.2.2. Phân loại khai phá web 18 2.1.2.3. Phương pháp biểu diễn trang web 19 2.1.3 Xử lý văn bản tự động 21 2.1.3.1. Rút trích đặc trưng văn bản 21 2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22 2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes .25 2.2.1. Giới thiệu .25 2.2.2. Học Bayes (Bayes Learning) .25 2.2.3. Công thức Bayes .28 2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes .30 2.3. Phương pháp tách từ trong tiếng Việt .31 2.3.1. Tình hình nghiên cứu 31 2.3.2. Một số phương pháp tách từ 32 2.3.2.1. Tách câu dựa trên Maximum Entropy .32 2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34 2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35 2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37 2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ nghĩa .38 2.3.3. So sánh các phương pháp tách từ tiếng Việt .40 2.4. Phân tích nội dung website .42 2.4.1. Phân loại nội dung website 42 2.4.2. Đặc trưng của ngôn ngữ tiếng Việt .43 2.4.3. Phương pháp xử lý nội dung website 44 2.4.4. Phân tích câu .45 CHƯƠNG 3: ỨNG DỤNG 47 3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh .47 3.1.1. Ý tưởng đề xuất .47 3.1.2. Hướng tiếp cận 47 3.1.3. Tiến trình thu thập nội dung 48 3.1.4. Quy trình thực hiện 49 3.1.4.1. Tiến trình 1 .50 3.1.4.2. Tiến trình 2 .53 3.1.4.3. Tiến trình 3 .55 3.2. Kiến trúc hệ thống chương trình .56 3.2.1 Trình duyệt web với các chức năng cơ bản thông thường .56 3.2.2. Các chức năng cơ bản của hệ thống 56 3.3. Chức năng của chương trình .57 3.3.1.Giao diện chính của chương trình 57 3.3.2. Sơ đồ chức năng của chương trình 58 3.3.2.1. Chức năng đăng nhập hệ thống 58 3.3.2.2. Chức năng chương trình .59 3.4. Chức năng học từ tiếng Việt .60 3.5. Chức năng xử lý 61 3.5.1. Lấy nội dung website cần phân tích 61 3.5.2. Quản lý bộ từ điển tiếng Việt 61 3.5.3. Phân tích câu đối với nội dung website tiếng Việt 62 3.5.4. Phân tích nội dung website tiếng Việt .63 3.6. Chức năng huấn luyện từ cho việc lọc nội dung 63 3.6.1. Huấn luyện từ tiếng Anh .64 3.6.2. Huấn luyện từ tiếng Việt .64 3.7. Phân loại nội dung website .65 3.7.1. Nội dung tiếng Anh .65 3.7.2. Nội dung tiếng Việt .65 3.8. Quản lý các thông số hệ thống 66 3.9. Quản lý các danh sách 67 3.9.1. Black List 67 3.9.2. White List 68 3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được .68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập .3 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6 Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới .6 Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18 Hình 2.2 – Quy trình tách từ 37 Hình 3.1 – Tiến trình thu thập nội dung 49 Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh .50 Hình 3.3 – Mô hình tách câu trong tiếng Việt .51 Hình 3.4 – Mô hình tách từ đơn tiếng Việt .52 Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53 Hình 3.6 – Mô hình tính xác suất cho từ ghép 54 Hình 3.7 – Mô hình cập nhật bộ từ điển 55 Hình 3.8 – Giao diện chính của chương trình .57 Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website 58 Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58 Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt .61 Hình 3.12 – Lấy nội dung website cần phân tích 61 Hình 3.13 – Bộ từ điển tiếng Việt .62 Hình 3.14 – Phân tích câu trong tiếng Việt .62 Hình 3.15 – Phân tích nội dung website tiếng Việt .63 Hình 3.16 – Huấn luyện từ tiếng Anh .64 Hình 3.17 – Huấn luyện từ tiếng Việt .64 Hình 3.18 – Phân lớp nội dung website tiếng Anh 65 Hình 3.19 – Phân lớp nội dung website tiếng Việt 66 Hình 3.20 – Quản lý thông số hệ thống .67 Hình 3.21 – Danh sách Black List .67 Hình 3.22 – Danh sách White List 68 . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC. bày một số phương pháp lọc website có nội dung không lành mạnh. 1.2. Các phương pháp lọc web có nội dung không lành mạnh 1.2.1. Bộ lọc web dựa vào địa chỉ
Ngày đăng: 18/12/2013, 14:37
Xem thêm: Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ