nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng việt không lành mạnh

MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU .v MỞ ĐẦU 1 Tóm lược đề tài Mục tiêu đề tài Nội dung thực Phạm vi ứng dụng CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .3 1.1 Bộ lọc web 1.1.1 Khái niệm 1.1.2 Đặc điểm web có nội dung khơng lành mạnh .4 1.1.3 Nguyên nhân cần xây dựng lọc web 1.2 Các phương pháp lọc web có nội dung khơng lành mạnh 1.2.1 Bộ lọc web dựa vào địa mạng .7 1.2.2 Bộ lọc web dựa vào URL (Universal Resource Locator) 1.2.3 Bộ lọc web dựa vào DNS 12 1.2.4 Bộ lọc web dựa vào từ khóa (key word) 13 1.3 Những phần mềm lọc web 14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16 2.1 Tổng quan khai phá liệu 16 2.1.1 Khai phá Text 16 2.1.1.1 Khái niệm .16 2.1.1.2 Một số loại khai phá Text 16 2.1.1.3 Quy trình khai phá Text 17 2.1.2 Khai phá web 18 2.1.2.1 Khái niệm .18 2.1.2.2 Phân loại khai phá web 18 2.1.2.3 Phương pháp biểu diễn trang web 19 2.1.3 Xử lý văn tự động 21 2.1.3.1 Rút trích đặc trưng văn 21 2.1.3.2 Biểu diễn văn vector đặc trưng 22 2.2 Lọc nội dung trang web thuật toán Naïve Bayes .25 2.2.1 Giới thiệu 25 2.2.2 Học Bayes (Bayes Learning) 25 2.2.3 Công thức Bayes .28 2.2.4 Các bước tiến hành lọc nội dung mạng Bayes 30 2.3 Phương pháp tách từ tiếng Việt .31 2.3.1 Tình hình nghiên cứu 31 2.3.2 Một số phương pháp tách từ 32 2.3.2.1 Tách câu dựa Maximum Entropy .32 2.3.2.2 Phương pháp khớp tối đa (Maximum Matching) 34 2.3.2.3 Phương pháp WFST (Weighted Finite – State Transducer) 35 2.3.2.4 Bài tốn tách từ cơng cụ vnTokenizer 37 2.3.2.5 Phương pháp tách từ dựa xác suất tồn từ không phụ thuộc vào ngữ nghĩa .38 2.3.3 So sánh phương pháp tách từ tiếng Việt 40 2.4 Phân tích nội dung website .42 2.4.1 Phân loại nội dung website 42 2.4.2 Đặc trưng ngôn ngữ tiếng Việt 43 2.4.3 Phương pháp xử lý nội dung website 44 2.4.4 Phân tích câu .45 CHƯƠNG 3: ỨNG DỤNG 47 3.1 Xây dựng lọc nội dung web tiếng Việt không lành mạnh 47 3.1.1 Ý tưởng đề xuất 47 3.1.2 Hướng tiếp cận 47 3.1.3 Tiến trình thu thập nội dung 48 3.1.4 Quy trình thực 49 3.1.4.1 Tiến trình .50 3.1.4.2 Tiến trình .53 3.1.4.3 Tiến trình .55 3.2 Kiến trúc hệ thống chương trình .56 3.2.1 Trình duyệt web với chức thông thường 56 3.2.2 Các chức hệ thống 56 3.3 Chức chương trình .57 3.3.1.Giao diện chương trình 57 3.3.2 Sơ đồ chức chương trình 58 3.3.2.1 Chức đăng nhập hệ thống 58 3.3.2.2 Chức chương trình 59 3.4 Chức học từ tiếng Việt .60 3.5 Chức xử lý 61 3.5.1 Lấy nội dung website cần phân tích 61 3.5.2 Quản lý từ điển tiếng Việt 61 3.5.3 Phân tích câu nội dung website tiếng Việt 62 3.5.4 Phân tích nội dung website tiếng Việt .63 3.6 Chức huấn luyện từ cho việc lọc nội dung 63 3.6.1 Huấn luyện từ tiếng Anh 64 3.6.2 Huấn luyện từ tiếng Việt 64 3.7 Phân loại nội dung website .65 3.7.1 Nội dung tiếng Anh 65 3.7.2 Nội dung tiếng Việt 65 3.8 Quản lý thông số hệ thống 66 3.9 Quản lý danh sách 67 3.9.1 Black List 67 3.9.2 White List 68 3.10 Kết thực nghiệm đánh giá kết đạt 68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” Việt Nam Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” giới Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18 Hình 2.2 – Quy trình tách từ 37 Hình 3.1 – Tiến trình thu thập nội dung 49 Hình 3.2 – Mơ hình tổng quát lọc nội dung không lành mạnh 50 Hình 3.3 – Mơ hình tách câu tiếng Việt 51 Hình 3.4 – Mơ hình tách từ đơn tiếng Việt .52 Hình 3.5 – Mơ hình tách từ ghép tiếng Việt 53 Hình 3.6 – Mơ hình tính xác suất cho từ ghép 54 Hình 3.7 – Mơ hình cập nhật từ điển 55 Hình 3.8 – Giao diện chương trình 57 Hình 3.9 – Giao diện thơng báo không cho truy cập nội dung website 58 Hình 3.10 – Chức đăng nhập hệ thống chương trình quản lý 58 Hình 3.11 – Chức học từ đơn từ ghép tiếng Việt .61 Hình 3.12 – Lấy nội dung website cần phân tích 61 Hình 3.13 – Bộ từ điển tiếng Việt .62 Hình 3.14 – Phân tích câu tiếng Việt .62 Hình 3.15 – Phân tích nội dung website tiếng Việt 63 Hình 3.16 – Huấn luyện từ tiếng Anh .64 Hình 3.17 – Huấn luyện từ tiếng Việt .64 Hình 3.18 – Phân lớp nội dung website tiếng Anh 65 Hình 3.19 – Phân lớp nội dung website tiếng Việt 66 Hình 3.20 – Quản lý thơng số hệ thống 67 Hình 3.21 – Danh sách Black List 67 Hình 3.22 – Danh sách White List 68 DANH MỤC BẢNG BIỂU Bảng 1.1 – Kết đánh giá NetProject .9 Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL 11 Bảng 2.1 – Sự khác biệt tiếng Anh tiếng Việt 42 Bảng 3.1 – Bảng mơ tả chức chương trình 59 Bảng 3.2 – Kết xây dựng từ điển tiếng Việt 68 Bảng 3.3 – Kết phân loại web 69 MỞ ĐẦU Tóm lược đề tài Trong thời kỳ nay, Internet ngày phát triển mạnh mẽ trở nên thông dụng lứa tuổi đặc biệt thiếu niên, học sinh, sinh viên Lợi ích thiết thực mà Internet mang lại cung cấp nguồn tài nguyên thông tin vô tận cho người sử dụng, góp phần khơng nhỏ vào việc nâng cao kiến thức cho lứa tuổi thiếu niên Tuy nhiên, mặt mạnh Internet yếu điểm nó, ngồi kiến thức hữu ích người dùng dễ dàng tìm thấy nội dung khơng lành mạnh Internet Chính vậy, mục đích đề tài nghiên cứu phương pháp đề xuất kỹ thuật ngăn chặn tự động trang web có nội dung tiếng Việt khơng lành mạnh Mục tiêu đề tài Tìm hiểu đặc trưng phát triển website có nội dung khơng lành mạnh, kết hợp phân tích hệ thống lọc web có Từ đề xuất mơ hình tự động phát trang web có nội dung không lành mạnh sử dụng ngôn ngữ tiếng Việt kỹ thuật rút trích thơng tin từ website ứng dụng khai phá liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm xác định ngưỡng xác suất website khơng lành mạnh để có hướng xử lý phù hợp Bênh cạnh đó, thực hóa mơ hình thành trình duyệt web có khả tự động ngăn chặn website tiếng Việt có nội dung không lành mạnh Nội dung thực Nội dung cần thực đề tài gồm phần sau: − Nghiên cứu tổng quan hệ thống lọc web “đen” thông dụng nay, xác định điểm bất cập từ chương trình ứng dụng lọc web có, điểm mạnh, điểm yếu phương pháp xây dựng lọc web − Nghiên cứu điểm mạnh kỹ thuật phân loại văn nhằm áp dụng tốt vào đề tài nghiên cứu − Tìm hiểu phương pháp tách từ tiếng Việt, từ lựa chọn phương pháp tối ưu để giải toán lọc nội dung − Nghiên cứu thuận toán, đặc biệt thuật tốn Nạve Bayes − Đề xuất phương pháp lọc web phù hợp xây dựng mơ hình − Cài đặt lọc web thực hóa vấn đề nghiên cứu Phạm vi ứng dụng Đề tài “Xây dựng lọc phát website có nội dung khơng lành mạnh” ứng dụng trình duyệt giúp phụ huynh kiểm sốt q trình truy cập vào website em mình, hạn chế truy cập vào website có nội dung khơng lành mạnh CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ lọc web 1.1.1 Khái niệm Bộ lọc web phần mềm có chức lọc nội dung hiển thị trình duyệt hay khóa vài vị trí website mà người dùng cố gắng truy cập vào Bộ lọc kiểm tra nội dung hay địa trang web dựa vào tập luật thay nội dung không mong muốn trang web thay thế, thường trang có nội dung có dịng “Access Dinied” Quản trị hệ thống nắm quyền kiểm soát loại nội dung qua lọc Các lọc web thường sử dụng trường học, thư viện, dịch vụ Internet công cộng gia đình nhằm giữ an tồn cho đối tượng thiếu niên tránh nội dung khơng lành mạnh lứa tuổi chưa có ý thức việc làm Hình 1.1 – Màn hình trình duyệt cấm truy cập 58 Hình 3.9 – Giao diện thơng báo khơng cho truy cập nội dung website 3.3.2 Sơ đồ chức chương trình 3.3.2.1 Chức đăng nhập hệ thống Mô tả: chức dành cho người quản lý chương trình đăng nhập vào Khi đăng nhập thành cơng có tồn quyền chương trình như: quản lý địa Black list, White list,cập nhật lại từ điển từ tần số xuất chúng Hình 3.10 – Chức đăng nhập hệ thống chương trình quản lý 59 3.3.2.2 Chức chương trình Bảng 3.1 – Bảng mơ tả chức chương trình Chức Nội dung Chức học từ tiếng Việt: chức cho phép người dùng thử nghiệm việc học từ tiếng Việt Ngoài ra, người dùng có thề dùng chức để cập nhật thêm từ cho từ điển làm tăng độ xác chức phân loại theo nội dung Chức xử lý: gồm 04 chức Lấy nội dung website truy cập Chức quản lý từ điển tiếng Việt (bao gồm từ tiếng & từ tiếng) Chức phân tích nội dung webiste tiếng Việt thành từ đơn từ tổ tiếng Việt Chức phân tích câu nội dung webiste: chức phân tích nội dung website thành câu đơn chuẩn Chức huấn luyện từ Huấn luyện từ tiếng Anh nội dung website tiếng Anh Huấn luyện từ tiếng Việt (bao gồm từ đơn từ tiếng) nội dung website tiếng Việt Chức thử nghiệm việc phân loại nội dung theo hai chế Nội dung website tiếng Anh Nội dung website tiếng Việt 60 Chức quản lý thông số hệ thống nơi lưu trữ nội dung website phân tích bao gồm tiếng Anh lẫn tiếng Việt, ngưởng xác suất từ sử dụng Chức dùng để quản lý danh sách Black list chương trình Chức dùng để quản lý danh sách White list chương trình Chức dùng để quản lý danh sách từ khóa chương trình Ngồi chức vừa nêu trên, hệ thống cịn có chức lọc dựa tiêu đề website cần truy cập dựa từ khóa hệ thống lọc sẵn có trình bày chương 3.4 Chức học từ tiếng Việt Mô tả: chức dùng để học từ đơn từ ghép tiếng Việt dựa nội dung webiste thu thập sẵn Ngoài nội dung sẵn có, người dùng đưa nội dung vào việc học từ thông qua chức lấy nội dung website truy cập ( mục 4.4.1) 61 Hình 3.11 – Chức học từ đơn từ ghép tiếng Việt 3.5 Chức xử lý 3.5.1 Lấy nội dung website cần phân tích Mơ tả: dùng để lấy nội dung website truy cập, phục vụ cho việc học từ tiếng Việt ( mục 4.3) cho việc phân loại nội dung webiste Hình 3.12 – Lấy nội dung website cần phân tích 3.5.2 Quản lý từ điển tiếng Việt Mô tả: dùng quản lý từ điển phân tích ( bao gồm từ đơn từ ghép) Một số chức thông dụng mục là: - Tìm kiếm từ đơn, từ ghép 62 - Cập nhật trạng thái cho từ đơn từ ghép - Loại bỏ từ đơn từ ghép sử dụng - Thể tồn từ có từ điển Hình 3.13 – Bộ từ điển tiếng Việt 3.5.3 Phân tích câu nội dung website tiếng Việt Mô tả: Sau lấy nội dung webiste cần truy cập, nội dung hiệu chỉnh trước qua bước phân tích thành câu đơn chuẩn nhằm phục vụ cho việc tách từ đơn tiếng Anh từ đơn, từ ghép tiếng Việt Hình 3.14 – Phân tích câu tiếng Việt 63 3.5.4 Phân tích nội dung website tiếng Việt Mơ tả: dùng để phân tích nội dung website tiếng Việt sau qua bước tiền xử lý tách câu thành từ đơn từ ghép Đồng thời thể chúng giao diện chương trình cho biết số lượng từ đơn từ ghép tìm Hình 3.15 – Phân tích nội dung website tiếng Việt 3.6 Chức huấn luyện từ cho việc lọc nội dung Dùng để huấn luyện từ đơn tiếng Anh, từ đơn từ ghép tiếng Việt Đối với loại từ huấn luyện dựa tập huấn luyện: tập huấn luyện website thông thường tập huấn luyện website không lành mạnh 64 3.6.1 Huấn luyện từ tiếng Anh Mơ tả: Trên giao diện chương trình thể rõ thông số Tổng số file file huấn luyện toàn việc huấn luyện Số từ đơn huấn luyện dựa 02 file huấn luyện Hình 3.16 – Huấn luyện từ tiếng Anh 3.6.2 Huấn luyện từ tiếng Việt Mơ tả: Trên giao diện chương trình thể rõ thông số Tổng số file file huấn luyện toàn việc huấn luyện Số từ đơn huấn luyện dựa 02 file huấn luyện Số từ ghép huấn luyện dựa 02 file huấn luyện Hình 3.17 – Huấn luyện từ tiếng Việt 65 3.7 Phân loại nội dung website Dùng để phân loại nội dung website thuộc vào lớp nào: lành mạnh hay không lành mạnh Quy trình phân loại dựa từ đơn tiếng Anh từ ghép tiếng Việt 3.7.1 Nội dung tiếng Anh Mô tả: liệu đầu vào nội dung website tiếng Anh cần phân tích Kết trả cho biết nội dung thuộc lớp có xác suất trung bình dựa vào q trình phân tích nội dung ( từ đơn tiếng Anh) Hình 3.18 – Phân lớp nội dung website tiếng Anh 3.7.2 Nội dung tiếng Việt Mô tả: liệu đầu vào nội dung website tiếng Việt cần phân tích Kết trả cho biết nội dung thuộc lớp có xác suất trung bình dựa vào trình phân tich nội dung ( từ ghép tiếng Việt) 66 Hình 3.19 – Phân lớp nội dung website tiếng Việt 3.8 Quản lý thông số hệ thống Mô tả: dùng để quản lý thông số chương trình Có loại thơng số dành cho tiếng Anh tiếng Việt Cả loại thơng số gồm có mục quản lý sau: Đường dẫn lưu trữ nội dung không lành mạnh sau phân loại Đường dẫn lưu trữ nội dug tốt sau phân loại Số lượng token từ khóa tốt cần lấy cho việc phân loại nội dung website Xác suất phân loại tối thiểu dùng cho việc hân lóp văn Ngưỡng loại bỏ từ sử dụng ( tần số xuất từ tổng nội dung huấn luyện) 67 Hình 3.20 – Quản lý thơng số hệ thống 3.9 Quản lý danh sách Dùng để quản lý danh sách địa Black List White List Người dùng hiệu chỉnh hay thêm đối vói danh sách 3.9.1 Black List Mơ tả: phía bên trái danh sách Black List chương trình Người quản trị thêm mới, xóa hay hiệu chỉnh thông tin danh sách Hiện danh sách có 24071 địa khơng phép truy cập Khi người dùng truy cập địa danh sách chương trình ngăn chặn lại mà khơng cần qua bước phân tích nội dung Hình 3.21 – Danh sách Black List 68 3.9.2 White List Mơ tả: phía bên trái danh sách White List chương trình Người quản trị thêm mới, xóa hay hiệu chỉnh thơng tin danh sách Hiện danh sách có 24071 địa không phép truy cập Khi người dùng truy cập địa danh sách chương trình hiển thị nội dung mà khơng cần qua bước phân tích nội dung Hình 3.22 – Danh sách White List 3.10 Kết thực nghiệm đánh giá kết đạt Việc xây dựng từ điển tiếng Việt với 400 trang web tìm kiếm Internet, sau qua bước tinh chỉnh liệu, trung bình liệu thơ trang web khoảng 200 – 500 từ tùy trang Do việc cập nhật từ điển tự động, tính xác từ điển phụ thuộc vào thời gian sử dụng, thời gian sử dụng lâu, từ điển học nhiều tính xác cao Bảng 3.2 – Kết xây dựng từ điển tiếng Việt Loại từ Thông số Số lượng Tỉ lệ Từ đơn 2114 >83% Từ tiếng 5260 >79% 69 Sau có từ điển tiến hành học với liệu 200 trang web tốt, 200 trang web xấu, kết thu qua bảng phân loại bên Bảng 3.3 – Kết phân loại web Kết thử nghiệm Kết phân loại Độ xác Tốt Xấu Tốt Xấu Từ đơn 167/200 171/200 83.5% 85.5% Từ đơn & từ tiếng 183/200 181/200 91.8% 90.6% Từ tiếng 187/200 189/200 93.5% 94.7% 70 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Đề tài đạt kết sau đây: − Nghiên cứu tổng quan hệ thống lọc web “đen” phương pháp xây dựng lọc thông dụng gồm ưu điểm lẫn khuyết điểm − Tìm hiểu phương pháp lọc thống kê điểm mạnh kỹ thuật phân loại văn nhằm áp dụng tốt vào quy trình lọc nội dung trang web − So sánh phương pháp tách từ tiếng Việt , từ lựa chọn phương pháp tối ưu để giải toán xây dựng từ điển hồn chỉnh cho tốn lọc nội dung khơng lành mạnh − Nghiên cứu thuận tốn, đặc biệt thuật tốn Nạve Bayes ứng dụng vào q trình phân lớp nội dung trang web − Hướng tiếp cận đề tài lọc trang web tiếng Anh mà lọc trang web tiếng Việt không lành mạnh dựa địa chỉ, tiêu đề nội dung trang web − Xây dựng danh sách blacklist, whitelist chứa địa website quyền không quyền truy cập − Xây dựng lọc web thể hướng nghiên cứu tiếp cận đắn đề tài → Kết thực nghiệm cho thấy hướng tiếp cận đề tài khả quan cho độ xác cao khoảng thời gian chấp nhận 71 Hướng phát triển − Tích hợp lọc vào trình duyệt web thơng dụng Internet Explorer, FireFox, Safari… nhằm nâng cao tính ứng dụng đề tài − Cải tiến thuật toán tách từ nhằm giảm thời gian xử lý trình phân lớp nội dung, tạo tiện lợi cho người sử dụng − Hướng phát triển đề tài đề xuất phương pháp dung hòa cho việc xử lý nội dung website bao gồm tiếng Việt lẫn tiếng Anh − Nghiên cứu xây dựng từ điển từ vựng thuộc nội dung không lành mạnh mà không cần duyệt qua nội dung TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc (2005), Giáo trình khai thác liệu, Đại học Công nghệ Thông tin Tp HCM [2] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn (2009), Giáo trình Khai phá liệu web, Nxb Giáo dục Việt Nam [3] Phan Hữu Tiếp (2011) , “Nghiên cứu xây dựng lọc Spam thông minh tự động”, Tập san khoa học giáo viên, Trường Đại học Lạc Hồng Tiếng Anh [4] Chih-Hao Tsai (1996), A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm [5] Edel Garcia (2008), Term Vector Theory and Keyword Weights [6] Goldszmidt D., Friedman, N.Geiger (2006), Bayesian network classifiersMachine Learning [7] Lafferty J (2001), Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data In International Conference on Machine Learning [8] Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo (2006), Web Filtering Using Text Classification, Australia [9] Sebastiani Fabrizio (2004), Text Classification for Web Filtering [10] Stern Benjamin (2003), Web Filtering Technology Assessment Website [11] http://www.dict.vietfun.com [12] www.google.com/trends ... đích đề tài nghiên cứu phương pháp đề xuất kỹ thuật ngăn chặn tự động trang web có nội dung tiếng Việt không lành mạnh Mục tiêu đề tài Tìm hiểu đặc trưng phát triển website có nội dung khơng lành. .. bày số phương pháp lọc website có nội dung khơng lành mạnh 1.2 Các phương pháp lọc web có nội dung không lành mạnh 1.2.1 Bộ lọc web dựa vào địa mạng  Bức tường lửa (Firewall) Firewall kỹ thuật. .. nguyên thuật toán tiếng Anh vào tiếng Việt Chính ngun nhân phần đề xuất phương pháp xử lý nội dung tiếng Việt tiếng Anh 2.4.3 Phương pháp xử lý nội dung website Như trình bày trên, nội dung website

nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng việt không lành mạnh

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan