phân loại thư rác bằng phương pháp học máy

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ TRUNG TUẤN Thái nguyên, 2015 ii MỤC LỤC MỤC LỤC ii LỜI CAM KẾT iv LỜI CẢM ƠN v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU vii MỞ ĐẦU vii CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 1.1 Tổng quan vềhocc̣ máy 1.1.1 Trit́ uê nc̣ hân tạo 1.1.2 Học máy 1.1.3 Các kĩ thuật học máy 1.1.4 Một số ứng dụng học máy 1.1.5 Học có giám sát 1.2 Tổng quan về thư rác 12 1.2.1 Định nghĩa về thư rác đặc trưng thư rác 12 1.2.2 Phân loại thư rác 15 1.2.3 Đặc điểm thư rác 15 1.2.4 Tác hại thư rác 16 1.2.5 Quy trình thủ đoạn gửi thư rác 17 1.3 Biểu diễn phân loại thư rác dựa học máy có giám sát 20 1.3.1 Nhu cầu phân loại thư rác 20 1.3.2 Cách biểu diễn nội dung thư rác 23 1.4 Kết luận chương 27 CHƯƠNG PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT 28 2.1 Thuật tốn Nạve Bayes 28 2.1.1.Giới thiệu Thuật tốn Nạve Bayes 28 2.1.2 Mơ tả thuật tốn 28 2.1.3 Áp dụng phân loại thư rác 33 iii 2.2 Học máy theo phương pháp máy vec tơ tựa SVM 36 2.2.1 Giới thiệu SVM 36 2.2.2 Mơ tả thuật tốn 37 2.2.2 Huấn luyện SVM 40 2.2.3 Ứng dụng phân loại thư rác 40 2.3 Xây dựng mơ hình lọc thư rác dựa học máy có giám sát 41 2.3.1 Lựa chọn mơ hình thuật tốn 41 2.3.2 Xây dựng hệ thống 41 2.4 Kết luận chương 46 CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 47 3.1 Bài toán phân loại thư rác 47 3.2 Cài đặt thử nghiệm kết 50 3.2.1 Bộ liệu thử nghiệm 50 3.2.2 Môi trường cài đặt 52 3.2.3 Giao diện chương trình thử nghiệm 52 3.2.4 Kết thử nghiệm 54 3.3 Đánh giá thử nghiệm 55 3.4 Kết luận chương 56 KẾT LUẬN 57 Các kết đạt 57 Hướng phát triển luận văn 57 DANH MỤC TÀI LIỆU THAM KHẢO 58 iv LỜI CAM KẾT Dưới giúp đỡ nhiệt tình bảo chi tiết giáo viên hướng dẫn, tơi hồn thành luận văn Tơi xin cam kết luận văn thân làm nghiên cứu, không hề trùng hay chép Tài liệu sử dụng luận văn thu thập từ nguồn kiến thức hợp pháp Tác giả luận văn Phạm Thị Kim Dung v LỜI CẢM ƠN Để hồn thành chương trình cao học viết luận văn này, em nhận giúp đỡ đóng góp nhiệt tình thầy trường Đại học Công nghệ thông tin Truyền thông, Đại học Thái Nguyên Trước hết, em xin chân thành cảm ơn thầy cô khoa Đào tạo sau đại học, tận tình giảng dạy, trang bị cho em kiến thức quý báu suốt năm học qua Xin chân thành cảm ơn gia đình, bạn bè nhiệt tình ủng hộ, giúp đỡ, động viên về vật chất lẫn tinh thần thời gian học tập nghiên cứu Trong trình thực luận văn, cố gắng không tránh khỏi thiếu sót Kính mong nhận cảm thơng tận tình bảo thầy bạn vi DANH MỤC CÁC TỪ VIẾT TẮT AI Trí tuệ nhân tạo Clustering Phân cụm Computer Vision Nhìn máy ESP Email Service Provider HAM Thư điện tử không thứ rác ISP Internet Service Provider, nhà cung cấp dịch vụ Internet KNN K người láng giềng gần MI Mutual information, thông tin tương hỗ NB Phương pháp Nạve Bayes Regression Hồi qui Search Engine Máy tìm kiếm Server Máy chủ, phía máy chủ SMO Sequential Minimal Optimization SMS Short Message Service Spam Email Thư rác SQL Structured Query Language Stemming Gốc (của từ) SVM Support Vector Machine, máy vec tơ tựa TTNT Trí tuệ nhân tạo UBE Unsolicited Bulk Email, thư không lành mạnh UCE Unsolicited Commercial Email, thư khơng u cầu đến VC Kích thước Vapnik- Chervonenkis XML eXtensible Markup Language vii DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU HÌNH Hình 1.1: Cấu trúc hệ thống học máy tiêu biểu cho trường hợp phân loại .6 Hình 1.2 Mơ hình thuật tốn học có giám sát Hình 1.3 Ví dụ về trang web lấy cắp địa thư người dùng 17 Hình 1.4 Một số website công ty gửi thư rác 18 Hình 1.5 Minh họa cách gửi thư rác qua máy chủ thư (open relay) 19 Hình 1.6 Số lượng thư rác từ tháng đến tháng năm 2014 21 Hình 1.7 Danh sách quốc gia phát tán thư rác quí 3/2014 Kaspersky Lab 23 Hình 2.1 Ánh xạ liệu từ khơng gian gốc sang không gian đặc trưng cho phép phân chia liệu siêu phẳng 38 Hình 2.2 Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi hình trịn khơng gian đặc trưng 38 Hình 2.3 Tiền xử lý liệu 42 Hình 2.4 Huấn luyện liệu 46 Hình 3.1: Mơ hình phân loại thư rác thuật toán Bayse SVM 48 Hình 3.2 Tập File HAM 51 Hình 3.3 Tập File SPAM 51 Hình 3.4 Giao diện chương trình phân loại thư rác Bayes SVM 52 Hình 3.5 Giao diện xử lý liệu bước huấn luyện 53 Hình 3.6 Giao diện kết thử nghiệm 53 Hình 3.7 Độ xác phân loại NB SVM 54 BẢNG Bảng 1.1 Ví dụ nội dung bốn thư 24 Bảng 1.2 Biểu diễn vec tơ cho liệu bảng 1.1 24 Bảng 2.1: Bộ liệu huấn luyện cho toán phân loại “Chơi Tennis” 31 Bảng 3.1: Độ xác phân loại hai phương pháp phân loại khác 54 MỞ ĐẦU Ngày nay, Internet mở nhiều kênh liên lạc, nhiều dịch vụ cho người sử dụng, dịch vụ mà Internet mang lại dịch vụ thư điện tử (Email), phương tiện giao tiếp đơn giản, tiện lợi hiệu cộng đồng người sử dụng dịch vụ Chính lợi ích thư mang lại nên số lượng thư trao đổi Internet ngày tăng, số không nhỏ thư rác (Spam) Trong năm gần đây, spam hay thư không mong muốn trở thành vấn nạn đe dọa khả giao tiếp người kênh liên lạc này, thách thức lớn mà khách hàng nhà cung cấp dịch vụ phải đối phó Spam trở thành hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin với nhiều thủ đoạn mánh khóe tinh vi Người dùng phải nhiều thời gian để xóa thư “khơng mời mà đến”, vơ ý cịn bị nhiễm virus nặng nề thơng tin thẻ tín dụng, tài khoản ngân hàng qua thư dạng phishing Theo báo cáo tình hình thư rác Kaspersky Lab vừa công bố, tỷ lệ thư rác lưu lượng truy cập thư quý3/2014 tăng 1,7 % so với quýtrước, đạt trung bình 66,9% Ba nguồn phát tán thư rác hàng đầu gồm có Mỹ (14%) Nga (6,1%) vàViệt Nam đứng vị trí thứ với 6% Để ngăn chặn spam, nhiều tổ chức, cá nhân nghiên cứu phát triển kỹ thuật phân loại thư thành nhóm; từ xác định, nhận biết thư rác thư có giá trị Tuy nhiên, người tạo nên thư rác ln tìm cách vượt qua phân loại phát tán chúng Vì vậy, cần có hệ thống phân loại đâu spam mail đâu mail tốt Xuất phát từ thực trạng đó, tơi chọn hướng nghiên cứu “Phân loại thư rác phương pháp học máy” với mục đích tìm hiểu, thử nghiệm số phương pháp tiếp cận cho toán phân loại thư, từ ngăn chặn thư spam hiệu Nội dung luận văn trình bày theo chương Tổ chức cấu trúc sau: Chương Tổng quan về học máy thư rác: Chương giới thiệu tổng quát về học máy thư rác bao gồm khái niệm, ứng dụng phần trình bày chi tiết về học máy có giám sát, kỹ thuật học máy có giám sát dùng cho phân loại Naïve Bayes, SVM, định,… Chương giới thiệu khái quát về thư rác, đặc trưng thư rác biểu diễn thư rác dựa học máy có giám sát; Chương Phân loại thư rác số thuật tốn có giám sát: Nội dung chương sâu nghiên cứu hai thuật tốn học máy có giám sát Naïve Bayes phương pháp SVM (Support Vector Machine) Chương Cài đặt, thử nghiệm đánh giá thuật toán: Phần đầu chương giới thiệu toán phân loại thư rác, liệu thử nghiệm cài đặt chi tiết hai thuật toán đề cập chương Phần cuối chương trình bày kết thu đưa đánh giá về hai thuật toán sử dụng toán lọc thư rác Cuối luận văn phần kết luận danh sách tài liệu tham khảo Phần thực nghiệm về phân loại thư rác trình bày thêm phần phụ lục luận văn 45 Các xác suất P(X,Y), P(X) P(Y) tính tần suất xuất kiện tương ứng liệu huấn luyện Sau tính MI cho tất đặc trưng k-gram, n đặc trưng có MI cao lựa chọn Sau ta chọn khoảng 10000 đặc trưng có thơng số MI cao Đánh trọng số cho văn : Từ đặc trưng lựa chọn bước trước, ta thực đánh trọng số cho văn hầu hết thuật toán phân loại đều yêu cầu đầu vào vec tơ (được biểu diễn dạng túi từ) Các thư rác biểu diễn theo phép đo TF-IDF kết hợp giưa tần suất tài liệu tần suất tài liệu ngược Kết cuối khâu tiền xử lý vec tơ biểu diễn cho thư điện tử đầu vào tương ứng Đây đầu vào cho khâu kế tiếp, khâu huấn luyện liệu đầu vào cho phần dự đốn phân loại thư rác Ngồi cách tiếp cận này, cịn có số phương pháp tiếp cận khác đại dựa vào từ điển Wordnet WordNet từ điển đồng nghĩa tiếng Anh, phát triển đạo George A Miller Ở danh từ, động từ , tính từ trạng từ nhóm vào tập từ đồng nghĩa dựa kinh nghiệm Mỗi tập khái niệm riêng biệt Các tập liên kết với nghĩa quan niệm ngữ nghĩa mối quan hệ từ vựng Chúng ta sử dụng từ điển WordNet cho bước tiền xử lý liệu cung cấp giá trị đầu vào cho tốn mining Đó tập nghĩa thay tập thuật ngữ Đây hướng phát triển đồ án 2.3.2.2 Huấn luyện liệu Bước huấn luyện liệu cài đặt thuật tốn: Nạve Bayes Support Vector Machine Đầu vào bước túi từ đưa từ bước tiền xử lí Kết bước đưa mơ hình học máy phù hợp với tập liệu đầu vào Từ mơ hình ta dự đốn việc phân loại văn đầu vào khác Đây bước nghiên cứu đồ án Việc cài đặt thuật tốn mang tính cốt lõi hệ thống Có thể coi bước phần nhân hệ thống, ảnh hưởng tới mức độ hiệu 46 Hình 2.4 Huấn luyện liệu Hai phương pháp phân loại thử nghiệm bao gồm hai phiên phân loại Bayes đơn giản – phiên sử dụng mơ hình đa thức (Bayes đa thức) – SVM Đối với SVM, hàm nhân lựa chọn hàm RBF dựa hai yếu tố Thứ nhất, hàm nhân RBF hàm khơng tuyến tính đưa mẫu liệu về khơng gian có chiều lớn hơn, khơng giống hàm nhân tuyến tính, xử lý trường hợp nhãn thuộc tính lớp khơng tuyến tính Hơn nữa, hàm nhân tuyến tính trường hợp đặc biệt RBF Thêm nữa, với số tham số định, hàm nhân sigma trường hợp hàm nhân RBF Thứ hai, hàm nhân RBF có độ phức tạp tính tốn thấp Một điểm quan trọng ≤ K ij ≤ 1, ngược lại so với hàm nhân đa thức có giá trị từ vơ đến Trong số trường hợp đặc biệt, ví dụ số lượng đặc trưng lớn (khoảng 30000 đặc trưng), hay mức độ chênh lệch số lượng đặc trưng số lượng văn mẫu qúa lớn (như có 200 đặc trưng mà có tới 30000 văn hay ngược lại), phiên hàm nhân tuyến tính nên sử dụng Bởi trường hợp đặc biêt vậy, hàm tuyến tính đạt tốc độ chạy cao đạt độ xác cao 2.4 Kết luận chương Chương giới thiệu cụ thể về hai thuật tốn (i) thṭtốn Nạve Bayes; (ii) thṭtốn SVM lựa chọn mơ hình phân loại thư rác để ứng dụng vào toán phân loại thư rác Nội dung chương sở lí thuyết để áp dụng thực tế Trong chương luận văn tập trung nghiên cứu phần đưa yêu cầu toán xây dựng, cài đặt chương trình thử nghiệm để đánh giá thuật tốn nêu 47 CHƯƠNG CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 3.1 Bài toán phân loại thư rác Bài toán phân loaịthư rác thưcc̣ chất tốn phân loaịcác thư nhâṇ thành hai nhóm chính lànhóm thư rác vànhóm thư bình thường Việc phân loại tiến hành sau Trước tiên, nội dung thư biểu diễn dạng đặc trưng hay thuộc tính, đặc trưng thường từ cụm từ xuất thư Tiếp theo, giai đoạn huấn luyện, tập thư gán nhãn {rác, bình thường} - gọi liệu huấn luyện hay liệu mẫu - sử dụng để huấn luyện phân loại Sau huấn luyện xong, phân loại sử dụng để xác định thư (thư chưa biết nhãn) thuộc vào loại hai loại nói Trong giai đoạn huấn luyện phân loại, thuật toán phân loại làm việc với nội dung thư biểu diễn dạng đặc trưng Ta xét toán phân loaịthư rác dangc̣ tốn phân loaịvăn hai lớp, đó: tâpc̣ liệu mẫu ban đầu làcác thư rác vàcác thư bình thường (non-spam emails), văn cần phân lớp thư đươcc̣ gửi đến máy khách Kết quảđầu quátrình phân loaịnày làhai lớp văn bản: Spam (thư rác) vàham (thư bình thường) Ta phát biểu lại tốn sau : Mơ tả toán: Xác định (phân loại) thư điện tử thư rác Đầu vào: Biểu diễn nội dung thư (dưới dạng vec tơ) Đầu ra: Thư rác (“spam email”) thư bình thường (“ham email”) Phương pháp học máy: Phân loại Naïve Bayes máy học vec tơ hỗ trợ SVM Tập liệu: Nội dung thư nhãn lớp (“spam” “ham”) Mô hinh̀ h phân loại thư rác thuật tốn Bayes SVM cóthểmơ tảnhư hình sau: 48 ĐẦU VÀO Tập huấn luyện M dule huấn luyện thu t toán Bayes (tập thư HAM, tập thư M dule huấn luyện thu t toán SVM SPAM) Bộ huấn luyện Bayes T p thư TEST HAM, TEST SPAM Bộ huấn luyện SVM ĐẦU RA Thư SPAM Thư HAM Hình 3.1: Mơ hình phân loại thư rác thuật toán Bayse SVM Các thuật toán áp dungc̣ để phân loaịvăn đều cóthểáp dungc̣ đểphân loaị thư rác Nói chung xây dưngc̣ mơ hinhh̀ phân loại thư rác làmơṭviêcc̣ khó khăn phức tạp Hiêṇ nay, đa ̃cókhánhiều thṭtốn đươcc̣ áp dungc̣ vàcho hiêụ cao Tuy nhiên luận văn mình, tơi lựa chọn mơ hình xác xuất Nạve Bayes mơ hình SVM đểlàm sởphân loại thư rác luâṇ văn BAYES : Thuật toán sử dụng đầu vào trực tiếp file thư thư mục Erron để huấn luyện đánh giá đưa tập huấn luyện SVM : Thuật toán sử dụng đầu vào file thư thư mục Erron quy định theo luật riêng tổ hợp thành file liệu đầu vào theo quy tắc sau : 49 Giả sử mail liệu SPAM đầu vào Giả sử mail liệu HAM đầu vào Dữ liệu có 10 emails Tiếp theo tiền xử lý để liệu có định dạng mà LibSVM hiểu được, từ để huấn luyện mơ hình Liên quan đến HAM, người ta thấy thông báo SPAM gọi HAM Theo định nghĩa thông thường, HAM thư điện tử cần thiết, không bị coi thứ rác Để định dạng liệu, cần biết libSVM học Trong máy học thường gọi “Bộ đặc tính” Trong trường hợp phân lớp tài liệu (phát spam email) xem từ đặc tính Chắc chắn từ “Viagra” có hầu hết email spam, khơng tìm thấy email thường, nên thuật toán học từ đặc điểm để phân tích email có phải spam khơng Mỗi đặc tính (từ vựng) mà SVM học phải có giá trị Trong trường hợp phân lớp nhị phân Nếu từ vựng có email true (1) khơng có false (0) 50 Để đại diện cho email, tạo vectơ giá trị true/false cho từ (lấy 10 email) Đầu tiên, chúng tơi lấy tồn từ Bước đơn giản hoá liệu đánh số cho từ, thay phải ghi Để làm điều chúng tơi đánh số ngun theo thứ tự từ Để huấn luyện, cần cho thuật tốn biết lớp email Trong trường hợp có lớp SPAM NOTSPAM Vì thuật tốn chấp nhận từ nên chúng tơi sửa “Not Spam” thành “NSpam” Cuối thay dấu bằng dấu hai chấm Và để tạo toàn tập huấn luyện định dạng, cho email dòng file input Tập hợp vào file mà dịng email, ta có file Model huấn luyện liệu đầu vào thuật toán SVM sử dụng libSVM chuẩn Những ưu điểm hai thuật toán phân loaịnày đươcc̣ trình bày chi tiết chương 3.2 Cài đặt thử nghiệm kết 3.2.1 Bộ liệu thử nghiệm Toàn liệu dùng để huấn luyện kiểm thử chương trình lấy từ tập liệu enron mail datase, địa https://www.cs.cmu.edu/~./enron/ Đây liệu chuẩn đầy đủ dùng phổ biến nghiên cứu về văn nói chung phân loại văn nói riêng, tập liệu bao gồm nhiều thư mục, thư mục file mail lưu trữ dạng text để làm đầu vào cho chương trình Bộ liệu Erron dùng để huấn luyện chia thành HAM SPAM HAM: gồm 800 file thư chuẩn khơng phải thư SPAM 51 Hình 3.2 Tập File HAM SPAM thư gồm 1496 file thư SPAM Hình 3.3 Tập File SPAM 52 Trong chương trình lấy tổng 200 thư HAM SPAM làm tập liệu để kiểm tra (tập Test) (Test_HAM = 100 file, Test_SPAM=100 file) 3.2.2 Mơi trường cài đặt Cả hai thuật tốn Bayes SVM đều cài đặt môi trường Java, cụ thể :  Môi trường cài đặt : Java JDK  Công cụ sử dụng : IDE Netbean 8.0.2  Giao diện phát triển : Java Swing Thư viện sử dụng : sử dụng thư viện chuẩn từ Java2s activation.jar : apache-mime4j-0.3.jar mail.jar libsvm.jar 3.2.3 Giao diện chương trình thử nghiệm Chương trình giao diện demo cho thuật tốn Nạve Bayes SVM ứng dụng phân loại thư rác với liệu thử nghiệm Enron xây dựng sau: Hình 3.4 Giao diện chương trình chính phân loại thư rác Bayes SVM 53 Để chạy chương tình demo trên, thực bước :  Bước : Chọn phương pháp phân loại Bayes SVM  Bước : Chọn tập huấn luyện HAM SPAM đầu vào  Bước : Kích nút Huấn luyện để máy học xuất hình Hình 3.5 Giao diện xử lý liệu bước huấn luyện  Bước : Chọn thư mục lọc để phân loại thư rác thư bình thường  Bước : Kích nút Bắt đầu để kiểm tra độ xác việc học liệu thử nghiệm (xem độ xác phần trăm) hình Hình 3.6 Giao diện kết thử nghiệm 54 3.2.4 Kết thử nghiệm Như đề cập chương 2, luận văn tập trung vào cài đặt thử nghiệm hai phương pháp phân loại gồm phân loại Naïve Bayes đơn giản phương pháp Support Vector Machine (SVM) Để thử nghiệm phương pháp này, luận văn xây dựng chương trình phân loại email thuật tốn Nạve Bayes ngơn ngữ Java Đối với SVM sử dụng thư viện LibSVM trình bày phần 3.2.1 Hiệu lọc thư đánh giá theo nhiều tiêu chí độ nhậy (recall), độ xác (precision), độ xác phân loại chung tức phần trăm thư phân loại không phụ thuộc vào thư rác hay thư bình thường Trong luận văn, chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí về độ xác (precision) định nghĩa sau: số thư rác phát xác độ xác = Tởng số thư phân loại thư rác Tiêu chí thứ ba độ xác phân loại chung tức phần trăm thư phân loại không phụ thuộc vào thư rác hay thư bình thường Trong luận văn, chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí về độ xác Kết thử nghiệm hai phương pháp Naïve Bayes SVM với tập liệu mẫu thể Bảng 3.1 chi tiết Hình 3.7 Bảng 3.1: Độ chính xác phân loại hai phương pháp phân loại khác Tập liệu NB SVM HAM (100 thư) 94 % 98 % SPAM (100 thư) 93 % 99 % 99% 98% 97% 96% 95% 94% 93% 92% 91% 90% Bayes SVM HAM SPAM Hình 3.7 Độ chính xác phân loại NB SVM 55 3.3 Đánh giá thử nghiệm Theo kết thực nghiệm cho thấy phương pháp Naïve Bayes cho kết so với phương pháp SVM Tuy nhiên, phương pháp Bayes có ưu rõ rệt về tốc độ phân loại có độ phức tạp tính tốn thấp SVM địi hỏi khối lượng thời gian tính tốn lớn nhiều Trong thử nghiệm, tổng thời gian huấn luyện phân loại SVM lớn Bayes đơn giản từ 10 tới 50 lần Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật toán phân lớp đa lớp đều có đặc điểm chung yêu cầu văn nói chung thư điện tử nói riêng phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác đều phải sử dụng uớc lượng tham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé nhiều (như Nạve Bayes 2000, k-Nearest Neighbors 2415…) Trong cơng trình cơng bố năm 1999, Joachims [13] so sánh SVM với Naïve Bayesian, k-Nearest Neighbour, Rocchio, C4.5 đến năm 2003, Joachims chứng minh SVM làm việc tốt với đặc tính đề cập trước văn Các kết cho thấy SVM đưa độ xác phân lớp tốt so sánh với phương pháp khác Kiritchenko Matwin [10] nghiên cứu so sánh phương pháp SVM với kỹ thuật Nạve Bayesian, sau chứng minh SVM phương pháp tốt cho phân lớp thư điện tử phân lớp văn Những phân tích tác giả cho thấy SVM có nhiều điểm phù hợp cho việc ứng dụng phân lớp thư điện tử Và thực tế, thí nghiệm phân lớp thư rác tiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất sắc so với phương pháp phân lớp khác Đó lý SVM lựa chọn hàng đầu cho toán phân loại thư rác 56 3.4 Kết luận chương Trong chương trình bày thử nghiệm sử dụng hai thuật toán Naïve Bayes SVM phân loại thư rác Đã nêu yêu cầu về toán liệu đầu vào, kết hệ thống Một số trang hình minh họa trình thực nghiệm luận văn Đồng thời đánh giá kết thực nghiệm so sánh hai thuật tốn nói 57 KẾT LUẬN Các kết đạt Luận văn đề cập nhu cầu lọc thư rác công cu c̣ học máy, dùng để huấn luyện hệ thống biết thư rác, nhận dạng thư rác, ngăn chặn thư rác Chặn thư rác làm tăng hiệu khai thác hệ thống, đặc biệt hệ thống thư điện tử Luận văn trình bày hai lớp thṭtốn quan trọng tốn học máy Đó (i) thuâṭtoán mạng Bayes đơn giản; (ii) thuâṭtoán máy vec tơ tựa SVM Các thuâṭ toán sử duṇg để lọc thư rác hệ thống thư điện tử cụ thể Chương cuối luận văn trình bày kết thực nghiệm, cho phép lọc thư rác, tập liệu mẫu Hướng phát triển luận văn Tuy nhiên, hạn chế về mặt thời gian kiến thức nên luận văn chưa sâu vào nghiên cứu toán lọc thư rác tiếng Việt Trong tương lai, luận văn nghiên cứu hướng sau: Khi áp dungc̣ thuật tốn phân loại khó khăn gặp phải làxây dưngc̣ đươcc̣ tâpc̣ hơpc̣ từ vưngc̣ vàcác mẫu huấn luyêṇ đủlớn Vấn đềnày liên quan tới viêcc̣ phân tách môṭ câu thành từ cụm từ môṭ cách chinh́ xác Luận văn tiếp tucc̣ phát triển theo hướng nghiên cứu mởrôngc̣ ứng dungc̣ bô c̣từ điển sẵn có vàxây dựng mẫu huấn luyêṇ tiêu chuẩn về thư tiếng Việt bao gồm có dấu khơng có dấu điều chinhh̉ tham sốcủa giải thuâṭphân loaịđể nâng cao đô c̣chinh́ xác 58 DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả, Tạp chí Khoa học công nghệ, 2005 [2] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2005), “Phân loại văn tiếng Việt sử dụng support vector machines”, Chuyên san nghiên cứu tạp chí Bưu Viễn thơng, số 15 [3] Nguyễn Thanh Hùng (2006), “Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng thuật di truyền thống kê Internet”, Chuyên san nghiên cứu tạp chí Bưu viễn thơng, số 16 [4] Trần Ngân Bình, Võ Huỳnh Trâm, “Trí tuệ nhân tạo”, Đại học Cần thơ Phiên trực tuyến: http://voer.edu.vn/c764b3239 TIẾNG ANH [5] C BURGES (1998), “A tutorial on Support Vector Machines for pattern recognition”, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, (pp 121-167) [6] C Cortes and V Vapnik Support-Vector Networks, “Machine Learning”, 20, 1995 [7] M F Caropreso, S Matwin, and F Sebastiani “A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization” In A G Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102 2001 [8] Androutsopoulos, G Palioras, V Karkaletsis, G Sakkis, C Spyropoulos, P Stamatopoulos (2000), “Learning to filter spam e-mail: a comparison of a Naiăve Bayesian and memory-based approach, in: Proc 4th 59 European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp 1–13) [9] J Platt Sequential minimal optimization: “A fast algorithm for training support vector machines” Technical Report 98-14, Microsoft Research, Redmond, Washington, April 1998 [10] Kriritchenko, Matwin (2001),“Email classification with co-training” Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research [11] M.F Porter, 1980, “An algorithm for suffix stripping”, Program, 14(3) pp 130−137 [12] R Bekkerman, R El-Yaniv, N Tishby, and Y Winter Distributional word clusters vs words for text categorization Journal of Machine Learning Research, 3:1183-1208, 2003 [13] T Joachims (1999), using Support Vector Machines”, “Transductive Inference for Text Classification International Conference on Machine Learning (ICML), 1999 [14] http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- rac-dung-thu-3-the-gioi-c55a675442.html [15] http://mic.gov.vn/gioithieuSPDV (bộ thông tin truyền thông) [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-andphishing-in-the-q3-of-2014 ... thư rác, đặc trưng thư rác biểu diễn thư rác dựa học máy có giám sát Trong phương pháp phân loại, phương pháp Bayes phương pháp đơn giản, nhanh cho độ xác phân loại tương đối tốt Phương pháp. .. phân loại nhầm thư thường thành thư rác Do vậy, đơn gán cho thư nhãn có xác suất điều kiện lớn Giả sử việc phân loại thư rác thành thư thường dễ chấp nhận phân 35 loại thư thường thành thư rác. .. từ” phân tích lý khơng sử dụng phương pháp cho lọc thư rác Lọc thư theo nội dung trường hợp riêng toán phân loại văn thư phân loại thành thư rác thư hợp lệ dựa nội dung văn thư Bộ lọc thư rác,

phân loại thư rác bằng phương pháp học máy

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan