báo cáo đề tài xây dựng chương trình lọc thư rác sử dụng phương pháp naïve bayes

17 776 1
báo cáo đề tài  xây dựng chương trình lọc thư rác sử dụng phương pháp naïve bayes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐỒ ÁN MÔN XỬ LÝ NGƠN NGỮ TỰ NHIÊN Đề tài: Xây dựng chương trình lọc thư rác sử dụng phương pháp Naïve Bayes Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Sinh viên thực hiện: Họ tên MSSV Lớp Đặng Văn Hùng 20071370 HTTT-K52 Nguyễn Bích Ngọc 20072105 HTTT-K52 Trịnh Thị Lan Phượng 20062468 HTTT-K52 Voin sophat 20073936 HTTT-K52 Hà Nội, 01/05/2012 LỜI MỞ ĐẦU Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thông tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác khơng gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Để loại bỏ giảm thiểu ảnh hưởng thư rác, nhiều cách tiếp cận khác nghiên cứu sử dụng Giải pháp đấu tranh với thư rác đa dạng, bao gồm từ cố gắng pháp lý việc xây dựng luật ngăn chặn phát tán thư rác giải pháp kỹ thuật nhằm phát ngăn chặn thư rác giai đoạn khác trình tạo phát tán thư Trong số giải pháp sử dụng, lọc thư theo nội dung giải pháp sử dụng rộng rãi có triển vọng Lọc thư theo nội dung phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thường, kết phân tích sau sử dụng để định chuyển tiếp thư đến người nhận hay không I Tổng quan thư rác Khái niệm thư rác Thư điện tử hay email (electronic mail) gọi điện thư, hệ thống chuyển nhận thư từ qua mạng máy tính Thư rác (spam) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới nhiều người nhận “Thư không yêu cầu” nghĩa người nhận thư không yêu cầu người gửi gửi thư “Thư gửi hàng loạt” nghĩa thư mà người nhận nhận nằm loạt thư gửi cho nhiều người khác thư có nội dung tương tự Một thư gọi thư rác thư không yêu cầu gửi hàng loạt Nếu thư rác thư khơng mong muốn thư làm quen, gửi lần đầu tiên, nến thư rác thư gửi hàng loạt thư gửi cho khách hành công ty, nhà cung cấp dịch vụ Như định nghĩa trên, thư rác thư không yêu cầu gửi hàng loạt Nhưng yếu tố quan trọng để phân biệt thư rác với thư thông thường phải nội dung thư Khi người nhận thư rác, người khơng thể xác định thư có gửi hàng loạt hay khơng nói xác thư rác sau xem nội dung thư Đặc điểm sở cho giải pháp phân loại thư rác cách phân tích nội dung thư Phần lớn thư rác thư quảng cáo cho hàng hóa dịch vụ Tuy nhiên có thư rác mang nội dung khác, chia thành nhóm: thư có nội dung trị, thư từ thiện, thư có nội dung tơn giáo, thư có kèm mã độc cơng máy tính người sử dụng Tác hại thư rác - Thư rác gây thiệt hại kinh tế cho người nhận thư trường hợp người nhận thư phải trả tiền cho lượng thông tin truyền qua mạng - Thư rác làm đầy hộp thư người nhận làm thất lạc thư bình thường đến sau - Thư rác làm tốn thời gian người nhận phải mở thư xoá thư khỏi hộp thư - Thư rác chiếm phần đường truyền Internet làm tốn thời gian xử lý máy chủ - Thư rác chứa mã độc, virus cơng máy tính người sử dụng, lấy cắp thông tin cá nhân phá hoại máy tính, hệ thống máy chủ cơng ty ,tổ chức, cá nhân Q trình phát tán thư rác Quá trình phát tán thư rác gồm bước: - Thu thập địa email o Nhận dạng ký tự email o Dụ nạn nhân điền thông tin địa email o Mua sở liệu webstite o Tạo email dictionary attack - Phát tán thư rác: o Sử dụng hệ thống máy tính , modem đường truyền internet o Spam máy chủ o Hệ thống botnet Các biện pháp phân loại thư rác Hiện tất nhà cung cấp dịch vụ mail áp dụng công nghệ lọc thư rác sau:  Sử dụng DNS Blacklistb  Sử dụng SURBL List  Chặn IP  Kiểm tra địa  Sử dụng lọc Bayesian  Sử dụng danh sách Black/white list  Sử dụng Challenge/Response  Kiểm tra header  Report Spam Emai Trong nội dung nghiên cứu, nhóm xin trình bày phân loại thư rác phương pháp học máy, lọc theo nội dung thư : “Áp dụng giải thuật Naïve Bayes phân loại thư rác” II Định lý Bayes giải thuật Naïve Bayes Định lý Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên D biết kiện liên quan h xảy Xác suất ký hiệu P(D|h), đọc "xác suất D có h" Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho h phụ thuộc vào giá trị Cơng thức: P( h | D) = P( D | h).P(h) P( D) Trong đại lượng: P(h) : Xác xuất trước giả thiết h P(D) : Xác suất trước tập liệu D quan sát P(D|h) : Xác suất việc quan sát tập liệu D, với điều kiện giả thiết h Giải thuật Naïve Bayes phân loại văn Phương pháp phân loại văn Naïve Bayes coi xác suất xuất từ văn độc lập thống kê Cơ sở phương pháp :dựa định lí Bayes xác suất Cần tính xác suất để văn rơi vào lớp văn khác Tài liệu cần phân loại gán cho lớp văn có xác suất lớn Một tốn phân loại biểu diễn gồm có: Một tập học D_train ví dụ học x biểu diễn vector n chiều: (x1,x2,… ,xn) - Một tập nhãn xác định lớp : C = {c1,c2,…,cm} - Một ví dụ z phân loại vào lớp 10 Để xác định phân lớp phù hợp ví dụ z, ta xác định bởi: arg max P( z1 , z2 , zn | ci ).P(ci ) ci ∈C Với giả thiết P( z1 , z2 , zn ) lớp Phân loại Nạve Bayes tìm phân lớp z: n C NB = arg max P (ci ).∏ P( z j | ci ) ci ∈C j =1 Giải thuật phân loại Naïve Bayes: - Giai đoạn học (Training Phase), sử dụng tập học Đối với phân lớp c i∈ c ta tính giá trị xác suất trước P(c i) Đối với giá trị thuộc tính x j ta tính giá trị xác suất thuộc tính phân lớp ci: P(xj|ci) Sau giai đoạn học ta liệu học - Giai đoạn phân lớp ví dụ mới: Đối với phân lớp c i∈ c ta tính giá trị biểu thức: n P(ci ).∏ P( z j | ci ) j =1 Phân lớp z lớp nhất: n C = arg max P (ci ).∏ P ( z j | ci ) * ci ∈C j =1 11 III Chương trình phân loại thư rác sử dụng giải thuật Nạve Bayes Mơ tả tốn Bài tốn: - Input: email chưa nhận dạng thư rác hay thư thường - Output: Kết phân loại thư rác khơng? (Giải tốn phân loại thư rác thư có nội dung tiếng Anh) Biểu diễn: - Tập học D_Train với email ví dụ học - Tập nhãn xác định lớp: C={c0,c1} C0: thư rác, c1: thư thường Sau trình học, liệu học lưu trữ dạng nhị phân tìm kiếm, nút nhị phân gồm có : từ gốc, tần suất xuất thư rác, tần suất xuất thư thường Một ví dụ email phân loại vào lớp Mơ tả liệu Chương trình sử dụng liệu :CSDMC2010 SPAM liệu sử dụng cho hệ thống lọc thư rác Bộ liệu gồm phần chính: Tập ví dụ học (TRAINING): 4327 email, với 2949 non-spam 1378 spam SPAMTrain.label : nhãn email với cho non-spam cho spam Tập ví dụ để kiểm tra(TESTING): 4292 email chưa phân loại Để đánh giá cách tốt chương trình , ta sử dụng liệu sử dụng chương trình lấy từ tậpTraining CSDMC2010 SPAM Chia tập TRAINING thành phần sau: (Các email lấy ngẫu nhiên) 12 Tập Training: 3000 email với 957 spam 2043 non-spam Tập Testing: 1327 email với 421 spam 906 non-spam Quá trình tiền xử lý Trong tốn phân loại thư rác này, ta phân loại dựa vào nội dung email, vậy, email đầu vào (có định dạng eml) trải qua bước tiền xử lý nhằm loại bỏ stopword, khoảng trắng, tiêu đề…chỉ lấy nội dung email làm đầu vào cho hệ thống học test Quá trình học Từ liệu đầu vào, ta tính xác suất: Pc0: tần số thư rác tập học Pc1: tần số thư thường tập học Sau trình tiền xử lý, email biểu diễn thành tập từ nguyên gốc (Với từ có nhiều từ loại đưa thống loại từ)Với từ tập Training, ta tính tần suất xuất từ thư thường thư rác: ; Kết trình học, ta học Cây học nhị phân tìm kiếm, với nút liệu chưa trường liệu: từ gốc, tần suất xuất thư rác, tần suất xuất thư thường Cấu trúc nút học: Word: x F0(x) F1(x) Xi F0(xi) F1(xi) F0(xi) : tần suất xuất từ xi thư rác F1(xi) : tần suất xuất từ xi thư thường 13 Quá trình test Cho đầu vào email chưa phân loại Email cần đưa qua trình tiền xử lý Sau email biểu diễn tập từ gốc Ta xét từ có email thử học Tính xác suất : m : tổng số từ email Sau tính ta giá trị p0 p1 So sánh giá trị ta có kết luận: Nếu p0>p1: thư rác,ngược lại thư thường IV Kết đánh giá Kết Qua thử nghiệm việc phân loại email, kết chương trình xác với tập liệu mà ta sử dụng Đánh giá Để đánh giá độ xác chương trình, ta sử dụng TEST với 1327 email với 421 spam 906 non-spam Hiệu suất nhận dạng thư rác: Hiệu suất nhận dạng thư thường: 14 Kết chương trình: Giao diện chương trình Chức học 15 Chức test 16 Đánh giá hiệu hệ thống: Ta thấy hệ thống nhận dạng thư thường tốt, nhiên kết nhận dạng thư rác chưa tốt V Tài liệu tham khảo - Bài giảng môn Xử lý ngôn ngữ tự nhiên, cô Lê Thanh Hương - Các khái niệm tham khảo : www.wikipedia.org 17 ... việc xây dựng luật ngăn chặn phát tán thư rác giải pháp kỹ thuật nhằm phát ngăn chặn thư rác giai đoạn khác trình tạo phát tán thư Trong số giải pháp sử dụng, lọc thư theo nội dung giải pháp sử dụng. .. xin trình bày phân loại thư rác phương pháp học máy, lọc theo nội dung thư : “Áp dụng giải thuật Naïve Bayes phân loại thư rác? ?? II Định lý Bayes giải thuật Naïve Bayes Định lý Bayes Định lý Bayes. .. Lọc thư theo nội dung phương pháp phân tích nội dung thư để phân biệt thư rác với thư bình thư? ??ng, kết phân tích sau sử dụng để định chuyển tiếp thư đến người nhận hay không I Tổng quan thư rác

Ngày đăng: 23/10/2014, 23:27

Từ khóa liên quan

Mục lục

  • TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan