Xây dựng hệ thống quét thư rác tên môi trường phân tán

129 351 0
Xây dựng hệ thống quét thư rác tên môi trường phân tán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng hệ thống quét thư rác tên môi trường phân tán

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN MẠNG MÁY TÍNH – VIỄN THÔNGTRẦN KINH LÝ – PHẠM QUỐC MỸXÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNLUẬN VĂN TỐT NGHIỆP CỬ NHÂN CNTTTP.HCM, 2013 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN MẠNG MÁY TÍNH – VIỄN THÔNGTRẦN KINH LÝ – 0612252PHẠM QUỐC MỸ - 0612271XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNKHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTTGIÁO VIÊN HƯỚNG DẪNGVC. CAO ĐĂNG TÂNThS. ĐÀO ANH TUẤNKHÓA 2006 – 2010 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN TpHCM, ngày … tháng … năm …Giáo viên hướng dẫnNHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Khóa luận đáp ứng yêu cầu của Khóa luận cử nhân CNTT. TpHCM, ngày … tháng … năm …Giáo viên phản biệnLỜI CẢM ƠN Chúng em xin bày tỏ lòng biết ơn chân thành nhất đến thầy Cao Đăng Tân và thầy Đào Anh Tuấn, hai thầy đã tận tâm hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận văn này.Chúng con xin gửi tất cả lòng biết ơn sâu sắc và sự kính trọng đến ông bà, cha mẹ và toàn thể gia đình, những người đã nuôi dạy chúng con trưởng thành đến ngày hôm nay. Chúng em cũng xin chân thành cảm ơn quý thầy cô trong Khoa Công nghệ thông tin, trường Đại học Khoa Học Tự Nhiên Tp.Hồ Chí Minh đã tận tình giảng dạy, hướng dẫn, giúp đỡ và tạo điều kiện cho chúng em thực hiện tốt luận văn này. Xin chân thành cảm ơn sự giúp đỡ, động viên và chỉ bảo rất nhiệt tình của các anh chị và của tất cả các bạn, những người đã giúp đỡ chúng em có đủ nghị lực và ý chí để hoàn thành luận văn này. Mặc dù đã cố gắng hết sức, song chắc chắn luận văn không tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự thông cảm và chỉ bảo tận tình của quý thầy cô và các bạn.TP.HCM, 7/2010Nhóm sinh viên thực hiệnTrần Kinh Lý – Phạm Quốc Mỹ Khoa Công Nghệ Thông TinBộ môn Mạng máy tính – Viễn thôngĐỀ CƯƠNG CHI TIẾTTên đề tài: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNGiáo viên hướng dẫn:GVC. Cao Đăng TânThS. Đào Anh TuấnThời gian thực hiện: từ 01/2010 đến 07/2010Sinh viên thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271 Loại đề tài: Xây dựng hệ thốngNội Dung Đề Tài: • Tìm hiểu các kỹ thuật quét thư rác.• Xây dựng hệ thống quét thư rác dựa trên các kỹ thuật thống kê và so khớp. • Môi trường triển khai: hệ thống xử lý phân tán.Kế hoạch thực hiện:  Giai đoạn 1 : Từ 01/01/2010 đến 28/02/2010: tìm hiểu về thư rác và các kỹ thuật quét thư rác. o Tìm hiểu các đặc điểm thư rác : Trần Kinh Lýo Tìm hiểu các kỹ thuật quét thư rác : Phạm Quốc Mỹ Giai đoạn 2 : từ 01/03/2010 đến 30/04/2010: tìm hiểu và phát triển kỹ thuật quét thư rác dựa trên so khớp và thống kê. o Kỹ thuật thống kê : Phạm Quốc Mỹo Kỹ thuật so khớp : Trần Kinh Lý Giai đoạn 3: từ 01/05/2010 đến 31/05/2010: phân tích, thiết kế, cài đặt hệ thống quét thư rác trên môi trường phân tán. o Phân tích : Trần Kinh Lý, Phạm Quốc Mỹo Thiết kế : Trần Kinh Lý, Phạm Quốc Mỹo Cài đặt : Trần Kinh Lý, Phạm Quốc Mỹ Giai đoạn 4: từ 01/06/2010 đến 30/06/2010 Viết báo cáo. Xác nhận của GVHD Ngày……tháng……năm……SV Thực hiệnLỜI NÓI ĐẦUNgày nay, thư điện tử đã trở thành một công cụ đắc lực phục vụ cho nhu cầu trao đổi thông tin của các cơ quan, tổ chức, doanh nghiệp cũng như mỗi cá nhân. Tuy nhiên, thư điện tử cũng đang bị lợi dụng để phát tán thư rác, lây lan virus máy tính và lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng. Thư rác là một trong những thách thức lớn nhất hiện nay mà khách hàng và các nhà cung cấp dịch vụ phải đối phó. Thư rác đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin,… với nhiều thủ đoạn và mánh khóe cực kỳ tinh vi. Người dùng phải mất khá nhiều thời gian để xóa những thư “không mời mà đến”, nếu vô ý có thể bị nhiễm virus, trojan, spyware … và nặng nề hơn là mất những thông tin như thẻ tín dụng, tài khoản ngân hàng qua các thư rác dạng phishing. Thư rác không chỉ gây khó chịu và gây phiền nhiễu cho người dùng, nó còn gây ra mất mát năng suất, giảm băng thông khiến cho các công ty, tổ chức tổn thất rất nhiều tiền. Vì vậy, các công ty, tổ chức có sử dụng hệ thống thư điện tử riêng phải có biện pháp để ngăn chặn thư rác xâm nhập vào hệ thống của họ. Mặc dù có thể sẽ không ngăn chặn được tất cả thư rác nhưng chỉ cần ngăn chặn phần lớn nào đó cũng sẽ giúp giảm tác hại của thư rác.Tất nhiên, những kẻ gửi thư rác sẽ liên tục cải thiện chiến thuật của chúng, do đó, điều quan trọng là biện pháp ngăn chặn thư rác phải “học” cách thức thay đổi của thư rác theo thời gian để giúp việc ngăn chặn có hiệu quả. Và việc ngăn chặn thư rác phải được thực hiện nhanh nhất có thể để không làm ảnh hưởng đến hệ thống, công việc khác. Xuất phát từ các lý do trên, đề tài luận văn “XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN” được thực hiện với mục đích: • Tìm hiểu thư rác và các kỹ thuật ngăn chặn thư rác. • Phát triển kỹ thuật quét thư rác thống kê và so khớp. • Đề xuất mô hình và cài đặt thử nghiệm hệ thống quét thư rác trên môi trường phân tán. Luận văn đã đạt được một số kết quả như độ chính xác phân loại thư rác trong thử nghiệm xấp xỉ 94%, hỗ trợ quét các tập tin đính kèm (txt,word, excel, powerpoint, pdf) và đưa hệ thống quét thư rác lên môi trường phân tán.Nội dung chính của luận văn được chia thành 5 chương như sau: Chương 1: Tổng quan về thư rác và các kỹ thuật phát hiện thư rácGiới thiệu khái quát về lịch sử, đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có. Chương 2: Phát triển kỹ thuật quét thư rác dựa trên thống kê và so khớpMô tả cơ sở lý thuyết của hai kỹ thuật áp dụng trong hệ thống thực nghiệm là thống kê và so khớp, các thực nghiệm minh họa độ chính xác của từng kỹ thuật. Chương 3: Hệ thống thử nghiệmPhân tích, thiết kế hệ thống thử nghiệm cho luận văn. Chương 4: Cài đặt và thực nghiệmTiến hành cài đặt và thực nghiệm hệ thống thử nghiệm đã đề ra. Chương 5: Tổng kếtTóm tắt lại các vấn đề đã nghiên cứu và đề ra hướng phát triển trong tương lai. MỤC LỤCMỤC LỤC biểuDanh sách các hình10 [...]... cáo, thư ng mại chiếm đa số, đây có lẽ là định nghĩa gần đúng với ý nghĩa của thư rác nhất [4] Hình vẽ sau sẽ thể hiện rõ định nghĩa của thư rác: Tất cả thư điện tử Thư điện tử không mong muốn Thư rác Thư quảng cáo thư ng mại Hình 1.1 So sánh thư rác với các thư điện tử khác [3] Chương 3 Hệ thống thử nghiệm 1.1.3 Mục đích chính gửi thư rác Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty thư ng... chứa các từ thư ng xuất hiện trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh, ) Sự giống nhau ở kích thư c/ loại tập tin/ tên tập tin đính kèm thư rác ở các lần spam 1.1.5 Các kỹ thuật tạo thư rác Chương 3 Hệ thống thử nghiệm Chỉnh sửa phần header của thư rác: • Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:” hoặc “Cc:” • Thể hiện ở trường “To:” địa chỉ thư điện tử không... trường “From:” • Định danh - ID của thư điện tử bị thiếu hoặc là ID giả • Trường “Bcc:” có tồn tại, vì ở các thư điện tử thông thư ng trường này thư ng không xuất hiện Chương 3 Hệ thống thử nghiệm • Trường “X-mailer” – là trường thể hiện tên phần mềm dùng để gửi thư điện tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thể xác định được là thư rác hay không • X-UIDL header: là...Chương 3 Hệ thống thử nghiệm Chương 3 Hệ thống thử nghiệm Chương 1 Tổng quan về thư rác và các kỹ thuật phát hiện thư rác 1.1 Giới thiệu về thư rác 1.1.1 Lịch sử Có thể chia lịch sử của thư rác thành 3 giai đoạn sau: 1.1.1.1 Giai đoạn thứ nhất – những năm đầu của thư rác Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng là vào năm 1978, đó là... thư rác Chỉnh sửa phần nội dung của thư rác: • Gửi cùng một văn bản thư rác nhiều lần mà không thay đổi gì hết • Đảo một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Xóa bớt một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Thêm một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Thay đổi cách dùng từ nhưng ý nghĩa văn bản thư rác vẫn không đổi • Thêm các tag HTML vào văn bản thư rác. .. nhiều thư rác, tuy nhiên tỉ lệ false-positive (không phải là thư rác nhưng cho là thư rác) cũng sẽ tăng do các thư điện tử hợp lệ bị coi là thư rác cũng nhiều hơn Dựa vào Spame Score và một ngưỡng xác định thì các thông điệp được phân lớp thành thư rác, thư hợp lệ và thư chưa xác định Tuy nhiên cũng có ngoại lệ cho luật này: • Các thông điệp từ người gửi trong whitelist không bao giờ bị coi là thư rác. .. vụ thư điện tử lúc này chưa tiên tiến nên người phát tán thư rác (spammer) này phải đánh thủ công các địa chỉ thư điện tử muốn gửi và chỉ có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên Vào 1988 xuất hiện kiểu thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền) 1.1.1.2 Giai đoạn thứ hai – thư rác. .. rằng thư rác là những thư điện tử thư ng mại không được yêu cầu từ phía người nhận” - những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm và thư điện tử lừa gạt Nhưng định nghĩa này cũng không thực sự chính xác, nó làm mọi người nghĩ rằng thư rác giống như là thư đáng bỏ đi (junk mail) Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện... phần mềm Chương 3 Hệ thống thử nghiệm Đầu thập niên 1990, với sự phát triển của Internet mang đến vấn nạn là số lượng thư rác tăng lên nhanh chóng Lúc này các spammer dùng các phần mềm để tự động việc gửi thư điện tử đến một danh sách các địa chỉ Ví dụ về thư rác phát tán qua các phần mềm tự động là thư rác Jesus và thư rác Cantel và Siegel Vào 1995 Jeff Slaton – tự nhận mình là “vua thư rác , ông là... xác của thư rác (spam email), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác Nhiều ý kiến cho rằng thư rác là những thư điện tử (email) không mong muốn” Định nghĩa này cũng không thực sự chính xác, như một nhân viên nhận những thư điện tử về công việc từ sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác Lại . tài: Xây dựng hệ thốngNội Dung Đề Tài: • Tìm hiểu các kỹ thuật quét thư rác. • Xây dựng hệ thống quét thư rác dựa trên các kỹ thuật thống kê và so khớp. • Môi. Khoa Công Nghệ Thông TinBộ môn Mạng máy tính – Viễn thôngĐỀ CƯƠNG CHI TIẾTTên đề tài: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNGiáo viên

Ngày đăng: 21/01/2013, 11:49

Hình ảnh liên quan

1.3. Bảng thống kê các phần mềm chống thư rác dựa vào các kỹ thuật chống thư rác - Xây dựng hệ thống quét thư rác tên môi trường phân tán

1.3..

Bảng thống kê các phần mềm chống thư rác dựa vào các kỹ thuật chống thư rác Xem tại trang 38 của tài liệu.
2.1.2. Mô hình bộ lọc thống kê - Xây dựng hệ thống quét thư rác tên môi trường phân tán

2.1.2..

Mô hình bộ lọc thống kê Xem tại trang 44 của tài liệu.
Xét bảng sau: - Xây dựng hệ thống quét thư rác tên môi trường phân tán

t.

bảng sau: Xem tại trang 71 của tài liệu.
Tính độ tương tự tương ứng bảng trên thu được: - Xây dựng hệ thống quét thư rác tên môi trường phân tán

nh.

độ tương tự tương ứng bảng trên thu được: Xem tại trang 72 của tài liệu.
Hình 3.1. Mô hình toàn bộ hệ thống thử nghiệm - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 3.1..

Mô hình toàn bộ hệ thống thử nghiệm Xem tại trang 78 của tài liệu.
Mô hình sau sẽ mô tả tính cá nhân hóa được sử dụng trong hệ thống.  - Xây dựng hệ thống quét thư rác tên môi trường phân tán

h.

ình sau sẽ mô tả tính cá nhân hóa được sử dụng trong hệ thống. Xem tại trang 81 của tài liệu.
Hình 3.3. Mô hình cơ sở dữ liệu - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 3.3..

Mô hình cơ sở dữ liệu Xem tại trang 83 của tài liệu.
Bảng 3.1. Danh sách các trường trong bảng vas_users - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.1..

Danh sách các trường trong bảng vas_users Xem tại trang 84 của tài liệu.
Hình 3.4. Sơ đồ cơ sở dữ liệu kỹ thuật so khớp - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 3.4..

Sơ đồ cơ sở dữ liệu kỹ thuật so khớp Xem tại trang 86 của tài liệu.
8 VASConfig Cấu hình chương trình - Xây dựng hệ thống quét thư rác tên môi trường phân tán

8.

VASConfig Cấu hình chương trình Xem tại trang 87 của tài liệu.
Hình 3.5. Sơ đồ lớp VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 3.5..

Sơ đồ lớp VietAntiSpam Xem tại trang 87 của tài liệu.
Bảng 1.1. Danh sách các lớp đối tượng của VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 1.1..

Danh sách các lớp đối tượng của VietAntiSpam Xem tại trang 88 của tài liệu.
Bảng 1.3. Chi tiết lớp VASTokenizer của VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 1.3..

Chi tiết lớp VASTokenizer của VietAntiSpam Xem tại trang 89 của tài liệu.
3 pref Public Tùy chọn của người dùng (có thể ghi đè lên vài cấu hình chung) - Xây dựng hệ thống quét thư rác tên môi trường phân tán

3.

pref Public Tùy chọn của người dùng (có thể ghi đè lên vài cấu hình chung) Xem tại trang 90 của tài liệu.
Bảng 3.9. Chi tiết lớp VASUser của VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.9..

Chi tiết lớp VASUser của VietAntiSpam Xem tại trang 91 của tài liệu.
1 loadConfig() Public Tải thông tin cấu hình từ tập tin cấu hình - Xây dựng hệ thống quét thư rác tên môi trường phân tán

1.

loadConfig() Public Tải thông tin cấu hình từ tập tin cấu hình Xem tại trang 91 của tài liệu.
5 nonspamClassified Private Tổng số thư được phân loại như thư hợp lệ. - Xây dựng hệ thống quét thư rác tên môi trường phân tán

5.

nonspamClassified Private Tổng số thư được phân loại như thư hợp lệ Xem tại trang 92 của tài liệu.
Bảng 3.12. Chi tiết lớp VASPreferences của VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.12..

Chi tiết lớp VASPreferences của VietAntiSpam Xem tại trang 93 của tài liệu.
Bảng 3.13. Chi tiết lớp VASToken của VietAntiSpam - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.13..

Chi tiết lớp VASToken của VietAntiSpam Xem tại trang 93 của tài liệu.
Tính độ tương tự hình thức của thông điệp  mẫu pattern và thông  điệp cần so sánh text - Xây dựng hệ thống quét thư rác tên môi trường phân tán

nh.

độ tương tự hình thức của thông điệp mẫu pattern và thông điệp cần so sánh text Xem tại trang 95 của tài liệu.
Hình 3.6. Sơ đồ lớp chương trình VASBroker - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 3.6..

Sơ đồ lớp chương trình VASBroker Xem tại trang 96 của tài liệu.
Bảng 3.22. Các lớp của chương trình VASBroker - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.22..

Các lớp của chương trình VASBroker Xem tại trang 96 của tài liệu.
Bảng 3.27. Các lớp của chương trình Storage - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Bảng 3.27..

Các lớp của chương trình Storage Xem tại trang 98 của tài liệu.
3.5. Mô hình kết hợp khi quét thư rác - Xây dựng hệ thống quét thư rác tên môi trường phân tán

3.5..

Mô hình kết hợp khi quét thư rác Xem tại trang 99 của tài liệu.
Mô hình sau diễn tả sự kết hợp giữa thống kê và so khớp trong thực thi lọc thư rác:  - Xây dựng hệ thống quét thư rác tên môi trường phân tán

h.

ình sau diễn tả sự kết hợp giữa thống kê và so khớp trong thực thi lọc thư rác: Xem tại trang 100 của tài liệu.
retrain@gfit.hcmuns.edu.vn để huấn luyện lại, mô hình kết hợp giữa thống kê và so khớp như sau:  - Xây dựng hệ thống quét thư rác tên môi trường phân tán

retrain.

@gfit.hcmuns.edu.vn để huấn luyện lại, mô hình kết hợp giữa thống kê và so khớp như sau: Xem tại trang 104 của tài liệu.
Hình 4.1. Mô hình các máy trong quá trình thực nghiệm - Xây dựng hệ thống quét thư rác tên môi trường phân tán

Hình 4.1..

Mô hình các máy trong quá trình thực nghiệm Xem tại trang 107 của tài liệu.
A.a. Mô hình triển khai thử nghiệm - Xây dựng hệ thống quét thư rác tên môi trường phân tán

a..

Mô hình triển khai thử nghiệm Xem tại trang 114 của tài liệu.
A.c.iv). Cấu hình - Xây dựng hệ thống quét thư rác tên môi trường phân tán

c.iv.

. Cấu hình Xem tại trang 115 của tài liệu.
#Cấu hình pop3 protocol pop3 { - Xây dựng hệ thống quét thư rác tên môi trường phân tán

u.

hình pop3 protocol pop3 { Xem tại trang 118 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan