LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx

64 588 0
LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

- 1 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Hà Nội - 2006 - 2 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Ngọc Lan NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬỨNG DỤNG TRONG LỌC THƯ RÁC KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QU I Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy Hà Nội - 2006 - 3 - L L Ờ Ờ I I C C Ả Ả M M Ơ Ơ N N Đầu tiên, em muốn gửi lời cảm ơn chân thành biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) Tiến sĩ Hà Quang Thụy (Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo hướng dẫn em trong suốt quá trình thực hiện khoá luận này. Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại h ọc Công nghệ - ĐHQGHN) anh Phan Bá Hùng (Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em tiến hành có kết quả các thử nghiệm trên mail-server thực. Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công nghệ đã dạy dỗ tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường. Em cũng muốn gửi lời cảm ơn tới các thầy cô, anh chị các bạn trong nhóm xê-mi-na “Khai phá dữ liệu khám phá tri thức” thuộc bộ môn Các hệ thống thông tin, Trường Đại học Công nghệ đã ủng hộ khuyến khích em trong quá trình nghiên cứu thực hiện khoá luận này. Và lời cuối cùng, em xin gửi lời cảm ơn chân thành biết ơn vô hạn tới bố, mẹ, anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ luôn động viên, khuyến khích em trong cuộc s ống, trong học tập làm việc. Sinh viên Bùi Ngọc Lan - 4 - Tóm tắt Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư rác đã được đưa ra áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra chưa thực sự hiệu quả mang những nhược điểm cố hữu củ a nó. Trong luận văn này, trên cơ sở nghiên cứu cấu trúc các tính chất đặc trương của mạng thư điện tử (Email Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử. Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương pháp đưa ra đã khai thác được tính chất có h ướng của đồ thị mạng thư điện tử xem xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấ y được tính đúng đắn của phương pháp phương pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây. - 5 - Mục lục L L Ờ Ờ I I C C Ả Ả M M Ơ Ơ N N 3 MỞ ĐẦU 8 CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC 10 1.1 Khái niệm thư rác 10 1.1.1 Thư rác là gì ? 10 1.1.2 Các đặc điểm của thư rác. 11 1.1.3 Phân loại thư rác 12 1.1.4 Những thiệt hại do thư rác gây ra 13 1.2 Các giải pháp cho vấn đề lọc thư rác 16 1.2.1 Ban hành các bộ luật chống thư rác 16 1.2.2 Các phương pháp lọc thư rác trước đây 16 CHƯƠNG 2: KIẾN THỨC CƠ SỞ 26 2.1 Mạng phức hợp (Complex Networks) 26 2.1.1 Độ dài đường dẫn trung bình 30 2.1.2 Độ phân cụm 31 2.1.3 Độ phân bố bậc 31 2.2 Các mô hình của mạng phức hợp 33 2.2.1 Mạng cặp thông thường (Regular coupled networks) 33 2.2.2 Đồ thị ngẫu nhiên (Random Graphs) 34 2.2.3 Các mô hình Small-world 36 2.2.4 Các mô hình Scale-free 39 2.3 Mạng xã hội (Social Networks) 41 2.4 Mạng thư điện tử (Email Networks) 43 2.4.1 Mạng thư điện tử scale-free. 43 2.4.2 Tính chất Small-world của mạng thư điện tử. 44 2.4.3 Mạng thư điện tửmạng có hướng 46 2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48 2.4.5 Mạng thư điện tử khi bị spam tấn công 49 - 6 - CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC 50 3.2 Đề xuất phương pháp 51 3.3 Đặc điểm của phương pháp 53 CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55 4.1 Đặc điểm dữ liệu 55 4.2 Kết quả thực nghiệm phân tích 57 4.3 Nhận xét 60 KếT LUậN 61 - 7 - Bảng từ viết tắt Từ hoặc cụm từ Viết tắt Unsolicited Commercial Email UCE Internet Service Provider ISP Short Message Service SMS Email Service Provider ESP Realtime Black hole List RBL Multiple Address Processing System MAPS eXtensible Markup Language XML Domain Name Server DNS Sender Policy Framework SPF - 8 - MỞ ĐẦU Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thư điện tử (Email) đã trở thành một phần quan trọng trong đời sống trong cả các hoạt động kinh doanh thương mại. Thư điện tử cho phép tiết kiệm thời gian khắc phục mọi vấn đề về khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc. Chính những thuận tiện trong trao đổi thư điện tử lạ i tạo ra một số sơ hở để cho các loại thư không mong muốn (thư rác: spam mail) hoạt động gây phiền toái cho người dùng. Trong một vài năm gần đây, những thư điện tử không mong muốn như vậy phát triển gây ra không ít thiệt hại cho người dùng nói riêng cho nền kinh tế - xã hội nói chung. Theo nhiều bản thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thông trên toàn thế gi ới. Có không ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên lạc, điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên lạc này. Hiện nay, thư rác đang là một trong những vấ n đề nhức nhối của xã hội. Nhiều phương pháp, công cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các công cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đó, nhiều hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp các phương pháp khác nhau, trong đó hướng tiế p cận theo mạng xã hội là một trong các hướng nổi bật nhất. Ý thức được điều này, hướng nghiên cứu về các phương pháp lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên gọi "Nghiên cứu mạng thư điện tử ứng dụng trong lọc thư rác". Khóa luận được tổ chức thành 4 chương nh ư sau: Chương 1 giới thiệu tổng quan về thư rác một số hướng tiếp cận điển hình trước đây trong việc lọc thư rác. Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng xã hội, mạng thư điện tử. Đây là cơ sở kiến thức để phát triển nội dung của khóa luận trong các chương sau. Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm của các địa chỉ thư. Các nội dung đề xuất được trình bày chi tiết trong chương này. - 9 - Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân cụm thấp có khả năng cao là địa chỉ thư rác . Phần kết luận tổng kết các kết quả chủ yếu của khóa luận phương hướng nghiên cứu tiếp theo để phát triển, c ải tiến phương pháp mạng thư điện tử được đề xuất. Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong được sự góp ý của thầy cô các bạn. - 10 - Chương 1 T T Ổ Ổ N N G G Q Q U U A A N N V V Ề Ề T T H H Ư Ư R R Á Á C C Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng không thể thiếu khi Internet công nghệ mạng phát triển. Đây là điều mà thực tế đã chứng minh qua những đóng góp của ứng dụng này trong nhiều lĩnh vực như kinh doanh, thương mại, viễn thông các dịch vụ cá nhân. Tuy nhiên trong những năm gần đây, một hình thức mới của thư điện tử đã xuất hiện với số lượng lớn gây phiền hà cho người nhận những thiệt hại không nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta các phương pháp ngăn chặn thư rác. 1.1 Khái niệm thư rác 1.1.1 Thư rác là gì ? Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của người gửi, hoàn toàn không có sự liên hệ gì với người nhận. Đứng trên quan điểm của người gửi, đó là một hình thức giửi thư theo số lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng có nhiều công ty mà công việc kinh doanh chính là nhận g ửi thư rác cho khách hàng của họ. Về phía người nhận, đa phần các bức thư này không có giá trị thật sự không được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ cụm junk email). Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited Commercial Email). Thư rác hiện nay thường có n ội dung: quảng cáo thương mại dịch vụ, quấy nhiễu, phát tán virus những nội dung không lành mạnh (khiêu dâm, chống phá chính trị…). [...]... chuẩn trong thời gian tới, trong đó sẽ có một số điều khoản quy định về thư rác được đưa ra xem xét 1.2.2 Các phương pháp lọc thư rác trước đây Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây Nhiều nhà khoa học nhiều công trình nghiên cứu về phương pháp lọc thư rác đã được đầu tiến hành từ khá lâu Để đánh giá hiệu quả của một công cụ lọc thư rác người ta thư ng... tố đó trong thư rác - Mức độ thư ng xuyên xuất hiện của từ tố đó trong thư bình thư ng - Số lượng thư rác mà bộ lọc đã được học - Số lượng thư bình thư ng bộ lọc đã được học Khi phân tích một thư rác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này có trong cơ sở dữ liệu từ đó tính được xác suất tổng hợp xem thư đó có phải là thư rác không Giá trị này thư ng... luật lọc thư bảo đảm tính an toàn trong mạng Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong công việc với trao đổi thư điện tử Nhược điểm: Thư ng yêu cầu nhiều tới sự duy trì cầm có một người quản trị mạng có khả năng kinh nghiệm để quản lý bộ lọc thư rác này Thư ng đắt hơn Phương pháp lọc dựa... tên gửi thư rác những bộ lọc làm cho siêu bộ lọc thư rác của hôm nay có thể trở thành cái lỗi thời của ngày mai Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây - 25 - Chương 2 KIẾN THỨC CƠ SỞ Bản chất của việc lọc thư rác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để... gửi thư rác thư ng giả dạng địa chỉ của một người dùng bình thư ng trong một máy chủ email nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thư rác 1.1.3 Phân loại thư rác Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác thích hợp Có rất nhiều cách phân loại thư rác. .. 0 False Negatives bằng 0 Điều này dường như là không thể Tất cả những công cụ lọc có giá trị ngày nay thư ng sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau: Phương pháp lọc theo từ khóa Phương pháp lọc thư rác theo từ khóa là một phương pháp truyền thống trong việc lọc thư rác Người ta dựa vào những từ hay cụm từtrong đầu đề của thư (subject) nội dung của thư. .. Giả mạo thư điện tử - là việc giả mạo địa chỉ thư điện tử của một công ty hoặc của một người khác để khiến người sử dụng tin tưởng mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet các kỹ thuật viên chống thư rác hiện đang phải đối mặt Nếu không có sự thẩm định quyền, xác nhận khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không... Tỷ lệ thư thường bị lọc nhầm thành thư rác - 16 - o False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thư ng không chấp nhận lỗi này Các công cụ lọc thư rác thư ng được tính toán sao cho độ đo False Positives False Negatives là nhỏ nhất Tuy nhiên, lỗi False Positives có phần được yêu tiên hơn Một bộ lọc lý... phát tán thư rác - 12 - Tính tới thời điểm hiện tại, thư rác có thể bị gửi thông qua những hình thức thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger ) 2> Dựa vào quan hệ với người gửi thư rác Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người quen các dịch... khỏi danh sách email nếu muốn Thêm vào đó, những công ty hoặc người gửi thư rác phải hiểu nắm vững chính sách quản lý thư rác/ quảng cáo của mỗi ISP mà họ gặp phải Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thư điện tử trong bộ Luật Hình sự, nhưng chưa có luật quy định nghiêm cấm các hình thức gửi thư rác Theo dự kiến, Pháp lệnh Thư ng mại điện tử các dịch vụ liên quan đang được . hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên gọi " ;Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác& quot;. Khóa luận được tổ. của mạng thư điện tử. 44 2.4.3 Mạng thư điện tử là mạng có hướng 46 2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48 2.4.5 Mạng thư điện tử khi bị

Ngày đăng: 05/03/2014, 18:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan