Thông tin tài liệu
- 1 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Hà Nội - 2006
- 2 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QU
I
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh
Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy
Hà Nội - 2006
- 3 -
L
L
Ờ
Ờ
I
I
C
C
Ả
Ả
M
M
Ơ
Ơ
N
N
Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ
Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy
(Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng
dẫn em trong suốt quá trình thực hiện khoá luận này.
Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh
Nguyễn Việt Cường (Trường Đại h
ọc Công nghệ - ĐHQGHN) và anh Phan Bá Hùng
(Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em
tiến hành có kết quả các thử nghiệm trên mail-server thực.
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công
nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường.
Em cũng muốn gửi lời cảm
ơn tới các thầy cô, anh chị và các bạn trong nhóm
xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông
tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên
cứu và thực hiện khoá luận này.
Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ,
anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên,
khuyến khích em trong cuộc s
ống, trong học tập và làm việc.
Sinh viên
Bùi Ngọc Lan
- 4 -
Tóm tắt
Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư
rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra
chưa thực sự hiệu quả và mang những nhược điểm cố hữu củ
a nó. Trong luận văn này,
trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email
Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử.
Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương
pháp đưa ra đã khai thác được tính chất có h
ướng của đồ thị mạng thư điện tử và xem
xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ
phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận
thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà
Nội. Kết quả thực nghiệm cho thấ
y được tính đúng đắn của phương pháp và phương
pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây.
- 5 -
Mục lục
L
L
Ờ
Ờ
I
I
C
C
Ả
Ả
M
M
Ơ
Ơ
N
N 3
MỞ ĐẦU 8
CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC 10
1.1 Khái niệm thư rác 10
1.1.1 Thư rác là gì ? 10
1.1.2 Các đặc điểm của thư rác. 11
1.1.3 Phân loại thư rác 12
1.1.4 Những thiệt hại do thư rác gây ra 13
1.2 Các giải pháp cho vấn đề lọc thư rác 16
1.2.1 Ban hành các bộ luật chống thư rác 16
1.2.2 Các phương pháp lọc thư rác trước đây 16
CHƯƠNG 2: KIẾN THỨC CƠ SỞ 26
2.1 Mạng phức hợp (Complex Networks) 26
2.1.1 Độ dài đường dẫn trung bình 30
2.1.2 Độ phân cụm 31
2.1.3 Độ phân bố bậc 31
2.2 Các mô hình của mạng phức hợp 33
2.2.1 Mạng cặp thông thường (Regular coupled networks) 33
2.2.2 Đồ thị ngẫu nhiên (Random Graphs) 34
2.2.3 Các mô hình Small-world 36
2.2.4 Các mô hình Scale-free 39
2.3 Mạng xã hội (Social Networks) 41
2.4 Mạng thư điện tử (Email Networks) 43
2.4.1 Mạng thư điện tử scale-free. 43
2.4.2 Tính chất Small-world của mạng thư điện tử. 44
2.4.3 Mạng thư điện tử là mạng có hướng 46
2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48
2.4.5 Mạng thư điện tử khi bị spam tấn công 49
- 6 -
CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC
THƯ RÁC 50
3.2 Đề xuất phương pháp 51
3.3 Đặc điểm của phương pháp 53
CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55
4.1 Đặc điểm dữ liệu 55
4.2 Kết quả thực nghiệm và phân tích 57
4.3 Nhận xét 60
KếT LUậN 61
- 7 -
Bảng từ viết tắt
Từ hoặc cụm từ Viết tắt
Unsolicited Commercial Email UCE
Internet Service Provider ISP
Short Message Service SMS
Email Service Provider ESP
Realtime Black hole List RBL
Multiple Address Processing System MAPS
eXtensible Markup Language XML
Domain Name Server DNS
Sender Policy Framework SPF
- 8 -
MỞ ĐẦU
Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thư điện tử (Email)
đã trở thành một phần quan trọng trong đời sống và trong cả các hoạt động kinh doanh
thương mại. Thư điện tử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về
khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc. Chính những thuận tiện
trong trao đổi thư điện tử lạ
i tạo ra một số sơ hở để cho các loại thư không mong muốn
(thư rác: spam mail) hoạt động gây phiền toái cho người dùng. Trong một vài năm gần
đây, những thư điện tử không mong muốn như vậy phát triển và gây ra không ít thiệt
hại cho người dùng nói riêng và cho nền kinh tế - xã hội nói chung. Theo nhiều bản
thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thông trên toàn thế
gi
ới. Có không ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên
lạc, và điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng
như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên
lạc này.
Hiện nay, thư rác đang là một trong những vấ
n đề nhức nhối của xã hội.
Nhiều phương pháp, công cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các
công cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đó, nhiều
hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp
các phương pháp khác nhau, trong đó hướng tiế
p cận theo mạng xã hội là một trong
các hướng nổi bật nhất. Ý thức được điều này, hướng nghiên cứu về các phương pháp
lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên
gọi "Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác".
Khóa luận được tổ chức thành 4 chương nh
ư sau:
Chương 1 giới thiệu tổng quan về thư rác và một số hướng tiếp cận điển hình
trước đây trong việc lọc thư rác.
Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng
xã hội, mạng thư điện tử. Đây là cơ sở kiến thức để phát triển nội dung của khóa luận
trong các chương sau.
Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng
thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm của các địa chỉ
thư. Các nội dung đề xuất được trình bày chi tiết trong chương này.
- 9 -
Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email
tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân
cụm thấp có khả năng cao là địa chỉ thư rác .
Phần kết luận tổng kết các kết quả chủ yếu của khóa luận và phương hướng
nghiên cứu tiếp theo để phát triển, c
ải tiến phương pháp mạng thư điện tử được đề xuất.
Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong
được sự góp ý của thầy cô và các bạn.
- 10 -
Chương 1
T
T
Ổ
Ổ
N
N
G
G
Q
Q
U
U
A
A
N
N
V
V
Ề
Ề
T
T
H
H
Ư
Ư
R
R
Á
Á
C
C
Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng không thể
thiếu khi Internet và công nghệ mạng phát triển. Đây là điều mà thực tế đã
chứng minh qua những đóng góp của ứng dụng này trong nhiều lĩnh vực
như kinh doanh, thương mại, viễn thông và các dịch vụ cá nhân. Tuy nhiên
trong những năm gần đây, một hình thức mới của thư điện tử
đã xuất hiện
với số lượng lớn gây phiền hà cho người nhận và những thiệt hại không
nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về
khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta và
các phương pháp ngăn chặn thư rác.
1.1 Khái niệm thư rác
1.1.1 Thư rác là gì ?
Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của
người gửi, hoàn toàn không có sự liên hệ gì với người nhận.
Đứng trên quan điểm của người gửi, đó là một hình thức giửi thư theo số
lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn
đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng có
nhiều công ty mà công việc kinh doanh chính là nhận g
ửi thư rác cho khách hàng của
họ.
Về phía người nhận, đa phần các bức thư này không có giá trị và thật sự
không được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ
cụm junk email). Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại
sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited
Commercial Email).
Thư rác hiện nay thường có n
ội dung: quảng cáo thương mại và dịch vụ, quấy
nhiễu, phát tán virus và những nội dung không lành mạnh (khiêu dâm, chống phá
chính trị…).
[...]... chuẩn trong thời gian tới, trong đó sẽ có một số điều khoản quy định về thư rác được đưa ra xem xét 1.2.2 Các phương pháp lọc thư rác trước đây Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây Nhiều nhà khoa học và nhiều công trình nghiên cứu về phương pháp lọc thư rác đã được đầu tư và tiến hành từ khá lâu Để đánh giá hiệu quả của một công cụ lọc thư rác người ta thư ng... tố đó trong thư rác - Mức độ thư ng xuyên xuất hiện của từ tố đó trong thư bình thư ng - Số lượng thư rác mà bộ lọc đã được học - Số lượng thư bình thư ng bộ lọc đã được học Khi phân tích một thư rác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này có trong cơ sở dữ liệu từ đó tính được xác suất tổng hợp xem thư đó có phải là thư rác không Giá trị này thư ng... luật lọc thư bảo đảm tính an toàn trong mạng Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong công việc với trao đổi thư điện tử Nhược điểm: Thư ng yêu cầu nhiều tới sự duy trì và cầm có một người quản trị mạng có khả năng và kinh nghiệm để quản lý bộ lọc thư rác này Thư ng đắt hơn Phương pháp lọc dựa... tên gửi thư rác và những bộ lọc làm cho siêu bộ lọc thư rác của hôm nay có thể trở thành cái lỗi thời của ngày mai Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây - 25 - Chương 2 KIẾN THỨC CƠ SỞ Bản chất của việc lọc thư rác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để... gửi thư rác thư ng giả dạng địa chỉ của một người dùng bình thư ng trong một máy chủ email nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thư rác 1.1.3 Phân loại thư rác Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác thích hợp Có rất nhiều cách phân loại thư rác. .. 0 và False Negatives bằng 0 Điều này dường như là không thể Tất cả những công cụ lọc có giá trị ngày nay thư ng sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau: Phương pháp lọc theo từ khóa Phương pháp lọc thư rác theo từ khóa là một phương pháp truyền thống trong việc lọc thư rác Người ta dựa vào những từ hay cụm từ có trong đầu đề của thư (subject) và nội dung của thư. .. Giả mạo thư điện tử - là việc giả mạo địa chỉ thư điện tử của một công ty hoặc của một người khác để khiến người sử dụng tin tưởng và mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống thư rác hiện đang phải đối mặt Nếu không có sự thẩm định quyền, xác nhận và khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không... Tỷ lệ thư thường bị lọc nhầm thành thư rác - 16 - o False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thư ng không chấp nhận lỗi này Các công cụ lọc thư rác thư ng được tính toán sao cho độ đo False Positives và False Negatives là nhỏ nhất Tuy nhiên, lỗi False Positives có phần được yêu tiên hơn Một bộ lọc lý... phát tán thư rác - 12 - Tính tới thời điểm hiện tại, thư rác có thể bị gửi thông qua những hình thức thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger ) 2> Dựa vào quan hệ với người gửi thư rác Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người quen và các dịch... khỏi danh sách email nếu muốn Thêm vào đó, những công ty hoặc người gửi thư rác phải hiểu và nắm vững chính sách quản lý thư rác/ quảng cáo của mỗi ISP mà họ gặp phải Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thư điện tử trong bộ Luật Hình sự, nhưng chưa có luật quy định và nghiêm cấm các hình thức gửi thư rác Theo dự kiến, Pháp lệnh Thư ng mại điện tử và các dịch vụ liên quan đang được . hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên
gọi " ;Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác& quot;.
Khóa luận được tổ. của mạng thư điện tử. 44
2.4.3 Mạng thư điện tử là mạng có hướng 46
2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48
2.4.5 Mạng thư điện tử khi bị
Ngày đăng: 05/03/2014, 18:20
Xem thêm: LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx, LUẬN VĂN: NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC pptx