Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes

80 1.6K 17
Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes

Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Lời cảm ơn Trong suốt khóa học(2001 – 2006) tại trường Đại Học Thủy Lợi, với sự nỗ lực của bản thân và sự giúp đỡ của các thầy cô giáo trong trường đặc biệt là các thầy cô giáo trong khoa CNTT đã giúp tôi có một vốn tri thức vững vàng để hoàn thành đồ án tốt nghiệp. Trong thời gian làm đồ án, được sự giúp đỡ của giáo viên hướng dẫn về mọi mặt, từ nhiều phía tôi đã hoàn thành đồ án đúng thời gian qui định. Tôi xin chân thành cảm ơn đến: Các thầy cô giáo trong khoa CNTT đã giảng dạy cho tôi những kiến thức chuyên môn làm cơ sở để thực hiện tốt đồ án tốt nghiệp và tạo điều kiện cho tôi hoàn thành tốt khóa học. Xin cảm ơn Ths Nguyễn Thanh Tùng, KS Bùi Văn Huyến cùng trung tâm tin học trường Đại Học Thủy Lợi đã tạo điều kiện giúp đỡ tôi về trang thiết bị, máy tính làm phương tiện để tôi hoàn thành đồ án. Đặc biệt tôi xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Đăng Tộ, KS Nguyễn Mạnh Hiển là những người luôn theo sát chỉ bảo hướng đi và cho tôi những lời khuyên quí báu cũng như cung cấp các thông tin và căn cứ khoa học để tôi định hướng tốt trong khi làm đồ án tốt nghiệp. Xin cảm ơn gia đình, bạn bè đã giúp đỡ động viên tôi cả về vật chất lẫn tinh thần trong quá trình làm đồ án tốt nghiệp. Mặc dù đồ án đã được hoàn thành đúng thời gian qui định nhưng do điều kiện thời gian, đồ án của tôi không tránh khỏi những thiếu xót. Vì vậy tôi rất mong nhận được sự đóng góp kiến của các thầy cô và bạn bè tạo điều kiện cho đồ án của tôi được hoàn thiện hơn. Hà Nội tháng 5 năm 2006 Sinh viên thực hiện Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Mục Lục Mục Lục 2 Chương I: Mở đầu 4 1.1 Lí do chọn đồ án 4 1.2 Mục tiêu 4 1.3 Đối tượng nghiên cứu 5 1.4 Tổng quan về Email và sự cần thiết phải phân loại Email 5 1.4.1Giới thiệu về Email 5 1.4.2 Khái niệm về thư rác 6 1.4.3Sự cần thiết phải phân loại thư rác 7 1.4.4Phân loại thư rác 9 Chương II: Tổng quan về bài toán phân loại văn bản 11 2.1 Tổng quan về phân loại văn bản 11 2.1.1 Sự cần thiết phải phân loại văn bản 11 2.2.2 Định nghĩa phân loại văn bản 12 2.2 Tiến trình phân loại văn bản 12 2.3 Đặc trưng văn bản và cách lựa chọn các đặc trưng văn bản 14 2.3.1 Tần suất tài liệu 15 2.3.2 Lượng tin tương hỗ 15 2.4 Biểu diễn văn bản 16 2.4.1 Khái niệm về tần số từ 17 2.4.2 Khái niệm về tần suất tài liệu ngược 18 2.5 Các phương pháp phân loại văn bản 18 2.5.1 Nguyên mẫu 19 2.5.2 Các mô hình xác suất của Naive Bayes 20 2.5.3 Phương pháp SVM 20 2.5.4 Cây quyết định 20 2.5.5 Mạng neuron 21 2.6 Bài toán phân loại thư rác 21 Chương III: Thuật toán Naive Bayes và cách phân loại thư điện tử 24 3.1 Các công nghệ lọc thư rác hiện nay 24 3.2 Thuật toán phân loại văn bản Bayes 24 3.3 Quá trình hoạt động của bộ lọc thư rác Bayes 28 3.3.1 Tạo một cơ sở dữ liệu từ Bayes thích hợp 28 3.3.2 Tạo một cơ sở dữ liệu cho các thư hợp lệ 28 3.3.5 Tạo một cơ sở dữ liệu cho thư rác 29 Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 3.4 Sự hoạt động của các bộ lọc thư rác thực tế 30 3.5 Các ưu điểm của bộ lọc thư rác Bayes 30 3.6 Các bước để xây dựng bộ lọc thư rác sử dụng giải thuật Naive Bayes 32 3.6.1 Lựa chọn các đặc trưng 32 3.6.2 Biểu diễn các thư điện tử 35 3.6.4 Xác định ngưỡng 35 3.6.5 Thử nghiệm hệ thống lọc thư rác hiệu quả trong thực tế 36 Chương IV: Các giao thức truyền nhận thư và thư viện Javamail API 37 4.1 Giới thiệu SMTP: 37 4.2 Cách thức hoạt động của giao thức SMTP 37 4.3 Giới thiệu về các giao thức Mail POP3 và IMAP 39 4.3.1 POP3 39 4.3.2 IMAP4 40 4.4Quá trình chuyển nhận thư 44 4.4.1 Cấu trúc của thư điện tử 45 4.4.2 Mô hình gửi và nhận thư điện tử 47 4.4.3 Ví dụ về gửi nhận thư điện tử qua Internet bằng Mail Client 49 4.4Javamail và các các hỗ trợ gửi nhận thư điện tử 50 4.4.1 Tổng quan về ngôn ngữ java 50 4.4.2 Cấu trúc của môt Message 52 Chương V: Chương trình Email client và chức năng lọc thư rác tự động bằng giải thuật Naive Bayes 54 5.1 Cơ sở dữ liệu cho chương trình 55 5.1.1 Tài khoản người sử dụng 55 5.1.2 Bộ dữ liệu mẫu 55 59 5.3 Giao diện của hệ thống 60 4.3Một số chức năng tiêu biểu 68 5.5 Sử dụng chương trình 73 5.5.1 Cài đặt và chạy chương trình 73 5.5.2 Hướng dẫn sử dụng: 73 5.6 Kết luận và định hướng phát triển 74 5.6.1 Những kết quả đạt được 74 5.6.2 Những hạn chế 74 Định hướng phát triển 75 Phụ lục 76 Các thuật ngữ tiếng Anh dùng trong chương trình: 76 Thư mục và nội dung đĩa CD đính kèm: 77 Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Chương I: Mở đầu 1.1 Lí do chọn đồ án Ngày nay sự phát triển không ngừng của công nghệ thông tin, đặc biệt là sự ra đời của Internet đã đưa con người lên một tầm cao mới. Sự ra đời của các dịch vụ trên Internet làm cho nhu cầu trao đổi thông tin, tìm kiếm thông tin của con người được đáp ứng một cách tốt nhất và nhanh nhất. Có rất nhiều dịch vụ mới phát triển cùng công nghệ thông tin nhằm giúp công nghệ thông tin thân thiết với người dùng hơn. Một trong những dịch vụ góp phần không nhỏ vào việc giúp con người trao đổi thông tin một cách nhanh chóng đó là dịch vụ thư điện tử (electronic mail). Tốc độ phát triển của các dịch vụ thư điện tử ngày nay và những lợi ích mà nó mang lại cho chúng ta là rất lớn. Qua thư điện tử người dùng không chỉ nhận được thông tin mong muốn mà còn có thể nhận được âm thanh hình ảnh, đồ họa và cả những kho dữ liệu khổng lồ mà trước đây việc trao đổi thư từ qua tay không bao giờ có được. Tuy nhiên, thư điện tử không chỉ mang đến cho con người nhiều lợi ích mà còn rất nhiều tác hại vô bổ khác, có thể gây ra những thiệt hại to lớn nếu không biết cách loại bỏ và phòng chống nó. Một trong những vấn đề nghiêm trọng cần giải quyết hiện nay trong các thư điện tử đó là nạn thư rác hay còn gọi là “spam”. Đó là những thư từ quảng cáo, hay các thư điện tử mà nội dung của nó thường có hại cho người dùng. Qua quá trình thực tập được tìm hiểu về các phương pháp phân loại văn bản tôi chọn đồ án: “Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes”. Qua đồ án này, tôi cố gắng nắm bắt tốt phương pháp phân loại văn bản bằng thuật toán Naive Bayes và ứng dụng phương pháp này để phân loại thư rác trong Email Client. Hi vọng kết quả của đồ án này sẽ là một chương trình lọc thư rác có hiệu quả với các dịch vụ thư điện tử hiện nay. 1.2 Mục tiêu Sau khi thực hiện đồ án mục tiêu mà tôi cần đạt được là: - Nắm được cấu trúc của thư điện tử Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ - Nắm được quá trình gửi và nhận thư điện tử, các giao thức hỗ trợ việc gửi nhận thư điện tử. - Nắm được thuật toán phân loại văn bản Naive Bayes - Ứng dụng thuật toán Naive Bayes để phân loại Email - Xây dựng một Email Client với khả năng lọc thư rác tự động 1.3 Đối tượng nghiên cứu Để xây dựng một Email client với khả năng lọc thư rác tự động bằng phương pháp phân loại văn bản Naive Bayes thì đối tượng mà tôi cần tìm hiểu bao gồm các thành phần sau: - Nghiên cứu về thư điện tử và cách truyền nhận thư - Nghiên cứu về giao thức truyền tải thư đơn giản như SMTP(Simple Mail Transfer Protocol), các giao thức POP3 (Post Office Protocol) và IMAP4…. - Nghiên cứu các phương pháp phân loại văn bản được áp dụng phổ biến hiện nay. - Nghiên cứu về thuật toán phân loại văn bản Naive Bayes - Nghiên cứu về ngôn ngữ lập trình java (đặc biệt là JavaBean và JavaMail) - Ứng dụng giải thuật phân loại văn bản Naive Bayes vào phân loại thư điện tử 1.4 Tổng quan về Email và sự cần thiết phải phân loại Email 1.4.1 Giới thiệu về Email Thư điện tử, hay email (là chữ viết tắt của electronic mail), đôi khi được dịch là điện thư, đây là một hệ thống chuyển nhận thư từ qua các mạng máy tính. Email là một phương tiện thông tin rất nhanh. Một mẫu thông tin (thư từ) có thể được gửi đi ở dạng mã hoá hay dạng thông thường và được chuyển qua các mạng máy tính đặc biệt là mạng Internet. Nó có thể chuyển mẫu thông tin từ một máy nguồn tới một hay rất nhiều máy nhận trong cùng lúc. Ngày nay, thư điện tử chẳng những có thể truyền gửi được chữ, nó còn có thể truyền được các dạng thông tin khác như hình ảnh, âm thanh, phim, Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ và đặc biệt các phần mềm thư điện tử kiểu mới còn có thể hiển thị các thư điện tử dạng sống động tương thích với kiểu tệp HTML. Hai vấn nạn lớn nhất của thư điện tử hiện nay là: spam mail và virus email. - Spam mail: là thư điện tử do những hacker lấy được địa chỉ email của bạn thông qua những email trao đổi có kèm theo một danh sách địa chỉ email ở trong mục CC (Carbon copy) mỗi khi gởi trên Internet hoặc qua những trao đổi trong các forum hay news group. Các hacker này, sau khi đã thu thập những địa chỉ email và gộp chung thành một danh sách được dùng để bán lại hoặc dùng các danh sách email làm email marketing nhằm mục đích thương mại. - Virus email: là những thư điện tử do những người tinh nghịch phá hoại hoặc những kẻ muốn dùng virus để phá hoại một loạt những hệ thống computer nào đó với một mục đích xấu. Thông thường virus được gởi đến các địa chỉ email bạn qua các tài liệu gởi kèm (attached) và thường tấn công vào các chương trình soạn thảo văn bản như Microsoft Word. Nhưng một khi đã được mở ra, nó không dừng lại ở các tài liệu văn bản mà lan ra và hủy hoại nhiều chương trình và những ứng dụng khác, và cuối cùng là toàn bộ hệ thống computer. Nếu không được lưu trữ dự phòng các tài liệu quan trọng, hệ thống điện toán của bạn có thể bị mất toàn bộ những tài liệu và văn thư quan trọng đó và khó có thể cứu lại được. Hai vấn nạn này có mối liên hệ khăng khít với nhau. Qua việc phát tán spam những người gửi thư rác có thể phát tán virus gây thiệt hại cho máy tính và có khi còn làm cho cả hệ thống mạng ngừng hoạt động nếu không phát hiện và xử lí kịp thời. Vấn đề nghiêm trọng cần giải quyết hiện nay trong các thư điện tử đó là nạn thư rác hay còn gọi là “spam”. Đó là những thư từ quảng cáo, hay các thư điện tử mà nội dung của nó thường có hại cho người dùng. 1.4.2 Khái niệm về thư rác Thư rác hay còn gọi là spam mail là các thư điện tử vô bổ thường chứa các loại quảng cáo được gửi một cách vô tội vạ và chất lượng của loại thư này thường thấp. Đôi khi, nó dẫn dụ người nhẹ dạ, tìm cách đọc số thể tín dụng và các tin tức cá nhân của họ. Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Hình2: Spam mail: Các thư gửi từ Woodard, whonysald, tara crisp, serena555, Serena Mcclain, Santiago Ritchie, Pearl Mayers, nplroeom rrsi, Nina Garcia là các “Spam mail” Có thể nói thư rác là một hình thức “tra tấn người dùng thư điện tử” bằng quảng cáo. Các thư rác có thể vô hại nhưng mỗi ngày một người có thể vì các thư rác này mà bị đầy cả hộp thư (có người đã từng nhận cả trăm thư rác trong một ngày mà chỉ có đúng ba nội dung khác nhau!!!). Có thể chúng ta sẽ thắc mắc tại sao người ta lại lặp đi lặp lại một cái thư quảng cáo cả chục lần cho một người, cũng đơn giản là vì họ muốn dùng hiệu ứng tâm lí… Khi hình ảnh sản phẩm nào đó cứ đập vào mắt mình mãi thì đến lúc cần mua một thứ có chức năng tương tự (hay cùng loại) thì chính hình ảnh thương hiệu của cái thư rác sẽ hiện lên trong óc chúng ta trước tiên. Hoặc giả dụ đôi khi “lỡ tay” hay chỉ vì tò mò người đọc sẽ “click” vào cái link và thế là “lưới nhện đã giăng sẵn chỉ chờ con mồi ” Như vậy, theo định nghĩa thì các thư rác có thể có hại cho máy tính (hiểu theo nghĩa vật chất), đôi khi còn làm chúng ta bực mình khó chịu hoặc làm cho các thư từ khác (nhất là các thư gửi có nghĩa quan trọng) bị lẫn lộn trong một đống thư mà chủ yếu là các thư rác. Khiến cho việc tìm kiếm cũng mất thời gian và cũng có thể khi xoá thư rác lại xoá nhầm thư quan trọng. 1.4.3 Sự cần thiết phải phân loại thư rác Tốc độ phát triển của thư rác (Spam mail) Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Spam đang được coi là một vấn đề “lớn” trên mạng. Ferris Research - hãng nghiên cứu thị trường (San Francisco - Mỹ) ước tính rằng những người sử dụng email đã nhận được khoảng 110 bức thư không mong muốn hàng tuần. Theo báo cáo của Ủy ban thương mại liên bang (Federal Trade Commission - FTC), gần 40% số email được trao đổi ở Mỹ là spam, tăng từ con số 8% của thời điểm cuối năm 2001. Con số các “spam” gia tăng hàng ngày được nghiện cứu và thống kê là có hơn 50 % các thư điện tử được gửi là spam, Radicati Group dự đoán rằng con số này sẽ là 70% vào năm 2007. Tốc độ tăng trưởng của Spam được thống kê theo lược đồ sau: Hình 1.1 Tốc độ phát triển của spam từ 2001-2004 Sự bùng nổ của thư rác ở Việt Nam Bên cạnh virus, spyware, adware thì thư rác cũng trở thành một vấn đề vô cùng khó chịu với người sử dụng máy tính ở Việt Nam. Chỉ có 11% người được hỏi nói rằng họ không phải chịu sự quấy nhiễu của thư rác. Ngoài việc làm mất thời gian, gây khó chịu cho người sử dụng, thư rác đã trở thành vấn đề khó khăn thực sự với cả các hệ thống thư điện tử của các cơ quan/công ty ở Việt Nam. Thư rác có khi còn nhiều hơn thư thật. (Theo kết quả điều tra về tình hình an ninh mạng ở Việt Nam của TT ANM BKIS Đại Học Bách Khoa Hà Nội) Ngày nay, khi spam mail trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin … thì một chương trình anti-spam cho email là rất cần thiết. Chúng ta sẽ phải mất khá nhiều thời gian để xóa những email “không mời mà đến”, nếu vô ý còn có thể bị nhiễm virus, trojan, spyware … và nặng nề hơn là mất thông tin như thẻ tín dụng, tài khoản ngân hàng qua các email dạng phishing. Đối với người dùng khi “checkmail” mà Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ gặp phải thư rác sẽ gây ra một cảm giác khó chịu và làm tốn thời gian để xóa thư đôi khi còn gây ra những hậu quả nghiệm trọng hơn đối với những người dùng có tính tò mò… Vì vậy việc xây dựng một hệ thống lọc thư rác cá nhân tự động là rất cần thiết. 1.4.4 Phân loại thư rác Tổ chức hợp tác phát triển kinh tế OECD (Organization for Economic Co-operatation Development) khuyến nghị một số biện pháp đối phó với spam, trong đó có việc thông qua các chế tài pháp lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phản ứng nhanh liên kết các ISP (Internet service Provider) toàn cầu, đồng thời tăng cường các chiến dịch tuyên truyền cộng đồng về sự nguy hại và cách đối phó với thư rác. Hiện giải pháp được sử dụng nhiều nhất là dùng các phần mềm tích hợp với hệ thống thư hoạt động theo cơ chế “lọc theo nội dung” và “lọc theo danh sách website chuyển tiếp”. Một số công nghệ chống spam thú vị đang được nghiên cứu: 1. Tem cho e-mail: Theo hai nhà nghiên cứu Fahlman và Mark Wegman thuộc Trung tâm Nghiên cứu của IBM (International Business Machines) tại Watson, Mỹ, phương pháp chống spam hiệu quả nhất là yêu cầu những người không có tên trong danh sách “khách hàng thân thiết” của bạn phải mua tem cho mỗi email mà họ gửi cho bạn. Một chương trình sẽ được đặt nằm giữa máy chủ email và máy tính cá nhân của khách hàng để đối chiếu tên người gửi với danh sách khách hàng của bạn. Những kẻ gửi thư rác sẽ phải cân nhắc kỹ trước khi bấm “send” để gửi hàng loạt email. 2. Cài mật mã: Bạn gửi email thông báo cho tất cả mọi người với một đoạn mật mã đã được cài đặt sẵn trong email của bạn, và máy chủ email của ISP sẽ chỉ cho phép những email nào có đoạn mật mã này đi qua. 3. Khai báo thông tin: Một chương trình sẽ chặn email từ những người lạ, và yêu cầu cung cấp đầy đủ thông tin cá nhân trước khi chuyển email đến người nhận. 4. Lọc email qua nội dung: Một chương trình sẽ thu thập thông tin nằm trong phần nội dung của email để giúp cho các quản trị viên máy chủ email tách thư rác ra khỏi hệ thống. Phần mềm sẽ lướt qua toàn bộ Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ thông điệp để tìm kiếm những từ khóa có liên quan đến thư rác. Chẳng hạn nếu bạn không phải là một bác sĩ, những bức thư bạn mong nhận được ít có liên quan đến các vấn đề giới tính. Vì vậy, “viagra” có thể là một từ khóa lọc thư quan trọng. Các cơ chế lọc thư phức tạp hơn có thể lọc nguyên cả một đoạn mã lệnh đầu của thông điệp, những đoạn mã này bám theo suốt quá trình luân chuyển của email và cung cấp thông tin về chuyến đi đó. Nếu một site spam có tên trong lịch trình đó, phần mềm sẽ tự động chặn bức thông điệp lại. 5. Lọc theo danh sách website chuyển tiếp: Một công nghệ lọc khác dựa trên danh sách các site chuyển tiếp. Công nghệ lọc này kiểm tra và chặn các thông điệp được truyền tải qua những điểm chuyển tiếp mở rộng, tức là các hệ thống trên Internet cho phép người sử dụng dùng chúng như những điểm quá cảnh thư. Những kẻ tấn công bằng spam (spammer) thường xuyên sử dụng các điểm chuyển tiếp mở này để che dấu tung tích xuất xứ của mình. Trong nhiều trường hợp, tin tặc tận dụng các lỗ hổng bảo mật để “ra lệnh” cho các máy chủ chuyển tiếp làm công việc của spammer. Đối với các email cá nhân thì phương pháp lọc thư rác phổ biến hiện nay là “phân loại qua nội dung của các email” bằng việc ứng dụng các phương pháp phân loại văn bản. Phân loại email thực chất là phương pháp “phân loại văn bản hai lớp” dựa vào nội dung của các email được gửi đến. Trong đồ án này tôi xin trình bày một phương pháp phân loại văn bản khá phổ biến “Naive Bayes” và ứng dụng phương pháp này để phân loại các email cá nhân trong một Email Client. Khoa Công Nghệ Thông Tin [...]... tiến hành phân loại văn bản 2.2.2 Định nghĩa phân loại văn bản Có nhiều cách định nghĩa khác nhau về phân loại văn bản nhưng nói một cách ngắn gọn dễ hiểu: Phân loại văn bản là sự phân loại không cấu trúc các tài liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã được định nghĩa trước Quá trình này thư ng được thực thi bằng một hệ thống tự động gán cho các tài liệu văn bản một loại nào... gian Các bộ lọc thư rác mới hiện nay thư ng áp dụng thuật toán Bayes đem lại hiệu quả cao và được cải tiến thành máy lọc thư rác Naive Bayes (Naive Bayes filter) 3.2 Thuật toán phân loại văn bản Bayes Như đã trình bày ở chương 2 Naive Bayes do những giả thuyết nới lỏng phụ thuộc thống kê, coi các từ xuất hiện trong một văn bản là độc lập thống kê Cơ sở của phương pháp phân loại văn bản Naive Bayes là... địa chỉ của các thư rác Phương pháp này so sánh các thư điện tử mẫu với các thư điện tử nhận được sau đó tìm ra những thư rác thông dụng Và một công nghệ khác có thể là phổ biến ngày nay đó là sử dụng công nghệ học máy để phân loại thư điện tử Để có hiệu quả trong việc lọc thư rác các công nghệ mới cần có một khả năng thích ứng Phương pháp này phải thật thân thuộc với những người tạo thư rác và các thủ... cấu trúc module hoạt động trong các mức ưu tiên nhỏ hơn Chọn đặc trưng 1 Tập dữ liệu mẫu Tiền xử lí Học một bộ phân loại Phân loại Chọn đặc trưng k Hình vẽ 2.2 Các bước trong tiến trình phân loại văn bản: - Lựa chọn các đặc trưng văn bản - Biểu diễn văn bản - Học một bộ phân loại văn bản - Tiến hành phân loại văn bản Trong đó, lựa chọn đặc trưng văn bản là quá trình phân tích văn bản thành các từ hay... một thư rác Nhưng ngược lại nó sẽ không chỉ ra nó như là thư rác nếu công ty là một cơ quan tài chính được thành lập bẳng tiền thế chấp (mortgage) Máy lọc thư rác sử dụng thuật toán Naive Bayes cung cấp một chức năng lọc thư tự rác tự động Trên cơ sở sử dụng các xác suất gần đúng để tính toán các khả năng một thư điện tử có thể là thư rác hay không Sự tính toán này là quá trình tìm kiếm các từ thư ng... ứng dụng quan trọng nhất của phân loại văn bản là giới hạn phạm vi tìm kiếm thông tin (bởi thay cho việc phải lục soát tất cả các tài liệu họ chỉ tập trung vào một số loại văn bản có liên quan đến thông tin mà họ cần tìm kiếm) Phân loại văn bản góp phần quan trọng trong việc tổ chức thông tin và quản lí tài liệu Ứng dụng phổ biến nhất của phân loại văn bản là trợ giúp cho việc tìm kiếm và lọc văn bản. .. Mặc dù Naive Bayes khá đơn giản nhưng nó có khả năng phân loại tốt hơn rất nhiều phương pháp phân hoạch phức tạp khác Với mỗi loại văn bản, thuật toán Naive Bayes tính cho mỗi lớp văn bản một xác suất mà tài liệu cần phân hoạch có thể thuộc loại đó Tài liệu đó sẽ được gán cho lớp văn bản nào có xác suất cao nhất Chi tiết về thuật toán Naive Bayes sẽ được trình bày kĩ ở chương 3 2.5.3 Phương pháp SVM... của RED * Khả năng X thuộc RED = 20 3 3 * = 60 20 60 cuối cùng chúng ta phân loại X vào RED vì nó là đạt xác suất hậu nghiệm lớn nhất Việc phân loại ở ví dụ trên thuộc về trực giác khi sử dụng Naive Bayes Nhưng phân hoạch Naive Bayes có thể vận dụng một số các tuỳ biến phụ thuộc Tóm lại phân loại văn bản sử dụng thuật toán Naive Bayes có thể diễn đạt một cách ngắn gọn như sau: Với mỗi văn bản D (document),... 3.3.5 Tạo một cơ sở dữ liệu cho thư rác Ngoài các thư hợp lệ “ham” bộ lọc Bayes cũng dựa trên một file dữ liệu thư rác File dữ liệu thư rác này phải bao gồm một mẫu lớn để hiểu về thư rác và phải luôn luôn được cập nhật với những thư rác gần đây nhất Điều này sẽ chắc chắn rằng bộ lọc Bayes có khả năng nhận biết được các thủ thuật của những thư rác gần đây nhất và đem lại một tỉ lệ tìm kiếm thư rác là... tử 3.1 Các công nghệ lọc thư rác hiện nay Ngày nay có rất nhiều công nghệ lọc thư rác Nó dựa trên các đặc trưng cơ bản của thư điện tử như: tiêu đề của thư rác, địa chỉ nơi gửi và nhận thư rác hay các cụm từ thư ng hay sử dụng trong các thư rác Phần tiêu đề và phần thân được xem xét là quan trọng đối với những người tạo ra các thư rác đó Thêm một phương pháp dùng để phân loại thư rác mà không cần biết . toán phân loại văn bản Naive Bayes - Ứng dụng thuật toán Naive Bayes để phân loại Email - Xây dựng một Email Client với khả năng lọc thư rác tự động 1.3 Đối tượng nghiên cứu Để xây dựng một Email. việc ứng dụng phương pháp phân loại văn bản Naive Bayes . Qua đồ án này, tôi cố gắng nắm bắt tốt phương pháp phân loại văn bản bằng thuật toán Naive Bayes và ứng dụng phương pháp này để phân loại thư. thư ng có hại cho người dùng. Qua quá trình thực tập được tìm hiểu về các phương pháp phân loại văn bản tôi chọn đồ án: Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng

Ngày đăng: 15/07/2015, 15:14

Từ khóa liên quan

Mục lục

  • Mục Lục

  • Chương I: Mở đầu

  • 1.1 Lí do chọn đồ án

  • 1.2 Mục tiêu

  • 1.3 Đối tượng nghiên cứu

  • 1.4 Tổng quan về Email và sự cần thiết phải phân loại Email

    • 1.4.1 Giới thiệu về Email

    • 1.4.2 Khái niệm về thư rác

    • 1.4.3 Sự cần thiết phải phân loại thư rác

    • 1.4.4 Phân loại thư rác

    • Chương II: Tổng quan về bài toán phân loại văn bản

    • 2.1 Tổng quan về phân loại văn bản

      • 2.1.1 Sự cần thiết phải phân loại văn bản

      • 2.2.2 Định nghĩa phân loại văn bản

      • 2.2 Tiến trình phân loại văn bản

      • 2.3 Đặc trưng văn bản và cách lựa chọn các đặc trưng văn bản

        • 2.3.1 Tần suất tài liệu

        • 2.3.2 Lượng tin tương hỗ

        • 2.4 Biểu diễn văn bản

          • 2.4.1 Khái niệm về tần số từ

          • 2.4.2 Khái niệm về tần suất tài liệu ngược

          • 2.5 Các phương pháp phân loại văn bản

            • 2.5.1 Nguyên mẫu

            • 2.5.2 Các mô hình xác suất của Naive Bayes

            • 2.5.3 Phương pháp SVM

Tài liệu cùng người dùng

Tài liệu liên quan