Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

106 513 0
Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 A萎I H窺C QU渦C GIA TP. H唄 CHÍ MINH TR姶云NG A萎I H窺C KHOA H窺C T衛 NHIÊN KHOA CÔNG NGH烏 THÔNG TIN D浦 MÔN H烏 TH渦NG THÔNG TIN LÊ NGUYN BÁ DUY –TRN MINH TRÍ TÌM HI韻U CÁC H姶閏NG TI蔭P C一N PHÂN LO萎I EMAIL VÀ XÂY D衛NG PH井N M陰M MAIL CLIENT J姥 TR営 TI蔭NG VI烏T KHOÁ LU一N C盈 NHÂN TIN H窺C TP. HCM, N;M 2005 2 A萎I H窺C QU渦C GIA TP. H唄 CHÍ MINH TR姶云NG A萎I H窺C KHOA H窺C T衛 NHIÊN KHOA CÔNG NGH烏 THÔNG TIN D浦 MÔN H烏 TH渦NG THÔNG TIN LÊ NGUY右N BÁ DUY -0112050 TR井N MINH TRÍ -0112330 TÌM HI韻U CÁC H姶閏NG TI蔭P C一N PHÂN LO萎I EMAIL VÀ XÂY D衛NG PH井N M陰M MAIL CLIENT J姥 TR営 TI蔭NG VI烏T KHOÁ LU一N C盈 NHÂN TIN H窺C GIÁO VIÊN H姶閏NG D郁N TH井Y LÊ A永C DUY NHÂN NI ÊN KHÓA 2001-2005 3 N云I C謂M 愛N Trc tiên, chúng tôi xin chân thành cm n thy Lê c Duy Nhân, ngi ã hng dn chúng tôi thc hin  tài này. Nh có s hng dn, ch bo tn tình ca thy, chúng tôi ã hoàn thành khoá lun này. Chúng con xin kính gi lòng bit n, kính trng ca chúng con n ông bà, cha m và các ngi thân trong gia ình ã ht lòng nuôi chúng con n hc, luôn luôn  bên chúng con,ng viên giúp  chúng con vt qua khó khn Chúng em xin cm n tt c các thy cô trng i hc Khoa Hc T Nhiên, c bit là các thy cô trong khoa Công Ngh Thông Tin ã ht lòng ging dy, truyn t nhiu kin thc và kinh nghim quý báu cho chúng em. Chúng em cng xin chân thành cm n khoa Công Ngh Thông Tin, b môn H Thng Thông Tin ã to mi u kin thun li trong quá trình thc hin khoá lun ca chúng em. Chúng tôi xin chân thành cm n bn bè trong lp cng nh các anh chi trc ã giúp , óng góp ý kin cho chúng tôi. Vi thi gian nghiên cu ngn, trong vòng 6 tháng và nng lc ca nhng ngi làm  tài, chc chn  tài còn có nhiu thiu sót. Chúng tôi rt mong nhn c nhng góp ý, nhn xét  tài c hoàn thin hn. Thành ph H Chí Minh Tháng 7 nm 2005 Nhng ngi thc hin: Lê Nguyn Bá Duy – Trn Minh Trí. 4 v Mc lc: Ch逢挨ng 1 : M雲"A井U 9 1.1 Gii thiu: 10 1. 2 Yêu c u bài t oán: 12 1.3 B cc khoá lun : 12 Ch逢挨ng 2 : T蔚NG QUAN 14 2.1 Các cách thc con ngi x vi spam : 15 2.2 Các phng pháp tip cn: 16 2.2.1 Complaining to Spammers' ISPs : 16 2. 2.2 Ma il Bl ackl i sts /Whit el ists: 16 2.2.3 Mail volume : 18 2. 2.4 Sign ature/ Checksum schemes: . 19 2.2.5 Genetic Algorithms: 20 2.2.6 Ru le-Based (hay là Heuristic): 21 2.2.7 Challenge-Response: 22 2.2.8 Machine Learning ( Máy hc ): 23 2.3 Phng pháp la chn : 24 2.4 Các ch sánh giá hiu qu phân loi email : 24 2.4.1 Spam Recall và Spam Precision: 24 2.4.2 T l li Err (Error) và t l chính xác Acc(Accuracy) : 25 2.4.3 T l li gia trng WErr (Weighted Error ) và t l chính xác gia trng (Weighted Accuracy): 25 2.4.4 T s chi phí tng hp TCR (Total Cost Ratio ): 26 Ch逢挨ng 3 : GI閏I THI烏U CÁC KHO NG頴 LI烏U DÙNG KI韻M TH盈 PHÂN LO萎I EMAIL 28 3.1 Kho ng liu PU (corpus PU ): 29 3.1.1 Vài nét v kho ng liu PU: 29 3.1.2 Mô t cu trúc kho ng liu PU: 30 3.2 Kho ng liu email ch: 31 Ch逢挨ng 4 : PH姶愛NG PHÁP PHÂN LO萎I NAÏVE BAYESIAN VÀ 永NG D影NG PHÂN LO萎I EMAIL 33 4.1 Mt vài khái nim xác sut có liên quan 34 4.1.1 nh ngha bin c, xác sut : 34 4.1.2 Xác sut có u kin, công thc xác sut y  – công thc xác sut Bayes35 4.2 Phng pháp phân loi Naïve Bayesian : 36 4.3 Phân loi email bng phng pháp Naïve Bayesian : 37 4.3.1 Phân loi email da trên thut toán Naïve Bayesian 38 4.3.2 Chn ngng phân loi email : 39 Ch逢挨ng 5 : TH衛C HI烏N VÀ KI韻M TH盈 PHÂN LO萎I EMAIL D衛A TRÊN PH姶愛NG PHÁP PHÂN LO萎I NAÏVE BAYESIAN 41 5.1 Cài t chng trình phân loi email da trên phng pháp phân loi Naïve Bayesian: 42 5.1.1 Khái nim “Token” : 42 5.1.2 Vector thuc tính : 42 5.1.3 Chn ngng phân loi : 43 5.1.4 Cách thc hin :. 43 5 5.2 Th nghim hiu qu phân loi 51 5.2.1 Th nghim vi kho ng liu pu: 51 5.2.2 Th nghim vi kho ng liu email ch : 60 5.3 u – nhc m ca phng pháp phân loi Naïve Bayesian: 61 5.3.1 u m : 61 5.3.2 Khuyt m : 62 Ch逢挨ng 6 : PH姶愛NG PHÁP ADABOOST VÀ 永NG D影NG PHÂN LO萎I EMAIL 63 6.1 Thut toán AdaBoost : 64 6.2 AdaBoost trong phân loi vn bn nhiu lp : 65 Thut toán AdaBoost MH phân loi vn bn nhiu lp : 66 6.3 ng dng AdaBoost trong phân loi email: 66 6.3.1 Thut toán AdaBoost.MH trong trung hp phân loi nh phân 67 Gii hn li hun luyn sai : 68 6.3.2 Phng pháp la chn lut yu : 70 Ch逢挨ng 7 : TH衛C HI烏N VÀ KI韻M TH盈 PHÂN LO萎I EMAIL D衛A TRÊN PH姶愛NG PHÁP ADABOOST 73 7.1 Cài t b phân loi email da trên phng pháp AdaBoost: 74 7.1.1 Tp hun luyn mu và tp nhãn : 74 7.1.2 Xây dng tp lut yu ban u : 75 7.1.3 Th tc WeakLearner chn lut yu: 76 7.1.4 Phân loi email : 76 7.2 Th nghim hiu qu phân loi : 76 7.2.1 Th nghim vi kho ng liu pu: 76 7.2.2 Th nghim vi kho ng liu email ch: 79 7.3 u – nhc m ca phng pháp phân loi AdaBoost: 80 7.3.1 u m : 80 7.3.2 Khuyt m : 80 Ch逢挨ng 8 : XÂY D衛NG CH姶愛NG TRÌNH MAIL CLIENT TI蔭NG VI烏T H姥 TR営 PHÂN LO萎I EMAIL 82 8.1 Chc nng: 83 8.2 Xây dng b lc email spam : 83 8.3 T chc d liu cho chng trình : 84 8.4 Giao d in ngi dùng : 85 8.4.1 S màn hình : 85 8.4.2 Mt s màn hình chính : 85 Ch逢挨ng 9 : T蔚NG K蔭T VÀ H姶閏NG PHÁT TRI韻N 94 9.1 Các vic ã thc hin c : 95 9.2 Hng ci tin, m rng : 95 9.2.1 V phân loi và lc email spam: 95 9.2.2 V chng trình Mail Client: 96 TÀI LI烏U THAM KH謂O 97 Ting Vit : 97 Ting Anh : 97 Ph映 l映c 99 6 Ph映 l映c 1 : K院t qu違 th穎 nghi羽m phân lo衣i email b茨ng ph逢挨ng pháp Bayesian v噂i kho ng英 li羽u h丑c và ki吋m th穎 pu 99 Ph映 l映c 2 : K院t qu違 th穎 nghi羽m phân lo衣i email b茨ng ph逢挨ng pháp AdaBoost v噂i kho ng英 li羽u h丑c và ki吋m th穎 pu 103 1. K院t qu違 th詠c hi羽n v噂i thu壱t toán AdaBoost with real value predictions 103 2. K院t qu違 th詠c hi羽n v噂i thu壱t toán AdaBoost with discrete predictions 105 7 Danh mc các hình v: Hình 3-1Email sau khi tách token và mã hoá (trong kho ng liu pu) 29 Hình 5-1Mô t cu trúc bng bm 48 Hình 5-2 Lc  so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9 λ= ) 53 Hình 5-3 Lc  ch s TCR theo s token th nghim trên kho ng liu PU1 vi công thc 5-7 ( 9 λ= ) 53 Hình 5-4 Lc  so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9 λ= ) 55 Hình 5-5 Lc  ch s TCR theo s token th nghim trên kho ng liu PU2 vi công thc 5-5 ( 9 λ= ) 55 Hình 5-6 Lc  so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9 λ= ) 57 Hình 5-7 Lc  ch s TCR theo s token th nghim trên kho ng liu PU3 vi công thc 5-6 ( 9 λ= ) 57 Hình 5-8 Lc  so sánh các ch s spam recall (SR) và spam precision (SP) theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9 λ= ) 59 Hình 5-9 Lc  ch s TCR theo s token th nghim trên kho ng liu PUA vi công thc 5-5 ( 9 λ= ) 59 8 Danh mc các bng: Bng 3-1Mô t cu trúc kho ng liu PU 31 Bng 5-1 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU1 52 Bng 5-2 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU2 54 Bng 5-3 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PU3 56 Bng 5-4 Kt qu kim th phân lai email bng phng pháp phân lai Naïve Bayesian trên kho ng liu PUA 58 Bng 5-5 Kt qu kim th phân lai email bng phng pháp phân lai Bayesian trên kho ng liu email ch 61 Bng 7-1 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with real -value predictions 77 Bng 7-2 Kt qu th nghim phân loi email vi ng liu s PU bng thut toán AdaBoost with discrete predictions 77 Bng 7-3 kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with real-value predictions 79 Bng 7-4 Kt qu th nghim phân loi email vi ng liu email ch bng thut toán AdaBoost with discrete predictions 80 9 Ch逢挨ng 1 : M雲"A井U 10 1.1 Gi噂i thi羽u: Thi i ngày nay là thi i bùng n thông tin, Internet ã tr nên quen thuc và không th thiu i vi mi quc gia và xã hi. Liên lc qua Internet ã tr nên ph bin, và email là mt phng tin liên lc có chi phí thp, nhanh chóng và hiu qu nht trên Internet. Hng ngày mi ngi s dng email u nhn c mt ng ln email, tuy nhiên không phi tt c các email mà ta nhn c u cha thông tin mà ta quan tâm. Nhng email mà ta không mun nhn y là email Spam. Ngc li, nhng email không phi là spam gi là non-spam – email hp lc ngidùng chp nhn. Spam chính là nhng email c phát tán mt cách rng rãi không theo bt c mt yêu cu nào ca ngi nhn vi s lng ln (unsolicited bulk email (UBE)), hay nhng email qung cáo c gi mà không có yêu cu ca ngi nhn (unsolicited commercial email (UCE)) [1]. Nhiu ngi trong chúng ta ngh rng spam là mt vn  mi, nhng thc ra nó ã xut hin khá lâu – ít nht là t nm 1975. Vào lúc khi thy, ngi dùng hu ht là các chuyên gia v máy tính, h có th gi hàng tá thm chí hàng trm email n các nhóm tin (newsgroup) và spam hu nh ch liên quan n các email gi n các nhóm tin Usenet, gây ra tình trng không th kim soát c các email nhn. Sau ó các bin pháp trng tr v mt xã hi và hành chính ã có tác dng, th phm ã b trng pht , công khai hay bí mt, nhng ngi này nhanh chóng c a vào mt danh sách, và mt k thut lc spam sm nht xut hin ó là ”bad sender” – lc email ca nhng ngi gi c xem là xu. WWW(World-Wide Web) ã mang th gii Internet n nhiu ngi, và h qu ca nó là nhiu ngi không phi là chuyên gia trong th gii máy tính cng c tip xúc nhiu vi Internet, nó cho phép truy cp n nhng thông tin và dch v mà trc ây là không c phép. Ch trong vòng 2-3 nm chúng ta ã chng kin s bùng n s ngi s dng Internet và tt nhiên là nhng c hi qung cáo trên y. Và spam ã phát trin mt cách nhanh chóng tây, nhng k thut ngn [...]... nng email 6951 31 Chỳng tụi tin hnh x v phõn lai email : lai b nhng email cú tp tin 8ớnh kốm, phõn loi email html v email v . lc ca nhng ngi làm  tài, chc chn  tài còn có nhiu thiu sót. Chúng tôi rt mong nhn c nhng góp ý, nhn xét  tài c hoàn thin hn. Thành. theo, chúng tôi trình bày c s lý thuyt và thc hin phân loi email theo phng pháp Bayesian. § Chng 4: Trình bày c s lý thuyt cho hng tip cn

Ngày đăng: 16/02/2014, 09:20

Hình ảnh liên quan

Hình 5-1Mơ t違 c医u trúc b違ng b<m - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

1Mơ t違 c医u trúc b違ng b<m Xem tại trang 48 của tài liệu.
Hình 5-3 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i cơng th泳c 5-7 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

3 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i cơng th泳c 5-7 ( λ =9) Xem tại trang 53 của tài liệu.
Hình 5-2 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u  PU1 v噂i cơng th泳c 5-7 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

2 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU1 v噂i cơng th泳c 5-7 ( λ =9) Xem tại trang 53 của tài liệu.
Hình 5-4 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi 羽m trên kho ng英 li羽u PU2 v噂i cơng th泳c 5-5 (λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

4 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi 羽m trên kho ng英 li羽u PU2 v噂i cơng th泳c 5-5 (λ =9) Xem tại trang 55 của tài liệu.
Hình 5-5 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU2 v噂i cơng th泳c 5-5 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

5 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU2 v噂i cơng th泳c 5-5 ( λ =9) Xem tại trang 55 của tài liệu.
Hình 5-6 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i cơng th泳c 5-6 (λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

6 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i cơng th泳c 5-6 (λ =9) Xem tại trang 57 của tài liệu.
Hình 5-7 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i cơng th泳c 5-6 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

7 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PU3 v噂i cơng th泳c 5-6 ( λ =9) Xem tại trang 57 của tài liệu.
Hình 5-8 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i cơng th泳c 5-5 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

8 L逢嬰c 8欝 so sánh các ch雨 s嘘 spam recall (SR) và spam precision (SP) theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i cơng th泳c 5-5 ( λ =9) Xem tại trang 59 của tài liệu.
Hình 5-9 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i cơng th泳c 5-5 ( λ =9) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 5.

9 L逢嬰c 8欝 ch雨 s嘘 TCR theo s嘘 token th穎 nghi羽m trên kho ng英 li羽u PUA v噂i cơng th泳c 5-5 ( λ =9) Xem tại trang 59 của tài liệu.
Hình 6-1 Mơ t違 thu壱t tốn AdaBoost - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 6.

1 Mơ t違 thu壱t tốn AdaBoost Xem tại trang 64 của tài liệu.
Hình 6-2 Mơ t違 thu壱t tốn AdaBoost MH phân lo衣i v<n b違n nhi隠u l噂p - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 6.

2 Mơ t違 thu壱t tốn AdaBoost MH phân lo衣i v<n b違n nhi隠u l噂p Xem tại trang 66 của tài liệu.
Hình 6-3 Mơ t違 thu壱t tốn AdaBoost.MH phân lo衣i nh鵜 phân - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 6.

3 Mơ t違 thu壱t tốn AdaBoost.MH phân lo衣i nh鵜 phân Xem tại trang 68 của tài liệu.
Hình 7-1 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) the oT (thu壱t tĩan AdaBoost.MH with discrete predictions) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 7.

1 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) the oT (thu壱t tĩan AdaBoost.MH with discrete predictions) Xem tại trang 78 của tài liệu.
Hình 7-2 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) the oT (thu壱t tĩan AdaBoost MH with real value predictions ) - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 7.

2 A欝 th鵜 bi吋u di宇n s詠 bi院n thiên c栄a spam recall (SR) và spam precision (SP) the oT (thu壱t tĩan AdaBoost MH with real value predictions ) Xem tại trang 78 của tài liệu.
Hình 8-1:S挨"8欝 màn hình c栄a ch逢挨ng trình - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 8.

1:S挨"8欝 màn hình c栄a ch逢挨ng trình Xem tại trang 85 của tài liệu.
Hình 8-2 Màn hình chính c栄a ch逢挨ng trình MailClient - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 8.

2 Màn hình chính c栄a ch逢挨ng trình MailClient Xem tại trang 86 của tài liệu.
Hình 8-3 Màn hình "A丑c email" - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 8.

3 Màn hình "A丑c email" Xem tại trang 89 của tài liệu.
Hình 8-4 Màn hình g荏i email - Tài liệu Luận văn: thiết kế hệ thống, hệ thống quản lý doc

Hình 8.

4 Màn hình g荏i email Xem tại trang 91 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan