báo cáo môn môn xử lý ngôn ngữ tự nhiên

Mục lục  Chương 1 : Mở đầu   !"#$%"&'()! $$)*+,-)./)-,0/ '12$%*3456$78*9$*9#$ )0/0:$$8*97;$<$' =>$$$"8/$?)$'=*9>$ )03)$@AB3)$C$9),*9*5/)8' ?)$.>$*9)::$:A/; $DAE*8#3"*9#F3A5$FGHIJJ >$0:A*94$-DE*8F3A5 A$$$FGKIJJ =7*ALM23)$$/7$#*N- &/,:<C./OP$QRST'UALE*5D!: 7$:.@- :8$.P$$!:-$ FV3A)J3)$D*W!:$:-$G3 <X  $3A:*9:$8'?-:,):)O Y7$Z&.-:56E)$YO) .$8>*-*9*A$53:$M8@ 3)$3#$/&/,-[535\B@$E>**9&$ &/ ]]]F]A5B]5]J$!#!7*,0 E-7*)0A!#$:.^*9!)&L 7#-A)_)8)!>5Y6$*#< *9)_)'KWA`aBbP$L;!3N3"*34 56/$:-O<>M8PZ3)$ *#<`.9)'?)$*A3>0:A*+$ _A_A:F>$0:A*+$*9$-DJ '?)$<:!*3456"*7 'U#*3456$3)$<A@0$:N$/7  &-L@- Y$/>$@WX&-D$" $&*+3"EFHAJ^Y3)$A8$ X3"*93)$*9 $N#'A"Ecd=  $P$aeef$%-A0fg$3)$*9):: feh*9$$3)$D<A3"Teh'KA5*985,  iEjF)$JV3)$$9 8'A3"Qeeeee$3)$)::WD$$-)0j-  k)).D* l PZ3)$7A@:;::<; ): >M8)<A@$:3)$$C> *A3)$)::L^X$$@:*9:@'K !>:3)$$>*"3)$m`!)5n5* *-j!'N!A/D-$)*+):)6" 3)$>,/D!'  Chương 2 : Tổng quan 2.1 Các cách thức con người xử lý với spam !#-7;): 7:;:  0!/73)$'K-7,"*9&<5N3o$[53:\ FH3J;:$7$O-3)$*9A)::5M: $!O:$7AAY-FAAJ'p3",P;A 5E$F>**+FqA$J7F3rJsJAt> $-YW&/):O>3)$$F*)::3)$J'U,": X$!$A5E$>5/!A/-3NjE3)$ u$-:75/3">:*9!A7$:/X *s :3)$$X!:M85 "3)$ ^)0*90!.>0!L:3)$$ $+sv!0*,:$3)$D*"#$ $*'$3)$-$7A0 /E-'H0/-.$60:A30)w$5Y6'=-+3 A)*+):)@$5N5FA35xJ'A-L "k):,:>0:AF33B)JXLy!: W3"E$u*-AD&/,>[e&&&z\s{ p7@D)0<k!@3)$::)00@ 3'=!$@O"8D!:$4!AZ:5/$$8 3N@A-3)$X7-`,+0,8/0$3)$*9 4!'=*9!-:7$3)$*9*9@X|@A ,0:);*9DE*3456'  2.2 Các phương pháp tiếp cận 2.2.1 Complaining to Spammers' ISPs : Ý tưởng: X$:$P).43)$E:3)$$2>)7 )0:!:+/)5Y}6$F?~A5B?~J'vL !.&:>$3)$N3N*94!O5Y6?~A3•)0 :#5Y6-5Y63•O"/)5Y6A:3)$$5 43)$' Đặc điểm : l<^0):)"3)$D'=>)7^-: 56E-'=>+43)$3•Y,--:3)$$)0Py $A0$##/)5Y6?~ - !)6):::$3)$ E$X'dD5D, +/)5Y63•$:3)$$"7). L):,3#$X).E:3)$$P7  K:^Z))0>-P- !.&:> $3)$N3N!O<5A:3)$$_A_A/)D5 E$ wj"'dA-D)0 !75E$  | $3)$83N!<' 2 2.2.Mail Blacklists /Whitelists Ý tưởng : p53:FH3J:YW$:$:E$F$3J 5E:3)$$3•*9!8)5NA-- PZ$ 3)$*9)<:O>+' U,!8)53::YW$$:E4$3•5A$ -$X,&:8'p3"/)5Y6$?~3•553:  NO"8$O>$:E$A53:-' =*8>$3)$3•*9)<AZ$:E8$' Đặc điểm : ~*+):)*#DA*9A0Teh$3)$  v! $E)*+):)L *+D#+$4 3"3$3)$3456,'U!&:853:,5 -jM#,t$*9#$9),' ~*+):)- Y$Z!*:3)$$4$ $$:E?p~F?$)$3q~AAAJ-j"9)):)  A53:[H3\' =A53:WO"8$O:YW~F ~AAAJO>+543)$$-`O"0>$$ -$72$A53:[H3\' K:*9:)56$;/)5Y6$F?~J8>56 #*5!@3456$?~:8' =*9#,!8)$53:[H3\`- !8) $53:[]3\'U#>YW4$FAZ$75A$3J2$ A53:3•*9:?~N/)8$4O-'pZY/0 >$:3•YO"' =!:3)$$4$3)$#)D[35\E$-$7 *9/)8A[]3\X$3)$m- !*9*8' 2.2.3.Mail volume Ý tưởng : H@3•;568A:  $3*9$8*9O$$:E FA3J6 A:D!"3F:*9@?)$35Ev 3456=!3"*9$8*9#+$*€A-X:$-3• *9)<A3)$J Đặc điểm : H@t,0A,)<AL/0:$9),A7 ,#$*€)<AEA'=!@*93456A:<q-A /,0'K- &$<$* $E@X#$:<X >i4$0:A)0!8)7!"+ 4$3"*9$ "'l7$A:$0:A-5n5Y):,5N, )<.3"*9$' pZ!E@W,/)8)<A3•‚ƒFq3) JE-`:A' •‚ƒ„  …?"$3)$$@8AB3)$e …?"$3)$N3N!@ 2.2.4.Genetic Algorithms Ý tưởng : H@5N8A:57F†‚A$3J3456:8 5Z*Fq5A3J  $A$%$'N!>q 5A3$8):8*9&<5N5N:,$- F$)3J:)56A$%$ 7$:Y3" 8A:57*9 5n><F3J*9!9)# $8)/,#$$.9)x33qA' K+!!-FIAA$3$JE8A:…8A:N, A:+0)_)A33A!$A'p6.!X X$*9$:Y3At/5N$x33qA'†:Y3A3-3• *93456 )<A$3)$AB3)$ Đặc điểm : l<*#!)8)<A$5N5'1*#!)8, 0/A@$;?~*9::5N8A:57† ‚A$3 l $89E8A:57`t0P&4y)0# 1*#!)8*9;56AX@3)$?)$3333'=-A 5/,0$;?~*97*::$A>@ A,0/$;?~ l $!EX@?)$3333A#,0*A$; *5:<' 2.2.5.Rule-Based (hay là Heuristic) Ý tưởng : dNA8X$!$:$m-5/,3)$*:O>&:Y A:>A5//$)D5E$3Y5 A$*+AZ:;'l-:D!)D#:X@3)$ AP$aeea Đặc điểm  1,3/EX@5N8FB35x3J:/7'K: +0/At:$$-;>O&/A-'=*<^  $! :3)$$- 956 $Z:@ 2:" k:3456>O&/2>O"C*934567A $AB3)$'A-:$AB3)$XYAt!X;$ O&/5'l75m!0P@3`A p7/9::857M'v:3)$$X$ *9$)*+):)$# *9X>*!X@)0!> 8$# @:3)$'=>3)$$,)X-  $*9> $:,@5N8*#4L =!@*9&<5N5N8);)Xm)::56@ 3)$,0'U.56*X@?)$3333@!ReBRTh3)$ p789@5N8MX5nZ' 2.2.6. Machine Learning (Máy học ) Ý tưởng : ‡)56:)*+):)$:@A:A:)<AZ,)< AP0AA:)<A$:8A:$:@*=H3 ‚5HA33?))AUAps*93456AMN)<AP0 85s#,0A'ˆ*X$:&<5N$)<A2$ )<AA$$m$#2:/,>$m-3o Đặc điểm ~*+):)- :)56$;?K' 1!D)0-$A>,FA)3J/,D A$:@, /,$/7'p!>,0)<A)6AA >,5 /,'  Chương 3 : Phương pháp phân loại Naïve Bayesian và ứng dụng phân loại email 3.1. Một số khái niệm sác xuất có liên quan †A$j7$$Z)u…-$)_)4 v!0- &0Aj7…\‰/,$Z3/)\AZ[&<,$Z4\ [‰/,$Z3/)\Cl-$!" [‰/$Z4\Bl-$!" 3.1.1.Đinh nghĩa xác suất d … ‰:3/E!"‚$3"<$y,~F‚J Y0P&0 !"‚*9&:Y*3 ~F‚J„„?"*9)89A‚Š?"*9)- -)_)4N , F=>0PAZ:!"3+/)C!L&0X3‚&0C @>*9)89A‚J lYM&:3/A)*+):)"… ($$$)_)4A-D$-$D!"‚&/,XW3" $Š@D3/E!"‚ vD3<$Š^*-5A$3"" YA-'?""Y/*9@&:3/E!"‚AM' N!E#&/)&W~F‚J$Š  3.1.2.Xác suât có điều kiện , công thức xác suất đầy đủ - công thức xác suất Bayes b'Q'a'Q'‰:3/-7, ‰:3/-7,E!"‚#7,!"H&0$A3" <$*9y,)F‚ŠHJ- Y0P&0!"‚A." !"H&0 ~F‚ŠHJ„ ?…~F‚ŠHJ&~FHJ„~FHŠ‚J&~F‚J„~F‚HJ b'Q'a'a'K;&:3<DE †034s$-$DE:!"'‰_!"‚3AA‚&0W $A:!"s&0 v-… ~F‚J„ K;*9@;&:3/DE b'Q'a'b'K;&:3/H3 O:;-… ~FŠ‚J„„ 3.2.Phương pháp phân loại Naïve Bayesian ~<AH3)*+):))<A3456;:3:&/ /,'~*+):).9)#>#)A:`t)05NA: .&:#)E$mD $5N>O8)/,D AK3IAs:.#::Y*95  5NA:$#),KA$8)$m8):#)$$m- 7K „‹sŒ'KA$$m/,#:Y:.*+;&Qs&5NA: $m7#)•K&:3/~FK„Š‰Q„&QŽ‰a„&aŽsŽ‰„&J-:Y#/' ?456;&:3/H3-…  [...]... cần xem xét mà ta tách ra từ nội dung của email Với các kí tự chữ , kí tự số , kí tự ‘$’ , kí tự gạch ngang ‘-’ , kí tự gạch dưới ‘_’, kí tự nháy đơn ‘’ là những kí tự cấu tạo thành token Còn những kí tự còn lại như khoảng trắng , kí tự * , kí tự : ,… được xem là kí tự để tách hay phân cách các từ Với những từ tách được mã gồm toàn kí tự số thì không được xem là token (ví dụ : 12345) Ví dụ ta có... suất cho ta nhiều thông tin hơn so với giá trị chân lý Ví dụ :xét token $ xuất hiện trong email , nếu ta sử dụng giá trị luận lý , ta không đủ cơ sở để nghi ngờ email này là email spam , và nếu email này khá dài thì càng khó kết luận rằng nó là spam Tuy nhiên sử dụng xác suất , ta có thể biết được khả năng email đó là spam là bao nhiêu , điều này hợp lý hơn là chỉ sử dụng hai giá trị 0 và 1 Với không... P(X1=x1^X2=x2^… ^ Xn=xn) không thích hợp để dùng cho việc quyết định lớp C bởi vì giá trị này như nhau đối với mỗi lớp c Như vậy căn cứ để dự đoán lớp của C là dựa vào xác suất P(X1=x1^X2=x2^…^Xn=xn/C=c) Tuy nhiên việc tính toán xác suất này rất phức tạp Một phươg pháp đơn giản và được đưa ra sớm nhất là phương pháp phân loại Naive Bayesian , theo đó giả thuyết rằng mỗi Xi độc lập với các Xj (i ≠ j) , như... suất biết trước 95% email html là email spam để tính được xác suất email mà ta nhận được là spam , nếu xác suất này lớn hơn xác suất email đó là non-spam , có thể kêt luận rằng email đó là spam , tuy nhiên kêt luận này không chính xác lắm Nhưng nếu ta có được nhiều xác suất biết trước như vậy , thì kết luận sẽ trở nên đáng tin cậy hơn Để có được các xác suất biết trước này , sử dụng phương pháp Naive . >M8)<A@$:3)$$C> *A3)$)::L^X$$@:*9:@'K !>:3)$$>*"3)$m`!)5n5* *-j!'N!A/D-$)*+):)6" 3)$>,/D!'  Chương 2 : Tổng quan 2.1 Các cách thức con người xử lý với spam !#-7;): 7:;: