Phân lớp thư điện tử sử dụng máy vector hỗ trợ

12 365 0
Phân lớp thư điện tử sử dụng máy vector hỗ trợ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I H C QU C GIA HÀ N I TR NG I H C CỌNG NGH Ngô Th S ng Huy n PHÂN L P TH I NT D NG MÁY VECTOR H TR LU N V N TH C S HÀ N I – 2007 I H C QU C GIA HÀ N I TR NG I H C CỌNG NGH Ngô Th ng Huy n M CL C S PHÂN L P TH I NT D NG MÁY VECTOR H TR NgƠnh: Công ngh thông tin Mƣ s : 1.01.10 LU NăV NăTH CăS Ng ih ng d n khoa h c: PGS TS HƠ Quang Th y HÀ N I – 2007 Lêi c¶m ¬n Trongăquáătrìnhăth căhi năđ ătài,ătôiăđãăg păr tănhi uăkhóăkh năphátăsinhă màăn uăkhôngăcóăs ăgiúpăđ ,ăđ ngăviênăc aăgiaăđình,ăcácăth yăcôăgiáoăcùngă cácăb năbè,ăđ ngănghi păthìăcóăl ătôiăkhóăcóăth ăhoànăthànhăđ căkhóaălu nă L iăđ uătiên,ătôiăxinăchânăthànhăc mă năcácăth yăcôăgiáoăgi ng d y t i Tr ngă iăh căCôngăngh ă- iăh căQu căgiaăHàăN iăđãătr căti păch ăb o,ă truy năth ăchoătôiănh ngăki năth căquýăbáu.ă giáoăPGS TS Hà Quang Th y,ăng căbi tătrânătr ngăc mă năth yă iăth yăđãăt nătìnhătr căti păh ngăd n,ă giúpăđ ăvàăđ ngăviênătôiăr tănhi uătrongăsu tăquáătrìnhăhoànăthànhălu năv n Vàăcu iăcùng,ăm iăl iăyêuăth đ ngănghi p,ănh ngăng ngănh tăxinăg iăđ năgiaăđình,ăb năbèăvàă iăluônă ăbênăc nhătôi,ămangăl iăchoătôiăngu năđ ngă viênătinhăth năl nălaoăvàăt oăm iăđi uăki năthu năl iăchoătôiăhoànăthànhălu nă v n nàyătrongăkh ăn ngăt tănh tăcóăth Doă s ă h nă ch ă v ă th iă gian,ă trìnhă đ ă vàă kinhă nghi mă nênă đ ă tàiă s ă khôngătránhăkh iănh ngăthi uăsót.ăTôiăr tămongănh năđ căýăki năđóngăgópă quýăbáuăc aăcácăth yăcôăgiáoăvàăcácăb n, đ ng nghi p đ ălu n v n đ căngàyă càngăhoànăthi năh n Trânătr ngăc mă n!ă HàăN i,ăngàyăăăăăăthángă12ăn mă2007 H căviên NgôăTh i ngăHuy n M CL C L iăc mă n i Danhăm căhìnhăv Error! Bookmark not defined Danhăm căb ngăbi u Error! Bookmark not defined M ă Ch U ng KHÁI QUÁT V ăKHAIăPHÁăD ăLI U V N B N 1.1 M t s ki n th c v khaiăpháăd ăli u 1.1.1 Khái ni m khai pháăd ăli u 1.1.2ă Cácă h ngă ti pă c nă vàă cácă d ngă d ă li uă trongă khaiă pháă d ă li u Error! Bookmark not defined 1.2 Cácăbàiătoánătrongăkhaiăpháăd ăli uăv năb nError! Bookmark not defined 1.2.1ăTìmăki măv năb n Error! Bookmark not defined 1.2.2ăPhânăl păv năb n Error! Bookmark not defined 1.2.3ăM tăs ăbàiătoánăkhác Error! Bookmark not defined 1.3.ăKhaiăpháăd ăli uăWeb Error! Bookmark not defined 1.3.1ăNhuăc u Error! Bookmark not defined 1.3.2ă căđi m Error! Bookmark not defined 1.3.3ăCácăh Ch ngăti păc n Error! Bookmark not defined ng 2.ăPHÂNăL PăV NăB N Error! Bookmark not defined 2.1.ăBàiătoánăphânăl p Error! Bookmark not defined 2.1.1ăNhuăc u,ăýăt ng Error! Bookmark not defined 2.1.2ăQuáătrìnhăphânăl p Error! Bookmark not defined 2.2.ăCácăgi iăphápăphânăl păđi năhình Error! Bookmark not defined 2.2.1ăThu tătoánăphânăl păBayes Error! Bookmark not defined 2.2.2ăThu tătoánăk-ng iălángăgi ngăg nănh t.Error! defined ii Bookmark not 2.2.3ăPhânăl păd aăvàoăcâyăquy tăđ nhError! Bookmark not defined 2.2.4ăChi tăl căthôngătinătheoămôăhìnhăMarkovă nError! Bookmark not defined Ch ngă3.ăB ăPHÂNăL PăS ăD NGăMÁYăVECTORăH ăTR Error! Bookmark not defined 3.1.ăBi uădi năv năb năd aătrênămôăhìnhăkhôngăquanăvector Error! Bookmark not defined 3.1.1ăGi iăthi u Error! Bookmark not defined 3.1.2ăMôăhìnhăBoolean Error! Bookmark not defined 3.1.3ăMôăhìnhăt năs Error! Bookmark not defined 3.2.ăB ăphânăl păs ăd ngăvectorăh ătr Error! Bookmark not defined 3.2.1ăVectorăh ătr Error! Bookmark not defined 3.2.2ăThu tătoánăt oăsiêuăph ngăphânăcáchError! Bookmark not Bookmark not defined Ch ng 4.ă NGăD NGăVĨăTH CăNGHI MError! defined 4.1.ăGi iăthi uăbàiătoánăth cănghi m Error! Bookmark not defined 4.2.ăD ăli uăvàăch 4.3.ăMôiătr ngătrình Error! Bookmark not defined ngăth cănghi m Error! Bookmark not defined 4.4.ăK tăqu ăth cănghi măvàăđánhăgiá Error! Bookmark not defined 4.4.1ă ă chínhă xácă c aă b ă phână l pă khiă th ă nghi mă v iă t pă ki mă tra Error! Bookmark not defined 4.4.2ă ăchínhăxácăc aăb ăphânăl păkhiăt ngăd năt păd ăli uăh cError! Bookmark not defined K TăLU N Error! Bookmark not defined TĨIăLI UăTHAMăKH O iii M U Ngàyă nayă v iă s ă phátă tri nă nh ă v ă bãoă c aă cácă ngànhă khoaă h că k ă thu t,ăđ căbi tălàăs ăphátătri nănhanhăchóngăc aăm ngămáyătínhătoànăc u,ăm tă kh iă l ngă d ă li uă kh ngă l ă v nă hàngă ngàyă đ că c pă nh tă liênă t c,ă th xuyên,ănh măđápă ngăm tătrongănh ngănhuăc uăkhôngăth ăthi uăđ ng i,ăđóălàăthôngătin.ăVàăvìăth ăchúngătaăđangăđ ngă căc aăconă căs ngătrongăm tăxãăh iă bùngăn ăthôngătin,ăkhiăcácă ngăd ngăcôngăngh ăthôngătinăđãăđiăvàoăt iăt ngă l nhăv căc aăđ iăs ngăxãăh i.ăTrongăđóăInternetăngàyăcàngăkh ngăđ nhăm tăs că m nhăv tătr iăvàăđóngăm tăvaiătròăquanătr ngătrongăđ iăs ngăxãăh i,ăkinhăt ,ă chínhătr ,ăv năhoá,ăgiáoăd cầăc aăconăng i.ăCùngăv iăs ăphátătri năkhôngă ng ngăđó,ăInternetăđãăvàăđangătr ăthànhăm tăkhoăthôngătinăkh ngăl ăv ăc ăs ă l ngăc ngănh ăs ăbi năđ iănhanhăchóngăc aănó,ătheoă n măl căđoánăthìăc ăsauăhaiă ngăthôngătinăl iăt ngăthêmăg păđôi.ă Th ăđi năt ălàăm tăd chăv ăph ăbi nănh tătrênăInternet,ănóăgiúpăchoăm iă ng iă s ă d ngă máyă tínhă k tă n iă Internetă đ uă cóă th ă traoă đ iă thôngă tină v iă iv nhau.ăNgàyănay,ăkhiămàăInternetăđãăcóăm tă ăkh păm iăn iăthìăvi căs ăd ngă d chăv ăth ăđi năt ălàă vi căhàngăngàyăđ iăv iăr tănhi uăng gi i.ăTaăbi tăr ngăkhiăm ngăInternetăraăđ i,ănh ngăng iătrênăkh păth ă iăs ăd ngăđ uătiênălàă cácăchuyênăgiaămáyătính,ăh ăcùngăg iănhi uăemailăđ năcácănhómăng khácănhau,ăsauăđóăm iăcóătìnhătr ngăkhôngăth ăki măsoátăđ đ n.ă Vìă v yă c nă ph iă cóă cácă ch ng căcácăemailăg iă ngătrìnhă phânăl pă cácă emailă theoăth ă m că iădùngăho căl căhayăng năch nănh ngăemailămàăng nh nănh măt ngăch tăl iădùngă iădùngăkhôngămu nă ngăs ăd ng Trongăl nhăv căth ăđi năt ăcáănhân,ăcácăk ăthu tăphânăl păv năb năc ngă đ căápăd ngăr tăr ngărãiăvàoăbàiătoánăl căth ărác.ăM tăs ăv năđ ăkhácăliênă quanăđ năth ăđi năt ănh ăl căcácălu ngăth ăđi năt ,ăt ăđ ngăt oăcácăth ăm că m iăc ngăđ cănghiênăc uăvàăgi iăquy t.ăHi nănay,ăbàiătoánăphânăl păth ăđi nă t ăvàoăcácăth ăm căc ngăđangăđ cănhi uănhàănghiênăc uăquanătâm.ă Trongălu năv nănày,ăchúngătôiă ngăd ngăphânăl păv năb năvàoăl nhăv că th ăđi năt ănh măgi iăquy tăbàiătoánăphânăl păt ăđ ngăth ăđi năt ăvàoăcácăl pă doăng iădùngăđ nhăngh a.ăL aăch năthu tătoánămáyăvectorăh ătr ă(SVMs)ăv iă nh ngă uăđi măvàăhi uăqu ăđãăđ căch ngăminhăquaănhi uăth cănghi măv ă phânăl păv năb n,ăchúngătôiăhyăv ngăSVMsăcóăth ăgi iăquy tăcácă khóăkh nă c aăbàiătoánăphânăl păemailăvàăđemăl iăk tăqu ăkh ăquan.ă Lu n v n đ Ch h c t ch c thành ch ng nh sau: ngă 1ă trìnhă bàyă kháiă quátă v ă khaiă pháă d ă li u,ă cácă k ă thu tă vàă ngăti păc năchínhătrongăkhaiăpháăd ăli uăvàăphânălo iăcácăh ăth ngăkhai pháătheoănhi uătiêuăchíăkhácănhau.ăCh ngănàyăc ngăgi iăthi uăv ăcácăbàiătoánă trongăkhaiăpháăd ăli uăv năb năvàăkhaiăpháăd ăli uăWeb Ch ngă2ătrìnhăbàyăbàiătoánăvàăquáătrìnhăphânăl păv năb n,ăđ ngăth iă gi iăthi uăm tăs ăgi iăphápăphânăl păđi năhình Ch ngă3ăgi iăthi uăph ngăphápăbi uădi năv năb năd aătrênămôăhìnhă khôngăquanăvectorăvàăt pătrungănghiênăc u,ăkh oăsátăph ngăphápămáyăvectoră h ătr ,ăđâyălàăti năđ ăđ ăth căhi năvi căth cănghi măchoălu năv nănày Ch ngă4ătrìnhăbàyăv ămôăhìnhăphânăl păth ăđi năt ăvàăápăd ngăđ iăv iă m tăb ăd ăli uăđãăđ căcôngăb ăT ăcácăk tăqu ăth cănghi m,ăđ aăraăđánhăgiáă h ăth ngăphânăl pănóiătrên CH NG KHÁI QUÁT V KHAI PHÁ D LI U V N B N 1.1 M t s ki n th c v khai phá d li u 1.1.1 Khái ni m khai phá d li u Trongă nh ngă th pă k ă g nă đây,ă l ngă thôngă tină đ că l uă tr ă trênă cácă thi tăb ăđi năt ă(đ aăc ng,ăCD-ROM,ăb ngăt ,ă v.v.)ăkhôngăng ngăt ngălên.ă S ă tíchă l yă d ă li uă nàyă x yă raă v iă m tă t că đ ă bùngă n ă Ng iă taă că đoánă r ng,ăl ngăthôngătinătrênătoànăc uăt ngăg păđôiăsauăkho ngăhaiăn măvàătheoă đóăs ăl ngăc ngănh ăkíchăc ăc aăcácăc ăs ăd ăli uăc ngăt ngălênăm tăcáchă nhanhăchóngă[5] Hình - L ng d li u đ c tích l y t ng m nh theo th i gian Chúngătaăqu ăth căđangăs ăh uăm tăkh iăl ngăd ăli uăkh ngăl ,ănh ngă l iăluônăc măth yăthi uănh ngăthôngătinăh uăích.ăL ngăd ăli uăkh ngăl ănàyă th căs ălàăm tăngu nă“tàiănguyên”ăr tăgiáătr ăb iăthôngătinălàăy uăt ăthenăch tă trongă m iă ho tă đ ngă tr că khiă raă quy tă đ nh.ă Khaiă pháă d ă li uă ậ khaiă thácă nh ngăthôngătinăti mă năcóătínhăd ăđoánăt ănh ngăc ăs ăd ăli uăl năậ làăm tă h ngăti păc năm iăv iăkh ăn ngăgiúpăcácăcôngătyăchúătr ngăvàoănh ngăthôngă tină cóă nhi uă ýă ngh aă t ă nh ngă t pă d ă li uă l nă (databases,ă dataă warehouses,ă data repositories)ămangătínhăl chăs ăNh ngăcôngăc ăkhaiăpháăd ăli uăcóăth ă d ăđoánănh ngăxuăh ngătrongăt nh ngăquy tăđ nhăk păth iăđ ngălaiăvàădoăđóăchoăphépădoanhănghi păraă căđ nhăh ngăb iătriăth cămàăkhaiăpháăd ăli uă đemăl i.ăS ăphânătíchăd ăli uăm tăcáchăt ăđ ngăvàămangătínhăd ăbáoăc aăkhaiă pháă d ă li uă cóă uă th ă h nă h nă soă v iă s ă phână tíchă thôngă th ngă d aă trênă nh ngă s ă ki nă trongă quáă kh ă c aă cácă h ă h ă tr ă raă quy tă đ nhă (Decisionă Support Systems - DSSs)ătruy năth ngătr că đây.ăCôngăc ăkhaiăpháăd ăli uă c ng cóă th ă tr ă l iă nh ngă câuă h iă trongă l nhă v că kinhă doanhă màă tr đ că đâyă căxemălàăt nănhi uăth iăgianăđ ăx ălý.ăV iăt tăc ănh ngă uăth ătrên,ăkhaiă pháă d ă li uă đãă ch ngă t ă đ că tínhă h uă d ngă c aă nóă trongă môiă tr ngă kinhă doanhăđ yătínhăc nhătranhăngàyănay.ăGi ăđây,ăkhaiăpháăd ăli uăđãăvàăđangătr ă thànhăm tătrongănh ngăh ngănghiênăc uăchínhăc aăl nhăv căkhoaăh cămáyă tínhăvàăcôngăngh ătriăth c a) nh ngh a Khai phá d li u Cóă th ă hi uă m tă cáchă s ă l că r ngă khaiă pháă d ă li u làă quáă trìnhă tìmă ki mănh ngăthôngătină(triăth c)ăh uăích,ăti mă năvàămangătínhăd ăbáoătrongă cácăt păd ăli uăl n.ăNh ăv y,ăcácănhàăkhoaăh căchoăr ngănênăg iăquáătrìnhănàyă làăkhám phá tri th c (Knowledge Discovery in Databases ậ KDD)ăthayăvìălàă khaiăpháăd ăli u.ăTuyănhiênăcácănhàăkhoaăh cătrongăl nhăv cănàyăđ ngăýăv iă nhauăr ngăhaiăthu tăng ătrênălàăt ngăđ ngăvàăcóăth ăthayăth ăchoănhau.ăH ă lýăgi iăr ng,ăm căđíchăchínhăc aăquáătrìnhăkhámăpháătriăth călàăthôngătinăvàătriă th căcóăích,ănh ngăđ iăt ngămàăc năph iăx ălýăr tănhi uătrongăsu tăquáătrìnhă đóăl iăchínhălàăd ăli u M tăkhác,ăkhiăchiaăcácăb cătrongăquáătrìnhăkhámăpháătriăth c,ăm tăs ă nhàănghiênăc uăl iăchoăr ng,ăkhaiăpháăd ăli u ch ălàăm tăb cătrongăquáătrìnhă khám phá tri th c [21] Nh ăv y,ăkhiăxétă ăm căt ngăquanăthìăhaiăthu tăng ănàyălàăt nhau,ănh ngăkhiăxétăc ăth ăthìăkhaiăpháăd ăli u đ căxemălàăm tăb ngăđ ngă cătrongă quáătrìnhăkhám phá tri th c TÀI LI U THAM KH O Ti ng Vi t [1].ă oànăS nă(2002),ăM t s gi i pháp cho toán tìm ki m c s d li u Hypertext Lu năv năth că s ăCôngăngh ă thôngătină2002ăKhoaă Côngă Ngh ă- iăH căQu căGiaăHàăN i.ă [2].ă Nguy nă Th ă Thùyă Linh,ă Nguy nă Thuă Trang,ă Nguy nă Th ă H ngă Th o, HàăQuangăTh yă(2007),ăM t gi i pháp h c bán giám sát SVM phân l p trang web ti ng Vi t Báoăcáoăt iăH iăth oăFAIR'07,ăNhaăTrang,ă8-2007 [3].ăPhanăXuânăHi uă(2003),ăKhai phá song song lu t k t h p m Lu năv nă th căs ăCôngăngh ăthôngătină2003ă- KhoaăCôngăNgh ă- iăH căQu căGiaă HàăN i.ă [4] HàăQuangăThu ,ă ng Thanh H i, Nguy n C măTú,ăNguy n Vi tăC Nguy n Thu Trang, Nguy n Th Thùyă Linh,ă Nguy n Th H ng, ngă Th o, Tr n Th Oanh (2007) Nghiên c u, phân tích đánh giá thu t toán l c v n b n theo n i dung.ă Báoă cáoă chuyênă đ KC.01.02/06-10, 10-2007 tàiă c pă Nhàă n c Ti ng Anh [5] Alan Rea (1996) Data Mining – An Introduction http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHPfinal_1.html [6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003, ISBN: 0-470-84906-1 [8] Enron dataset: http://www.cs.cmu.edu/~enron/ [9] Greg Kochanski (2005), Markov Models, Hidden and Otherwise http://www.kochanski.org/gpk 2005/02/28 [10] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers 2001 [11] J.D.Brutlag, C.Meek (2000) Challenges of the Email Domain for Text Classification ICML 2000 : 103-110 [12] Manoel Mendonca (2000), Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 2000 [13] Nancy R Zhang (2001), Hidden Markov Models for Information Extraction June, 2001 [14] P.S.Keila, D.B.Skillicorn (2005) Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005 [15] R Agrawal, M Mehta, J Shafer, R Srikant, A Arning, T Bollinger (1996) The Quest Data Mining System Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96),ăPortland,ăOregon,ăAugustă1996.ă 58 [16] Ron Bekkerman, Andrew McCallum, Gary Huang (2004) Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004 [17] Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2003 [18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005) Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005) [19] Svetlana Kiritchenko, Stan Matwin (2001) Email classification with cotraining Proceedings of the 2001 conference of the centre of advanced studies on collaborative research [20] U M Fayyad, G Piatetsky-Shapio, P Smyth, and R Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, 1996 [21] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002 [22] Y Yang and J.O Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization Proceeding of the 14th International ConferenceăonăMachineăLearningă(ICML’97) [23] http://en.wikipedia.org/wiki/ 59 ... Bookmark not 2.2.3 Phân l păd aăvàoăcâyăquy tăđ nhError! Bookmark not defined 2.2.4ăChi tăl căthôngătinătheoămôăhìnhăMarkovă nError! Bookmark not defined Ch ngă3.ăB ăPHÂNăL PăS ăD NGăMÁY VECTOR H ăTR... Bookmark not defined 3.2.ăB phân l păs ăd ng vector h ătr Error! Bookmark not defined 3.2.1 Vector h ătr Error! Bookmark not defined 3.2.2ăThu tătoánăt oăsiêuăph ng phân cáchError! Bookmark... tăbàiătoán phân l păt ăđ ngăth ăđi năt ăvàoăcácăl pă doăng iădùngăđ nhăngh a.ăL aăch năthu tătoán máy vector h ătr ă(SVMs)ăv iă nh ngă uăđi măvàăhi uăqu ăđãăđ căch ngăminhăquaănhi uăth cănghi măv ă phân l

Ngày đăng: 25/01/2017, 17:44

Tài liệu cùng người dùng

Tài liệu liên quan