Thông tin tài liệu
Website: http://www.docs.vn Email : lienhe@docs.vn Tel ( : 0918.775.368 MỤC LỤC : !""#$%! &'()*+(,,-(,,./0 12)232,245# 26789:" 22;<=>?@! ABCDE! ABFC>*EG! ABFC>HIDEG J&KBLMHIDENOG ABCLMHI BP;EBLMHIJ QRSET9UL8V9:J )I>WLXKL8V9:J JQYZ[KYLCVBN\E]$ J^P;EBL?_>?@9`*NG0 $&KB>WaE2bNNNc2dG# ABC>WaE# BP;EB>WaE" BP;EB>e" af&" JafgaEEc;hNchQG JBP;EBYNi>CLM+2cGJJ JAj>WME(;cN(>NNgGJ$ 0k]aESLiHI@E+J" 222BEIBBSEhDE$ 67NPEVHI@EhC$ B9;`V@EhC$ @EK979UV@E$ @EKEBN`EFL$ J@EKEBN`EFEl$ $@EKEBN`EFB$ JTKB979UVT$ JTK9;`m89U97L>$ JJTnElKoK8>Mp9`$ $L>KB979UVL>$ $L>n=ElKo$ $JL>n8>M9ME$ BP;ECEFBV@EC$J NEM8>MT$J JNEM8>ML>$J T@EC$$ T9;cTEq$$ JTM$$ $*ZET8>MEF$0 L>@EC$# L>9;$# JL>Eq$% JL>EqEE$% JJL>Eq_>M$% J$BKrL>$% B979UiIKHI@EhC$" JBEIBs9BEBC>_>Is9:NEIBLiHI@E hC$" &KBLMHI@EhC$" &KB>WaETHI@EhC$! 2htL?YERP;ENfB>WEF@EhCP;EBp 9U$ P;ENfKKB9P[EI_>?@$ JA@_>IM?P;ENf$ u2245,+A,'.0 ^,0 BaE:BB0 BM?P;ENf0 J v62w(,5x()y0J $ BẢNG DANH MỤC HÌNH HOẠ ,fkiS:L?_>?@9` ,fJaf>WaE>e ,f$6z`U>{Bc;VKB K ,f06z`U>{_>CEFN>?8_>N?GKBKC>*s*J ,f#ME;cNBR+(*GKBR.dG ,f%ME;cNXXeBR(.d ,f"afU>{ME;cN ,f!MaESD+? ,f MaESD+?|EN}2NDNN 0 LỜI GIỚI THIỆU (EK??s;<FC>9~N<KkrgaEU@>VD~kK EP•NEgoE>?}aEK?sBaE9P[P>NFKDR=C>_>Ir> @KaE_>;<FC>Q>Er#HBNUs;<FC>9~nFEPX @aZE_>N\ENE`RaEECaETaf;<FC> _>C9:D>8TFEH%sB€ESEaEECaE9~Y Y@CP>NFFC>N<KP>NFaEaE_>BaES_>I=K DR=;<FC>(EK??s>r>P>NFKDR=aEn7<g•\; ‚8€kp€KsX8gƒkaf?_>?aK„E9:>nFE >r>:P>NFKgBaEABCaE<9L?EzIaE :kMVp€KaE:aNP•EKp€M9kE hCE}€>=>?@:;<F}>9~N<KkEKg\€E SE*FE@kP[WNEE}€>=>?@„EPK97Y@sB C_>IN`;<FC>9~N<K:IEsKr]?@>NEM9kEVBp €(•|EKBp€M9kEC>_>I;hC€ESE;<FC>9~ E|KEIN8:>aE€9kEVEP•K•9nC>>89kE V\;,C_>IN`;<FC>EK??gaE…9;>roKk; 8>qP>NF]C>K…g†9nKBaESsCi?BP;E B>W9U>?U9p]C>KaEW8IBaESEP•ZE BNU7BK>E8r:>EN9USSS9iM 9kEVp€s9P[]P>FE?}>r>ECSVp€9P[E\KB €ESE‡N[DR=BEC;FsgB>r>RSEaE<€ 8;9U‡N[B>r>LiVBK~9MsBKW@P[ NEkp€skM€ESEXN9•SSBS9iK?X} E\ˆCLiKDR=NY>?@‰‚B€ESEK?saE9P[P>NFsDR= Kg@D>8BS9iSUPXMEPXEV9:(•BaE<ME K?KBLisBK~nU9PNB_>?@9`M9kEkBC> _>I8 ABafFC>BNU<€9k;sBaEP>NFPX MEFC>E|9ME;sEP•WN…N8:>N€…:e NEFC>KB€LiNPX9ngaEBCN=V89:K?K BLiNPX9noXPXES9iSUVEP•BS9iK? K]9`KBLiK?KKEP•9PNNEKISU ABaEIBaNP•E?9pfEP•gaEWN9U9:> oBLiK9PNBLiXBN€9nnUKPXEg sBYB`NP•Es„EnUK]_>CEFBNP•E?k>E FC>KEP•gaEf>EN9P[g@KafBBC]E hf@sEKE}€>:^BCN€NE;<FC>AE*N? *GN9•XKBABFC>*EGKN>ELE} €>BPP<EE}€>KB>WB:Ni>CLMK,C>?}E9~ 9P[BSEK>9P[FEg@_>IN8_>N\EPL?_>?@9`sME;c N ,r>@B>WBE}€>*EKWN>EN}BE>z] C>n8>N|N>>NG(PErXaEK|EP>NFKN # 9pŠEEK?M9P[P>NFPXBMEFC>B8>N|cN>>NG 78>N|cN>>NGhiSPNEBKD>8IsC]EB NEN}ksWBaEHsE8?•sBBsPi9CRNEk aE?WinUW8?NŠENEkC_>IN`;<FC>;KF C>9P[P>NFn8>N|GfFC>gU>D‹@kŒC*9nk 89:97NKK@K9UnUfg@KgBN€TE>zFC>P W?Bgj>W9UEI_>?@89:K?9P[E\Kgj>W•DE•?A BFC>HI&KBABFC>HIgaEoWN>EKk? knBaE9P[P>NFPXMEHIs89:97NKK@Kn UAB9P[BaE`RsT_>Bg€PXEY9BP;E(FE N€P<ENTEPaiNE_>Bg€PEnU9P[BC9URSE BS9i>K? k]KB_>N\ENEABFC>HI?9P[Dq9@PK BKBˆDb‰sˆDQ>NO‰sKˆDENO‰ N}@EX9~nN8:>KaENE9:KLXHIPB E}€>V~E2&sNEB…EiEC<2?<BCE}€> VBNP•E9M\<js^Bs(W&Is>?}sBKaE9nV ?@>WN>EK89:E}€>:BHI@E+s@E^B(FEEa EFK?KBEaEFP;E9]>W[gDR= ,C?sPnkaESK9P[KC>_>INElYgB HI@EhC(:aEECaEVPX9P[BNU@€M Ž*>r>kWs>r>BNUg@sHBst~kEK?KEHEsB aE9P[DR=aE_>HI9CRs_>s_>BNUX]9k nE7T9ns>r>E}€>KDL?YEBaESABFC>HI @EhC9E9P[@€N\E NE9:KYWK?sDNfK?BE}€>pE_>V: DEKB€ESEVn:K S9iV9:KKPXEXBNUBaESLM HI@EhC<BE}€>>NE9:K>WH]EC DLKI;r?(E>?{(E\&f9~E|N8:>NE_>B NfPXE‹E}€>:9:KDI;P>+>89~E| k]9`PXENE_>BNfE}€>9:K % I. Đặt vấn đề (P|E9~@sr>@BaE9P[N9pC?ŠPXME KC>HIBaE9nnUKBKBsBKC>gsBaE g@sBKE}€>g\*ZBSE;<FC>KNEM9kE Vp€KN8p@K9M:>[igP>NFKDR=sPEgaE U_>}9P[NŠE…N8:>MEaEgB9P[P>NFPXMEHI WiE?INEBaE9P[P>NEB;<FC>frXNE ]|E„E9P[p€PXMEHI,C?sBp€9~BSEaE ECaEK_>I=C]EaEHE8?•siSBC]ERSE> (>?}9noYYKB_>I=>zEFC>HIs>E8BaE Sg€s…FC>‹YYŠPXMEHI|EPnBEI >WLMsfg@KC>sBaESNi\aEŠS9i]Eg}s BCN€sN_>?@9`NY@N}BE>zFC>gU>K? hXY@9ns89:97NKK@K|EnUgB9P[FE aEF>iTBE>zKC>HIn>EBE>zFC>K?I 9P[DR=P@K9UEP•ZEnUnFEaESY9kEBN[E| NECBCN€KgBaEd•NKEs|EIU>N•I 8VFC>HIsU>N•B97NPEVBFC>MK?9UnUn9P[ FEP;EB>Wr@ hCgBaETBE>zFC>HINEBp€hC( ••IYKFEg@_>IE}€>:HIn>Es:FC>H IKBgj>WDR=9~9P[BNUN}@EX>?}sFEHI@E hCMnFE97NPEN}EVnnUW8?9P[E?YgBC: 7giBs|BKEFB@EhCNEBHIXBEaEFp @N}@EXP@E+s@E^BhW?fFE97NPEK?IP<E@ K9@Bgj>WgBFC>HIsrInFEg=>WXK9U nUWSE9P[FEP>@V@EhC„EPEI_>?@9P[FE€ MNE@EhC 6UNI•9P[FEL>mK?s9zBŽ9TFEPXE}€>:A BFC>HIsfU>FE97NPEV@EhCsT9n9:NP;EPXE E|EI_>?@KBLMHI@EhC€M<BE}€>; Bg@_>IVE}€>NE9:KYWK?ŽKPEPX@9r>} >WH]ECVX9:K " II. Cơ sở lý thuyết 1. Khái niệm Text Mining !"#$%& hCRSE;<FC>KM9kEVkp€9~9P[BNUNE …E%HN<M9L?hXFC>9P[>WNE>]_>BNfM9kEV kp€sk>r>9P[97NKfg@KgBN€TFEFC> 9n6niKD>8B9UVKB^BCN€T;<FC>(EP• W8?NŠEnN8:>N€K|EgaEP•ENPX9E…:e NEFC>sCSV|EKBCsgBBBN€9nsSS FE>r>RSEaE;siSPNEBC>?}E?C‡ N[_>?@9` ABFC>KE9MV?@>V_>BNf^BCN€T;<F C>•>BNfgBN€9P[YC>B_>BNf>WK\F C>snElKofB‹>N€NGn=ElN}WFC>n?\E €gaEIKN}KkQ*PBP;EB]Eg}NPX9L? hfW?gBFC>EzCK 7Z‹>fnU f9P[T8gfkQ*KPEoFE‹>Z[XS9ifg@ X9P[E\KN€ŽnFEK]9U9BEBB}>i‹>P !"##$% 6kXV‹>fS>kKg>EM_>?@>snU9]XC ]E79]XEP•ZEhiSXFC>VkaE?s_>BNfABF C>fN9P[k>WP[€>9P[EIKZ><ZEi&•s9] XC]EfN8XsNPXgP:nPE8€kBkWg@MK „EWN9P[9:>K?_>BBBKi iF>SEV‹>nU99P[_>Y}_>9@S9ifg@ hXkBkSNBINfB?i<aE?f>WN}gaEnEBN`s7Z KX9]X nU_>aE9MgBN€nN8:>‹>9P[8?NPEgaE I‹>K„EnEBN`snUKXsF>iPEMrP•Es97CKg BSEBgj>WYN}]Eg}*9n>aInB}>iKBK9B B‹>9BEDDqsgaErP•E nMsABFC>YNnUKk_>BNfDB9`‹>TB *N>sRSEBgj>W‘nP\B?sWMEs]Eg}sL MKBgj>W9P[BNU<EKE}€>Ni>CLMPME;c ! NLM>NNgGsB>WBN>?:ENENGs_>?M>W N>N>G nUDq9@k]KBi9]XE}€>:ABFC> c bGfkBDMLMGTk‹>F C>KkNEBXNPX c NENGfkBDMz_>?Tk‹>FC>K k@Y9BnEBN`Y c !">NEGKCaI>E9UfNBWDB9` F>MBn?BM9UaIFC> c #$%>NOGKC9fg@kaI>En• kWFC> !"#'()%& ABFC>HI?BCN€TB;<FC>HID> G9:W9@@NfNi\B‹>faENG?N€ gEG9BE_>L7nEBN`cNGTBKC>HI8> N|•>BNfK?nU9P[KC<NkEgj>WABFC>N>?: ]EsfP|E9~8?9~9P[9:W<N}Ggj>WABFC>N>?: ]E*EGPXEXCBCN€TB;<FC>n8>N| aE9P[P>NFPXMEE>?};8iKHIWin U8?NŠEFC>zMPXMEHI…ng]P[EX;N8:> XBFC>n8>N|gBY@sFEE}€>Er9L?9~8?NŠEn 9@!’aEVkp€ŠPXMEHI6nnUKBaEH E8?•sBU>‹>9:>NsB@>97KEsB?}>r>g@>MsEI_>?@ _>?:[sBPi9CRGsBaEN}BP;EMA BE}€>:;<FC>N9•KFEH%sEP•P<ENŠEnUP> \MaEPXMEFC>n8>N|(PEN}Y@>Er#HB NUsEP•‹ZEBC]EP>NF<MEHIKWNi…nD>PXE ZEP•ED>?};T9nEP•nUNŠEBIeABFC> HInUnEBN`P;EM;N8:>rXBIeAB FC>N>?:]EgB>?}„EnU8?E?NŠEBgj>WAB FC>HI€M;:>XBgj>WABFC>N>?:]E< fIYCN}FC>HI]9~<ME8>N|Kni•b>OO?G kiSKBgBFC>HIsgLiBKBE} €>g\snBaE> c ˆNKkC}_>9@9>9r>‰ c ˆND>8CnU@>E}NEB>‰ c ˆDnUEHIk]€E9>9r>‰ c ˆE}KkE>?}]9:>KDY}NEB>‰ Q>gLiBaE_>N\EK?sC]ErI9PNB>? >LSUEiBME c ˆ@>SE}nUEL?Nk]C9>9r>‰ d•NKE<9L?nYLi>?>W<€9k6U9M9P[gKHEP W?rInFEaENfE}€>:Ni>CLM}@; &KBABFC>HIKkKBE}€>9lYsEz N8 :> gj >W „E P B PXE E} €> gB > > W aE bNNNGsLiHID?Gs@D>8aEbN DNGsW9M>NEGsLMHIENOGsU`NY_> >OGsaEEC;<FC>s\B?NEGKILBgj >WABFC> NE9:KK?V?@>9:W9@KBSUs9nKKB D ENOG K K B bN NNGBE}€>XoTEM<PXfU>sgIBsBK:9: BE}€>SU>K?KS9iNPX•KSS>WH] EC hXkC]EABHIP•EEzPXi c &PX:DR=‚PXK?sC]EŽ>?UHITME8> N|:MEn8>N|hiSsXHI&#'(' )"*C]E Ž]E•ELiK&#'('+ ++)",BT9P[P>N}ENŽ kBn8>N|9UCCDR= c MmBaEgaEr@‚PXK?skLifB MmBaEaiTHI&PXK?S>kN8:>K EaEF9E9P[LiKgj>WŽ9P[ZE9ULim PX@hiSs@>gj>WLiHIoYKDBD>8 D>8CTgBsg9nnUMmBTSP%s-s% .s. “ c ABFC>9~9P[EIP[XBgj>WgBFC> EGN>?:]E nN8:>gj>WKP;EB]9P[RSEDE9UfN Bg@N|XsB‹>XsKB}g@XBPX:DR=KBgj>W N8€MŠLikLX97CKB>ki97Cs>9n @KBSEBP;EBgBFC>g9U€KLi]Eg} KLiB}g@BPX…MŽgBIHI9r?9VTWBH IsiSPLXHI S}>>]ZEVDEP•EK9P•E]C>_>IsKCsK 97NPE9UNf{Kfg@BW[NkEXVBHI*9nsBgj >WiVDEnU9P[LLNKBCSK|EY CgDR=gBHIMaEK|EnUNiNKMLi 9P[YC<|E [...]... Rất nhiều các phương pháp thu thập thông tin được phát triển và kết quả mà chúng đem lại khá tốt Trong đó có rất nhiều phương pháp tồn tại ở dạng chuẩn Các phương pháp này thường dựa theo các phương pháp toán học cổ điển Một số phương pháp khác được phát triển theo hướng dựa trí tuệ nhân tạo Sau đây, chúng ta sẽ tìm hiểu sâu hơn về các phương pháp thu thập thông tin b.1 Các phương pháp chuẩn Phần... Các giải pháp áp dụng cho Vietnamese Text Mining 1 Đặc trưng của văn bản tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập [3], đặc điểm này bao quát toàn bộ đặc trưng tiếng Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp Do đó, chúng ta phải tiến hành nghiên cứu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ thể về văn bản tiếng Việt a Các đơn vị của tiếng Việt a.1 Tiếng và... tiến Việt thì cách viết hay biểu thị trên khá phổ biến 32 Tất nhiên, ngữ điệu đóng vai trò vô cùng quan trọng trong tiếng Việt, tuy nhiên trong phạm vi nghiên cứu về văn bản tiếng Việt, ngữ điệu sẽ không được đi sâu nghiên cứu c Từ tiếng việt c.1 Từ đơn - từ ghép Như đã trình bày ở trên, từ trong tiếng Việt có thể có một tiếng hay gồm nhiều tiếng Hơn nữa, trong tiếng Việt, những từ nhiều tiếng. .. nhầm trong tiếng Việt Các vấn đề đó gọi là sự mập mờ trong tiếng Việt Ví dụ, với câu thuộc địa bàn, ta có thể có hai cách phân tách thuộc địa|bàn và thuộc|địa bàn Như vậy, đối với tiếng Việt, chúng ta cần có các phương pháp tách từ đặc biệt hơn b.1.2.1 Tiếp cận phương thức TF * IDF Trọng số của một thuật ngữ có thể được xác định theo nhiều cách Cách tiếp cận chung là sử dụng phương thức... của câu về mặt ngữ pháp Nói chung, cấu tạo ngữ pháp có thay đổi thì nghĩa cũng có thay đổi và ngược lại [3] b Các phương tiện ngữ pháp của tiếng việt b.1 Trong phạm vi cấu tạo từ Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là sự kết hợp các tiếng Trật tự sắp xếp các tiếng có vai trò quan trọng trong cấu tạo từ Kết hợp hai phương tiện này, có hai phương thức cấu tạo... trọng trong quá trình nghiên cứu và cài đặt ứng dụng phân tích cú pháp tiếng Việt a.2 Từ và các đặc điểm của từ Từ và tiếng là hai đơn vị khác nhau nhưng đều rất quan trọng trong ngữ pháp tiếng Việt Do đó ta phải đi xét các đặc điểm của từ a.2.1 Từ là đơn vị nhỏ nhất để đặt câu Như trên vừa trình bày, ta thấy từ có thể gồm có một tiếng nhưng cũng có thể gồm hai hay nhiều tiếng, tuy nhiên... hiện được thực hiện theo cách sau: - Các từ phụ được soá đi - Phân biệt các từ bởi khoảng trắng Đối với Anh ngữ hoặc Pháp ngữ, mỗi từ được tách biệt bởi các khoảng trắng Nhưng ngôn ngữ tiếng Việt lại nảy sinh vấn đề từ đơn và từ ghép Đây cũng là một vấn đề khó khăn khi phân tách từ trong tiếng Việt Ví dụ, với từ company trong tiếng Anh, ứng với nó là từ công ty trong tiếng Việt Do vấn đề về... của tiếng Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng Trong kí pháp, mỗi tiếng đứng độc lập, và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như trong văn bản [3] a.1.1 Tiếng và giá trị ngữ âm Ngữ âm chính là mặt âm của ngôn ngữ Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt. .. yếu do sự phát triển mạnh mẽ gần đây của các thông tin nguyên trực tuyến b Các phương pháp phân loại văn bản b.1 Sử dụng từ điển phân cấp chủ đề Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề có phân cấp được đề xuất Phương pháp này sử dụng một từ điển với một cấu trúc đơn giản Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân lớp bằng tay... được nêu trong phần xây dựng luật cú pháp d Câu tiếng việt Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp và có tính chất độc lập [3] Xét về cấu trúc câu, tiếng Việt có hai loại câu là câu đơn và câu ghép d.1 Câu đơn Câu đơn là loại câu cơ sở của tiếng Việt, bao gồm một nòng cốt đơn hay một
Ngày đăng: 30/05/2014, 14:27
Xem thêm: xây dựng thử chương trình tách thuật ngữ tiếng việt theo phương pháp cổ điển, xây dựng thử chương trình tách thuật ngữ tiếng việt theo phương pháp cổ điển