Tìm hiểu phương pháp phân loại naïve bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng việt

85 384 0
Tìm hiểu phương pháp phân loại naïve bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LI CM N Li u tiờn tụi xin gi li cm n chõn thnh v lũng bit n sõu sc TS Nguyn Th Thu H, ngi ó ch bo v hng dn tn tỡnh cho tụi v úng gúp ý kin quý bỏu sut quỏ trỡnh hc tp, nghiờn cu v thc hin lun ny Tụi xin trõn trng cm n Ban giỏm hiu Trng i hc Cụng Ngh Thụng Tin v Truyn Thụng i hc Thỏi Nguyờn, khoa CNTT ó giỳp v to cỏc iu kin cho chỳng tụi c hc v lm khúa lun mt cỏch thun li V cui cựng tụi xin gi li cm n n gia ỡnh, ngi thõn v bn bố nhng ngi luụn bờn tụi v l ch da giỳp cho tụi vt qua nhng khú khn nht H luụn ng viờn tụi khuyn khớch v giỳp tụi cuc sng v cụng vic cho tụi quyt tõm hon thnh lun ny Tuy nhiờn thi gian cú hn, mc dự ó n lc c gng ht mỡnh nhng chc rng lun khú trỏnh nhng thiu sút Rt mong c s ch bo, gúp ý tn tỡnh ca Quý thy cụ v cỏc bn Tụi xin chõn thnh cm n! ` ii LI CAM OAN Tụi xin cam oan lun l kt qu nghiờn cu ca tụi, khụng chộp ca Ni dung lun cú tham kho v s dng cỏc ti liu liờn quan, cỏc thụng tin ti liu c ng ti trờn cỏc v cỏc trang website theo danh mc ti liu ca lun Tỏc gi lun Ngụ Thanh Ho ` iii MC LC LI CM N I LI CAM OAN II MC LC III DANH MC HèNH V V DANH MC BNG BIU V DANH MC T VIT TT VII LI M U CHNG : TNG QUAN V TểM TT V TểM TT VN BN TING VIT 1.1 Gii thiu 1.1.1 Tng quan bi toỏn túm tt bn 1.1.2 T l túm tt bn 1.2 c im ngụn ng ting Vit 1.2.1 c im ng õm 1.2.2 c im t vng 1.2.3 c im ng phỏp 10 1.2.4 X lý ngụn ng ting Vit trờn mỏy tớnh 11 1.3 Mt s phng phỏp túm tt bn 13 1.4 ỏnh giỏ túm tt bn 15 1.4.1 ỏnh giỏ theo cỏch th cụng 15 1.4.2 Phng phỏp ỏnh giỏ BLEU 15 1.4.3 Phng phỏp ỏnh giỏ ROUGE 16 1.4.4 o precision v o recall 17 CHNG : PHNG PHP TểM TT VN BN TING VIT DA TRấN NAIVE BAYES 19 2.1 Mt s phng phỏp túm tt bn in hỡnh 19 2.1.1 Phng phỏp túm tt bn bng cõy quyt nh 19 2.1.2 Phng phỏp túm tt bn bng mng n ron 20 2.1.3 Phng phỏp phõn tớch ngụn ng t nhiờn mc sõu 20 2.1.4 Phng phỏp túm tt ngn 24 ` iv 2.1.5 Phng phỏp da trờn mụ hỡnh markov n 24 2.1.6 Phng phỏp túm tt da trờn rỳt gn cõu 25 2.1.7 Phng phỏp túm tt bn bng naùve bayes: 25 2.2 Phng phỏp túm tt bn s dng lý thuyt phõn loi Naùve Bayes 26 2.2.1 Phõn loi Naùve Bayes 26 2.2.2 La chn cỏc c trng cho trớch chn 33 2.3 Hun luyn v tớnh trng s cỏc cõu hun luyn 41 2.4 La chn cỏc cõu to túm tt 43 CHNG XY DNG V CI T H THNG TểM TT VN BN TING VIT DA TRấN Lí THUYT NAẽVE BAYES 48 3.1 Mụ hỡnh h thng túm tt bn ting Vit da trờn lý thuyt Naùve Bayes 48 3.2 Phõn tớch thit k h thng túm tt bn ting Vit da trờn Naùve Bayes 54 3.3 Mt s giao din ca h thng túm tt bn ting Vit da trờn Naùve Bayes 56 3.3.1 Giao din trang ch h thng túm tt bn ting Vit 56 3.3.2 Giao din trang qun tr h thng túm tt bn ting Vit 57 3.4 Kt qu thc nghim phng phỏp túm tt bn ting Vit da trờn Naùve Bayes 63 3.4.1 Xõy dng d liu phc v hun luyn 63 3.4.2 Xõy dng b t in danh t 64 3.4.3 Tin x lý v chun húa d liu 64 3.4.4 ỏnh giỏ kt qu ca h thng túm tt bn da trờn Naùve Bayes 65 KT LUN 66 TI LIU THAM KHO 67 TING VIT 67 PH LC 68 ` v DANH MC HèNH V Hỡnh 1.1 H Thng Túm Tt Vn Bn Text Compactor Hỡnh 2.1 Cõy Cu Trỳc Tu T 23 Hỡnh 2.2 Mụ Hỡnh Markov n S Dng Trong Trớch Rỳt Cõu 25 Hỡnh 2.3.Ma Trn Vớ D 35 Hỡnh 2.4 Mụ Hỡnh Gim Chiu Vộc T 35 Hỡnh 2.5 Vn Bn Vớ D 37 Hỡnh 2.6 Quan H Gia S Vn Bn V S Thut Ng 38 Hỡnh 2.7 Tỏch T Da Trờn H Thng Phõn Tớch Cõu Vlsp 38 Hinh 2.8 Thut Toan Tinh Trng S Ca Cau 43 Hỡnh 2.9 Thut Toỏn Trớch Rỳt Cõu 45 Hỡnh 3.1 Mụ Hỡnh Túm Tt Vn Bn Thụng Thng 49 Hỡnh 3.2 Mụ Hỡnh Túm Tt Vn Bn Trong Lun Vn Xut 51 Hỡnh 3.3 C s d liu ca h thng..50 Hỡnh 3.4 S Usecase Tng Quỏt 55 Hỡnh 3.5 Usecase Trng Hp Hun Luyn 56 Hỡnh 3.6 Giao Din Trang Ch Ca H Thng 57 Hỡnh 3.7 Giao Din Chớnh Ca Trang Qun Tr 58 Hỡnh 3.8 Ly Tin T ng 58 Hỡnh 3.9 Giao Din Hin Th D Liu Ly V 59 Hỡnh 3.10 Giao Din Hun Luyn Vn Bn 60 Hỡnh 3.11 Giao Din Qun Lý T 60 Hỡnh 3.12 Hin Th Tin Tc Sau Khi Cp Nht 61 Hỡnh 3.13 Giao Din Túm Tt Tin Tc 62 Hỡnh 3.14 Giao Din Túm Tt Vn Bn 62 ` vi DANH MC BNG BIU Bng 1.1 Hin Trng Cỏc Kho Ng Liu Ting Vit 13 Bng 2.1 : Vớ d v bng hun luyn28 Bng 3.1 Bng Kt Qu Thc Nghim 65 Formatted: Font: Not Bold, Vietnamese Bng 2.1 Vớ d v bng hun luyn 30 Bng 2.2 Bng kt qu thc nghim 46 ` Formatted: Space After: pt, Line spacing: Multiple 1.6 li vii DANH MC T VIT TT Kớ hiu tf Din gii Tn sut t (Term frequency) Formatted: Font: 14 pt, Font color: Auto tn sut nghch o bn (inverse document Idf Formatted: Font: 14 pt, Font color: Auto frequency) Hi tho tra cu bn (Text Retrieval REtrieval TREC Formatted: Font: 14 pt Conferrence) Formatted: Font: 14 pt, Font color: Auto Hi tho hiu bn (Document Understanding DUC Formatted: Font: 14 pt Conferrence) Formatted: Font: 14 pt, Font color: Auto Phng phỏp ỏnh giỏ dch mỏy t ng (Bilingual BLEU Formatted: Font: 14 pt, Font color: Auto Evaluation Under Study) Formatted: Font: 14 pt, Font color: Auto Vin cụng ngh tiờu chun quc gia (National Field Code Changed NIST Formatted: Font: 14 pt, Font color: Auto Institute of Standards and Technology) Phng phỏp ỏnh giỏ kt qu túm tt ROUGE Rouge (Recall Evaluation) ` Oriented Understudy for Gisting Formatted: Font: 14 pt, Font color: Auto Formatted: Font: 14 pt, Font color: Auto ` LI M U Formatted Ngy thụng tin ó v ang úng vai trũ cc k quan trng xó hi S phỏt trin mnh m ca Internet mang li cho ngi nhng thụng tin quan trng v b ớch, vi lng ln thụng tin ny mang li cho ngi nhng tin ớch tra cu thụng tin Cỏc h thng tỡm kim, tra cu c nghiờn cu, xut v xõy dng tha phn no yờu cu ca ngi dựng t hin ti Tuy nhiờn, nú khin chỳng ta khú khn vic tỡm kim v tng hp thụng tin Cỏc nh nghiờn cu ó xut cỏc gii phỏp xõy dng cỏc h thng, cụng c khai phỏ d liu nh: phõn loi d liu, phõn cm d liu, nộn d liu, tra cu thụng tin, túm tt bn Mt nhng cụng c quan trng ú l túm tt bn i vi d liu dng bn, túm tt bn l túm tt cỏc thụng tin chớnh t bn gc nhn c mt bn dng ngn hn v cht lc cỏc thụng tin quan trng t bn gc Túm tt bn nhn c nhiu s quan tõm nghiờn cu ca cỏc nh khoa hc nhúm nghiờn cu v cỏc cụng ty trờn th gii Bi toỏn túm tt bn ting Vit cng khụng ngoi l vỡ khụng th khai thỏc thụng tin ting Vit hiu qu nu khụng cú phng phỏp túm tt bn ting Vit Trong khuụn kh ti lun vn, tụi s dng cỏch tip cn rỳt gn cõu da trờn Naive Bayes : - Nõng cao cht lng ca h thng túm tt bn ting Vit t ng bng cỏch hc giỏm sỏt Trờn thc t gii quyt bi toỏn ny ó cú rt nhiu phng phỏp c a nh s dng thut toỏn Naùve Bayes, phng ` Formatted: Underline, English (U.S.) phỏp cõy quyt nh(Decision tree), Phng phỏp túm tt bn bng mng nron nhõn to(Artificial Neural Network), phng phỏp túm tt ngn, Phng phỏp phõn tớch ngụn ng t nhiờn mc sõu, phng phỏp hc khụng giỏm sỏt, phng phỏp mỏy hc Mi phng phỏp u cho kt qu khỏ tt, nhiờn phng phỏp túm tt bn ting Vit bng thut toỏn Naùve Bayes cú cht lng ca túm tt bn l cao hn - Gim phc tớnh toỏn v mt thi gian - Xõy dng h thng t ng tng hp tin tc trc tuyn v túm tt - Xõy dng d liu hun luyn gm 200 bn ting Vit Lun c chia thnh chng vi cỏc ni dung sau: Chng 1: Tng quan v túm tt v túm tt bn ting Vit Chng 2: Phng phỏp túm tt bn ting vit da trờn Naive Bayes Chng 3: Xõy dng ng dng túm tt bn ting Vit da trờn Formatted: Font: Italic, Expanded by 0.3 pt Naive Bayes Formatted: Underline ` 64 D liu t D gm n bn sau quỏ trỡnh chun b d liu c gỏn nhón thnh hai gm cỏc cõu cú nhón (+) v cỏc cõu cú nhón (-) 3.4.2 Xõy dng b t in danh t tng tc cho h thng v quỏ trỡnh xõy dng t in gm cỏc danh t, lun ó s dng cụng c Vntagger c ti v t trang web vlsp [15]v nhỳng vo mó ngun ca chng trỡnh thnh b cụng c tớch hp ca h thng 3.4.3 Tin x lý v chun húa d liu Tp bn u vo l bn dng thụ, n gin cho vic x lý d liu, vi mi bn u vo, ta s thc hic qua bc tin x lý ký t a bn v dng xõu chun õy xõu chun l xõu m ú khụng cú du cỏch no lin nhau, cú du cõu kt thỳc xõu, trc du cõu khụng cú du cỏch cú c xõu chun, chun b cho vic tỏch t, ta thc hin qua cỏc bc sau: Chuyn ht cỏc ký t ch hoa thnh ch thng Dựng cỏc du cõu (bao gm du . , :) tỏch bn thnh mt tõp hp cỏc cõu Ta cú th tỏch nh vy vỡ õm tit cỏch bi mt du cõu s khụng bao gi thuc v cựng mt t Tin hnh chun hoỏ vi mi cõu: Khi cú >1 du cỏch ng k nhau, loi bt i, ch li mt du cỏch loi b nhng du cỏch u v cui cõu ` 65 3.4.4 ỏnh giỏ kt qu ca h thng túm tt bn da trờn Naùve Bayes Lun s dng phng phỏp ỏnh giỏ truyn thng l o Precision ỏnh giỏ cht lng ca túm tt, chớnh xỏc ca h thng so vi ngi ỏnh giỏ vi tng mc ca túm tt, mt s cỏc h thng khỏc hoc phng phỏp khỏc nh textcompactor [16], VTSonline [14], Le Thanh Ha [13] thng s dng túm tt theo t l c nh ngha nh sau: T l r= chiu di bn túm tt/ chiu di bn gc % Kt qu c th hin nh bng sau T l Phng phỏp 80% 60% 40% 20% Lun 0.88 0.86 0.82 0.6 HLT 0.82 0.75 0.69 0.54 Baseline 0.81 0.8 0.84 0.63 Textcompactor 0.85 0.82 0.65 0.57 VTSonline 0.72 0.68 0.51 0.48 Bng 3.1 Bng kt qu thc nghim Da vo bng kt qu thc nghim trờn thy rng, phng phỏp lun s dng c ci t hiu qu trờn h thng thc cú hiu qu v gn vi kt qu ỏnh giỏ ca ngi Formatted: Font: 14 pt ` 66 KT LUN Cỏc phng phỏp khai phỏ d liu hin ngy cng gn vi yờu cu ca ngi dựng l mong mun cho thụng tin hu ớch nht vụ lng thụng tin trờn Internet Trong ú, d liu dng bn chim ti trờn 80% kho d liu ln ó cú khai phỏ hiu qu thụng tin ny cn ti nhiu cụng c khỏc khai phỏ, ú cú cụng c túm tt bn Trong lun ny ó trỡnh by mt phng phỏp túm tt bn ting Vit da trờn lý thuyt Naùve Bayes phõn lp cỏc cõu cú quan trng so vi d liu ó c hun luyn bi ngi dựng cho cht lng túm tt tt hn cỏc phng phỏp ó c xut da trờn cỏch tip cn hc khụng giỏm sỏt Lun cng ó xõy dng v ci t h thng chy trờn mụi trng web, gúp phn a nhng nghiờn cu gn hn vi thc t v ỏp dng thc t vi kt qu th nghim chp nhn c Vn bn túm tt d c d hiu v gn vi kt qu túm tt ca ngi Dự ó ht sc c gng hon thnh lun v xõy dng h thng túm tt bn ting Vit t ng, nhiờn, thi gian nghiờn cu cú hn nờn khụng th trỏnh nhng sai sút Kớnh mong cỏc thy cụ, ng nghip, bn bố úng gúp lun hon thin hn Trõn trng cm n! ` 67 TI LIU THAM KHO Ting Vit [1] Phm Cụng Cnh, Phng phỏp rỳt gn cõu ting Vit da trờn mng Bayesian, lun thc s, Hc vin k thut quõn s, 2014 [2] La c Dng, Khai phỏ d liu bn bng cụng c thụ, lun thc s, i hc cụng ngh thụng tin v truyn thụng Thỏi Nguyờn, 2012 [3] Lờ Mnh Hựng, Tra cu bn ting Vit da trờn mụ hỡnh phõn cm phõn cp, lun thc s, hc vin bu chớnh vin thụng, 2013 [4] Lng Chi Mai (2009), Nghiờn cu phỏt trin mt s sn phm thit yu v x lý ting núi v bn ting Vit, Chng trỡnh KH&CN cp nh nc KC01/06-10, ti KC01/06-10 [5] Hong Tt Thng, Nguyn Th Bch Nhn, Nguyn Quc Dng Lờ Th Hoi Nam, Trn Th Qunh Nga, Ti liu hng dn ụn v thi tt nghip mụn Ting Vit v phng phỏp ging dy ting Vit Tiu hc, trng i hc Hu, 2013 [6] Nguyn Th Ngc Tỳ, Túm tt bn ting Vit da trờn mng n ron, lun thc s, i hc cụng ngh thụng tin i hc quc gia thnh ph H Chớ Minh, 2014 Ting Anh [7] Chin-Yew Lin, Eduard Hovy (2003/5/27), Automatic evaluation of summaries using n-gram co-occurrence statistics, In Proceedings of the Human Technology Conference, Association for Computational Linguistics Volume 1, 71-78 [8] Clarke, J., & Lapata, M (2008), Global inference for sentence compression: An integer linear programming approach, Journal of Articial Intelligence Research, 31, 399-429 ` 68 [9] Dipanjan Das and Andre F.T Martins (2007), A Survey on Automatic Text Summarization, Language Technologies Institute, Carnegie Mellon University [10] Ha N.T.T, An optimization text summarization method based on Naùve Bayes and topic word for Single syllable Language, Applied Mathematical Sciences, Vol 8, No 3, pp 99-115, 2014 [11] Hovy, E and Lin, C , Automated text summarization and the summarist system, TIPSTER '98 Proceedings of a workshop on held at Baltimore, Maryland: October 13-15, 1998, pp.197214, 1998 [12] Knight, K., & Marcu, D (2002), Summarization beyond sentence extraction: a probabilistic approach to sentence compression, Articial Intelligence, 139 (1), 91-107 Formatted: Bullets and Numbering [13] Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong, A Primary Study on Summarization of Documents in Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society 2005-11 Website [1].[14] http://labs.baomoi.com/demoTS.aspx [2].[15] http://vlsp.vietlp.org:8080/demo/ [3].[16] http://www.textcompactor.com/ [4].[17] http://www.tools4noobs.com/summarize PH LC 1.Phn hc bn public void Trainings(string typenewsId) { ` Formatted: Font: 12 pt 69 DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (topword != null) { foreach (DataRow row in topword.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 0; } } string s1; int tong = 0; int dem = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); ` 70 int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem++; tong = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in topword.Rows) { if (tong > 0) { xs = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem) + Convert.ToDouble(tong)); } else xs = 0.0; ` 71 row1[i + 4] = xs.ToString(); } } tw.Update(topword,typenewsId); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='"+int.Parse(typenewsId)+"'"); if (noun != null) { foreach (DataRow row in noun.Rows) { row[2] = 0; row[3] = 0; row[4] = 0; row[5] = 0; row[6] = 1; } } string s2; int tong2 = 0; int dem2 = 0; for (int i = 0; i < 2; i++) { string sentence = st.GetSentence(i + "",typenewsId); if (noun != null) { foreach (DataRow row in noun.Rows) ` 72 { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2.ToLower()); MatchCollection theMatches = thegex.Matches(sentence); int str = 0; foreach (Match theMatch in theMatches) { str++; } if (str > 0) { dem2++; tong2 = Convert.ToInt32(row[i + 2]) + Convert.ToInt32(str.ToString()); row[i + 2] = Convert.ToInt32(str.ToString()); } } } } double xs2 = 0.0; for (int i = 0; i < 2; i++) { foreach (DataRow row1 in noun.Rows) { if (tong2 > 0) ` 73 { xs2 = (Convert.ToDouble(row1[i + 2]) + 1) / (Convert.ToDouble(dem2) + Convert.ToDouble(tong2)); } else xs2 = 0.0; row1[i + 4] = xs2.ToString(); } } tw.Update(noun,typenewsId); } 2.Phn Túm tt public string SummaryText(string text,string typenewsId) { DataTable topword = dt.GetDataTable("Select * From tbWords where Type='0' and TypeNewsId='"+int.Parse(typenewsId)+"'"); DataTable noun = dt.GetDataTable("Select * From tbWords where Type='1' and TypeNewsId='" + int.Parse(typenewsId) + "'"); string output = ""; string[] input = text.Split('.', '?', '!', ';'); for (int i = 0; i < input.Length; i++) { string s1 = ""; string s2 = ""; double ProbabilityYes = 0; double ProbabilityNo = 0; ` Formatted: Font: 12 pt 74 if (topword != null) { foreach (DataRow row in topword.Rows) { s1 = Convert.ToString(row[1]); Regex thegex = new Regex(s1); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (noun != null) { foreach (DataRow row in noun.Rows) { s2 = Convert.ToString(row[1]); Regex thegex = new Regex(s2); MatchCollection theMatches = thegex.Matches(input[i]); int s = 0; ` 75 foreach (Match theMatch in theMatches) { ProbabilityYes += Convert.ToDouble(row[4].ToString()); ProbabilityNo += Convert.ToDouble(row[5].ToString()); } } } if (ProbabilityYes > ProbabilityNo) { output += input[i] + " "; } } return output; } ` Page 23: [1] Formatted User 27/5/2014 16:53:00 PM HINH VE, None, Line spacing: single, Widow/Orphan control, Allow hanging punctuation, Adjust space between Latin and Asian text, Adjust space between Asian text and numbers, Font Alignment: Auto, Border: Top: (No border), Bottom: (No border), Left: (No b Page 23: [2] Formatted Microsoft Windows 17/8/2014 10:06:00 AM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 16:49:00 PM Vietnamese Page 23: [3] Formatted Font: 10.5 pt, Bold Page 23: [4] Formatted Font: 10.5 pt Page 23: [5] Formatted Centered Page 23: [6] Formatted Font: 10.5 pt, Bold Page 23: [7] Formatted Font: 10.5 pt Page 23: [8] Formatted Centered Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [9] Formatted Font: 10.5 pt, Bold Page 23: [10] Formatted Font: 10.5 pt Page 23: [11] Formatted Centered Page 23: [12] Formatted Font: 10.5 pt, Bold Page 23: [13] Formatted Font: 10.5 pt Page 23: [14] Formatted Centered Page 23: [15] Formatted Font: 10.5 pt, Bold Page 23: [16] Formatted Font: 10.5 pt Page 23: [17] Formatted Centered Page 23: [18] Formatted User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:09:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM Font: 10.5 pt, Bold Page 23: [19] Formatted Font: 10.5 pt Page 23: [20] Formatted Font: 10.5 pt Page 23: [21] Formatted Centered Page 23: [22] Formatted Font: 10.5 pt, Bold Page 23: [23] Formatted Font: 10.5 pt, Bold Page 23: [24] Formatted Font: 10.5 pt Page 23: [25] Formatted Centered Page 23: [26] Formatted Font: 10.5 pt, Bold Page 23: [27] Formatted Font: 10.5 pt, Bold Page 23: [28] Formatted Centered Page 23: [29] Formatted Font: 10.5 pt Page 23: [30] Formatted Centered Page 23: [31] Formatted Font: 10.5 pt, Bold Page 23: [32] Formatted Centered Page 23: [33] Formatted Font: 10.5 pt, Bold Page 23: [34] Formatted Font: 10.5 pt Page 23: [35] Formatted Centered Page 23: [36] Formatted Font: 10.5 pt, Bold Page 23: [37] Formatted User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:04:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 19:33:00 PM User 27/5/2014 17:09:00 PM User 27/5/2014 19:33:00 PM Font: 10.5 pt Page 23: [38] Formatted Centered Page 23: [39] Formatted Font: 10.5 pt, Bold Page 23: [40] Formatted Font: 10.5 pt Page 23: [41] Formatted Centered Page 23: [42] Formatted Font: 10.5 pt, Bold Page 23: [43] Formatted Font: 10.5 pt Page 23: [44] Formatted Centered Page 23: [45] Formatted Font: 10.5 pt, Bold Page 23: [46] Formatted Font: 10.5 pt Page 23: [47] Formatted Centered Page 23: [48] Formatted Font: 10.5 pt, Bold Page 23: [49] Formatted Font: 10.5 pt, Bold Page 23: [50] Formatted Font: 10.5 pt Page 23: [51] Formatted Centered Page 23: [52] Formatted Font: 10.5 pt, Bold [...]...4 Chương 1 : TỔNG QUAN VỀ TÓM TẮT VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT Trong chương này, luận văn trình bày các khái niệm tổng quan về tóm tắt văn bản và tóm tắt văn bản tiếng Việt, các kỹ thuật tóm tắt văn bản dựa trên máy học như: Naïve Bayes, Cây quyết định, phương pháp can thiệp mức ngôn ngữ tự nhiên,…thông qua đó, luận văn cũng trình bày một số phương pháp đánh giá tóm tắt cơ bản hiện nay 1.1 Giới thiệu... hiện trạng tóm tắt văn bản tiếng Việt hiện nay cũng đã và đang được quan tâm nghiên cứu và phát triển bởi các nhóm xử lý ngôn ngữ tự nhiên tiếng Việt trong nước (JAIST) Luận văn cũng đã đưa ra đặc điểm của ngôn ngữ tiếng Việt, một số phương pháp tóm tắt văn bản đánh giá tóm tắt văn bản Formatted: Font: 14 pt Ở chương 2 của luận văn sẽ đi sâu vào phương pháp tóm tắt văn bản dựa trên Naïve Bayes ` Formatted:... trên Naïve Bayes ` Formatted: Font: 14 pt 19 Chương 2 : PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES Formatted: Font: 7 pt Trong chương này, luận văn trình bày một số phương pháp tóm tắt văn bản điển hình và đi sâu vào phương pháp tóm tắt văn bản Naïve Bayes, trên cơ sở đó tìm hiểu phương pháp rút gọn đặc trưng trong xử lý tiếng Việt và Formatted: Normal, Line spacing: Multiple 1.6 li Formatted:... sử dụng Wordnet ( Miler, 1995 ) Kho dữ liệu sử dụng trong thực nghiệm được lấy từ các trang tin, và đánh giá dựa vào TREC 2.2 Phương pháp tóm tắt văn bản sử dụng lý thuyết phân loại Naïve Bayes 2.2.1 Phân loại Naïve Bayes Phân loại Naïve Bayes (Naïve Bayes Classifier) là một thuật ngữ trong xử lý số liệu thống kê Bayesian với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes Naïve Bayes là phương. .. nhất trong văn bản cho bởi hệ thống và văn bản tham khảo và Count(ngram) là số n-gram trong văn bản cho bởi hệ thống Khi sử dụng phương pháp đánh giá BLEU để đánh giá chất lượng tóm tắt, ta coi văn bản tóm tắt là văn bản ứng viên, văn bản gốc là văn bản nguồn Trong một số trường hợp người ta sử dụng phương pháp BLEU trong đánh giá chất lượng tóm tắt thủ công Formatted: Font: 5 pt 1.4.3 Phương pháp đánh... trọng trong văn bản như câu, mệnh đề, thuật ngữ, Tóm tắt dựa trên trừu tượng tạo ra một văn bản tóm tắt đảm bảo về mặt cú pháp, ngữ nghĩa, câu được xử lý một cách tinh vi [56] 1.1.2 Tỉ lệ trong tóm tắt văn bản Thông thường, khi tóm tắt văn bản người ta đề cập tới hai yêu cầu chính sau: - Văn bản tóm tắt phải ngắn hơn văn bản gốc - Văn bản tóm tắt phải giữ được thông tin quan trọng của văn bản gốc Do... hiệu quả tìm kiếm Định nghĩa 1.1 [Tóm tắt văn bản (Text summarization)]: Tóm tắt văn bản là quá trình rút ra những thông tin quan trọng từ một văn bản để tạo thành một văn bản ngắn gọn hơn theo nhiệm vụ cụ thể và yêu cầu của người sử dụng [10][9] ` 5 Hình 1.1 Hệ thống tóm tắt văn bản Text Compactor Những nghiên cứu sớm nhất về tóm tắt văn bản được đề xuất bởi Luhn vào năm 1958, tại Viện nghiên cứu của... pháp tiếng Việt Do tính phức tạp và không phổ biến của tiếng Việt, mà những nghiên cứu về tóm tắt văn bản tiếng Việt so với tiếng Anh vẫn còn nhiều hạn chế Hiện nay, hầu hết các nghiên cứu về tóm tắt tiếng Việt tập trung chủ yếu vào trích rút câu và rút gọn câu Chúng ta vẫn gặp nhiều khó khăn, ngoài việc các công cụ phục vụ tách từ loại hiệu quả chưa cao và chưa có kho ngữ liệu chuẩn phục vụ cho tóm tắt, ... Mặc dù phương pháp phân loại Naïve Bayes khá đơn giản nhưng nó có khả năng phân loại tốt hơn nhiều các phương pháp phân hoạch khác Với mỗi loại văn bản thuật toán Naïve Bayes tính cho mỗi lớp văn bản một xác suất mà tài liệu cần phân hoạch có thể thuộc loại đó, tài liệu đó sẽ được gán cho lớp văn bản nào có xác suất cao nhất Thuật toán Naïve Bayes được xem là thuật toán đơn giản so với các phương pháp. .. n-gram, gramn và Countmatch(gramn) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo 1.4.4 Độ đo precision và độ đo recall Đối với phương pháp tóm tắt văn bản dựa trên trích rút câu, các câu được trích chọn kết nối với nhau, tạo nên văn bản tóm tắt, không cần hiệu chỉnh thêm Trong trường hợp này, người ta sử dụng độ đo triệu hồi và chính xác để

Ngày đăng: 12/05/2016, 10:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan