Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục

Thông tin tài liệu

y o c u -tr a c k c B GIO DC VO O TO VIN HN LM KHOA HC V CễNG NGH VN HC VIN KHOA HC V CễNG NGH H v tờn tỏc gi lun ỏn NGUYN VN HUY TấN TI LUN N Nghiờn cu mụ hỡnh iu nhn dng ting Vit t vng ln phỏt õm liờn tc LUN N TIN S: TON HC H NI 2016 d o m o w w w d o C lic k to bu y bu to k lic C w w w N O W ! h a n g e Vi e N PD ! XC er O W F- w m h a n g e Vi e w PD XC er F- c u -tr a c k c y o c u -tr a c k c B GIO DC VO O TO VIN HN LM KHOA HC V CễNG NGH VN HC VIN KHOA HC V CễNG NGH H v tờn tỏc gi lun ỏn NGUYN VN HUY TấN TI LUN N Nghiờn cu mụ hỡnh iu nhn dng ting Vit t vng ln phỏt õm liờn tc Chuyờn ngnh: C s toỏn hc cho tin hc Mó s: 62460110 LUN N TIN S: TON HC NGI HNG DN KHOA HC: PGS TS LNG CHI MAI TS V TT THNG H NI 2016 d o m o w w w d o C lic k to bu y bu to k lic C w w w N O W ! h a n g e Vi e N PD ! XC er O W F- w m h a n g e Vi e w PD XC er F- c u -tr a c k c y o c u -tr a c k c Li núi u Cỏc k thut nhn dng ting núi ó ang rt phỏt trin, c bit vi mt s ngụn ng ph dng nh Anh, Phỏp, Trung Quc, Nhng yu t chớnh nh hng n cht lng ca mt h thng nhn dng ting núi nh: Ngi núi, tc núi, hon cnh núi, nhiu, kớch thc t in, cỏch thc phỏt õm, nhiờn hin cha cú mt gii phỏp no hon thin gii quyt tt c cỏc yu t ú Cỏc phng phỏp c bn thng c s dng cho nhn dng ting núi l: K thut so khp mu, mng nron, phng phỏp da trờn tri thc v mụ hỡnh Markov n Trong ú phng phỏp s dng mụ hỡnh Markov n (Hidden Markov Model HMM) c s dng ph bin nht i vi ting Vit hin cha cú nhiu nghiờn cu v nhn dng Cỏc cụng vic nghiờn cu mi ang nhng bi toỏn c bn Ting Vit l mt ngụn ng cú iu, vỡ th ngoi nhng khú khn gp phi tng t nh vic nhn dng cỏc ngụn ng khụng cú iu khỏc (Anh, phỏp,), nhn dng ting Vit cũn phi nghiờn cu nhn dng iu Ting Vit cú sỏu iu, mt cỏch tng quỏt cú th coi nh mi õm tit s cú th cú sỏu ý ngha khỏc ghộp tng ng vi sỏu iu ú Vic nhn dng iu l mt cụng vic khú iu ch tn ti vựng õm hu Vỡ th ng c tớnh ca nú khụng liờn tc chuyn tip gia hai vựng hu v vụ Cỏc c trng c s dng ph bin nhn dng ting núi nh MFCC (Mel Frequency Cepstral Coefficient) v PLP (Perceptual Linear Prediction) li khụng mụ t c cỏc c tớnh ca iu, vy trc nhn dng c iu ta phi ỏp dng cỏc k thut tớnh toỏn c trng iu tớn hiu ting núi Cỏc nghiờn cu hin v nhn dng iu ting Vit cng mi ch nhng bc u tiờn v ch yu ỏp dng cho ting núi ri rc, cú lng t vng nh c vi trm t Cỏc gii phỏp ch yu l phỏt trin t cỏc nghiờn cu trờn cỏc ngụn ng cú iu khỏc nh Mandarin, Thỏi,, vỡ vy vic nghiờn cu mt gii phỏp nhn dng ting Vit t vng ln phỏt õm liờn tc thc s l mt cp thit c v tớnh khoa hc v kinh t T cỏc lý cp thit ny tụi ó chn ti Nghiờn cu mụ hỡnh iu nhn dng ting Vit t vng ln phỏt õm liờn tc Vi mc tiờu chớnh l nghiờn cu cỏc nhn dng ting Vit t vng ln phỏt õm liờn tc, v nghiờn cu cỏc v mụ hỡnh iu cho ting Vit Ni dung chớnh ca lun ỏn c trỡnh by thnh chng vi ni dung nh sau: d o m o w w w d o C lic k to bu y bu to k lic C w w w N O W ! h a n g e Vi e N PD ! XC er O W F- w m h a n g e Vi e w PD XC er F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k - Chng 1: Gii thiu tng quan v nhn dng ting núi v ng dng Cu trỳc tng quan ca mt h thng nhn dng ting núi c bn Tỡnh hỡnh nghiờn cu tng quan v nhn dng ting núi chung v nhn dng ting Vit núi riờng Gii thiu cỏc mc tiờu v phm vi nghiờn cu chớnh ca lun ỏn - Chng 2: Trỡnh by tng quan v cu trỳc ng õm ting Vit Mụ hỡnh nhn dng ting Vit t vng ln phỏt õm liờn tc cú iu D liu v - cỏc cụng c s dng ci t cỏc th nghim H thng nhn dng c s Chng 3: Trỡnh by mụ hỡnh iu cho nhn dng ting Vit t vng ln phỏt õm liờn tc s dng MSD-HMM Bao gm quy trỡnh tớnh toỏn c trng iu, cu hỡnh mụ hỡnh v hun luyn - Chng 4: Trỡnh by phng phỏp tng cng c trng ng õm s dng mng nron cho nhn dng ting Vit, bao gm quy trỡnh gỏn nhón, hun luyn mng, ti u mng, trớch chn c trng Bottleneck v ci t th - nghim Chng 5: Trỡnh by phng phỏp tng cng c trng iu vi c trng ci tin Tonal-Bottleneck s dng mng nron Bao gm phng phỏp gỏn nhón iu, ti u mng, tớnh toỏn c trng v ci t th nghim Tụi xin c gi li cm n chõn thnh n B Giỏo dc v o to, Vin Cụng ngh Thụng tin Vin Hn lõm Khoa hc v Cụng ngh Vit Nam, trng H K thut Cụng nghip Thỏi Nguyờn H Thỏi Nguyờn ó to iu kin thun li cho tụi hon thnh ti nghiờn cu sinh ny Xin c gi li cm n chõn thnh n Vin cụng ngh Karlshuhe c, Vin Cụng ngh Thụng tin quc gia Nht Bn ó to iu kin v h tr c v mt khoa hc ln thit b cho tụi thc hin cỏc th nghim v cỏc nghiờn cu quỏ trỡnh thc sinh ti c v Nht Bn Tụi xin c gi li cm n c bit n PGS TS Lng Chi Mai, TS V Tt Thng ó luụn ch bo, nh hng, to iu kin thun li nht tụi cú th hon thnh lun ỏn ny Thỏi Nguyờn, ngy 16 thỏng 08 nm 2016 Nguyn Vn Huy d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Tụi xin cam oan õy l cụng trỡnh nghiờn cu ca riờng tụi v c s hng dn khoa hc ca PGS.TS Lng Chi Mai v TS V Tt Thng Cỏc ni dung nghiờn cu, kt qu ti ny l trung thc v cha tng c cụng b trc õy bi ngi khỏc Nhng s liu cỏc bng biu phc v cho vic phõn tớch, nhn xột, ỏnh giỏ c chớnh tỏc gi thu thp t cỏc th nghim Nu phỏt hin cú bt k s gian ln no tụi xin hon ton chu trỏch nhim v ni dung lun ỏn ca mỡnh Tỏc gi Nguyn Vn Huy d o m w Li cam oan o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Mc Lc Li núi u Li cam oan Mc Lc Danh mc cỏc t vit tt Danh mc bng biu Danh mc hỡnh nh Chng 1: M u 10 1.1 Túm tt chng 10 1.2 Tng quan v nhn dng ting núi 10 1.2.1 Nhn dng ting núi 10 1.2.2 ng dng 11 1.2.3 Cỏc nhn dng ting núi 13 1.3 Cỏc thnh phn chớnh ca mt h thng nhn dng ting núi 14 1.3.1 Trớch chn c trng 15 1.3.2 Mụ hỡnh õm hc 19 1.3.3 Mụ hỡnh ngụn ng 22 1.3.4 T in ng õm 24 1.4 ỏnh giỏ cht lng h thng nhn dng ting núi 24 1.5 Tỡnh hỡnh nghiờn cu hin v nhn dng ting núi 25 1.6 Nhn dng ting Vit v cỏc nghiờn cu hin 31 1.7 Mt s nghiờn cu gn õy trờn cỏc ngụn ng cú iu 34 1.8 Kt lun, cỏc ni dung v phm vi nghiờn cu chớnh ca lun ỏn 36 Chng 2: Mụ hỡnh iu cho nhn dng ting Vit t vng ln phỏt õm liờn tc 39 2.1 Túm tt chng 39 2.2 Tng quan v ting Vit 39 2.2.1 m v ting Vit 40 2.2.2 Thanh iu ting Vit 41 2.3 Mụ hỡnh cho h thng nhn dng ting Vit t vng ln 42 2.4 Mụ hỡnh cho h thng nhn dng ting Vit t vng ln cú iu 43 2.5 Thut toỏn to t in ng õm t ng cú iu cho ting Vit (VN-G2P) 45 2.6 D liu th nghim 47 2.6.1 D liu hun luyn (Training) 47 2.6.2 D liu th nghim (Testing) 48 2.6.3 ỏnh giỏ kớch thc d liu 48 2.7 Tng quan v cụng c HTK& HTS cho nhn dng ting núi 49 2.7.1 Tng quan v HTK 49 2.7.2 Tng quan v HTS 50 2.8 Th nghim mụ hỡnh khụng cú iu (H thng nhn dng c s Baseline) 52 2.8.1 D liu 53 2.8.2 Chun hoỏ d liu 53 2.8.3 Trớch chn c trng 53 2.8.4 T in 53 2.8.5 Mụ hỡnh õm hc 53 2.8.6 Mụ hỡnh ngụn ng 54 2.8.7 Th nghim (Testing) 54 2.9 Th nghim mụ hỡnh cú iu 54 2.9.1 Th nghim vi HTK 55 2.9.2 Th nghim vi cụng c Kaldi s dng c s d liu ln 56 2.10 Kt lun chng 58 2.11 Cỏc bi bỏo ó cụng b liờn quan n ni dung ca chng 59 Chng 3: Mụ hỡnh iu s dng MSD cho nhn dng ting Vit t vng ln phỏt õm liờn tc 60 3.1 Túm tt chng 60 3.2 Vai trũ ca c trng iu 60 3.3 c trng iu v khụng liờn tc 61 3.3.1 c trng iu NCC (giỏ tr tng quan chộo ó chun hoỏ) 62 3.3.2 c trng iu AMDF ( lch biờn trung bỡnh) 63 3.3.3 Trớch chn NCC v AMDF s dng cụng c SNACK 63 3.4 Tng quan v mụ hỡnh MSD-HMM 64 3.4.1 nh ngha MSD-HMM 65 3.4.2 c lng tham s cho MSD-HMM 67 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k 3.5 Cỏc nghiờn cu ó cụng b v ỏp dng MSD-HMM nhn dng ting núi 70 3.6 Chun húa c trng AMDF v NCC cho mụ hỡnh MSD-HMM 71 3.7 p dng mụ hỡnh MSD-HMM cho nhn dng ting Vit cú iu 73 3.8 Ci t th nghim v kt qu 74 3.8.1 D liu, mụ hỡnh ngụn ng, t in 75 3.8.2 Trớch chn c trng 75 3.8.3 Th nghim mụ hỡnh HMM 75 3.8.4 Th nghim mụ hỡnh MSD-HMM 77 3.9 Kt lun chng 77 3.10 Cỏc bi bỏo ó cụng b liờn quan n ni dung ca chng 78 Chng 4: Tng cng c trng ng õm s dng mng nron 79 4.1 Túm tt chng 79 4.2 Tng quan v mng nron MLP (Multilayer Perceptron) 79 4.3 ng dng mng nron nhn dng ting núi 81 4.4 Trớch chn c trng Bottleneck s dng mng MLP 83 4.4.1 Tng quan v c trng Bottleneck 83 4.4.2 Trớch chn c trng Bottleneck (BNF) 85 4.5 Ci t th nghim 86 4.5.1 Gỏn nhón d liu hun luyn mng 86 4.5.2 La chn cu hỡnh mng MLP 87 4.5.3 Hun luyn mng MLP 88 4.5.4 p dng c trng BNF vi mụ hỡnh HMM 90 4.6 Ti u c trng Bottleneck 91 4.6.1 Hun luyn mng MLP vi kớch thc BN thay i 91 4.6.2 Ci t th nghim vi c trng BN cú kớch thc thay i 92 4.7 Kt lun chng 92 4.8 Cỏc bi bỏo ó cụng b liờn quan n ni dung ca chng 93 Chng 5: Ci tin c trng iu s dng mng nron v mụ hỡnh tớch hp MSD-HMM vi Bottleneck94 5.1 Túm tt chng 94 5.2 Trớch chn c trng iu s dng mng nron 94 5.2.1 c trng iu Tonal Bottleneck (TBNF) 94 5.2.2 Trớch chn c trng iu TBNF 95 5.2.3 Ci tin c trng TBNF cho mụ hỡnh MSD-HMM 97 5.3 Gỏn nhón d liu 99 5.3.1 Gỏn nhón mc trng thỏi HMM ca iu (Tone Stage Labeling - TSL) 99 5.3.2 Gỏn nhón mc iu (Tone Labeling - TL) 101 5.4 La chn cu hỡnh mng MLP 102 5.4.1 La chn kớch thc lp ca mng MLP 102 5.4.2 La chn kớch thc lp Bottleneck (BN) 103 5.5 Th nghim c trng TBNF-MSD vi mụ hỡnh MSD-HMM 104 5.5.1 Trớch chn c trng TBNF-MSD 104 5.5.2 D liu, T in, Mụ hỡnh ngụn ng 104 5.5.3 Hun luyn mụ hỡnh õm hc MSD-HMM v kt qu th nghim 104 5.6 Mụ hỡnh tớch hp BNF, TBNF-MSD v MSD-HMM 105 5.7 Kt lun chng 106 5.8 Cỏc bi bỏo ó cụng b liờn quan n ni dung ca chng 106 Kt lun 107 Cỏc úng gúp chớnh lun ỏn 112 Danh mc cỏc cụng trỡnh khoa hc ó cụng b ca tỏc gi v cng s 113 Ti liu tham kho 115 Ph lc 122 TCL Script to t in ng õm cho mt bn ting Vit u vo bt k 122 File cu hỡnh mụ hỡnh MSD-HMM 126 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c y o c u -tr a c k c TT Vit tt ACC Danh mc cỏc t vit tt Ngha Accuracy AMDF Average Magnitude Difference Function 10 11 12 13 14 15 16 BN BNF CV DCT DFT DNN F0 FST G2P GMM GPU HMM HTK HTS Bottleneck Bottleneck Feature Cross Validation Accuracy Discrete cosine transform Discrete Fourier transform Deep Neural Network Fundamental Frequency Finite-State Transducer Grapheme to Phoneme Gaussian Mixture Model Graphical processing unit Hidden Markov Model Hidden Markov Model Toolkit HMM-based Speech Synthesis System 17 IDFT 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Invert Discrete Fourier transform Institute Of Information and Technology IOIT2013 2013 IPA International Phonetic Alphabet LDA Linear Discriminant Analysis LM Language Model MFCC Mel Frequency Cepstral Coefficients MLLT Maximum Likelihood Linear Transform MLP Multilayer Perceptron MSD Multispace Distribution NCC Normalized Cross-Correlation NN Neural Network NoTone No tone P Pitch PLP Perceptual Linear Prediction T1 Tone T2 Tone T3 Tone T4 Tone T5 Tone T6 Tone 6 d o m o w w w d o C lic k to bu y bu to k lic C w w w N O W ! h a n g e Vi e N PD ! XC er O W F- w m h a n g e Vi e w PD XC er F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k 37 38 39 40 41 42 TBNF VN-G2P VoiceTra VOV WER Tonal Bottleneck Feature Vietnamese Grapheme to Phoneme Voice Translation Voice Of Vietnam Word Error Rate Delta d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Danh mc bng biu Bng 2-1: Cu trỳc õm tit ting Vit 40 Bng 2-2: Vớ d cu trỳc ng õm ca õm tit "chuyn" 40 Bng 2-3: Tp õm v ng õm ting Vit 40 Bng 2-4: Mt s vớ d phiờn õm s dng õm v cú iu 45 Bng 2-5: D liu hun luyn 48 Bng 2-6: D liu th nghim 48 Bng 2-7: Vớ d mt s phiờn õm t in 53 Bng 2-8: Kt qu nhn dng ca h thng c s 54 Bng 2-9: Kt qu th nghim mụ hỡnh iu 56 Bng 2-10: Kt qu th nghim mụ hỡnh iu vi Kaldi 58 Bng 3-1: Kt qu th nghim Pitch v MFCC/PLP vi HMM 76 Bng 3-2: Kt qu th nghim mụ hỡnh MSD-HMM 77 Bng 4-1: Kt qu hun luyn mng MLP vi kớch thc L2 v L4 thay i 89 Bng 4-2: Kt qu th nghim c trng BNF 91 Bng 4-3: Kt qu hun luyn mng MLP vi kớch thc lp BottleBeck thay i 91 Bng 5-1: Kt qu hun luyn mng MLP trờn hai loi nhón TSL v TL 103 Bng 5-2: Kt qu th nghim vi kớch thc lp BN thay i 103 Bng 5-3: Kt qu th nghim TBNF-MSD vi MSD-HMM 104 Bng 5-4: Kt qu th nghim MSD-HMM vi c trng BNF13+TBNF-MSD3 106 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Ti liu tham kho w Ting Vit Ch, Mai Ngc and Nghiu, V c and Phin, Hong Trng C s ngụn ng hc v ting Vit Vit Nam: NXB Giỏo Dc, 1997 c, ng Ngc Mng nron v mụ hỡnh Markov n nhn dng ting Vit H Ni: Lun ỏn tin s, Trng H Khoa hc t nhiờn H Quc gia h Ni, 2003 Khang, Bch Hng Tng Hp v Nhn dng ting Vit - ti cp nh nc H Ni: Vin Cụng Ngh Thụng Tin, 2004 Ting Anh Ambra, N and Catia, C and Wilhelmus, S "Automatic Speech Recognition for second language learning: How and why it actually works." International Congress of Phonetic Sciences (ICPhS) Barcelona, 2003 Anastasakos, T and McDonough, J and Makhoul, J "Speaker adaptive training: a maximum likelihood approach to speaker normalization." Acoustics, Speech and Signal Processing (ICASSP) Munich, 1997 1043 1046 Bengio, Yoshua and Rejean, Ducharme and Pascal, Vincent and Christian, Jauvin "A neural probabilistic language." Machine Learning Research, 2003: 11371155 Chen, C.J and Haiping Li and Liqin Shen and Guokang Fu "Recognize tone languages using pitch information on the main vowel of each syllable." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT: IEEE, 2001 61-64 Chong-Jia, Ni and Wen-Ju, Liu and Bo, Xu "Prosody Dependent Mandarin Speech Recognition." International Joint Conference on Neural Networks California, USA: IEEE, 2011 197-201 Christian, Plahl and Ralf, Schluter and Hermann, Ney "Cross-lingual Portability of Chinese and English Neural Network Features for French and German LVCSR." Automatic Speech Recognition & Understanding (ASRU) Waikoloa, HI, USA: IEEE, 2011 371376 Chuong, Nguyen Thien Automatic speech recognition of Vietnamese PhD Thesis, Technical University of Liberec, Czech Republic, 2014 Ch, Mai Ngc and Nghiu, V c and Phin, Hong Trng C s ngụn ng hc v ting Vit Vit Nam: NXB Giỏo Dc, 1997 Daniel, Povey and Arnab, Ghoshal and Gilles, Boulianne and Lukas, Burget and Ondrej, Glembek and Nagendra, Goel and Mirko, Hannemann and Petr, Motlicek and Yanmin, Qian and Petr, Schwarz and Jan, Silovsky and Georg, Stemmer and Karel, Vesely "The Kaldi Speech Recognition Toolkit." Automatic Speech Recognition and Understanding Hawaii, US, 2011 Daniel, Povey and Lukas, Burget and Mohit, Agarwal and et "Subspace Gaussian Mixture Models for Speech Recognition." Acoustics Speech and Signal Processing (ICASSP) Texas, USA: IEEE, 2010 115 d o o c m C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Dixon, P.R and Hori, C and Kashioka, H "Development of the SprinTra WFST Speech Decoder." NICT Research Journal, 2012: Journal c, ng Ngc Mng nron v mụ hỡnh Markov n nhn dng ting Vit H Ni: Lun ỏn tin s, Trng H Khoa hc t nhiờn H Quc gia h Ni, 2003 Farber, P Quicknet on multispert: fast parallel neural network training TR-97-047, ICSI, 1997 Fatemeh, Sadat Saleh and Boshra, Shams and Hossein, Sameti and Soheil, Khorram "An Automatic Prosodic Event Detector Using MSD HMMs for Persian Language." Artificial Intelligence and Signal Processing, ISBN 978-3-319-10848-3, 2013: 234240 Ferreira, E and Nocera, P and Goudi, M and Thi, N.D.D "YAST: A Scalable ASR Toolkit Especially Designed for Under-Resourced Languages." Asian Language Processing (IALP) Hanoi: IEEE, 2012 141 - 144 Florian, Honig and Georg, Stemmer and Christian, Hacker and Fabio, Brugnara "Revising Perceptual Linear Prediction (PLP)." INTERSPEECH Lisbon, Portugal, 2005 Frederick, Jelinek and Robert, L Mercer "Interpolated Estimation of Markov Source Parameters from Sparse Data." Pattern Recognition in The Netherlands: NorthHolland, 1980 381-397 Gales, M and Young, S "The Application of Hidden Markov Models in Speech Recognition." Signal Processing, 2007: 195-304 Gehring, J and Miao, Y and Metze, F and Waibel, A "Extracting deep bottleneck features using stacked auto-encoders." Acoustics, Speech and Signal Processing (ICASSP) Vancouver, 2013 3377 3381 Good, I J "The population frequencies of species and the estimation of population." Biometrika, Vol 40, No 3/4, 1953: 237-264 Grộzl, Frantisek and Fousek, Petr "Optimizing Bottel-neck features for LVCSR." ICASSP Las Vegas: IEEE, 2008 4729-4732 Grộzl, Frantisek and Karafiỏt, Martin and Kontỏr, Stanislav and Cernocký, Jan "Probabilistic and Bottle-Neck Features for LVCSR of Meetings." ICASSP Honolulu: IEEE, 2007 IV-757- IV-760 Haeb-Umbach, R and Ney, H "Linear discriminant analysis for improved large vocabulary continuous speech recognition." Acoustics, Speech, and Signal Processing (ICASSP) California, USA, 1992 13-16 Hary, Myron and "Average Magnitude Difference Function Pitch Extractor." IEEE transactions on Acoustic, Speech, and Signal processing, 1974 Hermansky, H and Daniel, P.W Ellis and Sangita, Sharma "Tandem connectionist feature extraction for conventional HMM systems." Acoustics, Speech, and Signal Processing (ICASSP) Istanbul: IEEE, 2000 1635-1638 116 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Hermansky, H "Perceptual linear predictive (PLP) analysis of speech." Acoustical Society of America Journal, 1990: 17381752 Hong Quang, Nguyen and Nocera, P and Castelli, E and Van Loan, T "Tone recognition of Vietnamese continuous speech using hidden Markov model." Communications and Electronics - ICCE Hoi an: IEEE, 2008 235 - 239 Janin, A and Andreas, Stolcke and Xavier, Anguera and Kofi, Boakye and ệzgỹr, ầetin and Joe, Frankel and Jing, Zheng "Machine Learning for Multimodal Interaction." The ICSI-SRI Spring 2006 meeting recognition system, Lecture Notes in Computer Science, 2006: 444-456 Jonas, G and Kevin, K and Quoc Bao, N and Van Huy, N and Florian, M and Zaid, A W and Alex, W Models of tone for tonal and non-tonal languages Czech republic: Automatic Speech Recognition and Understanding (ASRU), IEEE, 2013 Juang, B H and Rabiner, L R "Hidden Markov Models for Speech Recognition,." Technometrics, 1991: 251-272 Jurafsky, Daniel and Martin, James H Speech and Language Processing - 2nd Edition Prentice Hall, ISBN-13: 978-0131873216, ISBN-10: 0131873210, 2008 Kasi, K and Zahorian, S A "Yet another algorithm for pitch tracking." IEEE International Symposium on Circuits and Systems Arizona: IEEE, 2002 361-364 Katz, S "Estimation of probabilities from sparse data for the language model component of a speech recognizer." Acoustics, Speech and Signal Processing IEEE, 1987 400 410 Kevin, K and Christian, M, and Michael, H., Quoc Bao, N and Van Huy, N and Evgeniy, S and Igor, T and Jonas, G and Markus, M and Matthias, S and Sebastian, S and Alex, W.l "The 2013 KIT IWSLT Speech-to-Text Systems for German and English." International Workshop on Spoken Language Translation (IWSLT) Germany, 2013 Kevin, K and Heck, M and Muller, Markus and Sperber, Matthias and Stuker, Sebastian and Waibe, Alex "The 2014 KIT IWSLT Speech-to-Text Systems for English, German and Italian." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 Kevin, Kilgour and Saam, C and Mohr, C and Stuker, S and Waibel, A "The 2011 KIT Quaero Speech-to-text system for Spanish." International Workshop on Spoken Language Translation (IWSLT) San Francisco, 2011 Kriesel, D A Brief Introduction to Neural Networks University of Bonn in Germany, 2005 Kunikoshi, A and Yao, Qian and Soong, F and Minematsu, N "F0 modeling and generation in voice conversion." Acoustics, Speech and Signal Processing (ICASSP) Prague, 2011 4568 4571 Kwanchiva, Thangthai and Ananlada, Chotimongkol and Chai, Wutiwiwatchai "A Hybrid Language Model for Open-Vocabulary Thai LVCSR." INTERSPEECH Lyon, France: IEEE, 2013 117 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Khang, Bch Hng Tng Hp v Nhn dng ting Vit - ti cp nh nc H Ni: Vin Cụng Ngh Thụng Tin, 2004 Lei, Xin Modeling Lexical Tones for Mandarin Large Vocabulary Continuous Speech Recognition USA: University of Washington, 2006 Levinson, N "The Wiener RMS error criterion in filter design and prediction." J Math Physics, 1947: 261278 Martin, Karaat and Lukas, Burget and Pavel, Matejka and Ondrej, Glembek "iVector-Based Discriminative Adaptation for Automatic Speech Recognition." Automatic Speech Recognition and Understanding (ASRU) Waikoloa: IEEE, 2011 152-157 Matsuda, S and Xinhui Hu and Shiga, Y and Kashioka, H and Hori, C and Yasuda, K and Okuma, H and Uchiyama, M and Sumita, E and Kawai, H and Nakamura, S "Multilingual Speech-to-Speech Translation System: VoiceTra." Mobile Data Management (MDM) Milan: IEEE, 2013 229 - 233 Miyajima, C and Hattori Y and Tokuda, K and Masuko and Takashi and Kobayashi, T and Kitamura, T "Speaker identification using Gaussian mixture models based on multispace probability distribution." Acoustics, Speech, and Signal Processing (ICASSP) Salt Lake City, UT, 2001 433 436 Muda, Lindasalwa and Begam, Mumtaj and Elamvazuthi, I "Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques." journal of computing, V.2, No.2, ISSN 2151-9617, 2010 Ney, R K and Hermann "Improved backing-off for n-gram language modeling." Acoustics, Speech and Signal Processing Detroit: IEEE, 1995 181-184 Ney, Reinhard Kneser and Hermann The IEEE International Conference on Acoustics, Speech and Signal Processing n.d Ochiai, T and Matsuda, S and Lu, Xugang and Hori, C and Katagiri, S "Speaker Adaptive Training using Deep Neural Networks." Acoustics, Speech and Signal Processing (ICASSP) Florence, 2014 6349 6353 Oura, Keiichiro List of modications made in HTS (forversion2.2) Japan: Nagoya Institute of Technology, 2011 Plahl, Christian and Schluter, Ralf and Ney, Hermann "Improved Acoustic Feature Combination for LVCSR by Neural Networks." INTERSPEECH Italy: IEEE, 2011 Psutka, Josef V "Benet of Maximum Likelihood Linear Transform (MLLT) Used at Different Levels of Covariance Matrices Clustering in ASR Systems." Text, Speech and Dialogue, 10th International Conference (TSD) Czech Republic, 2007 Qian, Y and Soong Frank, K "A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition." Speech Communication Beijing China, 2009 1169 - 1179 Qian, Yao and Frank, K Soong "A Multi-Space Distribution (MSD) and two-stream tone modeling approach to Mandarin speech recognition." Speech Communication, Vol 51, 2009: 11691179 118 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Qian, Yao and Frank, Soong and Yining ,Chen and Min, Chu "An HMM-Based Mandarin Chinese Text-To-Speech System." Computer Science, Volume 4274 , 2006: 223-232 Quoc Cuong, Nguyen and Yen, Pham Thi Ngoc and Castelli, E "Shape vector characterization of Vietnamese tones and application to automatic recognition." Automatic Speech Recognition and Understanding - ASRU Italy: IEEE, 2001 437 440 Rabiner, L and Juang, B "An introdution to Hidden Markov Models." IEEE, V.77, No.2, 1989: 257-286 Ravanelli, M and Do, Van Hai and Janin, A "TANDEM-bottleneck feature combination using hierarchical Deep Neural Networks." Chinese Spoken Language Processing (ISCSLP) Singapore, 2014 113 117 Sakai, M.,Denso Corp "Generalization of Linear Discriminant Analysis used in Segmental Unit Input HMM for Speech Recognition." Acoustics, Speech and Signal Processing (ICASSP) Honolulu, 2007 IV-333 - IV-336 Saon, G "Speaker adaptation of neural network acoustic models using i-vectors." Automatic Speech Recognition and Understanding (ASRU) Olomouc, 2013 55 59 Schwenk, Holger "Continuous space language models." Computer Speech and Language, Vol 21, 2007: 492-518 Sethserey, Sam and Eric, Castelli and Laurent, Besacier "Unsupervised acoustic model adaptation for multi-origin non native." INTERSPEECH Japan: IEEE, 2010 Shen, Peng and Lu, Xugang and Hu, Xinhui and Kanda, Naoyuki and Saiko, Masahiro and Hori, Chiori "The NICT ASR System for IWSLT 2014." The International Workshop on Spoken Language Translation (IWSLT) Lake Tahoe, USA, 2014 Sinaporn, Suebvisai and Paisarn, Charoenpornsawat and et "Thai Automatic Speech Recognition." Acoustics, Speech, and Signal Processing (ICASSP) Philadlnphia, USA: IEEE, 2005 857-860 Snack 2004 http://www.speech.kth.se/snack/ SPTK 2014 http://sp-tk.sourceforge.net SRI, International SRILM - The SRI Language Modeling Toolkit 2011 http://www.speech.sri.com/projects/srilm/ Stolcke, Andreas "Entropy-based Pruning of Backoff Language Models." DARPA Broadcast News Transcription and Understanding Virginia, 1998 270-274 Stuker, S and Kilgour, K and Saam, C and Waibel, A "The 2011 kit english asr system for the iwslt evaluation." International Workshop on Spoken Language Translation (IWSLT) SanFrancisco, 2011 Suphattharachai, Chomphan "Analysis of Decision Trees in Context Clustering of Hidden Markov Model Based Thai Speech Synthesis." Computer Science , Vol 7, ISSN 15493636, 2011: 359-365 119 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Takashi, Masuko and Keiichi, Tokuda and Noboru, Miyazak and Takao, Kobayashi "Pitch pattern generation using multispace probability distribution HMM." Systems and Computers in Japan, Vol 33, No 6, 2002: 62-72 Talkin, D "A Robust Algorithm For Pitch Tracking." In Speech coding and synthesis, 495518 USA: Elsevier, 1995 Tebelskis, Joe Speech Recognition using Neural Networks USA: Carnegie Mellon University, 1995 Tokuda, K and Masuko, Takashi and Miyazaki, Noboru and Kobayashi, Takao "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling." Acoustics, Speech, and Signal Processing (ICASSP) Phoenix, USA, 1999 229-232 Tong, Rong and Lim, Boon Pang and Chen, N.F and Ma, Bin and Li, Haizhou "Subspace Gaussian mixture model for computer-assisted language learning." Acoustics, Speech and Signal Processing (ICASSP) Florence, 2014 5347 5351 Tuan, Nguyen and Hai Quan, Vu "Advances in Acoustic Modeling for Vietnamese LVCSR." Asian Language Processing Singapore: IEEE, 2009 280 - 284 Tuerxun, M and Zhang, Shiliang and Bao, Yebo and Dai, Lirong "Improvements on bottleneck feature for large vocabulary continuous speech recognition." Signal Processing (ICSP) Hangzhou, 2014 516 520 Thang, Vu Tat and Tang, Khanh Nguyen and Le, Son Hai and Luong, Mai Chi "Vietnamese tone recognition based on multi-layer perceptron network." Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O System Kyoto,, 2008 253256 Thng, V Ngc Automatic Speech Recognition for Low-resource Languages and Accents Using Multilingual and Crosslingual Information Karlsruher - Germany: Karlsruher Instituts of Technologie - KIT, 2014 Van Huy, N and Chi Mai, L and Tat Thang, V "Tonal phoneme based model for Vietnamese LVCSR." Conference of the Oriental chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (OCOCOSDA) Shanghai-China: IEEE, 2015 Vesely, K and Karafiat, M and Grezl, F "Convolutive Bottleneck Network features for LVCSR." ASRU Waikoloa: IEEE, 2011 42-47 Vu, Ngoc Thang and Schultz, Tanja "Vietnamese Large Vocabulary Continuous Speech Recognition." Automatic Speech Recognition & Understanding - ASRU Merano: IEEE, 2009 333 - 338 Vu, Thang Tat and Nguyen, Dung Tien and Luong, Mai Chi and Hosom, John Paul "Vietnamese large vocabulary continuous speech recognition." INTERSPEECH Lisbon, 2005 1172-1175 Wang, Huanliang and et "A Multi-Space Distribution (MSD) Approach to speech recognition of tonal languages." INTERSPEECH Pittsburgh, USA: IEEE, 2006 120 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Womak, B.D "Improved speech recognition via speaker stress directed classification." Acoustics, Speech, and Signal Processing (ICASSP) Atlanta-GA: IEEE, 1996 53-56 Young, Steve The HTK Book UK: Cambridge University Engineering Department, 2009 Yu, Kai and Young, S "Continuous F0 Modeling for HMM Based Statistical Parametric Speech Synthesis." Audio, Speech, and Language Processing, IEEE, V 19, Issue 5, ISSN:1558-7916 [IEEE], 2010: 1071 1079 Online Snack 2004 http://www.speech.kth.se/snack/ SPTK 2014 http://sp-tk.sourceforge.net SRI, International SRILM - The SRI Language Modeling Toolkit 2011 http://www.speech.sri.com/projects/srilm/ 121 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k Ph lc TCL Script to t in ng õm cho mt bn ting Vit u vo bt k 1) Nụi dung cỏc file "BphonemeVN.txt", "MphonemeVN.txt", "EphonemeVN.txt" ỏnh x cỏc õm u, õm chớnh, õm cui sang biu din phoneme tng ng BphonemeVN.txt ph ph f ph th th tr tr gi d dd ch ch nh nh ng ng ngh ng kh kh gg gh g ck qu k kk tt rr hh bb mm vv dd nn ll MphonemeVN.txt oai w a iz oao w a uz oay w aw iz uõy w aa iz oeo w e uz iờu ie uz yờu ie uz uya w ie uyu w i uz uụi uo iz i wa iz u wa uz uyờ w ie ia ie iờ ie ua uo uụ uo a wa wa a iz ay aw iz õy aa iz oi o iz ụi oo iz i ow iz ui u iz i uw iz ao a uz au a uz õu aa uz eo e uz ờu ee uz iu i uz u uw uz oa w a o w aw uõ w aa oe w e uờ w ee u w ow 122 EphonemeVN.txt ch kc ng ngz c kc t tc n nc x kc nh ngz p pc m mc d o o c m C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k uy w i yờ w ie oo o ụụ oo aa 2) Script # making Vietnamese phoneme Dict # Author: Nguyen Van Huy, huynguyen@tnut.edu.vn # 2014-Step-12 #!/bin/tclsh encoding system utf-8 # vietnmaese triphone and tiphone if { $argc != } { puts "Requite an input Word-List" exit } #load middel phone set lcuda "oai oao oay uõy oeo iờu yờu uya uyu uụi i u uyờ oi oo oy uy oốo iu yu ua uu ui i u uy oỏi oỏo oỏy uy oộo iu yu uýa uýu ui i u uy oi oo oy uy oo iu yu ua uu ui i u uy oói oóo oóy uy oo iu yu ua uu ui i u uy oi oo oy uy oo iu yu ua uu ui i u uy ia ua a iờ ay õy oi ụi i ui i ao au õu eo ờu iu u oa oa o uõ oe uờ uụ u uy yờ oo ụụ ỡa ựa a i i y y ũi i i ựi i o u u ốo u ỡu u o ũa o u oố u u u u y oũ ụ ớa ỳa a i ỏi ỏy y i i ỳi i ỏo ỏu u ộo u ớu u oỏ úa o u oộ u u u uý y oú ụ a a a i i y y i i i i i o u u o u u u o a o u o u u u u y o ụ a a a i ói óy y ừi i i i i óo óu u o u u u oó ừa o u o u u u y oừ o a a a i i y y i i i i i o u u o u u u o a o u o u u u u y o o a õ e i o ụ u y ố ỡ ũ ự ỏ ộ ú ỳ ý ó " # Load Begining phoneme set Bphonemef [open "BphonemeVN.txt" r] set LBphoneme [split [read $Bphonemef] "\n"] close $Bphonemef # Load Ending phoneme set Ephonemef [open "EphonemeVN.txt" r] set LEphoneme [split [read $Ephonemef] "\n"] close $Ephonemef # Load Middle phoneme set Mphonemef [open "MphonemeVN.txt" r] set LMphoneme [split [read $Mphonemef] "\n"] close $Mphonemef #### # input word list to make phoneme Dict set inf [open [lindex $argv 0] r] 123 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k #================================ set wlist [split [read $inf ] "\n"] close $inf set count [expr -1] set wdone "" foreach phone $lcuda { incr count #puts "working on phone: $phone" set outsearch [lsearch -inline -all $wlist "*$phone*"] if {$outsearch!=-1} { foreach word $outsearch { if {$count < 78 } { set Mphone [lindex $lcuda [expr $count % 13]] set toneP [expr $count/13] } elseif {$count > 77 && $count < 270} { set Mphone [lindex $lcuda [expr (($count-77) % 32)+77]] set toneP [expr ($count-77)/32] } else { set Mphone [lindex $lcuda [expr (($count-270) % 12)+270]] set toneP [expr ($count-270)/12] } switch $toneP { {set tone 1} {set tone 2} {set tone 3} {set tone 4} {set tone 5} {set tone 6} } set start [string first $phone $word] set end [expr $start + [string length $phone] -1] if {$start!=0} { set Bphone [string range $word [expr $start-1]] } else { set Bphone "" } if {$end!=[expr [string length $word]-1]} { set Ephone [string range $word [expr $end+1] end] } else { set Ephone "" } if {$Bphone=="q" && [string index $Mphone 0]=="u" && [string length $Mphone]>1} { set Bphone "qu" set Mphone [string range $Mphone end] } if {$Bphone=="g" && [string index $Mphone 0]=="i" && [string length $Mphone]>1} { 124 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k set Bphone "gi" set Mphone [string range $Mphone end] } else { set Bphone "" } if {$end!=[expr [string length $word]-1]} { set Ephone [string range $word [expr $end+1] end] } else { set Ephone "" } if {$Bphone=="q" && [string index $Mphone 0]=="u" && [string length $Mphone]>1} { set Bphone "qu" set Mphone [string range $Mphone end] } if {$Bphone=="g" && [string index $Mphone 0]=="i" && [string length $Mphone]>1} { set Bphone "gi" set Mphone [string range $Mphone end] } # convert phone to phoneme set Bphoneme [lindex [lsearch -inline $LBphoneme "${Bphone} *"] 1] #set Bphoneme [lsearch -inline $LBphoneme "${Bphone} *"] if {$Bphoneme==-1} {set Bphoneme $Bphone} set Ephoneme [lindex [lsearch -inline $LEphoneme "${Ephone} *"] 1] #set Ephoneme [lsearch -inline $LEphoneme "${Ephone} *"] set Mphoneme [lsearch -inline $LMphoneme "${Mphone} *"] if {[llength $Mphoneme]>2} { set tmpstr "" set Mphoneme [lrange $Mphoneme end] foreach ph $Mphoneme { set tmpstr "$tmpstr ${ph}${tone}" } } else { set tmpstr "[lindex $Mphoneme 1]${tone}" } set tmpstr [string trim $tmpstr] set tmpstr [string trim "$Bphoneme $tmpstr $Ephoneme"] lappend tmpdict "$word $tmpstr" set wlist [lsearch -inline -all -not -exact $wlist $word] } } } set outdict [lsort $tmpdict] foreach tmp $outdict {puts $tmp} set errf [open OVV.err w] puts $errf $wlist 125 d o m w o c C m o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k close $errf File cu hỡnh mụ hỡnh MSD-HMM ~o 16 13 1.0 1.0 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 13 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 1.0 1.0 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 13 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.25000 126 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 1.0 1.0 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 13 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 1.0 1.0 1.0 0.25000 127 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c h a n g e Vi e w N y bu to k lic c u -tr a c k 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 1.0 1.0 13 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 13 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 0.0 0.0 1.0 1.0 1.0 0.25000 0.0 1.0 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 ===Ht=== 128 d o m o c C m w o d o w w w w w C lic k to bu y N O W ! XC er O W F- w PD h a n g e Vi e ! XC er PD F- c u -tr a c k c y c d o m w o o c u -tr a c k w w d o C lic k to bu y bu to k lic C w w w N O W ! h a n g e Vi e N PD ! XC er O W F- w m h a n g e Vi e w PD XC er F- c u -tr a c k c [...]... mô hình Markov ẩn  Một số nghiên cứu gần đây về nhận dạng tiếng Việt phát âm liên tục từ vựng lớn: Các nghiên cứu này các tác giả đã đề xuất các mô hình cho nhận dạng tiếng Việt phát âm liên tục từ vựng lớn Tuy nhiên tất cả các nghiên cứu mới chỉ áp dụng mô hình truyền thống HMM và NN trên đặc trưng thanh điệu đã chỉnh sửa  Một trong những nghiên cứu đầu tiên về nhận dạng tiếng Việt từ vựng lớn phát. .. các nghiên cứu hiện nay Nhìn chung tính đến hiện nay các nghiên cứu về nhận dạng tiếng Việt vẫn còn rất hạn chế Phần lớn các nghiên cứu mới chỉ dừng lại ở nhận dạng số hoặc nhận dạng các từ phát âm rời rạc Tiếng Việt là một ngôn ngữ có thanh điệu, như vậy một hệ thống nhận dạng đầy đủ sẽ phải bao gồm 2 thành phần là nhận dạng âm vị và nhận dạng thanh điệu Đã có một số nghiên cứu về nhận dạng thanh điệu. .. các nghiên cứu nhận dạng tiếng Việt mới tập trung vào việc nhận dạng chữ số và các từ phát âm rời rạc Các nghiên cứu về tiếng nói phát âm liên tục trên bộ từ vựng lớn còn rất hạn chế Hầu hết các nghiên cứu cho nhận dạng tiếng Việt đã công bố cho đến nay mới chỉ sử dụng mô hình HMM, DNN hoặc mô hình lai ghép Các mô hình này sử dụng các đặc trưng đầu vào là đặc trưng ngữ âm hoặc đặc trưng thanh điệu ở dạng. .. ( ) | ( Trong đó ∑ | ( | ) ) 1.3.4 Từ điển ngữ âm Từ điển ngữ âm là tập các từ vựng, trong đó mỗi từ được phiên âm thành các âm vị cấu tạo nên từ đó Trong các hệ thống nhận dạng tiếng nói từ vựng lớn thì mô hình âm học thường là mô hình hóa của các âm vị trong một ngôn ngữ cụ thể Việc sử dụng từ điển âm học giúp làm giảm số lượng mô hình âm học đồng thời vẫn đảm bảo cho hệ thống có thể nhận dạng được... về nhận dạng tiếng nói và ứng dụng Các vấn đề khó khăn cần giải quyết trong lĩnh vực nhận dạng tiếng nói Giới thiệu về các thành phần cơ bản trong hệ thống nhận dạng tiếng nói từ vựng lớn Giới thiệu tổng quan về tình hình nghiên cứu nhận dạng tiếng Việt trong và ngoài nước Giới thiệu các nội dung nghiên cứu chính của luận án 1.2 Tổng quan về nhận dạng tiếng nói 1.2.1 Nhận dạng tiếng nói Nhận dạng tiếng. .. lượng nhận dạng tiếng Việt cũng tương tự như tiếng Mandarin, Cantonese  Nghiên cứu của nhóm tác giả Vũ Ngọc Thắng [N T Vu 2009] được thực hiện tại Đức Đây là một trong số nghiên cứu đầu tiên về nhận dạng tiếng Việt phát âm liên tục từ vựng lớn có tích hợp cả mô hình thanh điệu Tác giả đã trình bày một cách tiếp cận mới để khởi tạo việc huấn luyện các mô hình âm học cho tiếng Việt bằng cách kế thừa mô hình. .. điệu cho tiếng Việt, tuy nhiên các nghiên cứu này mới chủ yếu tập trung vào việc phân tích đặc tính và tìm ra mô hình phù hợp trong việc mô hình hóa và nhận dạng thanh điệu đơn lẻ Hầu hết chưa tích hợp việc nhận dạng thanh điệu với nhận dạng âm vị để tạo thành một hệ thống hoàn chỉnh  Một số nghiên cứu về nhận dạng tiếng nói cho chữ số và các từ phát âm rời rạc: Các nghiên cứu chỉ thực hiện trên tiếng. .. hiện trên dữ liệu thu âm từ đài phát thanh Việt Nam sử dụng 2 loại đặc trưng MFCC và PLP, mô hình nhận dạng là Markov ẩn Kết quả nhận dạng đạt 82.97% Mặc dù trong nghiên cứu này tác giả chưa sử dụng đặc trưng thanh điệu, nhưng bằng việc mô hình hóa thanh điệu sử dụng bộ âm vị có thanh điệu đã cho kết quả tối ưu hơn mô hình âm vị không có thanh điệu Từ kết quả này đã cho thấy thanh điệu là một nhân tố... một phát âm liên tục mỗi âm thường chịu ảnh hưởng rất lớn từ các âm trước và sau nó Vì vậy các từ được phát âm rời rạc khi nhận dạng sẽ có độ chính xác cao hơn là các từ trong một phát âm liên tục Do chất lượng nhận dạng cho một chuỗi phát âm liên tục còn phụ thuộc thêm vào việc phát hiện biên và khoảng trống giữa hai từ Khi người nói phát âm với tốc độ cao thì khoảng trống và biên giữa các từ sẽ bị... trưng cho thanh điệu tiếng Việt, sau đó mô hình hóa bởi mô hình Markov ẩn để nhận dạng thanh điệu Một dạng vector đặc trưng cho thanh điệu dựa trên tổng và hiệu của F0 và giá trị năng lượng giữa hai khung tín hiệu liền kề được đề xuất Từ kết quả đó tác giả đã xây dựng một hệ thống nhận dạng tiếng Việt có tích hợp nhận dạng thanh điệu cho các từ phát âm rời rạc với độ chính xác khoảng 94%  Nghiên cứu của

Ngày đăng: 16/09/2016, 09:41

Xem thêm: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục , Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục

Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan