Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt tổng hợp và nhận dạng tiếng việt

359 753 2
Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt   tổng hợp và nhận dạng tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh tổng hợp nhận dạng tiếng Việt thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt MÃ số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-2 07/8/2007 Hµ Néi- 2004 MỤC LỤC PHƯƠNG PHÁP PHÂN TÍCH TIẾNG NĨI THEO CÁC ĐẶC TRƯNG 1.1 Các phương pháp trích chọn đặc tính .1 1.1.1 Phương pháp tính hệ số MFCC 1.1.2 Phương pháp tính hệ số PLP 1.1.3 Các kĩ thuật khử nhiễu 1.2 Các đơn vị xử lý tiếng nói 1.2.1 Tần số lấy mẫu 1.2.2 Nhiễu 1.2.3 Tần số 1.2.4 Formant 1.3 Định dạng âm 1.4 Thu tín hiệu âm thời gian thực 11 1.5 Xác định giá trị – ngưỡng theo mơi trường tín hiệu .12 1.5.1 Thông số ngưỡng zero 12 1.5.2 Thông số độ ồn nhiễu 13 1.6 Lọc nhiễu 13 1.7 Xác định dãy tín hiệu số có chứa liệu tiếng nói xác định điểm đầu - cuối tiếng nói .14 1.8 Chuẩn hoá biên độ 15 1.8.1 Biến đổi FFT 16 1.8.2 1.8.3 Định lý lấy mẫu 20 1.8.4 Phổ dẹt tiếng nói 20 1.8.5 Làm rõ tín hiệu cửa sổ hố 19 Biểu diễn tiếng nói theo mơ hình LPC hệ số dự báo tuyến tính 22 CÁC MƠ HÌNH ỨNG DỤNG CHO NHẬN DẠNG TIẾNG NÓI 28 2.1 Phương pháp VQ .28 2.1.1 Khái niệm phép lượng tử hoá 28 2.1.2 Độ biến dạng 29 2.1.3 Tính chất 29 2.1.4 Thiết kế codebook theo phương pháp LBG 30 2.1.5 Ứng dụng VQ xử lý tín hiệu tiếng nói 33 2.2 Phương pháp chỉnh thời gian động 34 2.2.1 Khái quát tiếp cận đối sánh mẫu kĩ thuật chỉnh thời gian động 34 2.2.2 Kĩ thuật chỉnh thời gian động 36 2.2.3 Các ràng buộc 41 2.2.4 Thuật toán chỉnh thời gian động 46 2.3 Mơ hình Markov ẩn 52 2.3.1 Quá trình Markov 52 2.3.2 Mơ hình Markov ẩn 54 2.3.3 Ba tốn mơ hình Markov ẩn 57 2.3.4 Các loại mô hình Markov ẩn 67 2.3.5 Giới hạn mơ hình Markov ẩn 69 2.4 Mạng Nơron 69 2.4.1 Các khả mạng nơron 69 2.4.2 2.4.3 Phân loại mạng nơron 73 2.4.4 Cấu trúc mạng nơron nhân tạo 70 Ứng dụng mạng nơ ron lan truyền ngược cho nhận dạng tiếng nói 73 HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NĨI 75 3.1 Huấn luyện nhận dạng theo mơ hình Markov 75 3.1.1 Giới thiệu HTK 75 3.1.2 Huấn luyện hệ thống nhận dạng 75 3.1.3 Nhận dạng 91 3.1.4 Tổng kết 95 3.2 Mơ hình lai ghép ANN/HMM 98 3.2.1 Hệ thống nhận dạng dùng HMM liên tục 98 3.2.2 Huấn luyện hệ thống nhận dạng dùng ANN 102 3.2.3 Hệ thống nhận dạng dùng HMM/ANN 103 3.2.4 Nhận dạng 106 3.3 So sánh hai phương pháp nhận dạng CD-HMM HMM/ANN 110 MƠI TRƯỜNG TÍN HIỆU TIẾNG NĨI TRÊN ĐIỆN THOẠI 118 4.1 Giới thiệu card Dialogic 118 4.2 Các khái niệm 119 4.2.1 Event 119 4.2.2 Event Handlers 121 4.2.3 Dialogic device handle 122 4.2.4 Kênh (device channel) 122 4.3 Các mơ hình lập trình 122 4.3.1 Lập trình đồng 123 4.3.2 Lập trình bất đồng 124 4.3.3 Mơ hình bất đồng mở rộng 128 4.3.4 Các mơ hình kết hợp 129 4.4 Sơ lược hàm cấu trúc liệu SRL .130 4.4.1 Các hàm quản lý kiện 130 4.4.2 Các hàm thuộc tính chuẩn 137 4.4.3 Termination Parameter Table DV_TPT 139 4.4.4 Call status event block structure: DX_EBLK 141 4.4.5 User digit buffer:DV_DIGIT 142 4.4.6 Thư viện âm C (Voice library of C functions) 142 4.4.7 Chi tiết số hàm đề cập 145 TÍCH HỢP MODULE TỔNG HỢP TIẾNG VIỆT VÀ CÁC CHUẨN TÍCH HỢP TIẾNG NĨI 149 5.1 Hệ thống thơng điệp tích hợp (Unified Message System) 149 5.2 Cổng thoại 3i 154 5.2.1 Điều khiển voice menu – Callflow 154 5.2.2 Xử lý đồng thời nhiều gọi 155 5.2.3 Phát tiếng nói điện thoại 155 5.2.4 Lập trình tích hợp card Dialogic vào ứng dụng 157 5.2.5 Một số thuật ngữ 158 5.2.6 Tích hợp điện thoại máy tính 159 CƠ SỞ DỮ LIỆU NGỮ ÂM CHO NHẬN DẠNG VÀ TỔNG HỢP TIẾNG VIỆT 163 6.1 Giới thiệu .163 6.2 Ghi âm cho CSDL 164 6.3 Dữ liệu cho nhận dạng tiếng Việt 166 6.3.1 Nhận dạng lệnh 166 6.3.2 Nhận dạng tả 170 6.4 Dữ liệu tiếng nói cho phân tích nhận dạng điệu 182 6.4.1 Thanh điệu tiếng Việt câu 182 6.4.2 Xác định đường nét đặc trưng điệu 186 6.4.3 Xác định ảnh hưởng điệu ngữ cảnh 186 6.5 Dữ liệu tiếng nói cho tổng hợp 188 6.5.1 Xác định đơn vị âm cho tổng hợp tiếng Việt 189 6.5.2 Hiện tượng liên cấu âm âm tiết tiếng Việt 191 6.6 Kết luận 191 TỔNG HỢP TIẾNG VIỆT 192 7.1 Nhập môn .192 7.2 Khái quát tổng hợp tiếng nói từ văn TTS (Text To Speech) .194 7.2.1 Các loại âm 195 7.2.2 Các tham số âm 196 7.2.3 Nhắc lại khái niệm ngữ âm 196 7.2.4 Tổng hợp tiếng nói từ văn 198 7.3 Các phương pháp tổng hợp tiếng nói 200 7.3.1 Tổng hợp theo cấu âm 200 7.3.2 Tổng hợp formant theo quy luật 202 7.3.3 Tổng hợp xích chuỗi 204 7.4 Chuẩn hoá văn 218 7.5 Phân tích văn 222 7.6 Các mơ hình ngơn ngữ 226 PHÂN TÍCH ĐẶC TRƯNG ÂM HỌC VÀ ÂM VỊ HỌC CỦA TIẾNG NÓI 233 8.1 Đặc trưng âm học tiếng nói 233 8.1.1 Bản chất âm 233 8.1.2 Các thuộc tính biên độ sóng âm 236 8.1.3 Các thuộc tính trường thời gian sóng âm 241 8.1.4 Các thuộc tính trường tần số sóng âm 243 8.1.5 Một số thuộc tính thẩm nhận sóng âm 249 8.1.6 Mơ hình âm học q trình phát âm lời nói 253 8.1.7 Bộ lọc máy phát âm trình sản sinh nguyên âm 254 8.1.8 Những thuộc tính âm học chất lượng nguyên âm 265 8.2 Các đặc trưng âm vị học tiếng nói 275 8.2.1 Phân tích tiếng nói thành đơn vị 275 8.2.2 Các nét khu biệt ngôn điệu cố hữu 291 8.2.3 Các đặc trưng khu biệt so với đặc trưng khác âm 292 8.2.4 Ranh giới âm vị 294 8.2.5 Đột dừng đối lập với không đột dừng 294 8.2.6 Giọng the thé đối lập với giọng dịu 295 8.2.7 Nguồn bổ sung - Hữu đối lập với vô 299 8.2.8 Các nét vang 300 8.2.9 Các nét tính 303 8.2.10 Dẹt đối lập với phẳng 305 8.2.11 Điếc đối lập với phẳng 306 ĐẶC ĐIỂM NGỮ ÂM CƠ BẢN TIẾNG VIỆT 242 9.1 Âm tiết tiếng Việt 242 9.1.1 Dẫn luận 242 9.1.2 Phương pháp 242 4.1.3 Kết 244 4.2 Hệ formant nguyên âm tiếng Việt 248 4.3 Một số vấn đề phụ âm tiếng Việt đại .255 4.3.1 Đặt vấn đề 255 4.3.2 Phương pháp 257 4.3.3 Giới hạn 258 4.3.4 Kết 258 4.3.5 Kết luận 266 4.4 Các điệu tiếng Việt 269 TÀI LIỆU THAM KHẢO 275 Hình 1-1 Các bước xử lý phương pháp tính tốn hệ số MFCC Hình 1-2 Các bước xử lý phương pháp tính tốn hệ số PLP Error! No bookmark name given Hình 1-4 Mơ hình phổ dẹt tiếng nói 21 Hình 1-5 Sơ đồ phân tích tiếng nói 21 Hình 1-6 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 22 Hình 2-1 Ví dụ VQ chiều 28 Hình 2-2 Ví dụ VQ chiều 28 Hình 2-3 Sơ đồ khối chung trình huấn luyện phân lớp tín hiệu tiếng nói sử dụng VQ .33 Hình 2-4 Đồ thị chuỗi vector phổ mã hóa VQ phát âm từ tiếng Anh 34 Hình 2-5 Sơ đồ cách tiếp cận đối sánh mẫu 35 Hình 2-6- Các frame gối lên 37 Hình 2-7- So sánh khác thời gian từ “speech” .37 Hình 2-8- Lưới minh họa quy hoạch động .39 Hình 2-9- Các ràng buộc điểm đầu cuối (Endpoint Constraints) 42 Hình 2-10- Minh họa so khớp không đặn .42 Hình 2-11- Minh họa so khớp khơng liên tục 43 Hình 2-12- Các ràng buộc đường cục 44 Hình 2-13- Ràng buộc đường cục Itakura 44 Hình 2-14- Các ràng buộc đường tồn cục .45 Hình 2-15- Minh họa chỉnh thời gian động mẫu chuẩn “SPEECH” mẫu nhận dạng có nhiễu “SsPEEhH” .46 Hình 2-16- Các hướng SDTW 47 Hình 2-17- Ba cách từ (i, j) đến khác DTW phản đối xứng 49 Hình 2-18- Các hướng DTW phản đối xứng 50 Hình 2-19- Đường qua vùng hợp lệ 50 Hình 2-20- Xích Markov với trạng thái S1, S2, , S5 xác suất chuyển trạng thái 53 Hình 2-21-Ví dụ mơ hình Markov ẩn với sáu trạng thái 56 Hình 2-22- Miêu tả dãy phép tốn thực để tính biến αt (i) 59 Hình 2-23- Miêu tả dãy phép tốn thực để tính biến βt(i) 60 Hình 2-24- Miêu tả phép tính cần thiết để tính ξt(i, j) 63 Hình 2-25- Mơ hình nhiều tầng mạng nơron 71 Hình 2-26- Các thành phần sở mạng nơron 71 Hình 3-1- Thuật tốn Hinit 80 Hình 3-2- Các hoạt động Hnit 81 Hình 3-3- Mơ hình hoạt động Hcompv .82 Hình 3-4- Sơ đồ buộc hai âm vị sil sp .83 Hình 3-5- Hoạt động Herest 83 Hình 3-6- Dùng Hhed chuyển âm đơn sang âm ba 86 Hình 3-7- Quá trình buộc âm ba Hhed 87 Hình 3-8- Buộc trạng thái .88 Hình 3-9- Sơ đồ ngữ pháp hệ thống nhận dạng mười chữ số liên tục .91 Hình 3-10- Sơ đồ mạng word-loop với xác suất bigram 93 Hình 3-11- Cấu trúc ba lớp mạng từ nhận dạng 94 Hình 3-12- Mơ hình mạng lai ghép HMM/ANN 104 Hình 3-13-Huấn luyện mạng lai ghép HMM/ANN 105 Hình 3-14- Sơ đồ mạng word-loop với xác suất bigram 107 Hình 3-15- Cấu trúc ba lớp mạng từ nhận dạng 108 Hình 3-16- Minh họa thuật toán chuyển thẻ .109 Hình 7-1- Giao diện chương trình kiểm tra ETTVSNAM 150 Hình 7-2- Hệ thống thao tác dọc duyệt thư thoại 155 Hình 7-3- Kiến trúc phân tầng TAPI .160 Hình 5-1 Phổ tiếng nói câu 164 Hình 5-2 Ảnh phổ âm tiết kết thúc âm tắc /p/: “hấp tấp” 173 Hình 5-3 Ảnh phổ âm tiết “bắt” .174 Hình 5-4 Ảnh phổ hai âm tiết đọc liền 177 PHƯƠNG PHÁP PHÂN TÍCH TIẾNG NĨI THEO CÁC ĐẶC TRƯNG 1.1 Các phương pháp trích chọn đặc tính Phần giới thiệu hai phương pháp sử dụng rộng rãi hệ thống nhận dạng để tính tốn hệ số MFCC (Mel Scale Frequency Cepstral Coefficients) hệ số PLP (Perceptual Linear Prediction) Hai kĩ thuật xử lý tiếng nói RASTA (RelAtive SpecTral) CMS (Cepstral Mean Subtraction) giới thiệu Đây hai kĩ thuật loại bỏ nhiễu hay sử dụng đặc biệt phát âm có nhiều nhiễu câu thu âm qua điện thoại 1.1.1 Phương pháp tính hệ số MFCC Hình 2.1 miêu tả bước tính tốn hệ số MFCC Nhấn mạnh tín hiệu (pre-emphasis) Trong bước xử lý này, tín hiệu đưa qua lọc số: H pre ( z ) = + a pre z −1 Trong a pre hệ số nhấn mạnh, thường có giá trị 0,9700002861 Bộ lọc có tác dụng tăng cường tín hiệu tần số cao (trên 1KHz) với hai lý chính: • Giọng nói có suy giảm khoảng 20dB/decade lên tần số cao đặc điểm sinh lý hệ thống phát âm người Bước xử lý tăng cường tín hiệu lên giá trị gần 20dB/decade để khắc phục suy giảm này, • Hệ thống thính giác người nhạy cảm với vùng tần số cao, bước xử lý nhấn mạnh vùng tần số cao, trợ giúp cho q trình mơ hình hố âm sau hệ thống nhận dạng Hình 1-1 Các bước xử lý phương pháp tính tốn hệ số MFCC Tạo khung tín hiệu (framing) Tín hiệu tiếng nói ln biến thiên theo thời gian, nhiên, khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói coi tương đối ổn định Do đó, tín hiệu thường chia thành khung kích thước 20-30 ms với vùng gối lên khoảng 10-15 ms Làm cửa sổ (frame windowing) Cửa sổ Hamming thường áp dụng cho khung tín hiệu để giảm tác động việc chia khung tín hiệu: ' sn = {0.54 − 0.46cos( 2π ( n − 1) )}sn N −1 Trong đó, N số mẫu liệu (sample) cửa sổ DFT (Discrete Fourier Transform) Tại bước này, với khung tín hiệu, biến đổi Fourier áp dụng để chuyển tín hiệu miền tần số Cơng việc tính toán thực thuật toán FFT (Fast Fourier Transform) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Các lọc số áp dụng để lọc tín hiệu theo giải tần số khác Phản ứng tai người với thành phần tần số khơng tuyến tính Sự khác tần số vùng tần số thấp ( "mở cựa" Ở miền Nam miền Trung, hai ngã hỏi khơng phân biệt hay xảy tình trạng lẫn lộn "dấu ngã" "dấu hỏi" viết tả Thanh sắc: lúc bắt đầu, cao độ sắc gần ngang với không dấu sắc không ngang mà lên Ở âm tiết có âm cuối /p, t, k/ " bắt cóc", "nấp" sắc vút cao ngay, gây ấn tượng ngắn Ở phương ngữ miền Trung có vùng phát âm số âm tiết mang sắc thái thành hỏi, ví dụ "ý chí" thành "ý chỉ" Thanh nặng: nặng thấp có đường nét xuống dần Ở âm tiết có âm cuối /p, k, t/ "học tập", "mật" nặng phát âm xuống Ở nặng có tượng tắc hầu q trình phát âm Sự phân bố điệu âm tiết liên quan chặt chẽ với thành phần âm cuối Ở âm tiết có âm cuối phụ âm tắc vơ /p, t, k/ có nặng sắc Các không dấu, huyền, ngã, hỏi tồn âm tiết loại Ở âm tiết có âm cuối khơng vơ thanh, tất điệu xuất 270 Như vậy, điệu sắc nặng có phạm vi phân bố rộng tất kiểu âm tiết Khi điệu cao thấp khác liền thường có ảnh hưởng lẫn nhau, cao trước thấp sau thấp bắt đầu cao thường lệ, ngược lại cao sau thấp bắt đầu thấp thường lệ 271 PHỤ LỤC I TRƯỜNG ĐỘ TRUNG BÌNH CỦA PHỤ ÂM ĐẦU Âm TB Nam TB Nam TB Nam3 TB Nam TB Nam TB Nam TB Nữ TB Nữ TB Nữ TB Nữ TB Nữ TB Nữ pi 28,53 26,23 26,73 28,50 27,40 27,478 27,30 26,06 26,33 30,06 27,16 27 pa 26,70 24,86 27,86 27,56 25,60 26,516 25,90 26,20 24,40 26,90 27,26 26 pu 26,5 28,03 26,36 28,70 30,83 28,078 32,40 33,90 30,10 25,03 25,36 29 ti 23,76 25,00 27,13 30,96 32,20 27,81 28,80 29,20 29,30 27,36 23,46 27 ta 20,66 21,00 20,93 20,76 24,46 21,562 25,16 23,30 24,76 28,40 23,70 25 tu 23,60 22,50 21,50 23,53 24,96 23,218 30,80 28,83 32,83 30,83 30,86 30 ki 24,46 25,33 26,30 33,33 27,53 27,39 27,80 24,66 26,93 27,43 27,90 26 ca 19,90 22,73 22,80 25,36 21,63 22,484 23,06 22,66 20,46 24,96 20,83 22 cu 20,90 26,00 18,46 23,60 21,40 22,072 25,16 21,83 23,90 22,40 25,26 23 thi 49,66 56,00 61,13 57,36 56,30 56,09 60,10 74,93 62,26 58,13 62,70 63 tha 56,66 53,40 56,36 57,60 57,33 56,27 62,46 84,83 65,60 65,86 64,70 68 thu 44,90 68,10 55,96 64,00 61,36 58,864 66,73 82,56 73,16 53,03 46,73 64 chi 66,83 68,63 64,86 78,96 67,26 69,308 64,56 77,60 67,30 64,20 71,23 68 cha 67,53 57,86 54,00 66,96 56,30 60,50 60,46 63,90 62,30 61,76 64,03 62 chu 66,56 61,43 59,80 74,00 57,56 63,87 67,03 60,73 67,53 60,46 62,23 63 bi 75,00 78,00 89,10 63,63 63,66 73,878 87,70 84,80 86,20 71,53 72,83 76 ba 54,53 88,53 71,03 87,96 72,80 74,97 82,90 77,16 71,93 78,40 70,00 76 bu 97,66 87,40 82,36 98,30 63,46 85,836 69,93 78,46 103,13 107,90 77,13 87 75,93 84,50 77,03 73,63 88,60 79,938 83,56 64,90 88,93 95,93 67,96 80 đa 84,63 70,90 71,90 90,90 62,90 76,246 63,40 71,23 85,03 105,96 59,40 77 đu 109,50 76,36 69,36 84,13 70,16 81,902 65,50 67,10 107,16 90,76 89,93 84 phi 141,13 127,46 143,06 151,80 122,73 137,236 133,66 137,33 140,23 137,96 141,40 13 pha 111,13 91,60 133,50 193,53 105,33 127,018 130,90 138,90 149,23 146,30 128,60 13 phu 117,33 109,16 122,63 161,53 155,46 133,222 134,06 133,03 153,26 136,03 137,53 13 xi 174,43 142,16 158,63 227,30 131,30 166,764 185,06 201,33 163,83 166,86 170,90 17 xa 174,30 137,16 170,76 178,80 138,33 159,87 173,30 120,00 182,13 147,10 141,60 15 xu 166,16 130,46 167,23 201,96 149,33 163,028 173,73 174,73 162,23 172,30 168,10 16 135,00 125,00 155,53 186,60 113,73 143,172 157,23 144,33 152,46 142,30 155,16 15 kha 121,13 152,16 108,43 192,60 124,83 139,83 151,53 139,66 152,90 145,90 116,16 14 khu 142,83 150,73 152,10 213,20 133,33 158,438 130,36 130,30 105,03 130,10 105,73 12 hi 104,50 91,76 91,50 105,33 94,30 97,478 90,16 98,70 83,36 74,66 84,13 86 115,00 110,83 113,46 134,33 94,00 113,524 91,00 93,03 99,43 78,16 75,80 87 hu 82,53 80,93 79,83 114,26 76,13 86,736 82,66 83,83 84,96 77,06 77,43 81 vi 101,43 112,23 114,06 115,50 96,73 107,99 108,73 124,26 123,36 102,76 112,30 11 va 105,50 114,93 95,83 124,56 93,03 106,77 105,80 106,23 102,66 113,83 124,76 11 vu 127,13 104,40 121,03 126,23 96,73 115,104 130,00 110,50 122,53 119,60 116,90 11 di 132,46 121,96 123,83 123,70 140,33 128,456 118,80 134,13 135,46 134,66 113,66 12 da 130,03 120,13 113,46 121,03 111,50 119,23 110,80 110,33 113,83 118,70 118,10 11 du 116,26 110,30 108,00 115,66 121,20 137,536 119,63 138,90 123,70 132,13 118,00 12 ghi 182,56 169,73 167,238 170,02 171,60 171,58 181,09 173,273 175,081 175,021 174,987 17 272 ga 140.31 gu 120,01 118,257 123,85 125,926 126,012 mi 111,93 105,70 97,06 102,86 86,33 ma 108,96 84,46 80,36 92,83 86,73 mu 107,56 89,70 88,50 98,80 ni 99,10 94,16 98,76 79,66 na 108,33 84,53 84,70 nu 118,66 92,43 nhi 65,66 62,50 nha 90,06 nhu 89,00 nghi 138,298 130,984 140,07 141,875 140,325 150,050 148,345 148,00 151,060 150,05 15 126,028 128,937 130,02 129,281 129,873 130.00 13 100,776 87,06 70,43 81,40 91,76 71,86 80 94,112 88,26 76,60 81,56 87,10 89,43 84 86,00 94,112 96,46 90,63 98,43 99,66 87,63 94 78,06 89,948 107,66 95,96 96,03 111,46 117,20 10 128,96 76,70 969,644 104,66 108,80 100,13 103,20 102,83 10 92,50 121,63 93,63 103,77 95,00 98,13 97,26 97,86 87,70 95 72,46 80,73 65,83 69,436 105,70 116,96 105,70 116,63 111,70 11 80,16 96,90 94,53 78,40 88,01 87,66 97,66 89,26 95,63 91,36 92 89,93 105,03 94,36 83,56 90,376 100,36 90,30 107,66 100,40 93,23 98 103,30 101,73 103,96 128,33 84,80 104,424 100,86 93,83 109,76 101,10 106,46 10 nga 117,96 105,50 93,16 109,93 88,70 103,05 106,70 82,70 107,90 112,13 122,03 10 ngu 117,06 134,43 117,23 143,93 127,43 128,016 103,83 110,10 95,63 99,86 105,70 10 li 115,16 98,43 86,16 97,30 112,56 101,922 92,00 89,96 97,73 85,53 97,26 92 la 107,03 109,46 90,56 108,66 90,86 101,314 101,10 105,43 103,43 102,40 104,93 10 lu 107,46 102,06 96,63 133,56 85,56 105,054 101,80 103,00 104,13 109,83 106,93 10 273 PHỤ LỤC II TRƯỜNG ĐỘ TRUNG BÌNH CỦA PHỤ ÂM CUỐI Âm TB Nam TB Nam TB Nam3 TB Nam TB Nam TB Nam TB Nữ TB Nữ TB Nữ TB Nữ TB Nữ TB Nữ im 226,80 155,30 167,03 206,06 191,40 189,318 227,50 204,33 193,36 186,30 172,76 196, am 222,33 189,30 156,53 196,43 199,50 192,818 202,03 176,76 139,23 201,00 144,36 172, um 281,96 187,30 171,03 199,36 200,23 207,936 250,60 212,73 182,83 203,33 182,66 206, in 276,80 182,50 172,50 196,26 204,76 206,564 250,70 200,23 193,56 210,26 168,53 204, an 232,90 190,53 173,36 200,06 210,10 201,39 211,93 170,93 158,36 185,8 192,93 183, un 284,86 186,60 194,06 205,76 199,76 214,208 221,53 197,90 184,86 192,20 180,63 195, inh 337,33 221,66 234,00 251,50 233,50 255,598 300,63 269,00 223,56 260,30 246,90 260, anh 310,60 220,53 229,23 219,93 187,23 233,624 261,83 206,76 216,46 230,70 204,20 223, ênh 337,90 216,90 226,10 246,53 190,03 243,492 280,26 191,13 193,26 223,40 196,63 216, ung 364,23 236,30 228,23 229,23 228,16 257,23 222,40 197,33 237,93 236,23 185,93 215, ang 281,30 196,66 170,93 198,90 210,66 211,69 224,03 206,56 160,26 193,70 181,00 193, ưng 368,66 234,40 239,93 198,93 219,10 252,20 293,93 177,20 237,83 203,20 200,73 222, íp 25,83 21,46 26,33 25,43 21,96 24,202 19,76 19,46 17,53 18,70 16,56 18,4 áp 19,66 21,53 22,60 19,93 19,60 20,664 21,90 19,06 15,30 19,26 18,00 18,7 úp 24,63 27,56 28,16 28,20 23,30 26,37 18,16 17,20 18,16 23,96 19,13 19,3 23,63 18,43 26,36 20,40 20,13 21,79 20,96 18,76 20,30 22,60 20,30 20,5 át 26,60 22,50 25,86 22,56 20,20 23,544 19,83 13,76 13,06 18,03 14,00 15,7 út 22,56 24,33 26,93 23,76 19,13 23,342 20,83 17,66 19,26 18,30 17,83 18,7 ich 23,73 24,30 23,86 18,93 22,70 22,704 20,16 21,96 21,93 21,56 17,53 20,6 êch 19,50 21,03 21,10 20,43 19,13 20,238 17,90 18,26 19,10 16,90 15,66 17,5 ach 20,73 19,03 19,43 18,73 19,76 19,536 17,66 19,61 22,36 19,10 26,30 21,0 ưc 21,96 22,23 23,46 23,06 19,93 22,128 18,66 23,73 18,13 26,1 24,56 22,2 uc 21,80 21,33 24,26 24,10 22,73 22,844 20,00 25,76 21,30 21,03 24,76 22,5 ac 19,86 19,50 20,06 18,20 19,23 19,37 18,03 26,86 27,26 21,06 22,86 23,2 274 TÀI LIỆU THAM KHẢO Chương chương 2 Nguyễn Văn Ái, Tìm hiểu vùng tần số foóc-man nguyên âm tiếng Việt phương pháp thực nghiệm, T/c Ngôn ngữ, số 4, 1973 Nguyễn Văn Ái, Bàn số lượng phân bố foóc-man nguyên âm đơn tiếng Việt qua ghi Xô-na-gơ-rap, T/c Ngôn ngữ, số 1, 1974 Nguyen Van Ai und Vu Ba Hung, Vergleichende Untersuchungen deutcher und vietnamesischer Vokale, 1975 Trong Zeitschrift für Phonetik Sprachwissenschaft und Kommunikationsforschung, Band 28 Heft 3/4 ;Akademie - Verlag, Berlin, 1975 Deterding D., The Formant of Monothong Vowels in Standard Southern British English Pronunciation, Journal of International Phonetic Association Volume 27 Number & 2, 1997 Fant G., Acoustic Theory of Speech Production, The Hague/ Paris: Monton, 1960 Flanagan J., Speech Analysis, Synthesis and Perception, 2d ed New York: Springer Verlag, 1972 Iivonen A., Regional German Vowels Studies, Mimeographeđ Series ofthe Department of Phonetics, University of Helsinki 15, 1989 Iivonen A., Articulatory vowel gesture presented in a Psycho Acoustical F1/F2 space, Studies in Logopedics and Phonetics 3, Reijo Aulanko & Matti Lehtihalmes,1992 Ladefoged P., Maddieson I., Vowels of the World's Languages, Journal of phonetics 18, 1990 10 Ladefoged P., Elements of Acoustic Phonetics, Chicago (second edition), Umversity of Chicago Press, 1996 275 11 Lindblom B., Phonetic Universals in Vowel system, Experimental Phonology (J.J Ohala & J.J Jaeger, eds.), Orlando: Academic Press, 1986 12 Quách Tuấn Ngọc, Xử lý tín hiệu số, Nhà xuất Giáo dục, 1999 13 Traunmüller H., Einise aspekte Wahrnehmung quasiststionärer Vokale, Papers from the Institute of Linguistics, University of Stockholm Chương Dialogic Card: 14 Voice API, Dialogic Corporation Press 15 Voice Features, Dialogic Corporation Press 16 SRL API, Dialogic Corporation Press Chương 17 A.Gersho and Compresion, R.M.Gray, Vector Quantization and Sign 18 Rabiner, Fundamental of Speech Recognition 19 Y.Linde, A.Buzo, and R.M.Gray, An algorithm for Vector Quantizer Design, january 1980 Chương 20 Vũ Kim Bảng, Hệ formant nguyên âm tiếng Hà Nội, Tlc Ngôn ngữ, số 15, 2002 21 Vũ Kim Bảng, Nhận xét trường độ điệu qua phương ngữ Hà Nội phương ngữ Nam Bộ (cứ liệu thực nghiệm) - Những vấn đề ngôn ngữ học ngôn ngữ phương Đông - Viện Thông tin Khoa học Xã hội 22 Vũ Kim Bảng, Nghiên cứu tiếng Hà Nội phương diện vật lý - âm học, Ngôn ngữ & Văn hoá 990 năm Thăng Long - Hà Nội Hà Nội 2000 276 23 Đình Cao, Tiếng Hà Nội quan hệ với ngôn ngữ chung dân tộc - Hà Nội vấn đề ngôn ngữ văn hố - NXB Văn hố Thơng tin Hà Nội, 2001 24 Hoàng Thị Châu, Tiếng Việt miền đất nước, NXB Khoa học Xã hội, Hà Nội, 1986 25 Hoàng Cao Cương, Suy nghĩ thêm điệu tiếng Việt, T/c Ngôn ngữ số 3, 2003 26 Cao Xuân Hạo, Tiếng Việt vấn đề ngữ âm, ngữ pháp, ngữ nghĩa Nxb Giáo Dục, 1998 27 Nguyễn Quang Hồng, Âm tiết tiếng Việt, chức cấu trúc nó, T/c Ngơn ngữ số 3, 1976 28 Đồn Thiện Thuật, Ngữ âm tiếng Việt Nxb ĐHQGHN 1999 29 Wright J.T., The Behaviour of Nasalized Vowels in the Perceptual Vowel Space, Experimental Phonology (J.J Ohala & J.J Jaeger, eds.), Orlando: Heademic Press, 1986 30 Zwicker E., & Terhardt E., Analytical Expression for Critical - band Rate and Critical Bandwidth as a Function of Frequency, Journal of the Acoustical Society of America 68 (5), 1980 31 Zinder LR, Ngữ âm học đại cương, Nxb GD, 1964 Chương 32 A Samouelian, Knowledge based approach to consonant recognition, Department of electrical and Computer Engineering, University of Wollongong, Northfields Avennue, Wollongong, NSW 2522, Australia 33 Vũ Kim Bảng, Khái niệm ngữ âm học, Tạp chí ngơn ngữ số – 1999 34 Vũ Kim Bảng, Hệ Formant nguyên âm đơn tiếng Hà Nội, Tạp chí ngơn ngữ số 15-2002.Jie Zhu, Fei-li Chen, The analysis and application of a new endpoint detection method based on distance of aurocorrelated similarity, SJTU & Bell Labs Communications And Network Joint Laboratory Shanghai Jiao Tong University, Shanghai Jiao Tong University, Shanghai, 200030, P.R.China 35 Bộ Toolkit CSLU: http://cslu.ece.ogi.edu/toolkit 277 36 Carl D.Mitchell and Anand R.Setlur, Improve spelling recognition using a tree based fast lexical match, Lucent Technologies Bell Laboratories 2000 N.Naperville Rd Naperville, IL 60566, USA, ICASSP 1999, pp.24-29 37 Lawrence R Rabiner, Stephen E Levinson, A Speaker-Independent, Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Models and Level Building, IEEE Transaction on Acoustic, Speech and Signal Processing, Vol ASSP-33, N 3, June 1985, pp 561-573 38 Lawrence Rabiner, Fundamental of speech recognition, 1995 39 M Ibnkahla, Application of neural networks to digital communications - a survey”, Signal Procesing 80(2000), pp.1185-1215 40 Tan Lee and P.C Ching, A Neural Network Based Speech Recognition System for Isolated Cantonese Syllables, Department of electronic Engineering, The Chinese University of Hong Kong, N.T., Hong Kong, ICASSP - 1997, pp.3269-3272 41 Tung Hui Chiang, CCLMDS’96: Towards a Speaker - Independent Large -Vocabulary Mandarin Dictation System ICASSP 1997, pp 1799-1802 Chương 42 Nguyễn Hồng Cổn, Về vấn đề phân định từ loại tiếng Việt – T/c Ngôn ngữ số (165) năm 2003 - Viện Ngôn ngữ học, Trung tâm Khoa học xã hội Nhân văn quốc gia, trang 36 - 46 43 Frank Van Eynde and Dafydd Gibbon, Lexicon Development For Speech and Language Processing, p 149-163 44 James Allen, Natural Language Understanding 45 LU Shinan, HE Lin, Yang Yufang, CAO Jianfen, Prosodic control in Chinese TTS system, Institute of Acoustics, Academia 46 Robert Edward Donovan, Trainable speech synthesis, PhD thesis, 1996 47 Ruiqiang Zhang, Ezra Black, Andrew Finch, Yoshinori Sagisaka, A tagger-aided language model with a stack decoder, ICASSP 2000 278 48 Shimei Pan, Wubin Weng, Designing a Speech Corpus for Instance-base Spoken language generation 49 Nguyễn Văn Toàn, Hoàng Kiếm, Đinh Điền, Một cách tiếp cận cho việc phân từ tiếng Việt, Toàn văn báo cáo khoa học 2001 - Viện Công nghệ thông tin 50 Nhóm Vnvoice, Problems of Intergrating a VietNamese Text-ToSpeech Module into EUMS System, Toàn văn báo cáo khoa học 2001 Viện Công nghệ thông tin 51 X.Huang, A.Acero, H.Hon, Y.Ju, J.Liu, S.Meredith, M.Plumpe, Recent improvements on Microsoft’s trainable text-to-speech systemWHISTLER, ICASSP 1997, pp 959 - 962 52 Zhiwei Ying and Xiaohua Shi, An RNN-based Algorithm to Detect Prosodic Phrase for Chinese TTS, ICASSP 2001, paper 153 Baldon R.A.W., & Fant G, A two - formant model and the cardinal vowels, STL – QPRS1, - 8, 1978 Deterding D., The Formant of Monothong Vowels in Standard Southern British English Pronunciation, Journal of International Phonetic Association Volume 27 Number & 2, 1997 Fant G., Acoustic Theory of Speech Production, The Hague/ Paris: Monton, 1960 Flanagan J., Speech Analysis, Synthesis, and Perception, 2d ed New York: Springer Verlag, 1972 Hermann L., Abhandlungen in Pflügers Archiv f.d ges Physiologie, Bd 45, 1989 Iivonen A., Regional German Vowels Studies, Mimeographeđ Series ofthe Department of Phonetics, University of Helsinki 15, 1989 Iivonen A., Articulatory vowel gesture presented in a Psycho Acoustical F1/F2 space, Studies in Logopedics and Phonetics 3, Reijo Aulanko & Matti Lehtihalmes,1992 Ladefoged P., & Maddieson I., Vowels of the World's Languages, Journal of phonetics 18, 1990 279 Ladefoged P., Elements of Acoustic Phonetics, Chicago (second edition), Umversity of Chicago Press, 1996 10 Lindblom B., Phonetic Universals in Vowel system, Experimental Phonology (J.J Ohala & J.J Jaeger, eds.), Orlando: Academic Press, 1986 1 Nguyễn Văn Ái, Tìm hiểu vùng tần số foóc - man nguyên âm tiếng Việt phương pháp thực nghiệm, T/c Ngôn ngữ, số 4, 1973 12 Nguyễn Văn Ái, Bàn số lượng phân bố foóc - man nguyên âm đơn tiếng Việt qua ghi Xô - na - gơ - rap, T/c Ngôn ngữ, số 1, 1974 13 Nguyen Van Ai und Vu Ba Hung, Vergleichende Untersuchungen deutcher und vietnamesischer Vokale, 1975 Trong Zeitschrift für Phonetik Sprachwissenschaft und Kommunikationsforschung, Band 28 Heft 3/4 ;Akademie - Verlag, Berlin, 1975 14 Traunmüller H., Einise aspekte Wahrnehmung quasiststionärer Vokale, Papers from the Institute of Linguistics, University of Stockholm 15 Traunmüller H., Perceptual Dimension of Openness in Vowels, Journal of Acoustical Society of America 69 (65), 1981 16 Wright J.T., The Behaviour of Nasalized Vowels in the Perceptual Vowel Space, Experimental Phonology (J.J Ohala & J.J Jaeger, eds.), Orlando: Heademic Press, 1986 17 Zwicker E., & Terhardt E., Analytical Expression for Critical - band Rate and Critical Bandwidth as a Function of Frequency, Journal of the Acoustical Society of America 68 (5), 1980 18 Vũ Kim Bảng, Khái niệm ngữ âm học, Tlc Ngôn ngữ, số 5, 1999 19 Vũ Kim Bảng Nhận xét trường độ điệu qua phương ngữ Hà Nội phương ngữ Nam Bộ (cứ liệu thực nghiệm) - Những vấn đề ngôn ngữ học ngôn ngữ phương Đông - Viện Thông tin Khoa học Xã hội 20 Vũ Kim Bảng Nghiên cứu tiếng Hà Nội phương diện vật lý âm học Ngôn ngữ & Văn hoá 990 năm Thăng Long - Hà Nội Hà Nội 2000 21 Đình Cao Tiếng Hà Nội quan hệ với ngôn ngữ chung dân tộc - Hà Nội vấn đề ngơn ngữ văn hố - NXB Văn hố Thơng tin Hà Nội, 2001 280 22 Hoàng Thị Châu Tiếng Việt miền đất nước - NXB Khoa học Xã hội, Hà Nội, 1986 281 ... Tích hợp điện thoại máy tính 159 CƠ SỞ DỮ LIỆU NGỮ ÂM CHO NHẬN DẠNG VÀ TỔNG HỢP TIẾNG VIỆT 163 6.1 Giới thiệu .163 6.2 Ghi âm cho CSDL 164 6.3 Dữ liệu cho nhận dạng tiếng. .. ngược cho nhận dạng tiếng nói 73 HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NÓI 75 3.1 Huấn luyện nhận dạng theo mơ hình Markov 75 3.1.1 Giới thiệu HTK 75 3.1.2 Huấn luyện hệ thống nhận dạng ... lại khái niệm ngữ âm 196 7.2.4 Tổng hợp tiếng nói từ văn 198 7.3 Các phương pháp tổng hợp tiếng nói 200 7.3.1 Tổng hợp theo cấu âm 200 7.3.2 Tổng hợp formant theo

Ngày đăng: 15/05/2014, 10:33

Từ khóa liên quan

Mục lục

  • Phuong phap phan tich tieng noi theo cac dac trung

  • Cac mo hinh ung dung cho nhan dang tieng noi

    • 1. Phuong phap VQ. Phuong phap can chinh thoi gian dong

    • 2. Mo hinh Markov an. Mang Noron

    • Huan luyen va ngan dang tieng noi

      • 1. Theo mo hinh Markov

      • 2. Theo mo hinh lai ghep ANN/HMM

      • 3. So sanh hai phuong phap nhan dang: CD-HMM va HMM/ANN

      • Moi truong tin hieu tieng noi tren dien thoai

      • Tich hop module tong hop tieng Viet vaf cac chuan tich hop tieng noi

      • CSDL ngu am cho nhan dang va tong hop tieng Viet

      • Tong hop tieng Viet

      • Dac trung am hoc va am vi hoc cua tieng noi

        • 2. Dac trung am vi hoc

        • 1. Dac trung am hoc

        • Dac diem ngu am co ban cua tieng Viet

        • Phu luc

Tài liệu cùng người dùng

Tài liệu liên quan