Nhận dạng tiếng nói việt nam từ vựng lớn liên tục

121 406 0
Nhận dạng tiếng nói việt nam từ vựng lớn liên tục

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KHOA HỌC HUẾ KHOA CÔNG NGHỆ THÔNG TIN Nhận Dạng Tiếng Nói Việt Nam Từ Vựng Lớn Liên Tục (Tài liệu dùng cho môn học Lý thuyết Nhận dạng) TS. Nguyễn Đăng Bình URL: HTTP://NGUYENDANGBINH.ORG EMAIL: DANGBINH@GMAIL.COM HUẾ - 5/2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 MỤC LỤC - Mục lục 3 - Danh mục các ký hiệu, các chữ viết tắt 6 - Danh mục các bảng 7 - Danh mục các hình vẽ, đồ thị 8 - Mở đầu 10 CHƯƠNG 1 - BÀI TOÁN NHẬN DẠNG TIẾNG NÓI VÀ MÔ HÌNH MARKOV ẨN 1.1 Giới thiệu 12 1.2 Công thức cơ bản 14 1.3 Các thành phần của một bộ nhận dạng tiếng nói 15 1.3.1 Xử lý ngữ âm 15 1.3.2 Mô hình ngữ âm 15 1.3.3 Mô hình ngôn ngữ 16 1.3.4 Tìm kiếm giả định 18 1.4 Giới thiệu chuỗi Markov 18 1.5 Cơ bản về mô hình Markov ẩn 19 1.6 Tìm chuỗi chuyển trạng thái tốt nhất - Thuật toán Viterbi 22 1.7 Ước lượng các tham số xác suất cho HMM – Thuật toán Baum-Welch 24 CHƯƠNG 2 : TIỀN XỬ LÝ TIẾNG NÓI 2.1 Tổng quan về tiền xử lý tiếng nói 27 2.2 Cải thiện tín hiệu – bộ lọc Wiener 28 2.2.1 Định nghĩa bộ lọc Wiener 28 2.2.2 Công thức cơ bản của bộ lọc Wiener 29 2.2.3 Sai số tín hiệu của bộ lọc Wiener 30 2.2.4 Mối quan hệ giữa vector hệ số w và sai số tín hiệu e(m) 30 2.2.5 Tối ưu bộ lọc Wiener 31 2.2.6 Biểu diễn bộ lọc Wiener trong không gian vector 32 2.2.7 Ứng dụng bộ lọc Wiener trong việc loại bỏ nhiễu cộng thêm 34 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 2.3 Cắt khung tín hiệu 36 2.4 Phân tích Fourier – biến đổi Fourier rời rạc 38 2.5 Xác định phổ Mel 40 2.5.1 Định nghĩa tần số Mel 40 2.5.2 Phổ Mel 42 2.6 Biến đổi Cosine rời rạc trên tần số Mel 42 CHƯƠNG 3 - QUÁ TRÌNH HUẤN LUYỆN VÀ NHẬN DẠNG TIẾNG NÓI VIỆT NAM TỪ VỰNG LỚN LIÊN TỤC 3.1 Từ điển Lexicon 44 3.1.1 Giới thiệu Lexicon 44 3.1.2 Qui tắc của Lexicon trong hệ thống nhận dạng tiếng nói từ vựng lớn và liên tục 47 3.1.3 Các khiếm khuyết cơ bản của Lexicon 48 3.1.4 Các phương pháp xây dựng từ điển Lexicon 49 3.2 Dữ liệu 50 3.2.1 Dữ liệu văn bản 50 3.2.2 Dữ liệu âm thanh 52 3.2.3 Tiếng ồn và nhiễu trong dữ liệu âm thanh 54 3.3 Huấn luyện tiếng Việt 55 3.3.1 Chuẩn bị dữ liệu 56 3.3.2 Các bước trong quá trình học tiếng Việt 59 3.3.3 Tạo Model 59 3.4 Giới thiệu về Ma trận Confusion Matrix trong xử lý từ điển Lexicon 64 3.4.1 Giới thiệu 64 3.4.2 Phân tích ma trận nhầm lẫn 67 3.5 Kết hợp từ điển Lexicon vào mô hình HMM 70 3.5.1 Thuật toán Quy Hoạch Động 70 3.5.2 Lý thuyết Word Graph 74 3.6 Các dạng HMM có áp dụng ma trận Confusion Matrix 92 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 CHƯƠNG 4 - KẾT QUẢ VÀ BÀN LUẬN 4.1 Tổ chức thực nghiệm 96 4.1.1 Dữ liệu huấn luyện 96 4.1.2 Dữ liệu thực nghiệm 96 4.1.3 Phương pháp đánh giá 96 4.1.4 Tiến hành thực nghiệm 96 4.2 Kết quả thực nghiệm của chương trình đọc số tiếng Việt 97 4.3 Kết quả thực nghiệm chương chương trình nhập điểm 98 4.4 Khóa khăn và thuận lợi 99 4.5 Bàn luận 100 4.6 Hướng phát triển 101 Tài liệu tham khảo 102 Phụ Lục A 104 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 DANH MỤC CÁC CHỮ VIẾT TẮT HMM : Mô hình Markov ẩn DTW : Biến dạng thời gian động [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 3.1 Cấu trúc từ tiếng Việt 44 3.2 Lexicon mẫu cho một số từ 45 3.3 Một ma trận nhầm lẫn đơn giản (2 x 2) 65 3.4 Môt ma trận nhầm lẫn (3 x 3) 65 3.5 Một ma trận nhầm lẫn (8 x 8) 88 4.1 Kết quả thực nghiệm với loại dữ liệu đã được huấn luyện 97 4.2 Kết quả thực nghiệm với loại dữ liệu chưa được huấn luyện 98 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 DANH MỤC CÁC HÌNH VẼ Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Mô tả tổng quan quá trình nhận dạng tiếng nói 13 1.2 Mô tả mô hình ngữ âm 16 1.3 Một chuỗi Markov 3 trạng thái 19 1.4 Bài toán 2, Tìm chuỗi chuyển trạng thái tốt nhất 22 1.5 Bài toán 3, Làm sao hiệu chỉnh tham số mô hình 24 2.1 Biểu diễn tín hiệu tiếng nói từ tín hiệu liên tục sang tín hiệu rời rạc 27 2.2 Phép chiếu để ước lượng bình phương tối thiểu sai số của vector tín hiệu mong đợi x trên mặt phẳng chứa 2 tín hiệu y 1 , y 2 32 2.3 Độ biến thiên tần số Wiener tương ứng với phổ tín hiệu của nhiễu cộng thêm (nhiễu trắng) 34 2.4 Tần số W(f) tương quan tỉ lệ SNR(f) 35 2.5 Độ biến thiên giữa W(f) và SNR(f) 36 2.6 Cắt khung tín hiệu 37 2.7 Cửa sổ Hamming chiều dài N 38 2.8 Minh họa cho biến đổi Fourier 39 2.9 Minh họa cho biến đổi Fourier được rời rạc hóa 40 2.10 Tần số Mel và mô tả tuyến tính Hz 42 2.11 Mel Filter Bank bộ lọc tam giác 43 3.1 Sự chuyển đổi tín hiệu bên trong hệ thống nhận dạng tiếng nói 48 3.2 Sóng của câu nói “một chín sáu hai” không bị ồn và nhiễu 53 3.3 Câu “tôi đi học” được đọc rõ ràng 54 3.4 Câu “tôi đi học” được đọc quá nhanh 54 3.5 Câu “tôi đi học” được đọc ngân dài 54 3.6 Câu “tôi đi học” thu âm bị ồn và nhiễu (có tiếng quạt và xe cộ) 55 3.7 Bảng nhầm lẫn có chứa ma trận nhầm lẫn với sự nhận biết các nguyên âm trong ngôn ngữ Hungarian 66 3.8 Bảng nhầm lẫn có chứa ma trận nhầm lẫn cho 39 âm vị (phoneme) trong ngôn ngữ tiếng Anh 67 3.9 Mô hình biến dạng giữa hai chuỗi theo thời gian 74 3.10 Một ma trận chi phí với dấu vết đường đi biến dạng có khoảng cách nhỏ nhất 74 3.11 Một đồ thị từ tổng quan 75 3.12 Tái kết hợp ngôn ngữ mô hình trong ngôn ngữ bigram và sử dụng từ Sil cho 1 cây từ vựng (3 từ vựng A, B, C) sử dụng cây bản sao word conditioned 78 3.13 Tái kết hợp mô hình ngôn ngữ Trigram cho cây từ vựng (3 từ vựng A, B, C) không sử dụng Sil 85 3.14 Minh họa của cây từ gần đúng cho 2 trường hợp (a, b) 88 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 3.15 Một đồ thị từ cho từ vựng 3 từ (a, B, C) 91 3.16 Kiến trúc Metamodel của 1 âm tiết 93 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 MỞ ĐẦU Các hệ thống nhận dạng tiếng nói hiện này đã phát triển với các ngôn ngữ Anh, Pháp, Tây Ban Nha, nhưng đối với tiếng Việt Nam thì vẫn còn là lĩnh vực mới mẻ. Tuy đã có nhiều nhà nghiên cứu về nhận dạng tiếng Việt Nam với một số thành tựu và có một số các ứng dụng nhất định nhưng vẫn chưa đạt được kết quả để cho ra một ứng dụng hoàn chỉnh. Vấn đề là nhận dạng tiếng nói Việt Nam là một nghiên cứu của nhiều lĩnh vực khác nhau.Việc nghiên cứu nhận dạng tiếng nói Việt Nam từ vựng lớn là một yêu cầu bức thiết của các nhà khoa học nước ta, hệ thống nhận dạng tiếng Việt chỉ có thể do người Việt Nam nghiên cứu và thực hiện, không thể mua từ nước ngoài. Đây chính là lý do tôi chọn đề tài. Nghiên cứu này nghiên cứu về cơ sở lý thuyết nhận dạng tiếng nói, bắt đầu đi từ các khái niệm cơ bản đến lý thuyết phức tạp, sau đó tiến hành nghiên cứu ứng dụng và thực nghiệm để minh họa cho lý thuyết. Các nghiên cứu về nhận dạng tiếng nói có rất nhiều cách tiếp cận khác nhau, nghiên cứu này xin trình bày về nhận dạng tiếng nói Việt Nam trên tập từ vựng lớn và liên tục bằng Mô hình HMM. Phạm vi nghiên cứu tập trung chính vào hai quá trình: tiền xử lý tiếng nói, huấn luyện và nhận dạng tiếng nói Việt Nam từ vựng lớn liên tục. Phương pháp nghiên cứu sử dụng trong nghiên cứu này là nghiên cứu lý thuyết kết hợp với thực nghiệm để rút ra các số liệu thống kê và đánh giá hiệu quả của nghiên cứu. Nghiên cứu này là một nghiên cứu lý thuyết có kế thừa công trình nghiên cứu của các nhà khoa học trong và ngoài nước đã công bố, ngoài ra cũng đóng góp các kết quả thực nghiệm trên tập ngữ liệu mẫu tuy còn ở mức độ nhỏ và chỉ ra hướng phát triển để cải thiện chất lượng nhận dạng tiếng Việt. Nghiên cứu đã trình bày một góc nhìn về lý thuyết để đóng góp cho sự phát triển một hệ thống nhận dạng tiếng nói Việt Nam từ vựng lớn liên tục trong tương lai. [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 Cấu trúc nghiên cứu trình bày gồm có 4 chương sau: • Chương 1_ Bài toán nhận dạng tiếng nói và Mô hình HMM. • Chương 2_ Tiền xử lý tiếng nói. • Chương 3_ Quá trình huấn luyện và nhận dạng tiếng nói Việt Nam từ vựng lớn liên tục. • Chương 4_ Kết quả và bàn luận. [...]... ngôn ngữ ở mức cao hơn Nhận dạng tiếng nói phát triển từ nhận dạng các từ nói riêng biệt đến nhận dạng các từ được nói liên tục, bộ từ vựng sử dụng trong hệ thống được chia thành 3 nhóm: • Từ vựng nhỏ: sử dụng tối đa khoảng 100 từ • Từ vựng trung bình: sử dụng từ hàng trăm đến 20000 từ • Từ vựng lớn: cho phép mở rộng đến hơn 64000 từ Hiện nay có nhiều cách tiếp cận nhận dạng tiếng nói khác nhau bao gồm:...13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] CHƯƠNG 1- BÀI TOÁN NHẬN DẠNG TIẾNG NÓI VÀ MÔ HÌNH MARKOV ẨN 1.1 Giới thiệu: Nhận dạng tiếng nói là lĩnh vực đã được nghiên cứu từ hơn 4 thập kỉ qua ở các trường đại học và các tổ chức trên thế giới Các hệ thống nhận dạng tiếng nói hiện đại đang hòa trộn nhiều lãnh vực công nghệ từ việc xử lý tín hiệu, nhận dạng mẫu và xử lý ngôn... thanh người nói khá phức tạp, có tính liên tục và các âm quyện nối vào nhau, vì mỗi người mỗi giọng, vì có các tạp âm khác nhiễu vào thiết bị thu, Với tiếng nói chuẩn, các hệ hiện đại cũng mới nhận dạng đúng được khoảng 70% Một hệ thống dạng tiếng nói là một thiết bị có khả năng tự động chuyển đổi tiếng nói thành văn bản 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] Hình 1.1... trạng thái j N ( n) t = x=1 ( n) ( n) y =1 t ( n) jt0−1 ( n) ( j) t +1 ( x)a ( n )b ( n ) β y xy 0 t +1 t +1 ( n) ( 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] Ta có được các tham số ước lượng: [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 13 tháng 5, 2011 Xác suất trạng thái i là trạng thái bắt đầu π i: π i( n+1) = γ n (1.17) (i) 1 Xác suất chuyển trạng thái: T −1 ξ... (tt 'o =k ) T γ t (i) ∑ t '=1 γ t (t' ) (1.19) 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] CHƯƠNG 2 - TIỀN XỬ LÝ TIẾNG NÓI 2.1 Tổng quan về tiền xử lý tiếng nói: Tiền xử lý là một quá trình xử lý trước tín hiệu tiếng nói, nhằm mục đích làm sạch tín hiệu để có những thông tin cần thiết cho hệ thống nhận dạng tiếng nói Các giai đoạn của qui trình tiền xử lý được sắp xếp thứ tự... được tính theo công thức: P( A) = ∑ t P(W t )P( A | W t ) (1.5) w Vì A là cố định nên từ (I.3) và (I.5) ta có xấp xỉ lớn nhất của bài toán giải mã: Ŵ = argmaxWP(W)P(A|W) (1.6) 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] Theo công thức (1.6) thì bài toán nhận dạng tiếng nói (nhận ra chuỗi từ Ŵ) chính là phải xác định được các xác suất P(W) và P(A|W) P(W) được tính thông qua... tự nhiên, nhận dạng tiếng nói và phân tích chuỗi gen 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] 1.3.4 Tìm kiếm giả định: Cuối cùng, trong công thức 1.6, để tìm được chuỗi từ mong đợi chúng ta cần phải tìm trong tất cả các chuỗi chữ W có thể để tìm ra một chuỗi có xác suất tốt nhất Chúng ta không thể áp dụng cách tìm kiếm vét cạn vì số chuỗi từ W cần tìm kiếm rất lớn Chúng... Tính hệ số Mel Cepstrum để xác định các hệ số đặc trưng cho tín hiệu tiếng nói Các hệ số này được gọi là Mel Frequency Cepstrum Coefficients – MFCC • Biến đổi Cosine rời rạc trên tần số Mel Hình 2.1 Biểu diễn tín hiệu tiếng nói từ tín hiệu liên tục sang tín hiệu rời rạc 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] Bộ giải mã sẽ sử dụng dữ liệu có được qua quá trình tiền xử lý... lý ngôn ngữ tự nhiên vào trong các khung xử lý Nhận dạng tiếng nói cần sử dụng một số kiến thức từ nhiều ngành khoa học khác có liên quan như: kiến thức về toán học, xử lý tín hiệu, nhận dạng mẫu, âm học, ngôn ngữ học, tâm sinh lý học Bài toán nhận dạng tiếng nói là làm cho máy tính nhận biết và chuyển tiếng nói thu nhận của người thành một chuỗi các từ tương ứng, kết quả này có thể được dùng trong... tại thời điểm khi một ký hiệu quan sát được phát ra Thuật toán Viterbi dùng cho nhận dạng tiếng nói Đặt λ t(i) là xác suất của mô hình phát ra ký hiệu quan sát ot là trạng thái thứ i của chuỗi quan sát O λ t(i) = P(qt = qi | O) Nó dễ dàng nhận được: (1.15) 13 tháng 5, 2011 [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN] λ t(i) = αt(i) βt(i) / P( O ) , với i =1, , N , t =1, , T Sau đó tại mỗi . lý tiếng nói. • Chương 3_ Quá trình huấn luyện và nhận dạng tiếng nói Việt Nam từ vựng lớn liên tục. • Chương 4_ Kết quả và bàn luận. [NHẬN DẠNG TIẾNG NÓI VIỆT NAM LIÊN TỤC TỪ VỰNG LỚN]. VÀ NHẬN DẠNG TIẾNG NÓI VIỆT NAM TỪ VỰNG LỚN LIÊN TỤC 3.1 Từ điển Lexicon 44 3.1.1 Giới thiệu Lexicon 44 3.1.2 Qui tắc của Lexicon trong hệ thống nhận dạng tiếng nói từ vựng lớn và liên. cao hơn. Nhận dạng tiếng nói phát triển từ nhận dạng các từ nói riêng biệt đến nhận dạng các từ được nói liên tục, bộ từ vựng sử dụng trong hệ thống được chia thành 3 nhóm: • Từ vựng nhỏ:

Ngày đăng: 02/06/2015, 17:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan