XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

78 600 2
XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ----------------------------------- LUẬN VĂN THẠC SĨ KHOA HỌC XÂY DỰNG CÔNG CỤ KHẢO SÁT ẢNH HƯỞNG CỦA CÁC THAM SỐ CƠ BẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA NGÀNH: XỬ LÝ THÔNG TIN & TRUYỀN THÔNG MÃ SỐ: LÊ TRUNG DŨNG Người hướng dẫn khoa học: TS. TRỊNH VĂN LOAN NỘI 2006 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 1 MỤC LỤC LỜI NÓI ĐẦU 6 CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI .8 1.1. MỞ ĐẦU 8 1.2. BỘ MÁY PHÁT ÂM .8 1.2.1. Bộ máy phát âm .8 1.2.2. Cơ chế phát âm .9 1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 9 1.3.1. Xác định tần số lấy mẫu .12 1.3.2. Lượng tử hoá 12 1.3.3. Nén tín hiệu tiếng nói .12 1.3.4. Mã hoá tín hiệu tiếng nói. 13 1.3.4.1. Mã hoá trực tiếp tín hiệu .13 1.3.4.2. Mã hoá tham số tín hiệu 14 1.4. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI .15 1.4.1. Âm hữu thanh và âm vô thanh .15 1.4.1.1. Âm hữu thanh 15 1.4.1.2. Âm vô thanh .15 1.4.2. Âm vị 16 1.4.2.1. Nguyên âm .16 1.4.2.2. Phụ âm 16 1.4.3. Các đặc tính khác .16 1.4.3.1. Tỷ suất thời gian 16 1.4.3.2. Hàm năng lượng thời gian ngắn .16 1.4.3.3. Tần số cơ bản 17 1.4.3.4. Formant .17 1.5. MÔ HÌNH TẠO TIẾNG NÓI 18 1.6. XỬ LÝ TIẾNG NÓI 22 1.6.1. Tổng hợp tiếng nói .23 1.6.1.1. Tổng hợp tiếng nói theo cách phát âm 23 1.6.1.2. Tổng hợp đầu cuối tự nhiên 23 1.6.2. Nhận dạng tiếng nói .24 1.6.2.1. Nhận dạng ngữ nghĩa 24 1.6.2.2. Nhân dạng người nói 24 CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 25 2.1. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 25 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 2 2.1.1. Phương pháp mô phỏng hệ thống phát âm .25 2.1.2. Phương pháp tổng hợp Formant .25 2.1.2.1. Bộ tổng hợp formant nối tiếp 25 2.1.2.2. Bộ tổng hợp formant song song 26 2.1.3. Phương pháp ghép nối 26 2.1.3.1. Phương pháp tổng hợp PSOLA .27 2.1.3.2. Các phiên bản của PSOLA 27 2.2. MÔ HÌNH TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN .29 2.2.1. Tổng hợp mức cao 29 2.2.1.1. Xử lý văn bản 29 2.2.1.2. Phân tích cách phát âm .30 2.2.1.3. Ngôn điệu 30 2.2.2. Tổng hợp mức thấp 31 2.3. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 31 CHƯƠNG 3: GIẢI THUẬT TD-PSOLA 33 3.1. GIẢI THUẬT PSOLA 33 3.1.1. Phân tích PSOLA .33 3.1.1.1. Bước 1: Tìm cực đại địa phương của hàm năng lượng. .34 3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại .34 3.1.2. Tổng hợp PSOLA .35 3.2. THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 36 3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI 38 3.4. CÁC VẤN ĐỀ LIÊN QUAN 39 3.4.1 Xác định tần số cơ bản 40 3.4.1.1. Dùng hàm tự tương quan 40 3.4.1.2. Dùng hàm vi sai biên độ trung bình 42 3.4.2. Làm trơn tín hiệu khi ghép nối .43 3.4.2.1. Phương pháp Microphonemic .43 3.4.2.2. Mô hình hình sine 43 3.4.3 Cân bằng năng lượng 46 CHƯƠNG 4: THIẾT KẾ XÂY DỰNG ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 48 4.1. PHÂN TÍCH GIẢI THUẬT .48 4.2. DIPHONE TRONG TIẾNG VIỆT 50 4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU 53 4.3.1. Thu âm .53 4.3.1.1. Quá trình thu âm .53 4.3.1.2. Xử lý sau khi thu 53 4.3.2. Tách diphone 53 4.3.3. Lưu trữ dữ liệu .55 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 3 4.4. XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN .55 4.4.1. Phân tích văn bản tiếng Việt thành các từ 55 4.4.1.1. Xác định câu trong văn bản 56 4.4.1.2. Phân tích câu thành các từ .57 4.4.2. Xác định dấu (thanh điệu) của từ và tách từ thành diphone 58 4.4.2.1. Xác định dấu (thanh điệu) của từ 58 4.4.2.2. Tách từ thành hai diphone 59 4.5. GHÉP NỐI CÁC DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN .60 4.5.1.Ghép nối các diphone tạo thành các từ không dấu. 61 4.5.1.1. Đặt vấn đề. 61 4.5.1.2. Phân tích vấn đề 61 4.5.1.3. Giải pháp và các bước thực hiện. .61 4.5.2.Ghép nối các diphone tạo thành các từ có dấu 64 4.5.2.1. Từ tạo thành từ các diphone thông thường .64 4.5.2.2. Từ tạo thành từ các diphone đặc biệt. 68 4.6. ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 69 4.6.1. Giao diện chính 69 4.6.2. Minh hoạ một số chức năng chính của chương trình .71 TÀI LIỆU THAM KHẢO .76 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 4 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bộ máy phát âm của con người 9 Hình 1.2: Biểu diễn tín hiệu tiếng nói 10 Hình 1.3: Thông lượng cho các phương pháp biểu diễn tiếng nói .11 Hình 1.4: Mô Hình hoá nguồn âm đối với âm hữu thanh 18 Hình 1.5: Chuỗi 5 đoạn ống âm học lý tưởng 19 Hình 1.6: Cách biểu diễn lý học và toán học .20 Hình 1.7: Mô hình số của hệ thống phát âm 21 Hình 1.8: Một vài ứng dụng xử lý tiếng nói 22 Hình 2.1: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp .26 Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant song song .26 Hình 2.3: Mô hình tổng hợp tiếng nói 29 Hình 2.4: Sự phụ thuộc của ngôn điệu vào các yếu tố .30 Hình 3.1: Xác định cực đại địa phương của hàm năng lượng 34 Hình 3.2: Cộng xếp chồng các đoạn tín hiệu .36 Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu .37 Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA 38 Hình 3.5: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c) dùng của sổ Hamming với N=401. 41 Hình 3.6: Mô tả hàm vi sai biên độ trung bình 42 Hình 3.7: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian 44 Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian 45 Hình 3.9: Sơ đồ giải thuật cân bằng năng lượng 46 Hình 3.10: Tín hiệu diphone -cha khi chưa cân bằng năng lượng .47 Hình 3.11: Tín hiệu diphone -cha sau khi cân bằng năng lượng .47 Hình 3.12: Tín hiệu từ chao trước khi cân bằng năng lượng .47 Hình 3.13: Tín hiệu từ chao sau khi cân bằng năng lượng 47 Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 50 Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” .54 Hình 4.3: Điểm cắt bên phải của diphone “-xi” .54 Hình 4.4: Các loại dấu câu .56 Hình 4.5: Lưu đồ thuật toán xác định câu trong văn bản .57 Hình 4.6: Lưu đồ thuật toán xác định từ trong câu 58 Hình 4.7: Lưu đồ thuật toán xác định dấu của từ .59 Hình 4.8: Lưu đồ thuật toán tách từ thành 2 diphone 60 Hình 4.9: Cộng xếp chồng các tín hiệu thành phần .62 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 5 Hình 4.10: Lưu đồ ghép nối 2 diphone để tạo thành từ. 63 Hình 4.11: Ghép nối hai diphone .63 Hình 4.12: Vị trí lấy cửa sổ 64 Hình 4.13: Biểu diễn tần số cơ bản của từ theo thời gian 64 Hình 4.14: Tín hiệu âm a và đường biểu diễn Fo của thanh bằng .65 Hình 4.15: Tín hiệu âm à và đường biểu diễn Fo của thanh huyền .65 Hình 4.16: Tín hiệu âm á và đường biểu diễn Fo của thanh sắc 66 Hình 4.17: Tín hiệu âm ả và đường biểu diễn Fo của thanh hỏi 66 Hình 4.18: Tín hiệu âm ạ và đường biểu diễn Fo của thanh nặng .66 Hình 4.19: Tín hiệu âm ã và đường biểu diễn Fo của thanh ngã .67 Hình 4.20: Tính chu kỳ cơ bản F 0 tại điểm i 68 Hình 4.21: Sơ đồ khối tổng hợp diphone đặc biệt .68 Hình 4.22: Giao diện chính của chương trình 70 Hình 4.23: Tạo hai từ xin và chao 71 Hình 4.24: Biểu diễn tín hiệu 2 từ xin và chao 72 Hình 4.25: Thay đổi tần số cơ bản Fo để tạo thanh huyền 72 Hình 4.26: Xử dụng công cụ biến đổi cân bằng năng lượng .73 Hình 4.27: Sau khi cân bằng năng lượng .73 Hình 4.28: Cơ sở dữ liệu diphone 74 Hình 4.29: Chức năng đọc văn bản 75 LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 6 LỜI NÓI ĐẦU Máy tính đóng vai trò quan trọng và không thể thiếu trong cuộc sống hiện đại. Ngày nay, hầu hết mọi lĩnh vực như: cơ khí, điện tử, giao thông liên lạc . đều có sự tham gia của máy tính. Máy tính đã trở thành một công cụ hữu hiệu của con người trong xử lý thông tin. Sự phát triển của xã hội khiến cho khối lượng công việc cần xử lý tăng theo, nhu cầu tính toán, trao đổi thông tin cũng nằm trong sự tă ng trưởng này. Việc cải tiến, nâng cao tốc độ tính toán, bộ nhớ cho máy tính diễn ra rất mạnh mẽ và hoàn toàn đáp ứng với nhu cầu cần thiết. Cùng với sự phát triển nhanh chóng của máy tính, các hình thức trao đổi thông tin giữa con người và máy tính cũng trở nên đa dạng. Hiện tại việc trao đổi thông tin phổ biến giữa người và máy thông qua bàn phím, chuột, cảm biến, màn hình, máy in . Tuy nhiên một phương pháp trao đổi thông tin mới được đánh giá cao và khá gầ n gũi đối với con người đó là sử dụng giọng nói. Để đạt được phương pháp này đòi hỏi sự kết hợp của nhiều ngành nghiên cứu như trí tuệ nhân tạo, ngôn ngữ học, xử lý tiếng nói . Vấn đề tổng hợp tiếng nói trong xử lý tiếng nói là một trong những vấn đề cần nghiên cứu và được trình bày trong luận văn này. Tổng hợp tiếng nói đã được biế t đến và nghiên cứu khá rộng rãi trên thế giới. Kết quả thu được rất khả quan và làm tiền đề quan trọng cho sự giao tiếp người máy. Có khá nhiều ngôn ngữ được tổng hợp thành công với chất lượng khá tốt như tiếng Anh, tiếng Pháp . Ở Việt Nam tuy xử lý tiếng nói mới được chú trọng nghiên cứu trong thời gian gần đây nhưng cũng đã thu được một số kết quả đáng khích lệ. Với mục đích góp phần vào sự phát triển của tổng hợp tiếng Việt, đề tài này nghiên cứu phương pháp tổng hợp tiếng Việt dựa trên việc ghép nối các âm tiết cơ bản sử dụng giải thuật TD-PSOLA. Đề tài này xây dựng một ứng dụng hoàn chỉnh về tổng hợp tiếng việt dựa trên nghiên cứu trên. Ứng dụng này cho phép theo dõi một cách trực quan quá trình ghép nối tín hiệ u, quá tình thay đổi tần số của tín hiệu, quá trình cân bằng năng lượng, và cuối cùng là tiếng nói được phát ra với chất lượng chấp nhận được. Báo cáo được chia làm 4 chương: LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 7 Chương I: Lý thuyết về tiếng nói và xử lý tiếng nói. Chương này đề cập tới những vấn đề cơ bản nhất về các đặc trưng của tín hiệu tiếng nóicác lĩnh vực của xử lý tiếng nói. Chương II: Tổng hợp tiếng nói sẽ trình bày các phương pháp khác nhau trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả c ủa các phương pháp này. Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết về giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA, đồng thời cũng đề cập tới các vấn đề liên quan như vấn đề lọc nhiễu, cân bằng năng lượng . Chương IV: Thiết kế xây dựng ứng dụng tổng hợp tiếng Việt. Dựa trên nghiên cứu lý thuyết trong các chươ ng trước, chương này sẽ trình bày cách áp dụng thuật toán TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ văn bản và đánh giá các kết quả thu được. Trong quá trình viết luận văn chắc chắn không thể tránh khỏi những thiếu sót, vì vậy mong được hội đồng châm trước. Cuối cùng xin gửi lời cảm ơn tới toàn thể hội đồng, các thầy cô giáo trong khoa Công nghệ thông tin, các thầy cô giáo trong bộ môn Kỹ thuật máy tính. Cảm ơn thầy giáo Trịnh Văn Loan đã tận tình giúp đỡ, hướng dẫn tôi hoàn thành luận văn này. Học viên Lê Trung Dũng LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 8 CHƯƠNG 1: LÝ THUYẾT VỀ TIẾNG NÓI XỬ LÝ TIẾNG NÓI 1.1. MỞ ĐẦU Tiếng nói là một phương tiện trao đổi thông tin của con người. Tiếng nói được tạo ra từ quá trình tư duy của con người: trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo ra âm thanh. Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. Về bản chất, tiếng nói là sự dao động của không khí có mang theo thông tin. Các dao động này tạ o thành những áp lực đến tai và được tai phát hiện, phân tích và chuyển kết quả đến trung khu thần kinh. Lúc này tại trung khu thần kinh, thông tin được tái tạo lại dưới dạng tư duy logic mà con người có thể hiểu được. Tín hiệu tiếng nói được tạo thành bởi các chuỗi các âm vị liên tiếp. Sự sắp xếp của các âm vị được chi phối bởi các quy tắc của ngôn ngữ. Việc nghiên cứu một cách chi tiết về những quy t ắc này cũng như những khía cạnh khác bên trong tiếng nói thuộc về chuyên ngành ngôn ngữ. Việc phân loại các âm vị của tiếng nói thuộc về chuyên ngành ngữ âm học. Khi nghiên cứu các mô hình toán học của cơ chế tạo tiếng nói, việc nghiên cứu về các âm vị là rất cần thiết. 1.2. BỘ MÁY PHÁT ÂM 1.2.1. Bộ máy phát âm Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh quản, các đường dẫn miệng, mũi. Trong đó: Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết để tạo ra âm thanh. Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản. Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ dài cố định khoảng 12cm đối với người lớn. Vòm miệng là các nếp cơ chuyển động. LUẬN VĂN THẠC SỸ LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 9 Hình 1.1: Bộ máy phát âm của con người 1.2.2. Cơ chế phát âm Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi. Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn. Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và môi, sẽ tạo ra tiếng nói. 1.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI Tín hiệu tiếng nói là tín hiệu tương tự. Do đó khi biểu diễn tín hiệu tiếng nói trong môi trường tính toán của tín hiệu số, việc biểu diễn và lưu trữ sao cho không bị mất mát thông tin là vấn đề hết s ức quan trọng trong các hệ thống thông tin có sử dụng tín hiệu tiếng nói. Việc xem xét các vấn đề xử lý tín hiệu tiếng nói trong các hệ thống này dựa trên ba vấn đề chính: Biểu diễn tín hiệu tiếng nói dạng số. Cài đặt các kỹ thuật xử lý. Các lớp ứng dụng dựa trên kỹ thuật xử lý tín hiệu số. 1. Hốc mũi 2. Vòm miệng trên 3. Ổ răng 4. Vòm miệng mềm 5. Đầu lưỡi 6. Thân lưỡi 7. Lưỡi gà 8. Cơ miệng 9. Yết hầu 10. Nắp đóng của thanh quản 11. Dây thanh giả 12. Dây thanh 13. Thanh quản 14. Thực quản [...]... trị trung bình của các bộ lọc thông dải, của các tần số formant, của các hệ số tiên đoán tuyến tính, của hệ số cepstre và các tham số khác LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 24 LUẬN VĂN THẠC SỸ CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI 2.1 CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI Tổng hợp tiếng nói là phát sinh tiếng nói từ sóng tiếng nói Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói chất lượng ngày càng... pháp tổng hợp Formant Phương pháp tổng hợp formant (formant synthesis) yêu cầu phải tổng hợp được tối thiểu 3 formant để hiểu được tiếng nói, và để có được tiếng nói chất lượng cao thì cần tới 5 formant Tiếng nói được tạo ra từ các bộ tổng hợp formant với thành phần chính là các bộ cộng hưởng Tuỳ theo cách bố trí các bộ cộng hưởng mà ta có bộ tổng hợp formant là nối tiếp hay song song 2.1.2.1 Bộ tổng hợp. .. formant nối tiếp Bộ tổng hợp formant nối tiếp là một bộ tổng hợp formant có các tầng nối tiếp, đầu ra của bộ cộng hưởng này là đầu vào của bộ cộng hưởng kia LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 25 LUẬN VĂN THẠC SỸ Hệ số Kích thích Tiếng nói Hình 2.1: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp 2.1.2.2 Bộ tổng hợp formant song song Bộ tổng hợp formant song song bao gồm các bộ cộng hưởng mắc song... tổng hợp tiếng nói tổng hợp tiếng nói từ văn bản (Text To Speech – TTS) Quá trình này được chia làm hai mức xử lý: • High Level Synthesis: Tổng hợp mức cao • Low Level Synthesis: Tổng hợp mức thấp Văn bản (Text) Tiếng nói Tổng hợp mức cao Tổng hợp mức thấp Hình 2.3: Mô hình tổng hợp tiếng nói 2.2.1 Tổng hợp mức cao Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổi các văn... nghĩa là tín hiệu tiếng nói được lấy mẫu và lượng tử hoá giống như phương pháp biểu diễn tín hiệu tiếng nói dạng sóng, sau đó tiến hành xử lý để thu được các tham số của tín hiệu tiếng nói của mô hình tạo tiếng nói nêu trên Các tham số của mô hình tạo tiếng nói này thường được phân loại thành các tham số tín hiệu nguồn (có quan hệ mật thiết với nguồn của tiếng nói) và các tham số của bộ máy phát âm tương... lý tiếng nói Hình 1.8: Một vài ứng dụng xử lý tiếng nói LÊ TRUNG DŨNG - LỚP CAO HỌC XLTT&TT 2004 22 LUẬN VĂN THẠC SỸ Trong các ứng dụng này có 2 ứng dụng quan trọng nhất là: Tổng hợp tiếng nói và xử lý tiếng nói 1.6.1 Tổng hợp tiếng nói Tổng hợp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều khiển một mô hình mẫu với một tập các tham số Nếu mô hình mẫu này và các tham số được xây dựng. .. cơ bản nhất của các phương pháp tổng hợp tiếng nói ta có thể rút ra một số nhận xét về các phương pháp này Các nhận xét này nhằm mục đính đưa ra đánh giá về ba phương pháp dựa trên chất lượng tiếng nói tổng hợp, chi phí tính toán và kích thước dữ liệu • Về chất lượng của tiếng nói tổng hợp: Trong ba phương pháp nói trên thì phương pháp mô phỏng bộ máy phát âm về nguyên tắc sẽ cho chất lượng tốt nhất... một bộ lọc biểu diên cho tuyến âm Quá trình tổng hợp sẽ bao gồm hai phần cơ bản: • Tổng hợp tín hiệu nguồn dựa vào tần số cơ bản và tính chất tuần hoàn của nguồn • Xây dựng lại hàm truyền đạt của tuyến âm (bao gồm cả mũi và miệng) dựa vào các tham số đặc trưng cho tuyến âm Hiện nay người ta thường sử dụng hai bộ tham số đặc trưng cho tuyến âm: • Bộ tham số formant • Bộ tham số của bộ lọc đảo Các bộ tham. .. nhiên chất lượng của các phương pháp hiện nay mới chỉ đạt đến mức phù hợp cho một vài ứng dụng, chẳng hạn như đa phương tiện và truyền thông Hiện nay có ba phương pháp tổng hợp tiếng nói Phương pháp đơn giản nhất để phát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên (như các từ hoặc câu) Phương pháp này cho chất lượng tương đối tốt nhưng gặp phải hạn chế là số lượng. .. hợp của tín hiệu nguồn và tất cả các formant Cấu trúc song song cần nhiều thông tin để điều khiển hơn Kích thích Tiếng nói Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant song song Tổng hợp formant là một phương pháp tổng hợp cho chất lượng chấp nhận được nhưng nếu yêu cầu chất lượng cao thì phương pháp này chưa đáp ứng được 2.1.3 Phương pháp ghép nối Tổng hợp bằng cách ghép nối các âm được tổng

Ngày đăng: 26/04/2013, 15:43

Hình ảnh liên quan

Hình 1.1: Bộ máy phát âm của con người 1.2.2. Cơ chế phát âm  - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 1.1.

Bộ máy phát âm của con người 1.2.2. Cơ chế phát âm Xem tại trang 10 của tài liệu.
Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant song song - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 2.2.

Cấu trúc cơ bản của một bộ tổng hợp formant song song Xem tại trang 27 của tài liệu.
Hình 2.4: Sự phụ thuộc của ngôn điệu vào các yếu tố - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 2.4.

Sự phụ thuộc của ngôn điệu vào các yếu tố Xem tại trang 31 của tài liệu.
Hình 3.1: Xác định cực đại địa phương của hàm năng lượng 3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại. - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.1.

Xác định cực đại địa phương của hàm năng lượng 3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại Xem tại trang 35 của tài liệu.
Hình 3.2: Cộng xếp chồng các đoạn tín hiệu - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.2.

Cộng xếp chồng các đoạn tín hiệu Xem tại trang 37 của tài liệu.
Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.3.

Quá trình làm thay đổi tần số của tín hiệu Xem tại trang 38 của tài liệu.
Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.4.

Sự thay đổi tần số và thời gian với TD-PSOLA Xem tại trang 39 của tài liệu.
Hình 3.5: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c) dùng của sổ Hamming với N=401 - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.5.

Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c) dùng của sổ Hamming với N=401 Xem tại trang 42 của tài liệu.
Hình 3.6: Mô tả hàm vi sai biên độ trung bình - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.6.

Mô tả hàm vi sai biên độ trung bình Xem tại trang 43 của tài liệu.
Hình 3.7: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.7.

Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian Xem tại trang 45 của tài liệu.
Hình 3.8: Xử lý làm trơn tuyến tính miền thời gian - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 3.8.

Xử lý làm trơn tuyến tính miền thời gian Xem tại trang 46 của tài liệu.
Sơ đồ giải thuật cân bằng được mô tả trên hình vẽ sau: - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Sơ đồ gi.

ải thuật cân bằng được mô tả trên hình vẽ sau: Xem tại trang 47 của tài liệu.
Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.1.

Sơ đồ tổng hợp tiếng Việt từ văn bản Xem tại trang 51 của tài liệu.
Hình 4.2: Tách diphone “-xi” từ từ mẫu “xi” - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.2.

Tách diphone “-xi” từ từ mẫu “xi” Xem tại trang 55 của tài liệu.
Chi tiết về việc cắt các diphone từ một mẫu được mô tả trong Hình 4.2. - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

hi.

tiết về việc cắt các diphone từ một mẫu được mô tả trong Hình 4.2 Xem tại trang 55 của tài liệu.
Hình 4.5: Lưu đồ thuật toán xác định câu trong văn bản - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.5.

Lưu đồ thuật toán xác định câu trong văn bản Xem tại trang 58 của tài liệu.
Hình 4.6: Lưu đồ thuật toán xác định từ trong câu 4.4.2. Xác định dấu (thanh điệu) của từ và tách từ  thành diphone  - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.6.

Lưu đồ thuật toán xác định từ trong câu 4.4.2. Xác định dấu (thanh điệu) của từ và tách từ thành diphone Xem tại trang 59 của tài liệu.
Hình 4.7: Lưu đồ thuật toán xác định dấu của từ - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.7.

Lưu đồ thuật toán xác định dấu của từ Xem tại trang 60 của tài liệu.
Hình 4.8: Lưu đồ thuật toán tách từ thành 2 diphone - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.8.

Lưu đồ thuật toán tách từ thành 2 diphone Xem tại trang 61 của tài liệu.
Hình 4.10: Lưu đồ ghép nối 2 diphone để tạo thành từ. - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.10.

Lưu đồ ghép nối 2 diphone để tạo thành từ Xem tại trang 64 của tài liệu.
Hình 4.15: Tín hiệu â mà và đường biểu diễn Fo của thanh huyền - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.15.

Tín hiệu â mà và đường biểu diễn Fo của thanh huyền Xem tại trang 66 của tài liệu.
Hình 4.17: Tín hiệu âm ả và đường biểu diễn Fo của thanh hỏi - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.17.

Tín hiệu âm ả và đường biểu diễn Fo của thanh hỏi Xem tại trang 67 của tài liệu.
Hình 4.16: Tín hiệu â má và đường biểu diễn Fo của thanh sắc - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.16.

Tín hiệu â má và đường biểu diễn Fo của thanh sắc Xem tại trang 67 của tài liệu.
Hình 4.19: Tín hiệu â mã và đường biểu diễn Fo của thanh ngã - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.19.

Tín hiệu â mã và đường biểu diễn Fo của thanh ngã Xem tại trang 68 của tài liệu.
Hình 4.23: Tạo hai từ xin và chao - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.23.

Tạo hai từ xin và chao Xem tại trang 72 của tài liệu.
Hình 4.24: Biểu diễn tín hiệu 2 từ xin và chao - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.24.

Biểu diễn tín hiệu 2 từ xin và chao Xem tại trang 73 của tài liệu.
Hình 4.26: Xử dụng công cụ biến đổi cân bằng năng lượng - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.26.

Xử dụng công cụ biến đổi cân bằng năng lượng Xem tại trang 74 của tài liệu.
Hình 4.27: Sau khi cân bằng năng lượng - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.27.

Sau khi cân bằng năng lượng Xem tại trang 74 của tài liệu.
Hình 4.28: Cơ sở dữ liệu diphone - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.28.

Cơ sở dữ liệu diphone Xem tại trang 75 của tài liệu.
Hình 4.29: Chức năng đọc văn bản - XÂY DỰNG CÔNG CỤKHẢO SÁT ẢNH HƯỞNG CỦA CÁC  THAM SỐCƠBẢN ĐẾN CHẤT LƯỢNG TIẾNG NÓI BỘ TỔNG HỢP TIẾNG VIỆT DÙNG TD-PSOLA

Hình 4.29.

Chức năng đọc văn bản Xem tại trang 76 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan