mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN MÔ HÌNH HÓA TRƯỜNG ĐỘ ÂM TIẾT TIẾNG VIỆT NÂNG CAO CHẤT LƯỢNG TỔNG HỢP TIẾNG NÓI Sinh viên thực hiện : NGUYỄN TRỌNG HIẾU Lớp: Công nghệ phần mềm A – K51 Giáo viên hướng dẫn: TS. Trần Thị Thanh Hải ThS Nguyễn Thị Thu Trang HÀ NỘI 05-2011 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Thông tin về sinh viên Họ và tên sinh viên: Nguyễn Trọng Hiếu Điện thoại liên lạc: 01677 225 100 Email: TrongHieuBK@gmail.com Lớp: Công nghệ phần mềm A – K51 Hệ đào tạo: Đại học chính quy Đồ án tốt nghiệp được thực hiện tại: Trung tâm nghiên cứu MICA: Từ ngày 21/02/2010 đến 28/05/2010 2. Mục đích nội dung của ĐATN Mục đích của đồ án tốt nghiệp là giải quyết bài toán “Mô hình hóa trường độ âm tiết tiếng Việt, nâng cao chất lượng tổng hợp tiếng nói ”. 3. Các nhiệm vụ cụ thể của ĐATN − Tìm hiểu bài toán mô hình hóa trường độ và tổng hợp tiếng nói − Xây dựng mô hình lý thuyết cho bài toán chuẩn hóa văn bản tiếng Việt − Thực thi mô hình lý thuyết − Đánh giá kết quả của mô hình. 4. Lời cam đoan của sinh viên: Tôi – Nguyễn Trọng Hiếu - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS. Trần Thị Thanh Hải và ThS. Nguyễn Thị Thu Trang. Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày 25 tháng 05 năm 2011 Tác giả ĐATN Nguyễn Trọng Hiếu 5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ: Hà Nội, ngày tháng năm 2011 Giáo viên hướng dẫn TS. Trần Thị Thanh Hải ThS. Nguyễn Thị Thu Trang TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 Tổng hợp tiếng nói đóng vai trò quan trọng trong đời sống, chính vì vậy một bộ tổng hợp tiếng nói “hoàn hảo”, có thể đọc được văn bản như con người là niềm khao khát của các nhà phát triển. Nhiều bộ tổng hợp tiếng đã được phát triển, nhưng muốn có bộ tổng hợp tiếng nói có thể tổng hợp được những âm thanh có độ tự nhiên cao, bộ tổng hợp tiếng nói cần phải “hiểu” được ngữ điệu của âm thanh từ văn bản đầu vào. Đây là một vấn đề không đơn giản, và để xử lý được vấn đề này cần xây dựng những mô hình ngữ điệu cho tiếng Việt. Đồ án tập trung vào nghiên cứu bài toán xây dựng mô hình trường độ cho tiếng việt. Tác giả tìm hiểu các mô hình được sử dụng rộng rãi trên thế giới và các mô hình hiện được sử dụng đối với tiếng Việt, dựa vào đó đưa ra nhận xét đánh giá về các mô hình và xây dựng mô hình. Để có thể đánh giá được sự thành công của mô hình, mô hình được cài đặt và triển khai thử nghiệm. Kết quả của mô hình được đánh giá qua hai tiêu chí, thông số về độ chính xác của trường độ qua mô hình và đánh giá theo cảm nhận của người nghe về độ tự nhiên của âm thanh. Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 LỜI CẢM ƠN Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong trường Đại học Bách Khoa Hà Nội nói chung và các thầy cô trong Viện Công nghệ thông tin và truyền thông, bộ môn Công nghệ phần mềm nói riêng đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 5 năm học tập và rèn luyện tại trường Đại học Bách Khoa Hà Nội. Em xin được gửi lời cảm ơn đến Ts. Trần Thị Thanh Hải, ThS Nguyễn Thị Thu Trang - Giảng viên bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và truyền thông, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm đồ án tốt nghiệp. Em cũng xin gửi lời cảm ơn đến thầy Trần Đỗ Đạt trung tâm MICA đã giúp đỡ em rất nhiều về mặt chuyên môn và dữ liệu để em có thể hoàn thành đồ án này. Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp. Hà Nội, ngày 25 tháng 05 năm 2011 Nguyễn Trọng Hiếu Lớp CNPM A – K51 Viện CNTT & TT – ĐH Bách Khoa HN Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 MỤC LỤC Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 DANH MỤC BẢNG Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 DANH MỤC HÌNH Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 ĐẶT VẤN ĐỀ Tổng hợp tiếng nói nhân tạo là một nhu cầu rất cần thiết trong nhiều lĩnh vực ứng dụng như: các hệ thống giao tiếp người-máy (máy đáp ứng bằng tiếng nói), các hệ thống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho người khiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ… Hiện nay, điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói nhân tạo là vấn đề xử lý ngữ điệu. Ngữ điệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói, các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu được nhấn mạnh hơn giúp cho người nghe dễ dàng hiểu được thông điệp. Ngữ điệu trong tổng hợp tiếng nói nhân tạo thường có chất lượng không cao, tiếng nói phá ra không được rõ ràng, đơn điệu nên thường gây nhàm chán và khó khăn cho người nghe trong việc lĩnh hội. Vì vậy, ngữ điệu là yếu tố đặc biệt quan trọng quyết định chất lượng của tiếng nói tổng hợp. Hiện nay trên thế giới việc tổng hợp tiếng nói đã đạt được những tiến bộ đáng kể ở một số thứ tiếng như Anh, Pháp, Tây Ban Nha, Quan Thoại (Trung Quốc), Nhật… với chất lượng khá cao và được ứng dụng rộng rãi. Đối với tiếng Việt, chất lượng ngữ điệu của tiếng nói tổng hợp vẫn còn nhiều hạn chế nên việc ứng dụng còn rất giới hạn. Khi xử lý ngữ điệu, khó khăn lớn nhất là trong văn bản viết hầu như không chứa các thông tin ngữ điệu một cách chặt chẽ rõ ràng, người đọc phải dựa vào các kiến thức ngữ pháp, ngữ nghĩa và kinh nghiệm trong thế giới thực để hiểu văn bản rồi từ đó xây dựng các thông tin ngữ điệu để đọc văn bản. Đối với máy tính, để “hiểu” được văn bản ở mức độ này vẫn còn là một thách thức và trở ngại rất lớn. Do đó chúng ta chỉ có thể tạm thời bằng lòng với các giải pháp cho kết quả tương đối gần đúng có thể chấp nhận được. Với mục đích xây dựng một bộ phát âm tiếng Việt có chất lượng ngữ điệu tự nhiên hơn, đề tài nghiên cứu áp dụng mô hình xác định các thông số ngữ điệu theo hướng tiếp cận học từ ngữ liệu tiếng nói tự nhiên bằng các mạng Neuron. Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 Đồ án tập trung vào xây dựng mô hình trường độ với mạng Neuron, dựa trên các nghiên cứu trên thế giới về mạng neuron, tổng hợp tiếng nói cũng như các kết quả gần đây về ngữ âm, ngữ điệu tiếng Việt. Bố cục của đồ án được trình bày như sau: CHƯƠNG 1: TỔNG QUAN BÀI TOÁN CHƯƠNG 2: ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT CHƯƠNG 3: XÂY DỰNG VÀ THỬ NGHIỆM MÔ HÌNH KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 CHƯƠNG 1. TỔNG QUAN BÀI TOÁN 1.1 Tổng hợp tiếng nói nhân tạo Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản. Một hệ thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệ thống cho phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lời nói (Text-To-Speech, viết tắt là TTS). Đây là một khâu quan trọng trong lĩnh vực giao tiếp người máy, bao gồm nhận dạng tiếng nói và tổng hợp tiếng nói. Sự kết hợp giữa nhận dạng và tổng hợp sẽ giúp cho máy tính có thể giao tiếp với con người theo cách tự nhiên mà con người vẫn sử dụng trong giao tiếp hàng ngày. Đó là sử dụng tiếng nói. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ giống nhau của nó với giọng nói con người. Một hệ thống text-to-speech thông minh cho phép người khiếm thị hoặc rối loạn khả năng đọc có thể nghe được các văn bản ở trên máy tính. Nhiều hệ điều hành đã bao gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980[2] 1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng Một hệ thống tổng hợp tiếng nói hoàn chỉnh gồm nhiều module thực hiện các nhiệm vụ khác nhau. Nhưng tổng quan có thể chia thành hai phần chính, tổng hợp mức cao và tổng hợp mức thấp. Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổi các văn bản text thành các đơn vị tiếng nói (gồm thông tin về ngữ âm và ngôn điệu dưới dạng các thông số). sau đó qua tổng hợp mức thấp sẽ thành tiếng nói. Để có thể tổng hợp được ra âm thanh, văn bản đầu vào cần phải trải qua một số bước xử lý: Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 [...]... định đến chất lượng của tiếng nói Phạm vi của đồ án sẽ tập trung vào bài toán phân tích trường độ của âm tiết Bài toán mô hình hóa trường độ trong tổng hợp tiếng nói hướng đến việc phân tích âm tiết dựa trên ngữ cảnh để có thể đưa ra được thông tin về trường độ của âm tiết Trường độ được đưa ra càng gần với trường độ thực tế của âm tiế càng tốt, đảm bảo được độ tự nhiên của tiếng nói tổng hợp Có nhiều... thì trường độ của các âm tiết này nhìn chung ngắn hơn nhiều so với các âm tiết có nhiều thành phần hơn Các âm tiết có đầy đủ 4 thành phần (âm đầu, âm đệm, âm chính, âm cuối) thường là những âm tiết có trường độ dài Trong tiếng Việt, các âm tiết thường có 3 thành phần (âm đầu – âm chính – âm cuối; âm đầu – âm đệm – âm chính; âm đệm – âm chính – âm cuối) , hoặc hai thành phần (âm đầu – âm chính; âm chính... tâm lý cảm xúc của người nói Do đó việc mô hình trường độ và dự đoán trường độ của âm tiết chủ yếu mang tính chất tương đối Và tạo ra cảm giác thật nhất có thể cho âm tiết tổng hợp 1.5 Các hướng tiếp cận mô hình hóa trường độ Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm Nó tạo nên sự tương phản giữa các bộ phận của lời nói Tốc độ phát âm được quy định bởi đặc điểm cá nhân của người nói, ... xây dựng mô hình trường độ cho âm tiết Để có thể xây dựng được mô hình trường độ cho âm tiết tiếng Việt, trước tiên cần phải đi vào phân tích sự ảnh hưởng của các yếu tố đặc trưng của âm tiết đối với trường độ của âm tiết đó Các yếu tố đặc trưng này có thể là đặc trưng tĩnh (phụ thuộc vào bản thân âm tiết) hoặc các đặc trưng động (phụ thuộc vào ngữ cảnh xung quanh âm tiết) 2.1 Trường độ âm tiết và các... trường độ ngắn Trong tiếng Việt thì số lượng các âm tiết có ba thành phần chiếm áp đảo, điều này có ảnh hưởng khá lớn đến trường độ âm 2.1.2.6 Ảnh hưởng của vị trí trong từ Đối với âm tiết tiếng việt, số lượng âm tiết trong 1 từ biến động từ 1-4 Trong đó số lượng từ với 2 âm tiết là phổ biến nhất Số lượng từ với 3 hoặc 4 âm tiết chiếm số lượng rất nhỏ Vị trí của âm tiết trong 1 từ có ảnh hưởng tới trường. .. phân tích các yếu tố ảnh hưởng đến trường độ, đề xuất mô hình trường độ cho âm tiết tiếng Việt Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51 CHƯƠNG 2 ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT Như đã đề cập ở các chương trước, có nhiều mô hình khác nhau cho trường độ Các mô hình này sử dụng các tham số, các phương pháp khác nhau để sinh trường độ Và mô hình mạng Neuron được sử dụng trong... lượng thành phần của âm tiết Một âm tiết có thể có tối đa 4 thành phần, số lượng các thành phần của âm tiết có ảnh hưởng nhất định đến trường độ của âm tiết đó Đối với các âm tiết có số lượng thành phần càng lớn thì trường độ trung bình của âm tiết đó càng lớn Như ta có thể thấy ở phân tích dưới đây Hình 2-11 Ảnh hưởng của số lượng âm tiết đến trường độ trung bình Đối với các âm tiết chỉ có 1 thành phần... xử lý bài toán mô hình hóa trường độ Các phương pháp này có ưu nhược điểm và môi trường áp dụng khác nhau 1.5.1 Mô hình luật Klatt Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thống MITalk Mô hình Klatt là một trong những mô hình chuẩn của tổng hợp tiếng nói Dựa trên một lượng lớn các phép thí nghiệm và thay đổi từ một trường độ cơ bản đối với tất cả các âm tiết miêu tả bởi... - Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh Đối với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng nói của con người Mỗi người có một độ cao giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và độ cao của trẻ em thường cao hơn của người lớn Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ xúc cảm khác nhau Cao độ là yếu tố... K51 Hình 2-8 Trường độ trung bình của các âm tiết ở từng vị trí khác nhau Để làm chi tiết hơn kết quả này, chúng ta xét các âm tiết xuất hiện ở mỗi vị trí ít nhất 3 lần và phân tích trường độ trung bình của chúng Kết quả nhận được là tương tự, tất cả các âm tiết cuối có trường độ trung bình dài nhất và phần lớn (80%) các âm tiết ở vị trí đầu có trường độ ngắn hơn âm tiết ở vị trí giữa câu Hình 2-9 Trường . tích trường độ của âm tiết. Bài toán mô hình hóa trường độ trong tổng hợp tiếng nói hướng đến việc phân tích âm tiết dựa trên ngữ cảnh để có thể đưa ra được thông tin về trường độ của âm tiết. Trường. chất lượng tổng hợp tiếng nói ”. 3. Các nhiệm vụ cụ thể của ĐATN − Tìm hiểu bài toán mô hình hóa trường độ và tổng hợp tiếng nói − Xây dựng mô hình lý thuyết cho bài toán chuẩn hóa văn bản tiếng. Nhiều bộ tổng hợp tiếng đã được phát triển, nhưng muốn có bộ tổng hợp tiếng nói có thể tổng hợp được những âm thanh có độ tự nhiên cao, bộ tổng hợp tiếng nói cần phải “hiểu” được ngữ điệu của âm thanh

mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói

Thông tin tài liệu

Từ khóa liên quan

Mục lục

CHƯƠNG 1. TỔNG QUAN BÀI TOÁN

1.1 Tổng hợp tiếng nói nhân tạo

1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng

1.1.1.1 Chuẩn hóa văn bản

1.1.1.2 Phân tích cú pháp

1.1.1.3 Phân tích ngữ điệu

1.1.1.4 Tổng hợp mức thấp

1.1.2 Một số phương pháp tổng hợp tiếng

1.2 Đặc điểm ngữ điệu, ngữ âm tiếng Việt.

1.2.1 Một vài đặc điểm của tiếng Việt

1.3 Cấu trúc âm tiết tiếng Việt

1.3.1 Thanh điệu

1.3.2 Ngữ điệu tiếng Việt

1.3.3 Ngữ điệu trong tổng hợp tiếng nói

1.4 Bài toán mô hình hóa trường độ

1.4.1 Bài toán

1.4.2 Khó khăn

1.5 Các hướng tiếp cận mô hình hóa trường độ

1.5.1 Mô hình luật Klatt

1.5.2 Mô hình Sum-of-products

1.5.3 Mô hình cây phân lớp hồi quy CART

1.5.4 Mô hình mạng Neuron

1.5.5 Nhận xét

1.6 Kết luận chương

CHƯƠNG 2. ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT

2.1 Trường độ âm tiết và các yếu tố ảnh hưởng đến trường độ

2.1.1 Trường độ

2.1.2 Các yếu tố ảnh hưởng đến trường độ âm tiết

2.1.2.1 Thanh điệu

2.1.2.2 Trường độ âm tiết trong trạng thái động

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan