Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

i LỜI CAM ĐOAN Tên là: Vũ Thanh Huế Sinh ngày: 25/03/1985 Học viên lớp cao học K12I - Trường Đại học Công nghệ thông tin Truyền thông - Thái Nguyên Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tìm hiểu nghiên cứu, hướng dẫn khoa học Thầy giáo Tiến sĩ Phùng Trung Nghĩa Các nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai hoàn toàn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Tác giả luận văn ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa, với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp kỹ thuật phân rã tiếng nói theo thời gian” hoàn thành Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn Tiến sĩ Phùng Trung Nghĩa tận tình dẫn, giúp đỡ em hoàn thành luận văn Bộ phận sau Đại học Trường Đại học công nghệ thông tin truyền thông giúp đỡ em trình học tập thực luận văn Em xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ em suốt trình học tập, thực hoàn thành luận văn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Học viên Vũ Thanh Huế iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii LỜI MỞ ĐẦU…………………………………………………………………… 1 Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 1.1 Thông tin tín hiệu tiếng nói 1.2 Quá trình tạo tiếng nói 1.3 Khả cảm thụ tiếng nói người 1.4 Mô hình hóa tiếng nói 13 1.5 Mã hóa tiếng nói 16 1.6 Kỹ thuật phân rã tiếng nói theo thời gian TD ứng dụng mã hóa tiếng nói 20 CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN 23 2.1 Phương pháp Atal 23 2.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 26 2.3 Phương pháp MRTD 29 2.4 Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT 34 2.4.1 Sơ lược phương pháp mã hóa TD-STRAIGHT 34 2.4.2 Tính tham số phổ đường LSF từ phổ STRAIGHT 36 2.4.3 Lượng tử hóa vector LSF 37 2.4.4 Lượng tử hóa vector kiện 37 iv 2.4.5 Lượng tử hóa hàm kiện 37 2.4.6 Lượng tử hóa tham số tần số F0 38 2.4.7 Lượng tử hóa tham số độ lợi 38 2.4.8 Lượng tử hóa tham số nhiễu 38 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT 40 3.1 Ngữ âm tiếng Việt 40 3.2 Cơ sở liệu tiếng nói tiếng Việt 42 3.3 Cài đặt phương pháp mã hóa tiếng nói dùng MRTD MATLAB 44 3.4 Tiêu chí đánh giá khách quan chủ quan 46 3.5 Kết khách quan chủ quan phương pháp …………………….49 3.6 Đánh giá kết 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa PCM Pulse Code Modulation Mã hóa theo dạng xung LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính Code-Excited Linear Prediction Mã hóa dự đoán tuyến tính coder kích thích mã CELP Kỹ thuật phân rã theo thời TD Temporal Decomposition LSF Line Spectral Frequency Đặc trưng phổ đường Modi ed Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn cải tiến Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn Perceptual evaluation of speech Phương pháp đánh giá chất quality lượng tiếng nói cảm thụ MRTD RTD PESQ gian vi DANH MỤC CÁC BẢNG Bảng 3.1 Cấu trúc âm tiết tiếng Việt 42 Bảng 3.2 Sáu điệu tiếng Việt 42 Bảng 3.3 Thang điểm Scheffe 47 Bảng 3.4 Thang điểm PESQ 49 vii DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Hình 1.1 Dạng sóng tiếng nói câu tiếng Việt Hình 1.2 Tiếng nói hữu Hình 1.3 Bộ phận cung cấp Hình 1.4 Dây âm Hình 1.5 Cấu trúc quan phát âm Hình 1.6 Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7 Mô hình hóa quan phát âm Hình 1.8 Mô hình hóa quan phát âm đầy đủ máy tính Hình 1.9 Cơ quan thính giác người Hình 1.10 Mô hình điểm cực formant quan phát âm 14 Hình 1.11 Mô hình kích thích âm hữu 15 Hình 1.12 Mô hình kích thích nguồn âm 16 Hình 1.13 Phương pháp mã hóa tiếng nói PCM 17 Hình 1.14 Phân tích mẫu tiếng nói TD 21 Hình 2.1 Ví dụ hai hàm kiện liền kề sử dụng mô hình phân rã bậc hai 27 Hình 2.2 Hàm kiện có tính chất “hình học chuẩn” “hình học không chuẩn” 29 Hình 2.3 Thuật toán chuẩn hóa vector kiện 33 Hình 2.4 Hình vẽ hàm kiện nhận MRTD phân tích câu tiếng Nhật, số miền thời gian số khung 34 Hình 2.5 Phương pháp mã hóa/giải mã tiếng nói dùng TD-STRAIGHT 36 Hình 3.1 Đường F0 sáu điệu tiếng Việt 41 Hình 3.2 Thuật toán mã hóa đánh giá chất lượng tiếng nói mã hóa MRTD 45 Hình 3.3 Mô hình hóa người nghe PESQ 48 Hình 3.4 Tích hợp phân tích khả cảm thụ người để tính điểm chất lượng tiếng nói nhân tạo 48 viii Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 20 50 Hình 3.6 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 30 50 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén 20 51 MỞ ĐẦU Lý chọn đề tài Tiếng nói phương tiện giao tiếp người Vì tiếng nói loại hình thông tin phổ biến hệ thống viễn thông Để truyền tiếng nói mạng viễn thông, tiếng nói cần phải số hóa Phương pháp mã hóa theo dạng xung (Pulse Code Modulation - PCM) cho tốc độ bit tiếng nói số hóa 64 Kbps giống tốc độ bit kênh thông tin số chưa ghép kênh [1] Với bùng nổ thông tin mạng viễn thông đại, việc sử dụng phương pháp mã hóa PCM với tốc độ 64 Kbps tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin kênh truyền vật lí Chính vậy, nhiều nhà nghiên cứu giới tập trung vào vấn đề mã hóa tiếng nói để đảm bảo tiếng nói mã hóa có tốc độ bit thấp, dễ dàng tăng số kênh truyền logic kênh truyền vật lí, phải đảm bảo yêu cầu chất lượng [2-7] Các phương pháp mã hóa tiếng nói phổ biến biết đến mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghi ADPCM [3], Mặc dù phương pháp mã hóa tin cậy tiêu chuẩn hóa sử dụng rộng rãi hệ thống viễn thông Hiệu nén phương pháp mã hóa phổ biến chưa đảm bảo điều kiện tài nguyên hạn chế hệ thống thông tin vệ tinh hay di động Kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition TD) kỹ thuật phân tích tiếng nói đề xuất Atal năm 1983 [4] Các kết nghiên cứu cho thấy TD thích hợp để phân tích mô hình hóa tiếng nói mã hóa nén tiếng nói Tuy nhiên thuật toán TD Atal có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực Vì vậy, số nhà nghiên cứu cải tiến thuật toán TD Atal theo hướng giảm độ phức tạp tính toán, ứng dụng mã hóa tiếng nói tốc độ bit thấp thời gian thực [5, 6, 7] Hướng nghiên cứu tiếp tục phát triển năm gần [8] Luận văn nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết, cài đặt thực nghiệm đánh giá hiệu phương pháp mã hóa tiếng nói dùng kỹ thuật TD cải tiến giới hạn MRTD với tiếng nói tiếng Việt, từ đưa khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD phù hợp cho tiếng Việt Mục tiêu đề tài Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian TD tiếp tục phát triển năm gần [8] Việt Nam, hướng nghiên cứu mẻ Luận văn nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD bao gồm: - Thuật toán TD nguyên thủy Atal, - Thuật toán cải tiến MRTD N.P Chiến, Phân tích lý thuyết, cài đặt thực nghiệm với sở liệu tiếng Việt đánh giá hiệu phương pháp MRTD N.P Chien, từ đưa khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn phương pháp mã hóa nén tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD Đây đối tượng nghiên cứu nhiều nhà nghiên cứu giới quan tâm thời gian gần 40 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM TRÊN CƠ SỞ DỮ LIỆU TIẾNG VIỆT Các phương pháp mã hóa tiếng nói hướng tới mô hình độc lập ngôn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngôn ngữ khác [6, 7] Luận văn tập trung vào việc đánh giá phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể phương pháp phân rã tiếng nói cải tiến MRTD tác giả N.P Chien [6, 7] sở liệu tiếng nói tiếng Việt Qua đó, đánh giá mức độ phù hợp phương pháp với tiếng nói tiếng Việt 3.1 Ngữ âm tiếng Việt Tiếng Việt ngôn ngữ thức Việt Nam Nó 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người Việt nước thường xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Đoàn Thiện Thuật [13] Hoàng Phê [14] Cấu trúc âm tiết tiếng Việt Tiếng Việt ngôn ngữ đơn âm có điệu điển hình [13] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mô tả hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt [14] 41 Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần đuôi vần không tồn với số âm tiết nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đuôi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngôn ngữ có điệu Có sáu điệu phân biệt tiếng Việt bảng 3.2 hình 3.1 (dấu ? ngã đường F0 ngã không thống mẫu vùng giữa) Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với đuôi vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1 Đường F0 sáu điệu tiếng Việt 42 Bảng 3.1 Cấu trúc âm tiết tiếng Việt Thanh điệu Phần vần Phần đầu âm tiết Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2 Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Trong phần này, giới thiệu số sở liệu tiếng nói tiếng Việt trung bình lớn phổ biến Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát 43 sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt không tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit/mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Đây sở liệu kích cỡ trung bình với chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu nói 50 người 44 nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [16] Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt Do có chất lượng cao gán nhãn mức âm vị, lựa chọn sở liệu DEMEN567 để thực nghiệm đánh giá cho luận văn 3.3 Cài đặt phương pháp mã hóa tiếng nói dùng MRTD MATLAB Môi trường để cài đặt MATLAB 7.0 Thư viện hàm phân tích, xử lý tiếng nói STRAIGHT lấy từ website tác giả Kawahara địa chỉ: http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_e.html Thư viện hàm tính toán đánh giá khách quan PESQ lấy từ thư viện tác giả Rix Antony 45 Hình 3.2 Thuật toán mã hóa đánh giá chất lượng tiếng nói mã hóa MRTD 46 Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng MRTD mô tả hình 3.2, thực mã hóa MRTD với tham số phổ LSF với tỉ lệ kiện tương ứng với tỉ lệ nén Nói cách khác tỉ lệ nén cố định Sau chất lượng tiếng nói tái tạo so sánh với chất lượng tiếng nói nguồn Đây chưa phải hệ thống mã hóa hoàn thiện (bao gồm khối mã hóa F0, AP), nhiên đủ để đánh giá chất lượng tiếng nói tái tạo mã hóa nén tham số phổ với tỉ lệ nén cho trước 3.4 Tiêu chí đánh giá khách quan chủ quan Trong đánh giá chất lượng tiếng nói phương pháp khách quan (máy đánh giá theo công thức) chủ quan (người nghe đánh giá) sử dụng Mỗi phương pháp có ưu nhược điểm riêng Dưới xem xét cụ thể tiêu chí phương pháp Tiêu chí chủ quan: Tiêu chí đánh giá chủ quan tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói Tiêu chí chủ quan xem quan trọng mục tiêu cuối tiếng nói mã hóa phải đảm bảo người nghe hiểu được, chấp nhận Tuy nhiên để thực đánh giá chủ quan tốn kém, thời gian, cần thiết bị nghe phòng nghe chuyên dụng để tránh nhiễu môi trường Ngoài ra, phương pháp chủ quan khó đảm bảo tin cậy hoàn toàn người nghe tập trung, không tâm vào việc đánh giá chí cố tình cho điểm sai Các điểm yếu phương pháp chủ quan khắc phục cách tăng số lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn sử dụng phương pháp Scheffe [16] Trong sinh viên có khả nghe bình thường lựa chọn để thực đánh giá nghe chủ quan loại tiếng nói (có nén, không nén) 20 47 mẫu Mỗi người hỏi để phân loại chất lượng tiếng nói nghe theo thang từ -2 đến so sánh hai mẫu tiếng nói nguồn mã hóa cặp Bảng 3.3 Thang điểm Scheffe Chất lượng tiếng nói Điểm Rất tốt Tốt Trung bình Kém -1 Rất -2 Tiêu chí khách quan: Nhằm khắc phục yếu điểm tiêu chí đánh giá chủ quan, nhiều phương pháp đánh giá khách quan xây dựng Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn mã hóa để tính toán sai số khác biệt chứng tỏ không hiệu khả nghe người không tỉ lệ tuyến tính với sai số Nói cách khác hai tín hiệu có sai khác lớn người nghe thấy giống hai tín hiệu có sai khác nhỏ (nhưng điểm khác điểm quan trọng với tai người) Các phương pháp đánh giá khách quan đại sử dụng phương pháp mô hình hóa khả nghe người để “chủ quan hóa” tham số khách quan, từ đưa phương pháp tính toán khách quan phù hợp với khả nghe người 48 Trong số phương pháp đánh giá chất lượng tiếng nói khách quan phương pháp PESQ [17] sử dụng phổ biến sử dụng luận văn Đây tiêu chí khách quan mô tiêu chí chủ quan mô tả hình 3.3 cách xây dựng mô hình nghe nhân tạo tích hợp phân tích khả cảm thụ âm người Trong chất lượng tiếng nói đánh giá theo thang điểm bảng 3.4, với tiếng nói chuẩn quy chiếu thang điểm cao điểm Hình 3.3 Mô hình hóa người nghe PESQ Hình 3.4 Tích hợp phân tích khả cảm thụ người để tính điểm chất lượng tiếng nói nhân tạo 49 Bảng 3.4 Thang điểm PESQ Chất lượng tiếng nói Điểm Rất tốt Tốt Trung bình Kém Rất 3.5 Kết khách quan chủ quan phương pháp Sau thực nghiệm phương pháp mã hóa tiếng nói MRTD, thử nghiệm phương pháp sở liệu tiếng nói tiếng Việt DEMEN567 Tỉ lệ nén sử dụng làm để chọn tỉ lệ kiện tiếng nói, tỉ lệ nén đầu vào, so sánh tiếng nói mã hóa nén tiếng nói gốc để tính toán tiêu chí đánh giá khách quan PESQ đánh giá chủ quan Kết đánh giá chủ quan phương pháp Scheffe trung bình với 20 mẫu loại tiếng nói trích từ sở liệu DEMEN567 (có nén với tỉ lệ nén 20, không nén) cho hình 3.5, 3.6 Kết đánh giá khách quan phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói không nén trung bình 4.5/5 tiếng nói có nén 3.3/5 hình 3.7 50 Tiếng nói mã hóa STRAIGHT (không nén) Tiếng nói mã hóa MRTD (nén) -2 -1 Chất lượng thấp Chất lượng cao Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 20 Tiếng nói mã hóa STRAIGHT (không nén) Tiếng nói mã hóa MRTD (nén) -2 -1 Chất lượng thấp Chất lượng cao Hình 3.6 Kết đánh giá chủ quan phương pháp Scheffe với tỉ lệ nén đầu vào 30 51 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén 20 3.6 Đánh giá kết Với phương pháp nén truyền thống nén MP3, tỉ lệ nén trung bình khoảng 1/11 cho đầu âm CD có tốc độ bit 128 Kbps Trong luận văn này, thử nghiệm tỉ lệ nén mức cao (20-30 lần) tiếng nói có tốc độ bit thấp chất lượng tiếng nói có nén chấp nhận với đánh giá chủ quan khách quan Hình 3.5 3.6 cho thấy thay đổi tỉ lệ nén từ 20 đến 30 chất lượng tiếng nói suy giảm không nhiều mức chấp nhận được, đủ để nghe hiểu Các kết cho thấy phương pháp mã hóa nén tiếng nói MRTD phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật [6, 7] kết nghiên cứu cho thấy MRTD phương pháp mã hóa nén hiệu với nhiều ngôn ngữ, có nhiều tiềm ứng dụng 52 KẾT LUẬN Kỹ thuật phân rã tiếng nói theo thời gian TD kỹ thuật phân tích tiếng nói đề xuất Atal năm 1983 Các kết nghiên cứu cho thấy TD thích hợp để phân tích mô hình hóa tiếng nói mã hóa nén tiếng nói Tuy nhiên thuật toán TD Atal có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực Vì vậy, số nhà nghiên cứu cải tiến thuật toán TD Atal theo hướng giảm độ phức tạp tính toán, ứng dụng mã hóa tiếng nói tốc độ bit thấp thời gian thực kỹ thuật TD cải tiến giới hạn (MRTD) Hướng nghiên cứu tiếp tục phát triển năm gần Luận văn nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật MRTD, phân tích lý thuyết, cài đặt thực nghiệm đánh giá hiệu phương pháp mã hóa tiếng nói dùng kỹ thuật MRTD với tiếng nói tiếng Việt, từ cho thấy phương pháp mã hóa nén tiếng nói MRTD phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật kết nghiên cứu cho thấy MRTD phương pháp mã hóa nén hiệu với nhiều ngôn ngữ, có nhiều tiềm ứng dụng 53 TÀI LIỆU THAM KHẢO [1] Atal, Bishnu S., and Manfred R Schroeder "Adaptive predictive coding of speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986 [2] Atal, Bishnu S., and J Remde "A new model of LPC excitation for producing natural-sounding speech at low bit rates." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol IEEE, 1982 [3 Kleijn, W Bastiaan, and Kuldip K Paliwal Speech coding and synthesis Elsevier Science Inc., 1995 [4] Atal, Bishnu S "Efficient coding of LPC parameters by temporal decomposition." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol IEEE, 1983 [5] Kim, Sung-Joo, and Yung-Hwan Oh "Efficient quantization method for LSF parameters based on restricted temporal decomposition." Electronics Letters35.12 (1999): 962-964 [6] Nguyen, Phu Chien, Ochi Takao, and Masato Akagi "Modified restricted temporal decomposition and its application to low rate speech coding." IEICE TRANSACTIONS on Information and Systems 86.3 (2003): 397-405 [7] Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen "Limited error based event localizing temporal decomposition and its application to variable-rate speech coding." Speech communication 49.4 (2007): 292-304 [8] Hiroya, Sadao "Non-Negative Temporal Decomposition of Speech Parameters by Multiplicative Update Rules", IEEE Transactions on Audio, Speech, and Language Processing, 21.10 (2013): 2108-2117 54 [9] Bimbot, Frederic, et al "Temporal decomposition and acousticphonetic decoding of speech." Acoustics, Speech, and Signal Processing, 1988 ICASSP-88., 1988 International Conference on IEEE, 1988 [10] Phung, Trung-Nghia, et al "Improving naturalness of HMM-based TTS trained with limited data by temporal decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 [11] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 [12] Paliwal, Kuldip K., and Bishnu S Atal "Efficient vector quantization of LPC parameters at 24 bits/frame." Speech and Audio Processing, IEEE Transactions on 1.1 (1993): 3-14 [13] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003 [14] Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15, 2003 [15] L.C Mai and D.N Duc, “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 (2006) [16] H Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol 47, pp 381-400, 1952 [17] Rix, Antony W., et al "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs."Acoustics, Speech, and Signal Processing, 2001 Proceedings.(ICASSP'01) 2001 IEEE International Conference on Vol IEEE, 2001 [...]... là nghiên cứu các lý thuyết đã có trên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc độ bit thấp Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng. .. tin di động Chính vì vậy, hướng nghiên cứu cải tiến các phương pháp mã hóa tiếng nói tốc độ bit thấp vẫn là một hướng nghiên cứu có tính thời sự ở Việt Nam và trên thế giới hiện nay, trong đó có hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition - TD), là một kỹ thuật mô hình hóa và phân tích tiếng nói được đề xuất bởi Atal năm 1983... văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng nói [1-3], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực [2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8] Luận văn cũng nghiên cứu cài đặt thực nghiệm các phương pháp mã hóa dùng MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đưa ra các khuyến nghị 4 Phương pháp nghiên cứu Phương pháp nghiên cứu của luận... tiễn Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọng trong các hệ thống truyền thông hiện đại Mặc dù mục tiêu của các bộ mã hóa tiếng nói là độc lập ngôn ngữ, hiệu quả của các phương pháp mã hóa tiếng nói là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau Nghiên cứu về các phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD và thử nghiệm đánh giá với tiếng. .. với nhiều ngôn ngữ nói Hiện tại thuật toán MRTD mới chỉ được thử nghiệm trên tiếng nói tiếng Anh và tiếng Nhật, trong khi chưa được thử nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt 23 CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT TD 2.1 Phương pháp TD nguyên thủy Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [4] và được coi như một phương pháp mã hóa tiếng nói tham số hiệu... biến trong các hệ thống mã hóa tiếng nói Các cải tiến của N.P Chiến đã chứng tỏ được hiệu quả và thuật toán MRTD do đó được coi là một thuật toán phù hợp đối với các hệ thống mã hóa tiếng nói tốc độ bit thấp Tuy nhiên, cũng giống như các thuật toán mã hóa tiếng nói tốc độ bit thấp xây dựng trên mô hình tạo tiếng nói khác, các thuật toán này cần được thử nghiệm trên tiếng nói của nhiều ngôn ngữ để đảm... thực thi thuật toán phân rã tiếng nói theo thời gian theo phương pháp nguyên thủy của Atal có cơ sở toán học chặt chẽ, chúng có một số yếu điểm: (i) Chi phí tính toán lớn, khiến khả năng áp dụng thực tiễn không cao (ii) Số lượng và vị trí các điểm sự kiện không ổn định Nói cách khác, chúng nhạy cảm với những thay đổi của các tham số được phân tích 2.2 Phương pháp phân rã tiếng nói theo thời gian giới... số hiệu quả Giả sử một chuỗi tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sự kiện Chúng ta gọi các tham số tiếng nói tương ứng với điểm sự kiện thứ k là a k , và sự biến đổi theo thời gian của sự kiện này biểu diễn bằng một hàm k Khung tiếng nói thứ n đi từ 1 đến N Khi phân rã tiếng nói theo thời gian, các tham số tiếng nói quan sát được y(n) được xấp xỉ bằng yˆ n , là một tổ hợp tuyến... Các phương pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [2], mã hóa thích nghi CELP [3], Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự đoán tuyến tính LPC [2] Đây là phương pháp chọn trên phương pháp coi tín hiệu tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa tuần hoàn và nhiễu ngẫu nhiên Mẫu tiếng nói. .. tính toán lớn của phương pháp phân rã tiếng nói theo thời gian của Atal, nhiều phương pháp đã được đề xuất [5, 6, 7, 8, 9] 27 Trong đó, được sử dụng nhiều nhất là phương pháp phân rã giới hạn RTD (Restricted TD) [5] Giả sử hiện tượng đồng cấu âm (co-articulation) trong quá trình tạo tiếng nói được mô tả bằng các hàm sự kiện chồng lấp được giới hạn trong các sự kiện liền kề, mô hình phân rã bậc hai được

Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan