Đồ án tốt nghiệp: Speech enhancement – xử lý nâng cao chất lượng tiếng nói

Thông tin tài liệu

Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại.

Đồ án tốt nghiệp CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _ Trường Đại học Bách Khoa Đà Nẵng Em tên là: Nguyễn Thị Ngọc Diệp Hiện học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng Nhóm em xin cam đoan nội dung đồ án chép đồ án cơng trình có từ trước Sinh viên thực Nguyễn Thị Ngọc Diệp SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH MỞ ĐẦU 10 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 13 1.1 Giới thiệu chương 13 1.2 Nâng cao chất lượng tiếng nói ? 13 1.3 Lý thuyết tín hiệu nhiễu 15 1.3.1 Tín hiệu, hệ thống xử lý tín hiệu 15 1.3.1.1 Tín hiệu 15 1.3.1.2 Nguồn tín hiệu 15 1.3.1.3 Hệ thống xử lý tín hiệu 16 1.3.1.4 Phân loại tín hiệu 16 1.4 Lý thuyết nhiễu 17 1.4.1 Nguồn nhiễu 17 1.4.2 Nhiễu mức tín hiệu tiếng nói mơi trường khác 19 1.5 Tín hiệu rời rạc theo thời gian 20 1.5.1 Tín hiệu bước nhảy đơn vị 21 1.5.2 Tín hiệu xung đơn vị 21 1.5.3 Tín hiệu hàm mũ 21 1.5.4 Tín hiệu hàm sin rời rạc 21 1.6 1.6.1 Phép biến đổi Fourier tín hiệu rời rạc DTFT 22 Sự hội tụ phép biến đổi Fourier 22 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp 1.6.2 Quan hệ biến đổi Z biến đổi Fourier 22 1.6.3 Phép biến đổi Fourier ngược 23 1.6.4 Các tính chất phép biến đổi Fourier 23 1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 24 1.6.6 Phổ tín hiệu phổ pha 25 1.7 Các thuật tốn sử dụng nâng cao chất lượng tiếng nói 26 1.7.1 Trừ phổ 26 1.7.2 Mơ hình thống kê 26 1.8 Tín hiệu tiếng nói 26 1.9 Cơ chế tạo tiếng nói 28 1.9.1.1 Bộ máy phát âm người 28 1.9.2 Mơ hình kỹ thuật việc tạo tiếng nói 28 1.9.3 Phân loại âm 29 1.9.4 Thuộc tính âm học tiếng nói 29 1.10 Kết luận chương 29 CHƯƠNG : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 30 2.1 Giới thiệu chương 30 2.2 Phương pháp đánh giá chủ quan 30 2.2.1 Các phương pháp đánh giá tuyệt đối 31 2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 31 2.2.2 Các phương pháp đánh giá tương đối 31 2.2.2.1 Đánh giá phương pháp so sánh mẫu tín hiệu 31 2.2.2.2 Phương pháp đánh giá theo suy giảm chất lượng 32 2.3 Phương pháp đánh giá khách quan 33 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp 2.3.1 Đo tỷ số tín hiệu nhiễu khung 33 2.3.2 Đo khoảng cách phổ dựa LPC 35 2.3.2.1 Phương pháp đo LLR 35 2.3.2.2 Phương pháp đo IS 36 2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 36 2.3.3 Đánh giá mô theo cảm nhận nghe người 37 2.3.3.1 Phương pháp đo Weighted Spectral Slope 37 2.3.3.2 Phương pháp đo Bark Distortion 38 2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 39 2.4 Kết luận chương 39 CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 41 3.1 Giới thiệu chương 41 3.2 Sơ đồ khối chung Spectral Subtraction Wiener Filtering 41 3.3 Thuật toán Spectral Subtraction 41 3.3.1 Giới thiệu chung 41 3.3.2 Spectral subtraction phổ biên độ 42 3.3.3 Spectral subtraction phổ công suất 43 3.4 Thuật toán Wiener Filtering 45 3.4.1 Giới thiệu chung 45 3.4.2 Nguyên lý Wiener Filtering 46 3.5 Overlap Adding q trình xử lý tín hiệu tiếng nói 48 3.5.1 Phân tích tín hiệu theo frame 48 3.5.2 Overlap Adding 49 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp 3.6 Ước lượng cập nhật nhiễu 50 3.6.1 Voice activity detection 51 3.6.2 Quá trình ước lượng cập nhật nhiễu 51 3.7 Kết luận chương 52 CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 53 4.1 Giới thiệu chương 53 4.2 Quy trình thực đánh giá thuật toán 53 4.3 Lưu đồ thuật toán Spectral Subtraction 55 4.4 Lưu đồ thuật toán Wiener Filtering 56 4.5 Thực thuật toán 57 4.6 Đánh giá chất lượng tiếng nói xử lý 59 4.6.1 Cơ sở liệu cho việc đánh giá 59 4.6.2 Tổng quan quy trình đánh giá 59 4.6.3 Kiểm tra độ tin cậy phương pháp đánh giá 60 4.6.4 Thực đánh giá 62 4.6.4.1 Đánh giá thuật toán với hệ số dự đoán ban đầu 62 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 65 4.6.4.3 Hệ số gamma cho thuật toán SS 67 4.6.4.4 Đánh giá thuật toán sau tối ưu 68 4.6.4.5 Đánh giá độ ổn định thuật toán môi trường nhiễu khác 69 4.6.5 Kết luận chương 71 TÀI LIỆU THAM KHẢO 72 KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 75 PHỤ LỤC 76 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp DANH MỤC CÁC HÌNH VẼ VÀ BẢNG Hình 1.1 Tín hiệu tiếng nói [2] 15 Hình 1.2 Dạng phân bố phổ lượng trung bình nhiễu xe [4] 18 Hình 1.3 Dạng phân bố phổ lượng trung bình nhiễu tàu [4] 18 Hình 1.4 Dạng phân bố phổ lượng trung bình nhiễu nhà hàng[4] 19 Hình 1.5 Mức nhiễu tiếng nói (được đo SPL dB) môi trường khác [4] 20 Hình 1.6 Mẫu tiếng nói “eee” lấy mẫu với tần số lấy mẫu 8kHz [11] 25 Hình 1.7 Dạng sóng tín hiệu tiếng nói câu “The wife helped her husband” dạng sóng phụ âm “f” từ “wife, dạng sóng đoạn nguyên âm “er” từ “her” [11] 27 Hình 1.8 mặt cắt dọc quan tạo tiếng nói [11] 28 Hình 1.9 mơ hình kỹ thuật tạo tiếng nói[11] 28 Hình 1.10 bảng phân loại âm vị tiếng Anh người Mỹ [11] 29 Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 31 Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 32 Bảng 2.5 Thang đánh giá DCR 32 Hình 3.1 Sơ đồ khối cho hai thuật toán SS WF 41 Hình 3.2 Sơ đồ khối thuật tốn Spectral subtraction [26] 45 Hình 3.3 Sơ đồ khối thuật toán Wiener Filtering 48 Hình 3.4 Phân tích tín hiệu thành frame [31] 49 Hình 3.5 trình thực overlap adding [32] 50 Hình 4.1 Sơ đồ thực đánh giá thuật toán tăng cường 53 Hình 4.2 Lưu đồ thuật toán SS 55 Hình 4.3 Lưu đồ thuật tốn WF 56 Hình 4.4 dạng sóng spectrogram tín hiệu 57 Hình 4.5 Dạng sóng phổ tín hiệu bị nhiễu xe với SNR = 10dB 57 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp Hình 4.6 Dạng sóng spectrogram tín hiệu sau xử lý nhiễu xe SS với SNR = 10dB 58 Hình 4.7 Dạng sóng spectrogram tín hiệu sau xử lý nhiễu xe WF với SNR = 10dB 58 Hình 4.8 Quy trình thực đánh giá 60 Hình 4.9 Đồ thị kiểm tra độ ổn định đánh giá OE nhiễu xe 61 Hình 4.10 Đồ thị kiểm tra độ ổn định đánh giá OE nhiễu người nói xung quanh 61 Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 63 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 64 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = 66 Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = gamma = 67 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 69 Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh 70 SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết Tiếng Anh Nghĩa tiếng Việt SNR Signal Noise Ratio Tỉ số tín hiệu nhiễu PC Personal Computer Máy tính cá nhân SPL Sound Pressure Level Mức áp suất âm MMSE Minium Mean-Squared Error SVD Singular Value Decomposition Phép phân tích giá trị đơn DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh DTFT Discrete-Time Fourier Transform ZT Z Transform Phép biến đổi Z ROC Region of Convergence Miền hội tụ Inverse Discrete Fourier Phép biến đổi ngược Fourier Transform rời rạc tắt IDTFT LTI ITU-T Linear Time-Invariant Tối thiểu hố sai lệch trung bình bình phương Phép biến đổi Fourier tín hiệu rời rạc Hệ thống tuyến tính bất biến theo thời gian InternationalTelecommunications Hiệp hội tiêu chuẩn viễn Union-Telecommunication thông quốc tế ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối MOS Mean Opinion Scores CCR Comparison Category Rating Đánh giá cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng SVTH: Nguyễn Thị Ngọc Diệp Đánh giá theo quan điểm người nghe Trang Đồ án tốt nghiệp SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số phổ LPC Linear Prediction Coefficients Hệ số dự đốn tuyến tính VAD Voice Activity Detection Speech Enhancement Thăm dị hoạt động tiếng nói Nâng cao chất lượng tiếng nói Thuật tốn giảm nhiễu tín SS Spectral Subtraction hiệu tiếng nói phương pháp trừ phổ Thuật tốn giảm nhiễu tín WF Wiener Filter hiệu tiếng nói cách sử dụng lọc Wiener Thuật toán giảm nhiễu tín Statistical-model-based hiệu tiếng nói dựa ngun lý thống kê Frame Khung tín hiệu Hamming Cửa sổ Hamming Overlap Adding Xếp chồng cộng SVTH: Nguyễn Thị Ngọc Diệp Trang Đồ án tốt nghiệp MỞ ĐẦU Trong sống, tiếng nói đóng vai trị quan trọng người Cùng với tiếng nói xuất nhiều loại dịch vụ thoại ngày Tuy nhiên việc bảo toàn tín hiệu tiếng nói dịch vụ điều vơ khó khăn mát suy giảm tín hiệu ảnh hưởng nhiễu làm cho tín hiệu tiếng nói khơng cịn ban đầu Vì lý mà thuật tốn Speech Enhancement đời Tuy khơng thể bảo tồn y ngun tín hiệu ban đầu sử dụng thuật tốn ta tăng cường chất lượng tiếng nói giảm bớt nhiễu để tín hiệu sau xử lý đến người nghe mang đầy đủ nội dung thông tin khơng gây khó chịu nhiễu người nghe Vì vậy, Speech Enhancement đóng vai trị quan trọng lĩnh vực thoại Xuất phát từ thực tế nhóm bắt tay vào tìm hiểu Speech Enhancement, nghiên cứu thuật tốn để thực đánh giá hiệu thuật toán mơi trường thực tế Để thực đồ án, nhóm phân chia thành phần tương ứng với thành viên : - Nguyễn Ngọc Trung : nghiên cứu thực thuật toán xử lý tiếng nói sử dụng phương pháp Spectral Subtraction - Nguyễn Phúc Nguyên : nghiên cứu thực thuật xử lý tiếng nói sử dụng lọc Wiener - Nguyễn Thị Ngọc Diệp : nghiên cứu thực phương pháp đánh giá từ kết đạt thuật tốn mơi trường thực tế Để thực nội dung phần em đồ án em kết cấu thành phần, gồm chương : Phần : Lý thuyết Chương : Tổng quan nâng cao chất lượng tiếng nói Chương giới thiệu số khái niệm tín hiệu số, phép biến đổi, tìm hiểu SVTH: Nguyễn Thị Ngọc Diệp Trang 10 Chương 4: Thực đánh giá thuật toán ¾ Đối với đánh giá SNRseg đồ thị lên theo chiều tăng dần SNR ¾ Đối với đánh giá LLR, IS WSS đồ thị có hướng xuống variance giảm dần theo chiều tăng dần SNR chứng tỏ phổ tín hiệu có SNR cao gần với phổ tín hiệu Qua kiểm tra thấy phương pháp đánh giá ổn định đủ tin cậy để thực đánh giá tín hiệu tiếng nói qua xử lý 4.6.4 Thực đánh giá Trong trình nghiên cứu triển khai thuật tốn ta nhận thấy thông số sau ảnh hưởng lớn đến thuật toán: - NoiseMargin :là ngưỡng để nhận biết nhiễu VAD Mặc định thuật toán Noise margin 3db - IS :hệ số thời gian khơng có tiếng nói file âm dùng để tính tốn nhiễu ban đầu Do kiểm tra đoạn im lặng ban đầu file ta nhận thấy file từ 0.15s đến 0.2s đoạn im lặng.Ta lựa giá trị IS 0.2 - Đối với thuật toán WF ta có thêm hệ số alpha hệ số làm trơn phương pháp ước lượng tỉ số Priori SNR -Đối với thuật tốn SS có hệ số Gramma hệ số định nhiễu trừ theo biên độ hay lượng Ta chọn giá trị Gramma tức thuật toán Subtraction trừ nhiễu theo biên độ 4.6.4.1 Đánh giá thuật toán với hệ số dự đoán ban đầu Hệ số IS=0.2, NoiseMargin=3 ¾ Đánh giá OE Sau thực thuật tốn SS WF với thơng số alpha=0.9, gamma=1, NoiseMargin=3,IS=0.2 ta có đồ thị đánh giá SNR, LLR, IS, WSS sau SVTH: Nguyễn Thị Ngọc Diệp Trang 62 Chương 4: Thực đánh giá thuật tốn Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 Theo đồ thị ta có nhận xét sau : Đối với thông số đánh giá SNR cho ta thấy tỉ số SNR có tăng so với file chưa xử lý Chứng tỏ thuật tốn loại trừ mơt phần nhiểu khỏi file Nhưng so sánh IS, LLR, WSS ta lại thấy file chưa xử lý lại có kết tốt file xử lý Do đánh giá IS, LLR, WSS so sánh khoảng cách phổ file xử lý file tính giá trị trung bình nên ta dự đoán lượng file xử lý lệch nhiều với file thuật tốn tồi lượng tín hiệu bị nén phần ¾ Đánh giá SE Sau kiểm tra file đầu phương pháp nghe thử ta có nhận xét sau đây: Một số file đầu thuật tốn SS WF có mức độ nén nhiễu khác cao dẫn tới việc phần tiếng nói ¾ Kết luận tối ưu thơng số cho thuật tốn VAD Qua nhận xét đánh giá OE SE ta rút kết luận sau: Do thuật toán VAD với thông số đề IS=0.2 NoiseMargin=3 không tốt nên phần âm bị ước lượng nhiễu nên bị thuật toán nén dẫn tới việc lượng phần âm SVTH: Nguyễn Thị Ngọc Diệp Trang 63 Chương 4: Thực đánh giá thuật tốn Đối với thơng số IS ta phải thay đổi sau : Do đoạn lặng file nằm khoảng 0.15s đến 0.2s Nếu ta để 0.2 lớn sơ file nên phần lượng tiếng nói file thuật toán VAD xem nhiễu phần tiếng nói bị loại bỏ Đó hạn chế thuật tốn VAD dùng đề tài : giữ cứng giá trị IS( đoạn im lặng) để cài đặt nhiễu không phù hợp cho tất file âm Đối với thơng số NoiseMargin: Vì ta chọn mức ngưỡng để nhận biết nhiễu 3dB lớn nên tương tự giá trị IS với mức ngưỡng phần tín hiệu bị loại bỏ khác gần với nhiễu dù IS có tối ưu Qua thực nghiệm ta có hệ số NoiseMargin tối ưu Đó giá trị mà tín hiệu khơng bị ước lượng nhiễu Vậy giá trị tối ưu cho thuật toán VAD : hệ số IS phải điều chỉnh lại 0.15s, hệ số NoiseMargin Hệ số IS=0.15 ,hệ số NoiseMargin=2 ¾ Đánh giá OE Sau thuật lại thuật toán SS WF với hệ số IS=0.15,hệ số NoiseMargin=2 ta có đồ thị đánh giá IS, SNR, WSS, LLS sau : Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 SVTH: Nguyễn Thị Ngọc Diệp Trang 64 Chương 4: Thực đánh giá thuật tốn Ta nhận thấy thơng số SNR tương tự trường hợp IS = 0.2 NoiseMargin=2 Nhưng ta giá trị LLR IS so sánh tín hiệu xử lý SS WF giảm, giá trị IS giảm đáng kể.Đặc biệt với thuật toán SS giá trị IS xuống ngưỡng file nhiễu Điều chứng tỏ thông số thật tốt Nhưng giá trị IS cịn rât lớn thuật tốn WF mức SNR 0dB 10dB giá trị IS thuật tốn Wiener cịn nằm giá trị IS file chưa xử lý file ¾ Đánh giá SE Sau nghe thử file đầu thuật toán SS thuật toán WF Ta nhận thấy thuật toán SS thật làm viêc tốt hạ mức nhiễu file âm Nhưng thuật toán WF hạ mức nhiễu file âm số file bị tiếng nói điều chứng tỏ hệ số thuật tốn WF chưa tốt ¾ Kết luận Kết hợp nhận xét OE SE ta có kết luận với hệ số IS=0.15 NoiseMargin=2 thuật tốn VAD làm việc thật tối ưu cho nhiễu xe Và hệ số thuật tốn Wiener chưa tối ưu hệ số alpha 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF Ta đánh giá hệ số alpha cho thuật toán WF qua trường hợp hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = để chọn trường hợp tốt ¾ Đánh giá objective SVTH: Nguyễn Thị Ngọc Diệp Trang 65 Chương 4: Thực đánh giá thuật tốn Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 NoiseMargin = Qua đồ thị SNR ta nhận thấy hệ số alpha lớn mức nhiễu bị nén lớn (tỉ số SNR lớn) Qua đồ thị IS ta thấy hệ số alpha nhỏ tác động vào file tỉ số SNR lớn tốt Giá trị alpha=0.9 tác động vào file có SNR=10 dB cho file output có khoảng cách phổ xa so với file file nhiễu Còn lại giá trị alpha khác alpha=0.9 với mức file nhiễu có tỉ số SNR khác cho kết tốt so với file file nhiễu.Và hệ số alpha 0.5 tốt đồ thị is đặc biêt với file nhiễu có tỉ số SNR=15dB tác động ổn định (variant nhỏ) ¾ Đánh giá subjective Qua việc kiểm tra subjective ta nhận thấy với hệ số alpha=0.5 tác động ổn định tốt với file nhiễu có mức SNR=15dB cho file Nhưng với mức dB khác ko tốt so với hệ số alpha khác, nhiễu tương đối nhiều.Đối với hệ số alpha 0.9 với mức file nhiễu có SNR=10dB tác động khơng tốt, số file tín hiệu bị nén ¾ Kết luận SVTH: Nguyễn Thị Ngọc Diệp Trang 66 Chương 4: Thực đánh giá thuật toán Qua nhận xét đánh giá SE OE ta rút kết luận hệ số alpha=0.8 hệ số tối ưu cho tất trường hợp nén nhiễu khơng nhiều hệ số alpha khơng nén ln tín hiệu sạch, bảo đảm tín hiệu cịn nghe tốt, nhiễu bị hạ xuống tương đối nhiều Ta có thêm nhận xét cách đánh giá OE lúc hồn tồn xác hệ số alpha=0.5 đồ thị IS tốt với việc kiểm tra SE tốt trường hợp 15dB hay đồ thị SNR hệ số alpha tốt có số trường hợp tín hiệu bị nén ln 4.6.4.3 Hệ số gamma cho thuật tốn SS Vì thuật tốn SS thuật tốn trừ nhiễu nên ta có cách trừ nhiễu trừ theo lượng trừ theo biên độ nên ta cung cấp hệ số gamma gamma=1 trừ theo biên độ gamma =2 trừ theo lượng Sau ta đánh giá tìm cách trừ tốt nhất( gamma=1 hay 2) ¾ Đánh giá OE Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = gamma = SVTH: Nguyễn Thị Ngọc Diệp Trang 67 Chương 4: Thực đánh giá thuật tốn Ta nhận thấy thơng số SNR IS hệ số gamma=2 tức trừ theo lượng tốt ngoại trừ file nhiễu có SNR 10dB.Và gamma=1 hay gamma = đưa đồ thị tốt đồ thị file nhiễu với file ¾ Đánh giá SE Sau kiểm tra SE ta nhận thấy hệ số gamma=2 tức trừ theo lượng nhiễu bị nén ít, file đầu khơng tốt hệ số gamma=1 ¾ Kết luận Sau so sánh OE SE ta có kết luận đồ thị phản ánh hệ số gamma=2 tốt thực tế hệ số gamma=1 tốt hơn.Chứng tỏ việc đánh giá OE nói khơng phải lúc Ta chọn hệ số gamma tối ưu 4.6.4.4 Đánh giá thuật toán sau tối ưu Sau thực loạt hệ số thử nghiêm ta chọn hệ số tối ưu : -Thuật toán VAD: hệ số IS=0.15, NoiseMargin = -Thuật toán WF hệ số alpha=0.8 -Thuật toán SS trừ theo biên độ Và việc đánh giá OE đánh giá mặt tốn khơng phải lúc , đánh giá OE phải kèm với đánh giá SE SVTH: Nguyễn Thị Ngọc Diệp Trang 68 Chương 4: Thực đánh giá thuật tốn Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS 4.6.4.5 Đánh giá độ ổn định thuật tốn mơi trường nhiễu khác ¾ Đánh giá OE Thực nghe tín hiệu qua xử lý thấy số file tín hiệu có đoạn nghe nhiễu khơng nghe tiếng nói Điều giải thích nhiễu người nói có lượng nhiễu tương đương với lượng tiếng nói, số file tín hiệu tiếng nói có mức lượng thấp mức lượng nhiễu nên đoạn tiếng nói bị trừ cịn lại nhiễu ¾ Đồ thị Áp dụng thông số tối ưu nhiễu xe cho nhiễu người nói xung quanh có đồ thị đánh sau SVTH: Nguyễn Thị Ngọc Diệp Trang 69 Chương 4: Thực đánh giá thuật tốn Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh ¾ Nhận xét Nhận xét theo đồ thị bốn phép đánh giá ta thấy nhiễu người nói xung quanh SS xử lý tốt WF Nhưng ba phương pháp đánh giá ba giá trị WSS, LLR, IS tín hiệu xử lý so với tín hiệu lại khơng tốt giá trị tín hiệu nhiễu chưa xử lý so với tín hiệu (so sánh tín hiệu xử lý có giá trị lớn hơn) Riêng với phép đánh giá IS ta thấy thuật tốn xử lý nhiễu có tác động tốt nhiễu 0dB 5dB Bên cạnh variant cịn lớn có số file có giá trị so sánh lớn giá trị file khác nhiều (điều xảy car noise) thể bảng giá trị IS [matlab file] Lý giải cho điều số tín hiệu bị nhiễu đột biến ¾ Đánh giá SE Khi thực nghe file âm bị nhiễu người nói xung quanh xử lý SS WF có số đoạn tiếng nói bị mất, nghe nhiễu khơng nghe tiếng nói SVTH: Nguyễn Thị Ngọc Diệp Trang 70 Chương 4: Thực đánh giá thuật toán Điều lý giải nhiễu người nói xung quanh có mức lượng tương đương với mức lượng tiếng nói nên số file âm có đoạn tiếng nói có mức lượng thấp mức lượng nhiễu tiếng nói bị trừ cịn lại nhiễu ¾ Nhận xét chung Khi đem thông số tối ưu để xử lý nhiễu xe áp dụng với người nói xung quanh kết khơng tốt Đối với nhiễu người nói xung quanh thuật tốn SS tác động tớt WF 4.6.5 Kết luận chương Qua kết đánh giá OE SE đưa kết luận : - Đối với loại nhiễu khác tác động thuật tốn tăng cường khác - Đối với mức nhiễu khác thuật tốn tác động khác SVTH: Nguyễn Thị Ngọc Diệp Trang 71 Đồ án tốt nghiệp TÀI LIỆU THAM KHẢO [1] Ramabadran, T.,Ashley, J., and McLaughin, M.(1997), Background noise suppression for speech enhancement and coding, Proc IEEE Workshop Speech Coding Telecommun [2] Ths.Hoàng Lê Uyên Thục, Giáo trình xử lý tín hiệu số, Đại học Bách Khoa – Đại học Đà Nẵng [3].Hu, Y and Loizou, P(2006), Subjective comparison of speech enhancement algorithms, Proc IEEE Int.Conf Acoust Speech Signal Process, I [4] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 2-7 [5] Long, M (2005), Dinner Conversation (An oxymoron?), Acoustics Today,l(1), pp 25-27 [6] Lombard, E.(1911), Le signe de lelevation de la voix, Ann Mal Oreil Larynx.,37, 101-119 [7] Nguyễn Quốc Trung, Xử lý tín hiệu số - tập 1, NXB Khoa học kĩ thuật [8] Lim, J and Oppenheim, A.V.(1979), Enhancement and bandwidth compression of noisy speech, Proc IEEE, 67(12),pp 1586-1604 [9] Weiss, M., Aschkenasy, E., and Parsons, T.(1974), Study and the development of the INTEL technique for improving speech intelligibility, Technical Report NSC-FR/ 4023 [10] Boll, S.F (1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans, Acoust Speech Signal Process.,27(2), 113-120 [10] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 46-57 [11] “Methods for Subjective Determination of Transmission Quality”, ITU_T Recommendation P.800, August 1996 [12] Philipos C.Loizou, “Speech Enhancement Theory and Practice”, CRC Press, Taylor and Francis Group [13] Friedrich Schafer, “Artificial Bandwidth Extension of Narrowband Speech”, Signal Processing and Speech Communication Lab, Technical University Graz SVTH: Nguyễn Thị Ngọc Diệp Trang 72 Đồ án tốt nghiệp [14] Hansen J and Pellon B , “An effective quality evaluation protocol for Speech Enhancement algorithms”, Proc Int Conf Spoken Language Process, 1998 [15] http://en.wikipedia.org/wiki/Code_Excited_Linear_Prediction [16] Beey Y , Shpiro Z , Simchony T , Shatz L and Piasetzky J., “An efficient variable_bit_rate_low_delay (VBR_LP_CELP) code” , New York, Marcel Pekker, 1990 [17] Yi Hu and Philipos C Loizou, “Evaluation of Objective Quality Measures for Speech Enhancement”, IEEE [18] Klatt D., “Prediction of perceived phonetic distance from critical band spectra”, Proc IEEE Int Conf Acoust Speech Signal Process [19] Kitawaki N., Nagabuchi H., and Itoh K., “Objective Evaluation for low bit_rate Speech Coding systems”, IEEE J, Sel Areas Commun [20] Quackenbush S., Barnwell T and Clements M., “Objective Measure of Speech Quality”, Englewood Cliffs NJ: Prenticư Hall [21] Boll, S.F(1979), Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans Acoust Speech Signal Process., 27(2), 113-120 [22] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 [23] Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation [24] Deller, J., Hansen, J.H.L., and Proakis, J (2000), Discrete –time Processing of Speech Signals, New York : IEEE Press [25] Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral subtraction using reduced delay convolution and adaptive averaging, IEEE Trans Speech Audio Process., 9(8), 799-807 [26] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 100 SVTH: Nguyễn Thị Ngọc Diệp Trang 73 Đồ án tốt nghiệp [27] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT phase spectrum in human listening tests, Speech Commun., 45(2), 153-170 [28] Lim, Oppenheim, Speech Enhancement Using a Soft-Decision noise Suppression EEE Trans Acoustics, Speech and Signal Processing, vol assp-28, no 2, april 1980 [29] Y Ephraim and D Malah, Speech Enhancement Using a Minimum MeanSquare Error Short-Time Spectral Amplitude Estimator, IEEE Trans Acoustics, Speech and Signal Processing, vol 32, no 6, pp 1109–1121, December 1984 [30] P Scalart and J Vieira-Filho, “Speech enhancement based on a priori signal to noise estimation,” in Proc 21st IEEE Int Conf Acoust Speech Signal Processing, Atlanta, GA, May 1996, pp 629–632 [31] Dominic K C Ho, Speech Enhancement : concept and methodology, Demo prepared by Tong Wang, University of Missouri-Columbia [32] http://www.utdallas.edu/~loizou/speech/noizeus/ SVTH: Nguyễn Thị Ngọc Diệp Trang 74 Đồ án tốt nghiệp KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI Chất lượng tiếng nói bị suy giảm tác động nhiễu môi trường xung quanh vấn đề quan trọng cần phải giải Việc tìm phương pháp để triệt nhiễu giảm nhiễu tiếng nói ln ln đề tài quan tâm nhiều Trong dịch vụ truyền thông với phương tiện ngôn ngữ tiếng nói việc tăng cường, cải thiện chất lượng tiếng nói bị nhiễu thiết, giúp cho người nghe nghe rõ người nói nói Đồ án thực vấn đề : - Tìm hiểu nghiên cứu phương pháp cải thiện chất lượng tiếng nói, tập trung vào thuật tốn có Speech enhancement : Spectral Subtraction Wiener Filtering - Xây dựng chương trình thực xử lý nhiễu file âm bị nhiễu dựa thuật toán : Spectral Subtraction Wiener Filtering - Thực đánh giá tính hiệu thuật tốn môi trường nhiễu mức độ nhiễu khác nhau, từ đưa biện pháp tối ưu hóa thuật tốn Kết đạt cho thấy WF thuật toán giảm nhiễu tốt SS Các thuật tốn giảm nhiễu có hiệu khác môi trường nhiễu khác Tuy nhiên đồ án chưa giải hết vấn đề Speech enhancement nên hướng phát triển đề tài tương lai : - Tìm hiểu, nghiên cứu xây dựng chương trình thực xử lý nhiễu tiếng nói dựa thuật tốn khác Speech enhancement - Nghiên cứu đưa thuật toán xử lý nhiễu triệt nhiễu Speech enhancement Phát triển chương trình thực dịch vụ ứng dụng thời gian thực dịch vụ lĩnh vực truyền thông đa phương tiện : thoại, âm nhạc, truyền hình hội nghị SVTH: Nguyễn Thị Ngọc Diệp Trang 75 Đồ án tốt nghiệp PHỤ LỤC Toàn mã nguồn chương trình thực lưu trữ đĩa CD đính kèm SVTH: Nguyễn Thị Ngọc Diệp Trang 76 ... đánh giá chất lượng tiếng nói xử lý 2.2 Phương pháp đánh giá chủ quan Đánh giá chất lượng chủ quan đánh giá chất lượng dựa cảm nhận nghe người tiếng nói Chất lượng thuộc tính tín hiệu tiếng nói. .. cao chất lượng tiếng nói ? Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận tiếng nói bị suy giảm chất lượng có mặt nhiễu tiếng nói Trong hầu hết ứng dụng, mục đích nâng cao chất. .. tốn xử lý mơi trường thực tế Đồ án nhóm thực thuật tốn xử lý tiếng nói Speech Enhancement đưa kết đánh giá khách quan làm sở để đánh giá tính hiệu thuật tốn Đó điểm đồ án nhóm so với đồ án có

Ngày đăng: 04/08/2020, 21:43

Xem thêm: Đồ án tốt nghiệp: Speech enhancement – xử lý nâng cao chất lượng tiếng nói

Đồ án tốt nghiệp: Speech enhancement – xử lý nâng cao chất lượng tiếng nói

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan