Nhận dạng cảm xúc cho tiếng Việt nói tt

24 150 0
Nhận dạng cảm xúc cho tiếng Việt nói tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ ĐẦU Lý chọn đề tài Ngày nay, có thay đổi lớn cách thức người trao đổi thông tin với hệ thống Sự thay đổi biểu hiện chỗ, cách thức trao đổi thơng tin định dạng có cấu trúc chặt chẽ chuyển sang cách thức linh hoạt tự nhiên Trong đó, tiếng nói cách thức trao đổi thông tin tự nhiên nhất, cho phép tương tác người với hệ thống nhanh dễ dàng Đới thoại dùng ngơn ngữ nói không đơn giản, thuận tiện tiết kiệm thời gian mà góp phần đảm bảo khía cạnh an tồn mơi trường có tính rủi ro Để thiết lập hệ thớng tương tác có tính linh hoạt cao, kiến trúc hệ thống đối thoại người - máy cần trang bị thêm chức Các chức này bao gồm nhận dạng cảm xúc tiếng nói, phát hiện tham biến dựa tình h́ng trạng thái người dùng quản lý tình h́ng để đưa mơ hình dựa tham biến phát hiện làm cho q trình đới thoại phù hợp Chính vậy, nhiều năm qua, nghiên cứu cảm xúc tiếng nói thu hút mới quan tâm mạnh mẽ lĩnh vực tương tác người - máy mong ḿn tìm cách làm tích hợp trạng thái cảm xúc người nói vào hệ thống đối thoại người - máy dùng tiếng nói Trên giới có nhiều nghiên cứu cảm xúc nhận dạng cảm xúc tiếng nói với ngôn ngữ khác kết ứng dụng thực tế nhiều khó khăn cảm xúc thể hiện đa dạng người Do đó, việc phát hiện xác cảm xúc phải tiếp tục nghiên cứu Riêng nhận dạng cảm xúc cho tiếng Việt nói, cơng trình nghiên cứu, có nghiên cứu đạt thành công định để triển khai thành sản phẩm ứng dụng thực tế nhiều mặt hạn chế, đặc biệt là độ xác, chất lượng nhận dạng Chính vậy, cần thiết phải nghiên cứu nhận dạng cảm xúc cho tiếng Việt nói để tăng cường hiệu ứng dụng cho hệ thống tương tác dùng tiếng Việt nói Từ lý nêu trên, tác giả lựa chọn đề tài nghiên cứu “Nhận dạng cảm xúc cho tiếng Việt nói” nhằm nghiên cứu sâu vấn đề xử lý nhận dạng cảm xúc, đặc biệt đới với tiếng Việt nói để tìm tham sớ mơ hình nhận dạng cảm xúc phù hợp cho tiếng Việt, góp phần phát triển ứng dụng công nghệ thông tin cho người Việt sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt nói giao tiếp và tương tác người-máy Mục tiêu nghiên cứu luận án Với tính thiết thực cảm xúc tiếng nói áp dụng thực tế quan tâm, mục tiêu đề tài nghiên cứu nhận dạng cảm xúc cho tiếng Việt nói dựa phương diện xử lý tín hiệu tiếng nói Đề tài nghiên cứu thử nghiệm và đề xuất mô hình nhận dạng cảm xúc cho tiếng Việt nói dựa việc nghiên cứu đánh giá tham số và so sánh sớ mơ hình nhận dạng Bớn cảm xúc nghiên cứu bao gồm cảm xúc: vui, buồn, tức và bình thường Ngữ liệu tiếng Việt dùng cho nhận dạng giọng phổ thông miền Bắc có giọng nam giọng nữ Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần thực hiện nhiệm vụ sau: • Nghiên cứu tổng quan cảm xúc và nhận dạng cảm xúc tiếng nói • Nghiên cứu sớ mơ hình nhận dạng dùng cho nhận dạng cảm xúc tiếng nói mơ hình GMM, ANN, … • Phân tích đánh giá và đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho nhận dạng bốn cảm xúc vui, buồn, tức và bình thường • Nghiên cứu đề xuất và phân tích ảnh hưởng tham sớ đặc trưng tín hiệu tiếng nói đến cảm xúc tiếng Việt • Thử nghiệm nhận dạng cảm xúc tiếng Việt dựa mơ hình nghiên cứu có tính đến đặc trưng tiếng Việt nói • Phân tích đánh giá kết nhận dạng cảm xúc mơ hình dựa kết thử nghiệm Đối tượng phạm vi nghiên cứu luận án Đối tượng nghiên cứu luận án nhận dạng cảm xúc cho tiếng Việt nói theo phương diện xử lý tín hiệu tiếng nói Từ kết nhận dạng cảm xúc, xây dựng mơ hình nhận dạng cảm xúc cho tiếng Việt nói Các hình thái cảm xúc đa dạng và vùng miền khác ngơn điệu đối với biểu hiện cảm xúc khác Trong khn khổ có hạn, luận án tập trung thực hiện nghiên cứu nhận dạng cảm xúc bản: vui, buồn, tức bình thường với giọng phổ thơng miền Bắc gồm giọng nam nữ Nghiên cứu luận án nhằm nhận dạng cảm xúc qua diễn đạt câu nói mà tín hiệu tiếng nói thu thập tương ứng và không xét đến từ biểu lộ cảm xúc, biểu lộ cảm xúc qua khuôn mặt chưa thể xét đến suy nghĩ thực tế não người liên quan đến cảm xúc Ý nghĩa khoa học thực tiễn luận án Về mặt lý thuyết, luận án góp phần làm sáng tỏ mơ hình nhận dạng tiếng nói nhận dạng cảm xúc đới với tiếng Việt nói, đánh giá kết thử nghiệm với mơ hình nhận dạng cảm xúc tiếng Việt nói tạo tiền đề cho nghiên cứu cảm xúc tiếng Việt Về mặt thực tiễn, kết nghiên cứu luận án ứng dụng đa dạng lĩnh vực khoa học, công nghệ, đặc biệt lĩnh vực tương tác người-hệ thớng sử dụng tiếng nói với việc tổng hợp nhận dạng tiếng Việt có cảm xúc Phương pháp nghiên cứu Phương pháp nghiên cứu thực hiện luận án nghiên cứu lý thuyết kết hợp với thực nghiệm Về mặt lý thuyết, luận án tìm hiểu tổng quan cảm xúc tiếng nói, phương pháp nhận dạng cảm xúc, tham số đặc trưng tín hiệu tiếng nói có ảnh hưởng đến cảm xúc xét theo phương diện tín hiệu tiếng nói đồng thời trình bày sớ mơ hình nhận dạng cảm xúc tiếng nói tổng hợp từ tài liệu, báo khoa học Về mặt thực nghiệm, lựa chọn và đánh giá ngữ liệu cảm xúc tiếng Việt, sử dụng cơng cụ để tính tốn, phân tích, thớng kê và đánh giá tham sớ đặc trưng, tiến hành nghiên cứu thực hiện thử nghiệm nhận dạng cảm xúc dựa mơ hình nhận dạng cảm xúc cho ngữ liệu tiếng Việt với bớn cảm xúc vui, buồn, tức, bình thường từ đánh giá kết đạt để xác nhận giá trị mơ hình tham sớ sử dụng Kết mới luận án Kết nghiên cứu luận án tóm tắt tập trung vào điểm sau: • Sử dụng phương pháp thích hợp để đánh giá ngữ liệu cảm xúc tiếng Việt từ đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm nhận dạng cảm xúc tiếng Việt nói • Nghiên cứu, khai thác và đề xuất mô hình GMM, DCNN và tham sớ đặc trưng phù hợp cho nhận dạng cảm xúc tiếng Việt nói đồng thời đánh giá ảnh hưởng tham số đặc trưng đến kết nhận dạng cảm xúc tiếng Việt với bớn cảm xúc vui, buồn, tức và bình thường Cấu trúc luận án Luận án trình bày chương với nội dung tóm tắt sau: Chương 1: Tổng quan cảm xúc nhận dạng cảm xúc tiếng nói Chương này trình bày nghiên cứu cảm xúc, phân loại cảm xúc cảm xúc Đồng thời, nghiên cứu nhận dạng cảm xúc tiếng nói và ngoài nước, mơ hình thực hiện để nhận dạng cảm xúc tiếng nói nêu rõ Chương 2: Ngữ liệu cảm xúc và tham số đặc trưng cho cảm xúc tiếng Việt nói Nội dung chương trình bày phương pháp xây dựng ngữ liệu cảm xúc nói chung, ngữ liệu cảm xúc có sẵn với ngơn ngữ khác Chương này tập trung vào việc lựa chọn đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm luận án, đề xuất và đánh giá tham sớ đặc trưng tín hiệu tiếng nói ảnh hưởng đến cảm xúc Phần cuối chương đánh giá ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm dựa số phân lớp LDA, IBk, SVM, Tree-J48 Chương 3: Nhận dạng cảm xúc tiếng Việt nói với mơ hình GMM Các kết nhận dạng cảm xúc tiếng Việt với mơ hình GMM thử nghiệm chi tiết với nhiều tham số khác Các tham số dùng cho thử nghiệm bao gồm tham số đặc trưng MFCC, lượng, đặc trưng phổ, tần số F0 biến thể Từ kết này, luận án đưa nhận xét, đánh giá và đề xuất tham sớ để nhận dạng cảm xúc cho tiếng Việt nói sử dụng mơ hình GMM Chương 4: Nhận dạng cảm xúc tiếng Việt nói sử dụng mơ hình DCNN Chương này trình bày nghiên cứu mạng nơron lấy chập CNN, nghiên cứu và đề xuất mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt Các tham số sử dụng bao gồm đặc trưng phổ mel, tham số liên quan đến tuyến âm và tham số liên quan đến nguồn âm tần số Kết thử nghiệm nhận dạng cảm xúc với mơ hình này thớng kê chi tiết với tập ngữ liệu cảm xúc tiếng Việt và tham số sử dụng Cuối cùng, phần Kết luận tổng hợp kết nghiên cứu đạt được, đóng góp và hướng mở rộng nghiên cứu phát triển luận án Chương TỔNG QUAN VỀ CẢM XÚC VÀ NHẬN DẠNG CẢM XÚC TIẾNG NÓI 1.1 Cảm xúc tiếng nói và phân loại cảm xúc Phần này luận án trình bày cảm xúc tiếng nói và phân loại cảm xúc Đã có nghiên cứu đưa 300 trạng thái cho cảm xúc khác Tuy nhiên, khơng phải tồn cảm xúc trải nghiệm đời sớng hàng ngày Về mặt này, hầu hết nhà nghiên cứu đồng ý với lý thuyết Palette cho rằng, cảm xúc nào cấu thành từ sáu loại cảm xúc giống màu sắc tổ hợp màu [6] Các nhà nghiên cứu cho cảm xúc giận dữ, ghê tởm, sợ hãi, vui, buồn ngạc nhiên coi cảm xúc yếu hiển nhiên [7] Đây gọi cảm xúc nguyên mẫu [8] 1.2 Nghiên cứu về nhận dạng cảm xúc • Những kết nghiên cứu nhận dạng cảm xúc tập trung vào số ngôn ngữ thơng dụng giới • Có nhiều phân lớp sử dụng khó đánh giá phân lớp tớt • Các nghiên cứu cảm xúc tiếng Việt theo phương diện xử lý tín hiệu thực hiện 1.3 Sơ đồ chung cho hệ thống nhận dạng cảm xúc tiếng nói Các hệ thớng nhận dạng cảm xúc tiếng nói thường gồm giai đoạn: Giai đoạn 1: Xử lý tín hiệu vào để trích rút đặc trưng Giai đoạn 2: Phân lớp dựa mơ hình nhận dạng TÍN HIỆU VÀO Các mẫu tín hiệu tiếng nói TRÍCH RÚT ĐẶC TRƯNG  Cao độ  Năng lượng  Tần số formant  …      PHÂN LỚP HMM GMM ANN SVM … KẾT QUẢ NHẬN DẠNG Dựa kết phân lớp Giai đoạn Giai đoạn Giai đoạn Hình 1.2 Sơ đồ chung cho hệ thống nhận dạng cảm xúc tiếng nói Trên thực tế, phần lớn nghiên cứu hiện nhận dạng cảm xúc tập trung vào giai đoạn giai đoạn kết nối kết nhận dạng kỹ thuật phân lớp Luận án tập trung vào phân lớp thớng kê phân lớp này dùng rộng rãi bối cảnh nhận dạng cảm xúc tiếng nói 1.4 Một số phân lớp thường dùng cho nhận dạng cảm xúc 1.4.1 Bộ phân lớp phân tích phân biệt tuyến tính LDA 1.4.2 Bộ phân lớp phân tích khác biệt toàn phương QDA 1.4.3 Bộ phân lớp k láng giềng gần nhất k-NN 1.4.4 Bộ phân lớp hỗ trợ véctơ SVC 1.4.6 Bộ phân lớp HMM 1.4.7 Bộ phân lớp GMM [64] 1.4.8 Bộ phân lớp ANN 1.5 Một số kết nhận dạng cảm xúc thực ngoài nước Mục 1.5 trình bày sớ kết nghiên cứu nhận dạng cảm xúc và ngoài nước Hiện có nhiều kết nghiên cứu nhận dạng cảm xúc với ngơn ngữ và mơ hình nhận dạng tham số khác Tuy nhiên, với tiếng Việt còn cơng trình nghiên cứu nhận dạng cảm xúc tiếng Việt dựa phương diện xử lý tín hiệu tiếng nói Một sớ nghiên cứu chủ yếu tập trung dựa vào ngôn ngữ kết hợp đa thể thức 1.6 Kết chương Chương trình bày tổng quan nghiên cứu phân loại cảm xúc số nghiên cứu nhận dạng cảm xúc tiến hành nước Các kỹ thuật nhận dạng liên tục cải tiến nhằm cải thiện độ xác nhận dạng và là thách thức đối với nhà nghiên cứu Các kết cho thấy, đối với tiếng Việt chưa có nhiều nghiên cứu cơng bớ, cần có nghiên cứu nhận dạng cảm xúc tiếng Việt nói để góp phần cải thiện ứng dụng cho tiếng Việt có liên quan đến xử lý tiếng nói Chương NGỮ LIỆU CẢM XÚC VÀ CÁC THAM SỐ ĐẶC TRƯNG CHO CẢM XÚC TIẾNG VIỆT NÓI 2.1 Phương pháp xây dựng ngữ liệu cảm xúc Ngữ liệu tiếng nói xây dựng dùng cho phát triển hệ thớng tiếng nói có cảm xúc chia thành ba loại: • Ngữ liệu tiếng nói có cảm xúc xây dựng dựa đóng kịch • Ngữ liệu tiếng nói có cảm xúc xây dựng dựa suy diễn • Ngữ liệu tiếng nói xây dựng dựa cảm xúc tự nhiên Để xây dựng ngữ liệu cảm xúc thực hiện theo phương pháp như: ghi âm trực tiếp đối thoại tự nhiên, xây dựng kịch cho đối thoại nhân vật tùy biến cảm xúc theo tình h́ng, ghi âm trực tiếp giọng nghệ sĩ diễn đạt nội dung theo yêu cầu biểu đạt cảm xúc cho trước 2.2 Một số ngữ liệu cảm xúc có giới Trong luận án thống kê 14 ngữ liệu hiện có giới Hầu hết ngữ liệu khơng phổ biến rộng rãi nên khó lấy để dùng chung cho nghiên cứu Nhìn chung, sớ lượng giọng nói nội dung nói chưa nhiều, số lượng phát ngôn cho cảm xúc khơng Vì vậy, nhà nghiên cứu khó so sánh kết q trình đánh giá thử nghiệm 2.3 Ngữ liệu cảm xúc tiếng Việt Bộ ngữ liệu cảm xúc tiếng Việt dùng cho nghiên cứu luận án lựa chọn từ ngữ liệu BKEmo [128] Bộ ngữ liệu sử dụng để nhận dạng luận án là ngữ liệu chọn từ ngữ liệu cảm xúc tiếng Việt BKEmo gồm 5584 file Trong đó, sớ lượng file cảm xúc giọng nam và nữ là 2792 file Mỗi cảm xúc có 1396 file Bộ ngữ liệu dùng để thử nghiệm nhận dạng cảm xúc tiếng Việt luận án chia thành bốn tập ngữ liệu (Bảng 2.2) Bảng 2.2 Ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm Tập ngữ liệu Ngữ liệu thử nghiệm Tổng số file Số file huấn luyện Số file thử nghiệm Test1 Phụ thuộc người nói và nội dung 5584 2792 2792 Test2 Test3 Test4 Phụ thuộc người nói, độc lập nội dung Độc lập người nói, phụ thuộc nội dung Độc lập người nói và nội dung 5584 5584 2803 2793 2794 1403 2791 2790 1400 Bốn tập ngữ liệu dùng ký hiệu sau: Test1 ký hiệu T1, Test2 ký hiệu T2, Test3 ký hiệu T3, Test4 ký hiệu T4 2.4 Tham số đặc trưng tín hiệu tiếng nói dùng cho nhận dạng cảm xúc 2.4.1 Đặc trưng nguồn âm tuyến âm Là đặc trưng trích rút từ nguồn âm và tuyến âm hệ sớ cepstrum tiên đốn tuyến tính (LPCC), hệ số cepstrum theo thang tần số mel (MFCC), hệ sớ tiên đốn tuyến tính cảm thụ (PLPC), formant, … 2.4.2 Đặc trưng ngôn điệu Các đặc trưng tiếng nói trích chọn từ đoạn tín hiệu tiếng nói dài âm tiết, từ và câu là đặc trưng ngơn điệu Bao gồm chu kỳ bản, thời hạn, lượng, cao độ, tớc độ nói,… dẫn xuất tương ứng chúng cực đại, cực tiểu, trung bình, phương sai, phạm vi giá trị và độ lệch chuẩn 2.5 Tham số đặc trưng dùng cho nhận dạng cảm xúc tiếng Việt 2.5.1 Các hệ số MFCC 2.5.2 Năng lượng tiếng nói 2.5.3 Cường độ tiếng nói 2.5.4 Tần số F0 biến thể F0 Tiếng Việt ngơn ngữ có điệu, điệu tiếng Việt nói thể hiện qua qui luật biến thiên tần sớ 𝐹0 Vì vậy, đặc trưng tần số 𝐹0 biến thể 𝐹0 tham sớ hữu ích cho nhận dạng cảm xúc tiếng Việt Bao gồm: Đạo hàm 𝐹0, chuẩn hóa 𝐹0 theo giá trị trung bình 𝐹0, chuẩn hóa 𝐹0 theo giá trị 𝐹0 max 𝐹0, chuẩn hóa 𝐹0 theo trung bình và độ lệch chuẩn 𝐹0, đạo hàm 𝐿𝑜𝑔𝐹0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo giá trị 𝐿𝑜𝑔𝐹0 max 𝐿𝑜𝑔𝐹0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo trung bình LogF0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo trung bình và độ lệch chuẩn 𝐿𝑜𝑔𝐹0 2.5.5 Các formant dải thông tương ứng 2.5.6 Các đặc trưng phổ Bảng 2.6 thống kê tham số đặc trưng sử dụng cho thử nghiệm nhận dạng bớn cảm xúc vui, buồn, tức, bình thường nghiên cứu luận án Bảng 2.6 Các tham số đặc trưng dùng cho nhận dạng cảm xúc tiếng Việt Chỉ số Tham số đặc trưng (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) Các hệ số MFCC Đạo hàm bậc nhất MFCC Đạo hàm bậc hai MFCC Năng lượng, đạo hàm bậc nhất, bậc hai của lượng Tần số F0 Cường độ tiếng nói Các formant dải thông tương ứng Các thành phần hài Trọng tâm phổ Mômen trung tâm Skewness Kurtosis Độ lệch chuẩn tần số Giá trị trung bình của phổ Độ dốc và độ lệch chuẩn của phổ trung bình dài hạn LTAS (Long Term Average Spectrum) dF0 F0NormAver F0NormMinMax F0NormAverStd dLogF0 LogF0NormMinMax LogF0NormAver LogF0NormAverStd (15) (16) (17) (18) (19) (20) (21) (22) (23) Số lượng 19 19 19 1 1 1 1 1 1 1 1 2.6 Phân tích ảnh hưởng số tham số đến khả phân biệt cảm xúc ngữ liệu cảm xúc tiếng Việt 2.6.1 Phân tích phương sai ANOVA và kiểm định T 2.6.2 Ảnh hưởng tham số đặc trưng đến phân biệt cảm xúc Kết phân tích ANOVA và kiểm định T cho thấy phân biệt bốn cảm xúc với dựa tham số đặc trưng tần số, cường độ, formant và dải thông tương ứng, đặc trưng phổ 2.7 Đánh giá phân lớp ngữ liệu cảm xúc tiếng Việt 2.7.1 Kết phân lớp với LDA Kết phân lớp phương pháp LDA Hình 2.5 cho thấy, cảm xúc vui, buồn, tức, bình thường phân lớp tương đối rõ ràng cho giọng nam giọng nữ Trong cảm xúc, cảm xúc bình thường phân biệt rõ so với cảm xúc lại Hình 2.5 Kết phân lớp cảm xúc giọng nam và nữ LDA Hình 2.6 là kết phân lớp cảm xúc cho giọng nam và nữ Cả bốn cảm xúc quan sát phân biệt rõ ràng, việc phân cụm cảm xúc ngữ liệu tớt cảm xúc bình thường phân lớp tách biệt so với cảm xúc còn lại Hình 2.6 Kết phân lớp cảm xúc giọng nam nữ LDA 2.7.2 Thử nghiệm nhận dạng cảm xúc tiếng Việt dựa phân lớp IBk, SMO Trees J48 2.7.2.1 Công cụ, ngữ liệu và tham số sử dụng Phần này sử dụng phân lớp IBk, Trees J48, SMO thuộc công cụ Weka để nhận dạng cảm xúc Ngữ liệu dùng cho thử nghiệm là tập ngữ liệu T1 trình bày Chương Tham sớ trích chọn gồm 384 tham sớ công cụ OpenSmile 2.7.2.2 Kết thử nghiệm Kết thử nghiệm nhận dạng công cụ Weka với phân lớp cho thấy ngữ liệu cảm xúc tiếng Việt đề xuất có chất lượng đảm bảo để thực hiện thử nghiệm nhận dạng cảm xúc luận án Bộ phân lớp IBk SMO Trees J48 Bảng 2.9 Tỷ lệ (%) nhận dạng cảm xúc với 384 tham sớ Cảm xúc Bình Tức Vui Buồn Cảm xúc thường Tức 99,07 0,64 0,14 0,14 Vui 0,93 98,85 0,07 0,14 Bình thường 0 97,92 2,08 Buồn 0,07 3,08 96,85 Tức 96,06 3,65 0,29 Vui 2,94 96,13 0,93 Bình thường 0,29 0,57 93,12 6,02 Buồn 0,21 0,79 5,37 93,62 Tức 77,65 16,12 4,44 1,79 Vui 15,47 79,01 3,87 1,65 Bình thường 4,37 4,15 80,8 10,67 Buồn 1,36 1,79 11,75 85,1 Trung bình 98,17 94,73 80,64 Bảng 2.10 Tỷ lệ (%) nhận dạng cảm xúc dùng 228 tham số liên quan đến MFCC Bộ phân lớp IBk SMO Trees J48 Cảm xúc Cảm xúc Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn 98,28 0,93 0 93,34 5,23 0,36 0,14 77,36 16,48 3,65 1,5 1,29 98,93 0 5,80 93,34 0,86 1,72 17,62 77,29 2,58 2,22 0,29 0,07 98,85 2,51 0,72 1,36 92,34 6,09 3,65 3,94 80,30 13,97 0,14 0,07 1,15 97,49 0,14 0,07 6,45 92,05 1,36 2,29 13,47 82,31 Trung bình 98,17 94,73 80,64 Bảng 2.11 Tỷ lệ (%) nhận dạng cảm xúc dùng 48 tham số liên quan đến F0 và lượng Bộ phân lớp IBk Cảm xúc Cảm xúc Tức Vui Tức Vui Bình thường Buồn 84,96 9,96 10,32 84,1 3,22 4,51 1,50 1,43 10 Trung bình 82,59 SMO Trees J48 Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn 2,15 1,50 81,95 13,04 2,22 1,00 77,65 16,26 5,52 1,22 3,58 0,93 12,75 79,01 7,09 2,36 15,62 75,36 6,59 2,36 78,3 14,54 3,80 7,16 64,68 11,17 5,01 7,09 69,41 17,84 15,97 83,02 1,50 0,79 26 85,46 1,72 1,29 18,48 78,58 77,73 75,25 2.8 Kết chương Chương trình bày phương pháp xây dựng ngữ liệu tiếng nói có cảm xúc để thực hiện nghiên cứu nhận dạng cảm xúc và cách lựa chọn, phân tích đánh giá ngữ liệu cảm xúc tiếng Việt Bộ ngữ liệu này nghe và đánh giá mức độ phân lớp phương pháp LDA, đánh giá tỷ lệ nhận dạng mơ hình SMO, IBk, Trees J48 công cụ Weka Kết cho thấy ngữ liệu có phân lớp rõ ràng cảm xúc với và đáng tin cậy để thực hiện thử nghiệm nhận cảm xúc đối với tiếng Việt Kết phân tích phương sai ANOVA kiểm định T cho thấy tham số liên quan đến tần số 𝐹0, lượng và đặc trưng phổ tín hiệu tiếng nói có ảnh hưởng đến phân biệt cảm xúc vui, buồn, tức và bình thường Những kết này là sở để tiến hành nghiên cứu thử nghiệm mơ hình nhận dạng cảm xúc cho tiếng Việt nói trình bày chương luận án dựa ngữ liệu tham số đánh giá Chương Chương NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NĨI VỚI MƠ HÌNH GMM 3.1 Mơ hình GMM cho nhận dạng cảm xúc GMM thích hợp cho nhận dạng cảm xúc tiếng nói có đặc trưng tổng quan trích rút từ tiếng nói dùng cho huấn luyện Trên thực tế, GMM dùng phổ biến cho trường hợp định danh người nói, định danh ngơn ngữ, định danh phương ngữ, phân lớp thể loại âm nhạc Trong trường hợp nhận dạng cảm xúc, cảm xúc mơ hình hóa mơ hình GMM tham số xác định thông qua việc huấn luyện tập mẫu học 11 Huấn luyện Dữ liệu tiếng nói cảm xúc Trích chọn đặc trưng và chuẩn hóa đặc trưng Mơ hình UBM Mơ hình cho cảm xúc Nhận dạng Kết nhận dạng Hình 3.1 Sơ đờ mơ hình GMM tởng qt cho nhận dạng cảm xúc 3.2 Công cụ, tham số ngữ liệu sử dụng Bộ công cụ Alize sử dụng để đánh giá mơ hình GMM và thực hiện nhận dạng cảm xúc Matlab ngơn ngữ lập trình trung gian dùng để kết nới, phới hợp, tính tốn thiết lập cấu hình tương ứng Vì việc nhận dạng cảm xúc tiếng Việt nghiên cứu luận án thực hiện hoàn toàn tự động Ngữ liệu dùng cho thử nghiệm mục 3.3 sau gồm tập ngữ liệu T1, T2, T3 T4 trình bày Bảng 2.2 Chương Tham số sử dụng phần thử nghiệm này gồm tham sớ trình bày chi tiết mục 2.5 Chương Mỗi thử nghiệm thực hiện với số thành phần Gauss M tăng từ 16 đến 8192 theo lũy thừa 3.3 Các thử nghiệm nhận dạng Luận án tiến hành 13 thử nghiệm nhận dạng với mơ hình GMM Bảng 3.1 Các thử nghiệm nhận dạng cảm xúc với GMM Các thử nghiệm Tập tham số Thử nghiệm MFCC Thử nghiệm MFCC+Delta1 Thử nghiệm MFCC+Delta12 Thử nghiệm prm60 Thử nghiệm prm79 Thử nghiệm Thử nghiệm Thử nghiệm prm87 FeaSpec MFCC+FeaSpec Ghi 19 MFCC 19 MFCC + 19 Delta1của MFCC 19 MFCC + 19 Delta1 19 Delta2 MFCC MFCC+Delta12 + lượng + Delta1 Delta2 lượng prm60 + F0 + cường độ + formant + dải thông + đặc trưng phổ prm79 + biến thể F0 Các đặc trưng phổ 19 MFCC + đặc trưng phổ 12 Số lượng tham số 19 38 57 60 79 87 28 Thử nghiệm MFCC+Delta1 +FeaSpec Thử nghiệm 10 MFCC+Delta12 +FeaSpec Thử nghiệm 11 Thử nghiệm 12 Thử nghiệm 13 MFCC+Delta12+ đặc trưng phổ prm60+F0+biến thể F0 prm79 + biến thể F0 19 MFCC + 19 Delta1 + đặc trưng phổ 19 MFCC + 19 Delta1 19 Delta2 MFCC + đặc trưng phổ 19 MFCC + 19 Delta1 19 Delta2 MFCC + đặc trưng phổ prm60 + F0 + biến thể F0 47 66 58 69 80 3.3.1 Thử nghiệm đến Thử nghiệm 3.3.1.1 Nhận dạng đối với tập ngữ liệu + Với tập ngữ liệu T1: Kết cho thấy, nhìn chung tỷ lệ nhận dạng tăng dần 𝑀 tăng lên Khi sử dụng prm87 để nhận dạng, tỷ lệ nhận dạng trung bình là 98,96% đạt cao so với năm trường hợp còn lại và nằm khoảng từ 97,53% - 99,97% + Với tập ngữ liệu T2: Khi sử dụng tham số prm87, tỷ lệ nhận dạng đạt cao so với tham số còn lại và nằm khoảng 93% - 99,11% Với tham số còn lại, tỷ lệ nhận dạng nằm khoảng từ 72,29% - 85,71% + Với tập ngữ liệu T3: Kết nhận dạng cho thấy, tham số prm87 cho tỷ lệ nhận dạng cao và trung bình là 85,44% Đặc biệt, thử nghiệm này, kết nhận dạng đạt tỷ lệ cao là 90,14% với 𝑀 = 16 còn thấp là 80,54% với 𝑀 = 256 + Với tập ngữ liệu T4: Với thử nghiệm với T4, tỷ lệ nhận dạng cho tham số prm87 cao hẳn so với tham số còn lại Khi 𝑀 = 1024, tỷ lệ này đạt cao là 94,22% còn tỷ lệ nhận dạng trung bình là 90,76% Các tham sớ còn lại có tỷ lệ nhận dạng thấp và khoảng từ 52,69% - 69,40% 3.3.1.2 Nhận dạng đối với cảm xúc + Với tập ngữ liệu T1: Cả bốn cảm xúc đạt tỷ lệ nhận dạng cao sử dụng tập tham số prm87 với tỷ lệ trung bình nhận dạng là 99,66%, 98,77%, 97,7%, 90,64% cho cảm xúc bình thường, tức, vui và buồn Khi sử dụng tập tham số prm87 𝑀 = 4096, tỷ lệ nhận nhầm cảm xúc là thấp + Với tập ngữ liệu T2: Tỷ lệ nhận dạng nhận sử dụng 13 prm87 lần là 98,82% (vui), 97,24% (bình thường), 94,97% (tức) 86,88% (buồn) Nếu dùng tham sớ prm87 và 𝑀 = 128 tỷ lệ nhận dạng nhầm lẫn cảm xúc thấp Tính trung bình, tỷ lệ nhận dạng cảm xúc 93% còn tỷ lệ nhận nhầm 0,42% + Với tập ngữ liệu T3: Tỷ lệ nhận dạng cao sử dụng tập tham số prm87 đối với cảm xúc vui 91,15%, tức là 91,98%, bình thường 95,52% buồn 68,13% Tỷ lệ nhận dạng nhầm lẫn từ cảm xúc bình thường sang cảm xúc buồn là 23,42% và tỷ lệ cao Tỷ lệ nhận dạng trung bình cảm xúc đới với T3 80,54% còn trung bình tỷ lệ nhận dạng nhầm lẫn 2,7% + Với tập ngữ liệu T4: , sử dụng tập tham số prm87, tỷ lệ nhận dạng cảm xúc tăng cao: vui (97,17%), tức (98,15%), bình thường (97,08%), trừ cảm xúc buồn giảm xuống (64,33%) so với ba cảm xúc còn lại Tỷ lệ nhận nhầm từ cảm xúc bình thường sang buồn là cao và 25,43% còn tỷ lệ nhận nhầm từ cảm xúc tức sang vui 1,14% Các cặp cảm xúc khác có tỷ lệ nhận nhầm 0% Tỷ lệ nhận dạng trung bình cảm xúc 84,42%, tỷ lệ nhận nhầm trung bình 2,21% 3.3.1.3 So sánh kết quả thử nghiệm Hình 3.12 Tỷ lệ nhận dạng đúng trung bình cảm xúc của thử nghiệm Tỷ lệ nhận dạng trung bình cảm xúc đối với T1 cao và 89,21%, tiếp đến là tập ngữ liệu T2 82,27%, với tập ngữ liệu T3 là 70,35% còn tập ngữ liệu T4 là 66,99% Điều này là phù hợp thử nghiệm với T1, giai đoạn huấn luyện và nhận dạng có chung 14 người nói, nội dung nói giớng khác thời điểm phát âm Vì vậy, tỷ lệ nhận dạng đạt cao Qua thử nghiệm thấy rằng, M tăng đủ lớn (khoảng 512), mơ hình GMM đạt tới mức xấp xỉ việc mơ hình hóa cảm xúc nên tỷ lệ nhận dạng trung bình tăng theo dạng bão hòa tăng M 3.3.2 Thử nghiệm đến Thử nghiệm 10 Các thử nghiệm phần này thực hiện với tập ngữ liệu T1 Các tập tham số bao gồm: FeaSpec, MFCC+FeaSpec, MFCC+Delta1+FeaSpec, MFCC+Delta12+FeaSpec Kết thử nghiệm này so sánh với kết thử nghiệm với tập tham số liên quan đến MFCC Hình 3.14 Tỷ lệ nhận dạng đúng trung bình cho tập tham số nêu với T1 Hình 3.14 thớng kê tỷ lệ nhận dạng trung bình cho thử nghiệm Tỷ lệ nhận dạng trung bình là thấp dùng đặc trưng phổ và 69,71% Tỷ lệ nhận dạng trung bình đạt cao 88,03% dùng MFCC+Delta1 Tỷ lệ nhận dạng trung bình đạt cao 88,03% dùng MFCC+Delta1 Nếu dùng MFCC+Delta12 tỷ lệ nhận dạng là 87,16% và tỷ lệ này tăng 0,71% có kết hợp với đặc trưng phổ FeaSpec Việc kết hợp với đặc trưng phổ làm tăng tỷ lệ nhận dạng trường hợp MFCC+FeaSpec và MFCC+Delta12+FeaSpec 3.3.3 Thử nghiệm 11 Kết đánh giá ảnh hưởng đặc trưng phổ kết hợp với MFCC+Delta1 tập ngữ liệu T1 trình bày Bảng 3.6 15 Bảng 3.6 Tỷ lệ nhận dạng trung bình của M kết hợp MFCC+Delta1 với đặc trưng phổ cho các cảm xúc đối với T1 Tỷ lệ (%) nhận dạng đúng cho cảm xúc Thứ Tham số tự Bình Vui B̀n Tức thường Harmonicity Center of gravity Standard deviation Skewness Kurtosis Central spectral moment Mean Slope Standard deviation of LTAS 88,41 88,78 88,73 89,14 88,80 88,44 89,17 88,74 88,48 90,43 90,76 90,26 91,49 91,12 90,99 91,10 91,06 90,46 89,41 89,31 90,30 90,82 90,37 89,70 89,11 88,87 90,13 85,20 85,09 85,86 85,13 86,26 84,89 84,67 85,53 85,65 3.3.4 Thử nghiệm 12 Trong phần này, luận án nghiên cứu và đánh giá việc nhận dạng cảm xúc sử dụng tập tham số prm60 kết hợp với tần số và biến thể Có trường hợp tiến hành bao gồm: dùng prm60, prm60+F0 prm60+F0+biến thể F0 Các trường hợp này thực hiện với bốn tập ngữ liệu T1, T2, T3 T4 + Kết thử nghiệm đối với T1: Kết nhận dạng sử dụng tham số pm60+F0+8 biến thể 𝐹0 cho tỷ lệ nhận dạng cao hẳn so với dùng prm60 prm60+F0, độ xác thử nghiệm dùng tham số này đạt trung bình từ 96,49% đến 99,93% Nếu dùng prm60+F0 tỷ lệ này tăng và gần xấp xỉ tỷ lệ prm60 + Kết thử nghiệm đối với T2: Tỷ lệ nhận dạng sử dụng 𝐹0 biến thể 𝐹0 cao hẳn so với dùng prm60, độ xác trung bình từ 91,83% - 98,82% Khi sử dụng prm60, tỷ lệ 72,86% - 81,36% + Kết thử nghiệm đối với T3: Kết nhận dạng đối với tập ngữ liệu T3 cho thấy, thêm 𝐹0 biến thể 𝐹0, tỷ lệ nhận dạng tăng lên đáng kể Tỷ lệ nhận dạng cao đạt 94,39% sử dụng prm60+F0 𝑀 = 16 + Kết thử nghiệm đối với T4: Thử nghiệm kết hợp prm60 với 𝐹0 biến thể 𝐹0 cho thấy, kết nhận dạng cao hẳn so với sử dụng prm60 Tỷ lệ nhận dạng cao đạt 94,95% đối với prm60+F0+biến thể F0 Nếu sử dụng prm60, tỷ lệ nhận dạng đạt từ 52,69% - 64,99% 16 3.3.5 Thử nghiệm 13 Thử nghiệm 13 sử dụng tập tham số gồm prm79 kết hợp với biến thể 𝐹0 nhằm xem xét ảnh hưởng biến thể với cảm xúc Có tập tham sớ đánh số từ S1 đến S8 với số lượng tương ứng tham sớ trình bày Bảng 3.8 Bộ tham số S1 Bảng 3.8 Tập tham số prm79 kết hợp với biến thể của F0 Các tham số đặc trưng Tên Số ứng với chỉ số tham số lượng Bảng 2.6 Prm79+dF0 80 prm79 + đạo hàm F0 S2 prm79+𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 S3 prm79+𝐹0𝑁𝑜𝑟𝑚𝑀𝑖𝑛𝑀𝑎𝑥 S4 prm79+𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟𝑆𝑡𝑑 S5 prm79+𝑑𝐿𝑜𝑔𝐹0 S6 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝑀𝑖𝑛𝑀𝑎𝑥 S7 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 S8 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟𝑆𝑡𝑑 prm79 + chuẩn hóa F0 theo giá trị trung bình F0 prm79 + chuẩn hóa F0 theo giá trị max F0 F0 prm79 + chuẩn hóa F0 theo giá trị trung bình độ lệch chuẩn F0 prm79 + đạo hàm logF0 prm79 + chuẩn hóa logF0 theo giá trị logF0 max logF0 prm79 + chuẩn hóa logF0 theo giá trị trung bình logF0 prm79 + chuẩn hóa logF0 theo trung bình và độ lệch chuẩn logF0 80 80 80 80 80 80 80 Bảng 3.9 Tỷ lệ (%) nhận dạng trung bình cảm xúc đới với tập ngữ sử dụng kết hợp prm79 với biến thể 𝐹0 Tập ngữ liệu prm79 S1 S2 S3 S4 S5 S6 S7 S8 T1 86,80 96,73 96,66 96,70 96,66 96,75 96,73 96,73 96,73 T2 81,18 94,50 93,92 94,21 94,46 94,41 94,45 94,07 94,42 T3 70,38 83,52 81,92 77,51 83,20 83,30 81,94 82,55 82,95 T4 65,39 88,25 88,37 88,11 88,20 88,07 88,79 88,31 88,22 Tập tham số 17 Kết thử nghiệm đối với cảm xúc cho tập ngữ liệu cho tỷ lệ nhận dạng cao thêm biến thể F0 vào tập prm79 so với dùng prm79 3.4 Đánh giá ảnh hưởng tần số Các nghiên cứu thử nghiệm trình bày mục 3.3 cho thấy tần sớ có tầm ảnh hưởng lớn đến kết nhận dạng cảm xúc tiếng Việt Khi tham số liên quan trực tiếp đến 𝐹0 thêm vào, tỷ lệ nhận dạng tăng đáng kể so với việc bổ sung tham số liên quan trực tiếp đến phổ Khi thêm biến thể 𝐹0 (từ prm79 lên prm87), tỷ lệ nhận dạng trung bình tăng mạnh đới với T4 24,32% Kết Thử nghiệm 12 cho thấy, tỷ lệ nhận dạng tăng lên nhiều đối với tập ngữ liệu sử dụng tập tham số prm60+F0+biến thể F0 so với sử dụng tập tham số prm60 Các kết nhận dạng đối với cảm xúc trình bày Thử nghiệm 13 cho kết nhận dạng tốt kết hợp tập tham số prm79 với biến thể 𝐹0 Luận án thử nghiệm nhận dạng sử dụng biến thể 𝐹0 79 tham số khác cho tập ngữ liệu từ T1 đến T4, với M=512 Với T1, biến thể 𝐹0 (18), (19), (20), (22) và (23) cho tỷ lệ nhận dạng tăng lên tối đa và đạt 100% Khi thêm biến thể 𝐹0 (23) T1, T3 T4 có tỷ lệ nhận dạng cao tỷ lệ 100%, 87,42% 93,46% 3.5 Quan hệ số thành phần Gauss tỷ lệ nhận dạng Các thử nghiệm nhận dạng cảm xúc với mơ hình GMM cho thấy, tỷ lệ nhận dạng thay đổi theo số thành phần Gauss sử dụng mơ hình Khi M tăng đủ lớn (khoảng 512), mơ hình GMM đạt tới mức xấp xỉ việc mơ hình hóa cảm xúc nên tỷ lệ nhận dạng trung bình tăng theo dạng bão hòa tăng M Việc xác định tối ưu thành phần Gauss 𝑀 quan trọng lại tốn khó [2] 𝑀 càng tăng thời gian tính tốn tăng theo Tùy tham số đưa vào nhận dạng mà giá trị tối ưu 𝑀 cần lựa chọn thích hợp theo thời gian tính tốn cần thiết và độ xác nhận dạng theo yêu cầu 3.6 Kết chương Chương luận án trình bày kết nghiên cứu nhận dạng cảm xúc tiếng Việt nói dựa mơ hình nhận dạng GMM với tham số đặc trưng khác GMM mơ hình thích hợp cho nhận dạng cảm xúc tiếng Việt Tỷ lệ nhận dạng với tập ngữ liệu cảm xúc tiếng Việt phụ thuộc người nói nội dung đạt tới 99,97% sử dụng tham số prm87, với 18 ngữ liệu độc lập người nói nội dung đạt 97,58% sử dụng tham số prm79 kết hợp với biến thể LogF0NormMinMax 𝐹0 Với kết nhận dạng phân tích và đánh giá chương này, luận án đề xuất mơ hình tớt để nhận dạng cảm xúc tiếng Việt với GMM cần phải kết hợp MFCC, đặc trưng phổ và đặc biệt tần số 𝐹0 biến thể 𝐹0 Chương NHẬN DẠNG CẢM XÚC TIẾNG VIỆT SỬ DỤNG MƠ HÌNH DCNN SÂU 4.1 Mơ hình mạng nơron lấy chập Mạng nơron lấy chập CNN giải thuật học sâu cho kết tốt hiện hầu hết toán thị giác máy phân lớp, nhận dạng Về CNN kiểu mạng ANN truyền thẳng, kiến trúc gồm nhiều thành phần ghép nối với theo cấu trúc nhiều tầng bao gồm: lấy chập (Convolution), lấy gộp (Pooling), kích hoạt phi tuyến (Non-linear activation) kết nối đầy đủ (Fully-connected) 4.1.1 Lấy chập Lấy chập thao tác quan trọng cấu trúc mạng học sâu CNN Đầu vào phép lấy chập mảng giá trị liệu Để thực hiện lấy chập, lọc (filter) gọi là kernel di chuyển qua vị trí tồn ma trận ảnh Thao tác lấy chập thực hiện vị trí mà lọc qua Ý nghĩa thao tác lấy chập xác định khả xuất hiện mẫu vị trí định ảnh Mỗi mẫu biểu diễn trọng số cửa sổ tương ứng với lọc Mỗi vị trí lọc tính giá trị theo công thức: 𝑦 = ∑ 𝑤𝑖 𝑥𝑖 + 𝑏 (4.1) 𝑖 Trong công thức (4.1), 𝑥𝑖 bao gồm điểm ảnh phổ nằm phạm vi cửa sổ quét, 𝑏 là hệ sớ độ lệch 4.1.2 Kích hoạt phi tuyến Sau lớp lấy chập, đầu ánh xạ lấy chập thường cho qua hàm kích hoạt phi tuyến để tăng tính phi tuyến mơ hình tồn mạng Một sớ hàm kích hoạt phi tuyến thường dùng ReLU (Rectified Linear Unit), ELU (Exponential Linear Unit) 4.1.3 Lấy gộp Tầng Pool (hay gọi subsampling downsampling) thành phần tính tốn cấu trúc CNN Xét mặt tốn 19 học, pooling thực chất q trình tính tốn ma trận đầu vào mục tiêu đạt sau tính tốn giảm kích thước ma trận làm bật lên đặc trưng có ma trận đầu vào Có nhiều tốn tử pooling sum-pooling, max-pooling, L2-pooling song max-pooling thường sử dụng 4.1.4 Kết nối đầy đủ Kết nối đầy đủ cách kết nối nơron hai tầng với tầng sau kết nới đầy đủ với nơron tầng trước Trong CNN, tầng này thường sử dụng tầng phía ći kiến trúc mạng kết nối với đầu mạng Lớp này lấy thơng tin đầu vào (có thể đầu lớp lấy chập kích hoạt phi tuyến lớp gộp) còn đầu là véctơ 𝑁 chiều với 𝑁 số lớp cần phân lớp 4.2 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt Tín hiệu tiếng nói biểu diễn hình ảnh phổ mel để làm ảnh đầu vào cho CNN Vì vậy, sử dụng mơ hình CNN để nhận dạng cảm xúc tiếng nói nói riêng cho xử lý tín hiệu tiếng nói nói chung Cấu hình đầy đủ mạng nơron DCNN sâu để huấn luyện mô tả Bảng 4.1 trường hợp mơ hình baseline với 260 tham số Bảng 4.1 Cấu trúc mạng DCNN cho nhận dạng cảm xúc tiếng Việt trường hợp 260 tham số 20 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt với trường hợp sử dụng tập 260 tham số trình bày Hình từ 4.8 Hình 4.8 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt với 260 tham sớ Đới với mơ hình có sớ lượng tham sớ lớn 260, cấu hình mạng dễ dàng suy diễn theo cách tương tự 4.3 Ngữ liệu và tham số dùng cho thử nghiệm Để thực hiện thử nghiệm với DCNN, bốn tập ngữ liệu T1, T2, T3 T4 Bảng 2.2 Chương phân chia theo tỷ lệ số file tiếng nói 2-1-1 tương ứng với huấn luyện - đánh giá - thử nghiệm Các tham số sử dụng nhận dạng cảm xúc với mơ hình DCNN thớng kê Bảng 4.6 Trong đó, thử nghiệm thực hiện đối với năm tập tham số bốn tập ngữ liệu Bảng 4.6 Năm tập tham số thử nghiệm nhận dạng với DCNN Tập tham số 260 Các tham số sử dụng 260 hệ số MFCC 21 Tập tham số 264 267 294 296 Các tham số sử dụng - 260 hệ số MFCC - Tần số 𝐹0 - biến thể 𝐹0: F0NormMinMax, logF0NormAver, logF0NormMinMax - 264 tham số - biến thể 𝐹0: F0NormAver, F0NormAverStd, logF0NormAverStd - 260 hệ số MFCC - Intensity, 𝐹0 - biến thể 𝐹0: F0NormAver, F0NormMinMax, F0NormAverStd, logF0NormMinMax, logF0NormAverStd - formant dải thông tương ứng - đặc trưng phổ: harmonicity, centre of gravity, central moment, skewness, kurtosis - 14 hệ số đáp ứng xung lọc đảo tuyến âm - 294 tham số - tham số liên quan đến 𝐹0: dF0, logF0NormAver 4.4 Thử nghiệm nhận dạng cảm xúc tiếng Việt mơ hình DCNN Trong thử nghiệm với tham số khác nhau, tỷ lệ nhận dạng đạt cao ứng với tập ngữ liệu T1, T2 sử dụng 296 tham số Đối với T3, tỷ lệ nhận dạng cao sử dụng 267 tham số, còn đối với T4 cao sử dụng 294 tham sớ Tỷ lệ nhận dạng trung bình tất thử nghiệm đối với tham số trình bày Hình 4.13 Hình 4.13 Kết nhận dạng với tập tham số cho tập ngữ liệu 22 Hình 4.14 cho thấy tỷ lệ nhận dạng trung bình tập ngữ liệu đạt cao sử dụng 296 tham số nhỏ sử dụng 260 tham số Như vậy, việc bổ sung đặc trưng lượng, phổ, tần số 𝐹0 biến thể 𝐹0, formant dải thông tương ứng tăng tỷ lệ nhận dạng Đặc biệt, ảnh hưởng hai tham số liên quan đến tần số 𝐹0 𝑑𝐹0 𝑙𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 sử dụng tham số 296 nâng tỷ lệ nhận dạng lên tốt (từ 87,26% lên 88,01%) Hình 4.14 Tỷ lệ nhận dạng trung bình của thử nghiệm với tập tham số Tỷ lệ nhận dạng trung bình tham sớ ứng với cảm xúc thớng kê Hình 4.16 Hình 4.16 Tỷ lệ nhận dạng đúng trung bình của cảm xúc đối với tập ngữ liệu 4.5 Kết chương Chương trình bày kết nhận dạng bớn cảm xúc sử dụng mơ hình DCNN Tính trung bình, độ xác nhận dạng tới đa đạt 23 97,86% đối với phụ thuộc vào nội dung phụ thuộc vào người nói Kết thử nghiệm cho thấy 𝐹0 biến thể góp phần đáng kể vào gia tăng độ xác nhận dạng cảm xúc tiếng Việt Đối với thử nghiệm sử dụng mô hình DCNN, cảm xúc buồn cho tỷ lệ cao cảm xúc lại KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Luận án thực hiện nghiên cứu cảm xúc khái quát nghiên cứu nhận dạng cảm xúc hiện giới và nước từ nghiên cứu đánh giá ngữ liệu, tham số đặc trưng, thử nghiệm với mơ hình nhận dạng và đưa mơ hình chung cho nhận dạng cảm xúc tiếng Việt Với mục tiêu đề ban đầu, luận án hoàn thành mục tiêu Đóng góp khoa học luận án: (1) Sử dụng phương pháp thích hợp để đánh giá ngữ liệu cảm xúc tiếng Việt từ đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm nhận dạng cảm xúc tiếng Việt nói (2) Nghiên cứu, khai thác và đề xuất mơ hình GMM, DCNN và tham số đặc trưng phù hợp cho nhận dạng cảm xúc tiếng Việt nói đồng thời đánh giá ảnh hưởng tham số đặc trưng đến kết nhận dạng cảm xúc tiếng Việt với bốn cảm xúc vui, buồn, tức và bình thường Định hướng phát triển Từ kết nghiên cứu thực hiện, luận án đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu hiện có: • Mở rộng nghiên cứu nhận dạng cho hình thái cảm xúc khác đới với tiếng Việt nói • Mở rộng nghiên cứu thử nghiệm nhận dạng với mơ hình mạng nơron điều chỉnh cấu hình mạng, tham sớ đầu vào, sớ lượng tham sớ • Nghiên cứu thử nghiệm với mơ hình nhận dạng khác • Tiếp cận hướng nghiên cứu nhằm đảm bảo độ xác nhận dạng ngữ liệu môi trường thực không hoàn toàn ngữ liệu huấn luyện • Kết hợp việc nhận dạng cảm xúc tiếng Việt nói với nhận dạng tiếng Việt nói để góp phần hướng tới xây dựng hệ thống tương tác người-máy hoạt động hoàn thiện hiệu 24 ... án nhận dạng cảm xúc cho tiếng Việt nói theo phương diện xử lý tín hiệu tiếng nói Từ kết nhận dạng cảm xúc, xây dựng mơ hình nhận dạng cảm xúc cho tiếng Việt nói Các hình thái cảm xúc đa dạng. .. Chương 1: Tổng quan cảm xúc nhận dạng cảm xúc tiếng nói Chương này trình bày nghiên cứu cảm xúc, phân loại cảm xúc cảm xúc Đồng thời, nghiên cứu nhận dạng cảm xúc tiếng nói và ngoài nước,... quan cảm xúc và nhận dạng cảm xúc tiếng nói • Nghiên cứu sớ mơ hình nhận dạng dùng cho nhận dạng cảm xúc tiếng nói mơ hình GMM, ANN, … • Phân tích đánh giá và đề xuất ngữ liệu cảm xúc tiếng

Ngày đăng: 23/09/2019, 18:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan