Nhận dạng cảm xúc cho tiếng Việt nói tt

MỞ ĐẦU Lý chọn đề tài Ngày nay, có thay đổi lớn cách thức người trao đổi thông tin với hệ thống Sự thay đổi biểu hiện chỗ, cách thức trao đổi thơng tin định dạng có cấu trúc chặt chẽ chuyển sang cách thức linh hoạt tự nhiên Trong đó, tiếng nói cách thức trao đổi thông tin tự nhiên nhất, cho phép tương tác người với hệ thống nhanh dễ dàng Đới thoại dùng ngơn ngữ nói không đơn giản, thuận tiện tiết kiệm thời gian mà góp phần đảm bảo khía cạnh an tồn mơi trường có tính rủi ro Để thiết lập hệ thớng tương tác có tính linh hoạt cao, kiến trúc hệ thống đối thoại người - máy cần trang bị thêm chức Các chức này bao gồm nhận dạng cảm xúc tiếng nói, phát hiện tham biến dựa tình h́ng trạng thái người dùng quản lý tình h́ng để đưa mơ hình dựa tham biến phát hiện làm cho q trình đới thoại phù hợp Chính vậy, nhiều năm qua, nghiên cứu cảm xúc tiếng nói thu hút mới quan tâm mạnh mẽ lĩnh vực tương tác người - máy mong ḿn tìm cách làm tích hợp trạng thái cảm xúc người nói vào hệ thống đối thoại người - máy dùng tiếng nói Trên giới có nhiều nghiên cứu cảm xúc nhận dạng cảm xúc tiếng nói với ngôn ngữ khác kết ứng dụng thực tế nhiều khó khăn cảm xúc thể hiện đa dạng người Do đó, việc phát hiện xác cảm xúc phải tiếp tục nghiên cứu Riêng nhận dạng cảm xúc cho tiếng Việt nói, cơng trình nghiên cứu, có nghiên cứu đạt thành công định để triển khai thành sản phẩm ứng dụng thực tế nhiều mặt hạn chế, đặc biệt là độ xác, chất lượng nhận dạng Chính vậy, cần thiết phải nghiên cứu nhận dạng cảm xúc cho tiếng Việt nói để tăng cường hiệu ứng dụng cho hệ thống tương tác dùng tiếng Việt nói Từ lý nêu trên, tác giả lựa chọn đề tài nghiên cứu “Nhận dạng cảm xúc cho tiếng Việt nói” nhằm nghiên cứu sâu vấn đề xử lý nhận dạng cảm xúc, đặc biệt đới với tiếng Việt nói để tìm tham sớ mơ hình nhận dạng cảm xúc phù hợp cho tiếng Việt, góp phần phát triển ứng dụng công nghệ thông tin cho người Việt sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt nói giao tiếp và tương tác người-máy Mục tiêu nghiên cứu luận án Với tính thiết thực cảm xúc tiếng nói áp dụng thực tế quan tâm, mục tiêu đề tài nghiên cứu nhận dạng cảm xúc cho tiếng Việt nói dựa phương diện xử lý tín hiệu tiếng nói Đề tài nghiên cứu thử nghiệm và đề xuất mô hình nhận dạng cảm xúc cho tiếng Việt nói dựa việc nghiên cứu đánh giá tham số và so sánh sớ mơ hình nhận dạng Bớn cảm xúc nghiên cứu bao gồm cảm xúc: vui, buồn, tức và bình thường Ngữ liệu tiếng Việt dùng cho nhận dạng giọng phổ thông miền Bắc có giọng nam giọng nữ Nhiệm vụ nghiên cứu luận án Để đạt mục tiêu đề ra, luận án cần thực hiện nhiệm vụ sau: • Nghiên cứu tổng quan cảm xúc và nhận dạng cảm xúc tiếng nói • Nghiên cứu sớ mơ hình nhận dạng dùng cho nhận dạng cảm xúc tiếng nói mơ hình GMM, ANN, … • Phân tích đánh giá và đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho nhận dạng bốn cảm xúc vui, buồn, tức và bình thường • Nghiên cứu đề xuất và phân tích ảnh hưởng tham sớ đặc trưng tín hiệu tiếng nói đến cảm xúc tiếng Việt • Thử nghiệm nhận dạng cảm xúc tiếng Việt dựa mơ hình nghiên cứu có tính đến đặc trưng tiếng Việt nói • Phân tích đánh giá kết nhận dạng cảm xúc mơ hình dựa kết thử nghiệm Đối tượng phạm vi nghiên cứu luận án Đối tượng nghiên cứu luận án nhận dạng cảm xúc cho tiếng Việt nói theo phương diện xử lý tín hiệu tiếng nói Từ kết nhận dạng cảm xúc, xây dựng mơ hình nhận dạng cảm xúc cho tiếng Việt nói Các hình thái cảm xúc đa dạng và vùng miền khác ngơn điệu đối với biểu hiện cảm xúc khác Trong khn khổ có hạn, luận án tập trung thực hiện nghiên cứu nhận dạng cảm xúc bản: vui, buồn, tức bình thường với giọng phổ thơng miền Bắc gồm giọng nam nữ Nghiên cứu luận án nhằm nhận dạng cảm xúc qua diễn đạt câu nói mà tín hiệu tiếng nói thu thập tương ứng và không xét đến từ biểu lộ cảm xúc, biểu lộ cảm xúc qua khuôn mặt chưa thể xét đến suy nghĩ thực tế não người liên quan đến cảm xúc Ý nghĩa khoa học thực tiễn luận án Về mặt lý thuyết, luận án góp phần làm sáng tỏ mơ hình nhận dạng tiếng nói nhận dạng cảm xúc đới với tiếng Việt nói, đánh giá kết thử nghiệm với mơ hình nhận dạng cảm xúc tiếng Việt nói tạo tiền đề cho nghiên cứu cảm xúc tiếng Việt Về mặt thực tiễn, kết nghiên cứu luận án ứng dụng đa dạng lĩnh vực khoa học, công nghệ, đặc biệt lĩnh vực tương tác người-hệ thớng sử dụng tiếng nói với việc tổng hợp nhận dạng tiếng Việt có cảm xúc Phương pháp nghiên cứu Phương pháp nghiên cứu thực hiện luận án nghiên cứu lý thuyết kết hợp với thực nghiệm Về mặt lý thuyết, luận án tìm hiểu tổng quan cảm xúc tiếng nói, phương pháp nhận dạng cảm xúc, tham số đặc trưng tín hiệu tiếng nói có ảnh hưởng đến cảm xúc xét theo phương diện tín hiệu tiếng nói đồng thời trình bày sớ mơ hình nhận dạng cảm xúc tiếng nói tổng hợp từ tài liệu, báo khoa học Về mặt thực nghiệm, lựa chọn và đánh giá ngữ liệu cảm xúc tiếng Việt, sử dụng cơng cụ để tính tốn, phân tích, thớng kê và đánh giá tham sớ đặc trưng, tiến hành nghiên cứu thực hiện thử nghiệm nhận dạng cảm xúc dựa mơ hình nhận dạng cảm xúc cho ngữ liệu tiếng Việt với bớn cảm xúc vui, buồn, tức, bình thường từ đánh giá kết đạt để xác nhận giá trị mơ hình tham sớ sử dụng Kết mới luận án Kết nghiên cứu luận án tóm tắt tập trung vào điểm sau: • Sử dụng phương pháp thích hợp để đánh giá ngữ liệu cảm xúc tiếng Việt từ đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm nhận dạng cảm xúc tiếng Việt nói • Nghiên cứu, khai thác và đề xuất mô hình GMM, DCNN và tham sớ đặc trưng phù hợp cho nhận dạng cảm xúc tiếng Việt nói đồng thời đánh giá ảnh hưởng tham số đặc trưng đến kết nhận dạng cảm xúc tiếng Việt với bớn cảm xúc vui, buồn, tức và bình thường Cấu trúc luận án Luận án trình bày chương với nội dung tóm tắt sau: Chương 1: Tổng quan cảm xúc nhận dạng cảm xúc tiếng nói Chương này trình bày nghiên cứu cảm xúc, phân loại cảm xúc cảm xúc Đồng thời, nghiên cứu nhận dạng cảm xúc tiếng nói và ngoài nước, mơ hình thực hiện để nhận dạng cảm xúc tiếng nói nêu rõ Chương 2: Ngữ liệu cảm xúc và tham số đặc trưng cho cảm xúc tiếng Việt nói Nội dung chương trình bày phương pháp xây dựng ngữ liệu cảm xúc nói chung, ngữ liệu cảm xúc có sẵn với ngơn ngữ khác Chương này tập trung vào việc lựa chọn đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm luận án, đề xuất và đánh giá tham sớ đặc trưng tín hiệu tiếng nói ảnh hưởng đến cảm xúc Phần cuối chương đánh giá ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm dựa số phân lớp LDA, IBk, SVM, Tree-J48 Chương 3: Nhận dạng cảm xúc tiếng Việt nói với mơ hình GMM Các kết nhận dạng cảm xúc tiếng Việt với mơ hình GMM thử nghiệm chi tiết với nhiều tham số khác Các tham số dùng cho thử nghiệm bao gồm tham số đặc trưng MFCC, lượng, đặc trưng phổ, tần số F0 biến thể Từ kết này, luận án đưa nhận xét, đánh giá và đề xuất tham sớ để nhận dạng cảm xúc cho tiếng Việt nói sử dụng mơ hình GMM Chương 4: Nhận dạng cảm xúc tiếng Việt nói sử dụng mơ hình DCNN Chương này trình bày nghiên cứu mạng nơron lấy chập CNN, nghiên cứu và đề xuất mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt Các tham số sử dụng bao gồm đặc trưng phổ mel, tham số liên quan đến tuyến âm và tham số liên quan đến nguồn âm tần số Kết thử nghiệm nhận dạng cảm xúc với mơ hình này thớng kê chi tiết với tập ngữ liệu cảm xúc tiếng Việt và tham số sử dụng Cuối cùng, phần Kết luận tổng hợp kết nghiên cứu đạt được, đóng góp và hướng mở rộng nghiên cứu phát triển luận án Chương TỔNG QUAN VỀ CẢM XÚC VÀ NHẬN DẠNG CẢM XÚC TIẾNG NÓI 1.1 Cảm xúc tiếng nói và phân loại cảm xúc Phần này luận án trình bày cảm xúc tiếng nói và phân loại cảm xúc Đã có nghiên cứu đưa 300 trạng thái cho cảm xúc khác Tuy nhiên, khơng phải tồn cảm xúc trải nghiệm đời sớng hàng ngày Về mặt này, hầu hết nhà nghiên cứu đồng ý với lý thuyết Palette cho rằng, cảm xúc nào cấu thành từ sáu loại cảm xúc giống màu sắc tổ hợp màu [6] Các nhà nghiên cứu cho cảm xúc giận dữ, ghê tởm, sợ hãi, vui, buồn ngạc nhiên coi cảm xúc yếu hiển nhiên [7] Đây gọi cảm xúc nguyên mẫu [8] 1.2 Nghiên cứu về nhận dạng cảm xúc • Những kết nghiên cứu nhận dạng cảm xúc tập trung vào số ngôn ngữ thơng dụng giới • Có nhiều phân lớp sử dụng khó đánh giá phân lớp tớt • Các nghiên cứu cảm xúc tiếng Việt theo phương diện xử lý tín hiệu thực hiện 1.3 Sơ đồ chung cho hệ thống nhận dạng cảm xúc tiếng nói Các hệ thớng nhận dạng cảm xúc tiếng nói thường gồm giai đoạn: Giai đoạn 1: Xử lý tín hiệu vào để trích rút đặc trưng Giai đoạn 2: Phân lớp dựa mơ hình nhận dạng TÍN HIỆU VÀO Các mẫu tín hiệu tiếng nói TRÍCH RÚT ĐẶC TRƯNG  Cao độ  Năng lượng  Tần số formant  …      PHÂN LỚP HMM GMM ANN SVM … KẾT QUẢ NHẬN DẠNG Dựa kết phân lớp Giai đoạn Giai đoạn Giai đoạn Hình 1.2 Sơ đồ chung cho hệ thống nhận dạng cảm xúc tiếng nói Trên thực tế, phần lớn nghiên cứu hiện nhận dạng cảm xúc tập trung vào giai đoạn giai đoạn kết nối kết nhận dạng kỹ thuật phân lớp Luận án tập trung vào phân lớp thớng kê phân lớp này dùng rộng rãi bối cảnh nhận dạng cảm xúc tiếng nói 1.4 Một số phân lớp thường dùng cho nhận dạng cảm xúc 1.4.1 Bộ phân lớp phân tích phân biệt tuyến tính LDA 1.4.2 Bộ phân lớp phân tích khác biệt toàn phương QDA 1.4.3 Bộ phân lớp k láng giềng gần nhất k-NN 1.4.4 Bộ phân lớp hỗ trợ véctơ SVC 1.4.6 Bộ phân lớp HMM 1.4.7 Bộ phân lớp GMM [64] 1.4.8 Bộ phân lớp ANN 1.5 Một số kết nhận dạng cảm xúc thực ngoài nước Mục 1.5 trình bày sớ kết nghiên cứu nhận dạng cảm xúc và ngoài nước Hiện có nhiều kết nghiên cứu nhận dạng cảm xúc với ngơn ngữ và mơ hình nhận dạng tham số khác Tuy nhiên, với tiếng Việt còn cơng trình nghiên cứu nhận dạng cảm xúc tiếng Việt dựa phương diện xử lý tín hiệu tiếng nói Một sớ nghiên cứu chủ yếu tập trung dựa vào ngôn ngữ kết hợp đa thể thức 1.6 Kết chương Chương trình bày tổng quan nghiên cứu phân loại cảm xúc số nghiên cứu nhận dạng cảm xúc tiến hành nước Các kỹ thuật nhận dạng liên tục cải tiến nhằm cải thiện độ xác nhận dạng và là thách thức đối với nhà nghiên cứu Các kết cho thấy, đối với tiếng Việt chưa có nhiều nghiên cứu cơng bớ, cần có nghiên cứu nhận dạng cảm xúc tiếng Việt nói để góp phần cải thiện ứng dụng cho tiếng Việt có liên quan đến xử lý tiếng nói Chương NGỮ LIỆU CẢM XÚC VÀ CÁC THAM SỐ ĐẶC TRƯNG CHO CẢM XÚC TIẾNG VIỆT NÓI 2.1 Phương pháp xây dựng ngữ liệu cảm xúc Ngữ liệu tiếng nói xây dựng dùng cho phát triển hệ thớng tiếng nói có cảm xúc chia thành ba loại: • Ngữ liệu tiếng nói có cảm xúc xây dựng dựa đóng kịch • Ngữ liệu tiếng nói có cảm xúc xây dựng dựa suy diễn • Ngữ liệu tiếng nói xây dựng dựa cảm xúc tự nhiên Để xây dựng ngữ liệu cảm xúc thực hiện theo phương pháp như: ghi âm trực tiếp đối thoại tự nhiên, xây dựng kịch cho đối thoại nhân vật tùy biến cảm xúc theo tình h́ng, ghi âm trực tiếp giọng nghệ sĩ diễn đạt nội dung theo yêu cầu biểu đạt cảm xúc cho trước 2.2 Một số ngữ liệu cảm xúc có giới Trong luận án thống kê 14 ngữ liệu hiện có giới Hầu hết ngữ liệu khơng phổ biến rộng rãi nên khó lấy để dùng chung cho nghiên cứu Nhìn chung, sớ lượng giọng nói nội dung nói chưa nhiều, số lượng phát ngôn cho cảm xúc khơng Vì vậy, nhà nghiên cứu khó so sánh kết q trình đánh giá thử nghiệm 2.3 Ngữ liệu cảm xúc tiếng Việt Bộ ngữ liệu cảm xúc tiếng Việt dùng cho nghiên cứu luận án lựa chọn từ ngữ liệu BKEmo [128] Bộ ngữ liệu sử dụng để nhận dạng luận án là ngữ liệu chọn từ ngữ liệu cảm xúc tiếng Việt BKEmo gồm 5584 file Trong đó, sớ lượng file cảm xúc giọng nam và nữ là 2792 file Mỗi cảm xúc có 1396 file Bộ ngữ liệu dùng để thử nghiệm nhận dạng cảm xúc tiếng Việt luận án chia thành bốn tập ngữ liệu (Bảng 2.2) Bảng 2.2 Ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm Tập ngữ liệu Ngữ liệu thử nghiệm Tổng số file Số file huấn luyện Số file thử nghiệm Test1 Phụ thuộc người nói và nội dung 5584 2792 2792 Test2 Test3 Test4 Phụ thuộc người nói, độc lập nội dung Độc lập người nói, phụ thuộc nội dung Độc lập người nói và nội dung 5584 5584 2803 2793 2794 1403 2791 2790 1400 Bốn tập ngữ liệu dùng ký hiệu sau: Test1 ký hiệu T1, Test2 ký hiệu T2, Test3 ký hiệu T3, Test4 ký hiệu T4 2.4 Tham số đặc trưng tín hiệu tiếng nói dùng cho nhận dạng cảm xúc 2.4.1 Đặc trưng nguồn âm tuyến âm Là đặc trưng trích rút từ nguồn âm và tuyến âm hệ sớ cepstrum tiên đốn tuyến tính (LPCC), hệ số cepstrum theo thang tần số mel (MFCC), hệ sớ tiên đốn tuyến tính cảm thụ (PLPC), formant, … 2.4.2 Đặc trưng ngôn điệu Các đặc trưng tiếng nói trích chọn từ đoạn tín hiệu tiếng nói dài âm tiết, từ và câu là đặc trưng ngơn điệu Bao gồm chu kỳ bản, thời hạn, lượng, cao độ, tớc độ nói,… dẫn xuất tương ứng chúng cực đại, cực tiểu, trung bình, phương sai, phạm vi giá trị và độ lệch chuẩn 2.5 Tham số đặc trưng dùng cho nhận dạng cảm xúc tiếng Việt 2.5.1 Các hệ số MFCC 2.5.2 Năng lượng tiếng nói 2.5.3 Cường độ tiếng nói 2.5.4 Tần số F0 biến thể F0 Tiếng Việt ngơn ngữ có điệu, điệu tiếng Việt nói thể hiện qua qui luật biến thiên tần sớ 𝐹0 Vì vậy, đặc trưng tần số 𝐹0 biến thể 𝐹0 tham sớ hữu ích cho nhận dạng cảm xúc tiếng Việt Bao gồm: Đạo hàm 𝐹0, chuẩn hóa 𝐹0 theo giá trị trung bình 𝐹0, chuẩn hóa 𝐹0 theo giá trị 𝐹0 max 𝐹0, chuẩn hóa 𝐹0 theo trung bình và độ lệch chuẩn 𝐹0, đạo hàm 𝐿𝑜𝑔𝐹0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo giá trị 𝐿𝑜𝑔𝐹0 max 𝐿𝑜𝑔𝐹0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo trung bình LogF0, chuẩn hóa 𝐿𝑜𝑔𝐹0 theo trung bình và độ lệch chuẩn 𝐿𝑜𝑔𝐹0 2.5.5 Các formant dải thông tương ứng 2.5.6 Các đặc trưng phổ Bảng 2.6 thống kê tham số đặc trưng sử dụng cho thử nghiệm nhận dạng bớn cảm xúc vui, buồn, tức, bình thường nghiên cứu luận án Bảng 2.6 Các tham số đặc trưng dùng cho nhận dạng cảm xúc tiếng Việt Chỉ số Tham số đặc trưng (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) Các hệ số MFCC Đạo hàm bậc nhất MFCC Đạo hàm bậc hai MFCC Năng lượng, đạo hàm bậc nhất, bậc hai của lượng Tần số F0 Cường độ tiếng nói Các formant dải thông tương ứng Các thành phần hài Trọng tâm phổ Mômen trung tâm Skewness Kurtosis Độ lệch chuẩn tần số Giá trị trung bình của phổ Độ dốc và độ lệch chuẩn của phổ trung bình dài hạn LTAS (Long Term Average Spectrum) dF0 F0NormAver F0NormMinMax F0NormAverStd dLogF0 LogF0NormMinMax LogF0NormAver LogF0NormAverStd (15) (16) (17) (18) (19) (20) (21) (22) (23) Số lượng 19 19 19 1 1 1 1 1 1 1 1 2.6 Phân tích ảnh hưởng số tham số đến khả phân biệt cảm xúc ngữ liệu cảm xúc tiếng Việt 2.6.1 Phân tích phương sai ANOVA và kiểm định T 2.6.2 Ảnh hưởng tham số đặc trưng đến phân biệt cảm xúc Kết phân tích ANOVA và kiểm định T cho thấy phân biệt bốn cảm xúc với dựa tham số đặc trưng tần số, cường độ, formant và dải thông tương ứng, đặc trưng phổ 2.7 Đánh giá phân lớp ngữ liệu cảm xúc tiếng Việt 2.7.1 Kết phân lớp với LDA Kết phân lớp phương pháp LDA Hình 2.5 cho thấy, cảm xúc vui, buồn, tức, bình thường phân lớp tương đối rõ ràng cho giọng nam giọng nữ Trong cảm xúc, cảm xúc bình thường phân biệt rõ so với cảm xúc lại Hình 2.5 Kết phân lớp cảm xúc giọng nam và nữ LDA Hình 2.6 là kết phân lớp cảm xúc cho giọng nam và nữ Cả bốn cảm xúc quan sát phân biệt rõ ràng, việc phân cụm cảm xúc ngữ liệu tớt cảm xúc bình thường phân lớp tách biệt so với cảm xúc còn lại Hình 2.6 Kết phân lớp cảm xúc giọng nam nữ LDA 2.7.2 Thử nghiệm nhận dạng cảm xúc tiếng Việt dựa phân lớp IBk, SMO Trees J48 2.7.2.1 Công cụ, ngữ liệu và tham số sử dụng Phần này sử dụng phân lớp IBk, Trees J48, SMO thuộc công cụ Weka để nhận dạng cảm xúc Ngữ liệu dùng cho thử nghiệm là tập ngữ liệu T1 trình bày Chương Tham sớ trích chọn gồm 384 tham sớ công cụ OpenSmile 2.7.2.2 Kết thử nghiệm Kết thử nghiệm nhận dạng công cụ Weka với phân lớp cho thấy ngữ liệu cảm xúc tiếng Việt đề xuất có chất lượng đảm bảo để thực hiện thử nghiệm nhận dạng cảm xúc luận án Bộ phân lớp IBk SMO Trees J48 Bảng 2.9 Tỷ lệ (%) nhận dạng cảm xúc với 384 tham sớ Cảm xúc Bình Tức Vui Buồn Cảm xúc thường Tức 99,07 0,64 0,14 0,14 Vui 0,93 98,85 0,07 0,14 Bình thường 0 97,92 2,08 Buồn 0,07 3,08 96,85 Tức 96,06 3,65 0,29 Vui 2,94 96,13 0,93 Bình thường 0,29 0,57 93,12 6,02 Buồn 0,21 0,79 5,37 93,62 Tức 77,65 16,12 4,44 1,79 Vui 15,47 79,01 3,87 1,65 Bình thường 4,37 4,15 80,8 10,67 Buồn 1,36 1,79 11,75 85,1 Trung bình 98,17 94,73 80,64 Bảng 2.10 Tỷ lệ (%) nhận dạng cảm xúc dùng 228 tham số liên quan đến MFCC Bộ phân lớp IBk SMO Trees J48 Cảm xúc Cảm xúc Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn 98,28 0,93 0 93,34 5,23 0,36 0,14 77,36 16,48 3,65 1,5 1,29 98,93 0 5,80 93,34 0,86 1,72 17,62 77,29 2,58 2,22 0,29 0,07 98,85 2,51 0,72 1,36 92,34 6,09 3,65 3,94 80,30 13,97 0,14 0,07 1,15 97,49 0,14 0,07 6,45 92,05 1,36 2,29 13,47 82,31 Trung bình 98,17 94,73 80,64 Bảng 2.11 Tỷ lệ (%) nhận dạng cảm xúc dùng 48 tham số liên quan đến F0 và lượng Bộ phân lớp IBk Cảm xúc Cảm xúc Tức Vui Tức Vui Bình thường Buồn 84,96 9,96 10,32 84,1 3,22 4,51 1,50 1,43 10 Trung bình 82,59 SMO Trees J48 Bình thường Buồn Tức Vui Bình thường Buồn Tức Vui Bình thường Buồn 2,15 1,50 81,95 13,04 2,22 1,00 77,65 16,26 5,52 1,22 3,58 0,93 12,75 79,01 7,09 2,36 15,62 75,36 6,59 2,36 78,3 14,54 3,80 7,16 64,68 11,17 5,01 7,09 69,41 17,84 15,97 83,02 1,50 0,79 26 85,46 1,72 1,29 18,48 78,58 77,73 75,25 2.8 Kết chương Chương trình bày phương pháp xây dựng ngữ liệu tiếng nói có cảm xúc để thực hiện nghiên cứu nhận dạng cảm xúc và cách lựa chọn, phân tích đánh giá ngữ liệu cảm xúc tiếng Việt Bộ ngữ liệu này nghe và đánh giá mức độ phân lớp phương pháp LDA, đánh giá tỷ lệ nhận dạng mơ hình SMO, IBk, Trees J48 công cụ Weka Kết cho thấy ngữ liệu có phân lớp rõ ràng cảm xúc với và đáng tin cậy để thực hiện thử nghiệm nhận cảm xúc đối với tiếng Việt Kết phân tích phương sai ANOVA kiểm định T cho thấy tham số liên quan đến tần số 𝐹0, lượng và đặc trưng phổ tín hiệu tiếng nói có ảnh hưởng đến phân biệt cảm xúc vui, buồn, tức và bình thường Những kết này là sở để tiến hành nghiên cứu thử nghiệm mơ hình nhận dạng cảm xúc cho tiếng Việt nói trình bày chương luận án dựa ngữ liệu tham số đánh giá Chương Chương NHẬN DẠNG CẢM XÚC TIẾNG VIỆT NĨI VỚI MƠ HÌNH GMM 3.1 Mơ hình GMM cho nhận dạng cảm xúc GMM thích hợp cho nhận dạng cảm xúc tiếng nói có đặc trưng tổng quan trích rút từ tiếng nói dùng cho huấn luyện Trên thực tế, GMM dùng phổ biến cho trường hợp định danh người nói, định danh ngơn ngữ, định danh phương ngữ, phân lớp thể loại âm nhạc Trong trường hợp nhận dạng cảm xúc, cảm xúc mơ hình hóa mơ hình GMM tham số xác định thông qua việc huấn luyện tập mẫu học 11 Huấn luyện Dữ liệu tiếng nói cảm xúc Trích chọn đặc trưng và chuẩn hóa đặc trưng Mơ hình UBM Mơ hình cho cảm xúc Nhận dạng Kết nhận dạng Hình 3.1 Sơ đờ mơ hình GMM tởng qt cho nhận dạng cảm xúc 3.2 Công cụ, tham số ngữ liệu sử dụng Bộ công cụ Alize sử dụng để đánh giá mơ hình GMM và thực hiện nhận dạng cảm xúc Matlab ngơn ngữ lập trình trung gian dùng để kết nới, phới hợp, tính tốn thiết lập cấu hình tương ứng Vì việc nhận dạng cảm xúc tiếng Việt nghiên cứu luận án thực hiện hoàn toàn tự động Ngữ liệu dùng cho thử nghiệm mục 3.3 sau gồm tập ngữ liệu T1, T2, T3 T4 trình bày Bảng 2.2 Chương Tham số sử dụng phần thử nghiệm này gồm tham sớ trình bày chi tiết mục 2.5 Chương Mỗi thử nghiệm thực hiện với số thành phần Gauss M tăng từ 16 đến 8192 theo lũy thừa 3.3 Các thử nghiệm nhận dạng Luận án tiến hành 13 thử nghiệm nhận dạng với mơ hình GMM Bảng 3.1 Các thử nghiệm nhận dạng cảm xúc với GMM Các thử nghiệm Tập tham số Thử nghiệm MFCC Thử nghiệm MFCC+Delta1 Thử nghiệm MFCC+Delta12 Thử nghiệm prm60 Thử nghiệm prm79 Thử nghiệm Thử nghiệm Thử nghiệm prm87 FeaSpec MFCC+FeaSpec Ghi 19 MFCC 19 MFCC + 19 Delta1của MFCC 19 MFCC + 19 Delta1 19 Delta2 MFCC MFCC+Delta12 + lượng + Delta1 Delta2 lượng prm60 + F0 + cường độ + formant + dải thông + đặc trưng phổ prm79 + biến thể F0 Các đặc trưng phổ 19 MFCC + đặc trưng phổ 12 Số lượng tham số 19 38 57 60 79 87 28 Thử nghiệm MFCC+Delta1 +FeaSpec Thử nghiệm 10 MFCC+Delta12 +FeaSpec Thử nghiệm 11 Thử nghiệm 12 Thử nghiệm 13 MFCC+Delta12+ đặc trưng phổ prm60+F0+biến thể F0 prm79 + biến thể F0 19 MFCC + 19 Delta1 + đặc trưng phổ 19 MFCC + 19 Delta1 19 Delta2 MFCC + đặc trưng phổ 19 MFCC + 19 Delta1 19 Delta2 MFCC + đặc trưng phổ prm60 + F0 + biến thể F0 47 66 58 69 80 3.3.1 Thử nghiệm đến Thử nghiệm 3.3.1.1 Nhận dạng đối với tập ngữ liệu + Với tập ngữ liệu T1: Kết cho thấy, nhìn chung tỷ lệ nhận dạng tăng dần 𝑀 tăng lên Khi sử dụng prm87 để nhận dạng, tỷ lệ nhận dạng trung bình là 98,96% đạt cao so với năm trường hợp còn lại và nằm khoảng từ 97,53% - 99,97% + Với tập ngữ liệu T2: Khi sử dụng tham số prm87, tỷ lệ nhận dạng đạt cao so với tham số còn lại và nằm khoảng 93% - 99,11% Với tham số còn lại, tỷ lệ nhận dạng nằm khoảng từ 72,29% - 85,71% + Với tập ngữ liệu T3: Kết nhận dạng cho thấy, tham số prm87 cho tỷ lệ nhận dạng cao và trung bình là 85,44% Đặc biệt, thử nghiệm này, kết nhận dạng đạt tỷ lệ cao là 90,14% với 𝑀 = 16 còn thấp là 80,54% với 𝑀 = 256 + Với tập ngữ liệu T4: Với thử nghiệm với T4, tỷ lệ nhận dạng cho tham số prm87 cao hẳn so với tham số còn lại Khi 𝑀 = 1024, tỷ lệ này đạt cao là 94,22% còn tỷ lệ nhận dạng trung bình là 90,76% Các tham sớ còn lại có tỷ lệ nhận dạng thấp và khoảng từ 52,69% - 69,40% 3.3.1.2 Nhận dạng đối với cảm xúc + Với tập ngữ liệu T1: Cả bốn cảm xúc đạt tỷ lệ nhận dạng cao sử dụng tập tham số prm87 với tỷ lệ trung bình nhận dạng là 99,66%, 98,77%, 97,7%, 90,64% cho cảm xúc bình thường, tức, vui và buồn Khi sử dụng tập tham số prm87 𝑀 = 4096, tỷ lệ nhận nhầm cảm xúc là thấp + Với tập ngữ liệu T2: Tỷ lệ nhận dạng nhận sử dụng 13 prm87 lần là 98,82% (vui), 97,24% (bình thường), 94,97% (tức) 86,88% (buồn) Nếu dùng tham sớ prm87 và 𝑀 = 128 tỷ lệ nhận dạng nhầm lẫn cảm xúc thấp Tính trung bình, tỷ lệ nhận dạng cảm xúc 93% còn tỷ lệ nhận nhầm 0,42% + Với tập ngữ liệu T3: Tỷ lệ nhận dạng cao sử dụng tập tham số prm87 đối với cảm xúc vui 91,15%, tức là 91,98%, bình thường 95,52% buồn 68,13% Tỷ lệ nhận dạng nhầm lẫn từ cảm xúc bình thường sang cảm xúc buồn là 23,42% và tỷ lệ cao Tỷ lệ nhận dạng trung bình cảm xúc đới với T3 80,54% còn trung bình tỷ lệ nhận dạng nhầm lẫn 2,7% + Với tập ngữ liệu T4: , sử dụng tập tham số prm87, tỷ lệ nhận dạng cảm xúc tăng cao: vui (97,17%), tức (98,15%), bình thường (97,08%), trừ cảm xúc buồn giảm xuống (64,33%) so với ba cảm xúc còn lại Tỷ lệ nhận nhầm từ cảm xúc bình thường sang buồn là cao và 25,43% còn tỷ lệ nhận nhầm từ cảm xúc tức sang vui 1,14% Các cặp cảm xúc khác có tỷ lệ nhận nhầm 0% Tỷ lệ nhận dạng trung bình cảm xúc 84,42%, tỷ lệ nhận nhầm trung bình 2,21% 3.3.1.3 So sánh kết quả thử nghiệm Hình 3.12 Tỷ lệ nhận dạng đúng trung bình cảm xúc của thử nghiệm Tỷ lệ nhận dạng trung bình cảm xúc đối với T1 cao và 89,21%, tiếp đến là tập ngữ liệu T2 82,27%, với tập ngữ liệu T3 là 70,35% còn tập ngữ liệu T4 là 66,99% Điều này là phù hợp thử nghiệm với T1, giai đoạn huấn luyện và nhận dạng có chung 14 người nói, nội dung nói giớng khác thời điểm phát âm Vì vậy, tỷ lệ nhận dạng đạt cao Qua thử nghiệm thấy rằng, M tăng đủ lớn (khoảng 512), mơ hình GMM đạt tới mức xấp xỉ việc mơ hình hóa cảm xúc nên tỷ lệ nhận dạng trung bình tăng theo dạng bão hòa tăng M 3.3.2 Thử nghiệm đến Thử nghiệm 10 Các thử nghiệm phần này thực hiện với tập ngữ liệu T1 Các tập tham số bao gồm: FeaSpec, MFCC+FeaSpec, MFCC+Delta1+FeaSpec, MFCC+Delta12+FeaSpec Kết thử nghiệm này so sánh với kết thử nghiệm với tập tham số liên quan đến MFCC Hình 3.14 Tỷ lệ nhận dạng đúng trung bình cho tập tham số nêu với T1 Hình 3.14 thớng kê tỷ lệ nhận dạng trung bình cho thử nghiệm Tỷ lệ nhận dạng trung bình là thấp dùng đặc trưng phổ và 69,71% Tỷ lệ nhận dạng trung bình đạt cao 88,03% dùng MFCC+Delta1 Tỷ lệ nhận dạng trung bình đạt cao 88,03% dùng MFCC+Delta1 Nếu dùng MFCC+Delta12 tỷ lệ nhận dạng là 87,16% và tỷ lệ này tăng 0,71% có kết hợp với đặc trưng phổ FeaSpec Việc kết hợp với đặc trưng phổ làm tăng tỷ lệ nhận dạng trường hợp MFCC+FeaSpec và MFCC+Delta12+FeaSpec 3.3.3 Thử nghiệm 11 Kết đánh giá ảnh hưởng đặc trưng phổ kết hợp với MFCC+Delta1 tập ngữ liệu T1 trình bày Bảng 3.6 15 Bảng 3.6 Tỷ lệ nhận dạng trung bình của M kết hợp MFCC+Delta1 với đặc trưng phổ cho các cảm xúc đối với T1 Tỷ lệ (%) nhận dạng đúng cho cảm xúc Thứ Tham số tự Bình Vui B̀n Tức thường Harmonicity Center of gravity Standard deviation Skewness Kurtosis Central spectral moment Mean Slope Standard deviation of LTAS 88,41 88,78 88,73 89,14 88,80 88,44 89,17 88,74 88,48 90,43 90,76 90,26 91,49 91,12 90,99 91,10 91,06 90,46 89,41 89,31 90,30 90,82 90,37 89,70 89,11 88,87 90,13 85,20 85,09 85,86 85,13 86,26 84,89 84,67 85,53 85,65 3.3.4 Thử nghiệm 12 Trong phần này, luận án nghiên cứu và đánh giá việc nhận dạng cảm xúc sử dụng tập tham số prm60 kết hợp với tần số và biến thể Có trường hợp tiến hành bao gồm: dùng prm60, prm60+F0 prm60+F0+biến thể F0 Các trường hợp này thực hiện với bốn tập ngữ liệu T1, T2, T3 T4 + Kết thử nghiệm đối với T1: Kết nhận dạng sử dụng tham số pm60+F0+8 biến thể 𝐹0 cho tỷ lệ nhận dạng cao hẳn so với dùng prm60 prm60+F0, độ xác thử nghiệm dùng tham số này đạt trung bình từ 96,49% đến 99,93% Nếu dùng prm60+F0 tỷ lệ này tăng và gần xấp xỉ tỷ lệ prm60 + Kết thử nghiệm đối với T2: Tỷ lệ nhận dạng sử dụng 𝐹0 biến thể 𝐹0 cao hẳn so với dùng prm60, độ xác trung bình từ 91,83% - 98,82% Khi sử dụng prm60, tỷ lệ 72,86% - 81,36% + Kết thử nghiệm đối với T3: Kết nhận dạng đối với tập ngữ liệu T3 cho thấy, thêm 𝐹0 biến thể 𝐹0, tỷ lệ nhận dạng tăng lên đáng kể Tỷ lệ nhận dạng cao đạt 94,39% sử dụng prm60+F0 𝑀 = 16 + Kết thử nghiệm đối với T4: Thử nghiệm kết hợp prm60 với 𝐹0 biến thể 𝐹0 cho thấy, kết nhận dạng cao hẳn so với sử dụng prm60 Tỷ lệ nhận dạng cao đạt 94,95% đối với prm60+F0+biến thể F0 Nếu sử dụng prm60, tỷ lệ nhận dạng đạt từ 52,69% - 64,99% 16 3.3.5 Thử nghiệm 13 Thử nghiệm 13 sử dụng tập tham số gồm prm79 kết hợp với biến thể 𝐹0 nhằm xem xét ảnh hưởng biến thể với cảm xúc Có tập tham sớ đánh số từ S1 đến S8 với số lượng tương ứng tham sớ trình bày Bảng 3.8 Bộ tham số S1 Bảng 3.8 Tập tham số prm79 kết hợp với biến thể của F0 Các tham số đặc trưng Tên Số ứng với chỉ số tham số lượng Bảng 2.6 Prm79+dF0 80 prm79 + đạo hàm F0 S2 prm79+𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 S3 prm79+𝐹0𝑁𝑜𝑟𝑚𝑀𝑖𝑛𝑀𝑎𝑥 S4 prm79+𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟𝑆𝑡𝑑 S5 prm79+𝑑𝐿𝑜𝑔𝐹0 S6 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝑀𝑖𝑛𝑀𝑎𝑥 S7 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 S8 prm79+𝐿𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟𝑆𝑡𝑑 prm79 + chuẩn hóa F0 theo giá trị trung bình F0 prm79 + chuẩn hóa F0 theo giá trị max F0 F0 prm79 + chuẩn hóa F0 theo giá trị trung bình độ lệch chuẩn F0 prm79 + đạo hàm logF0 prm79 + chuẩn hóa logF0 theo giá trị logF0 max logF0 prm79 + chuẩn hóa logF0 theo giá trị trung bình logF0 prm79 + chuẩn hóa logF0 theo trung bình và độ lệch chuẩn logF0 80 80 80 80 80 80 80 Bảng 3.9 Tỷ lệ (%) nhận dạng trung bình cảm xúc đới với tập ngữ sử dụng kết hợp prm79 với biến thể 𝐹0 Tập ngữ liệu prm79 S1 S2 S3 S4 S5 S6 S7 S8 T1 86,80 96,73 96,66 96,70 96,66 96,75 96,73 96,73 96,73 T2 81,18 94,50 93,92 94,21 94,46 94,41 94,45 94,07 94,42 T3 70,38 83,52 81,92 77,51 83,20 83,30 81,94 82,55 82,95 T4 65,39 88,25 88,37 88,11 88,20 88,07 88,79 88,31 88,22 Tập tham số 17 Kết thử nghiệm đối với cảm xúc cho tập ngữ liệu cho tỷ lệ nhận dạng cao thêm biến thể F0 vào tập prm79 so với dùng prm79 3.4 Đánh giá ảnh hưởng tần số Các nghiên cứu thử nghiệm trình bày mục 3.3 cho thấy tần sớ có tầm ảnh hưởng lớn đến kết nhận dạng cảm xúc tiếng Việt Khi tham số liên quan trực tiếp đến 𝐹0 thêm vào, tỷ lệ nhận dạng tăng đáng kể so với việc bổ sung tham số liên quan trực tiếp đến phổ Khi thêm biến thể 𝐹0 (từ prm79 lên prm87), tỷ lệ nhận dạng trung bình tăng mạnh đới với T4 24,32% Kết Thử nghiệm 12 cho thấy, tỷ lệ nhận dạng tăng lên nhiều đối với tập ngữ liệu sử dụng tập tham số prm60+F0+biến thể F0 so với sử dụng tập tham số prm60 Các kết nhận dạng đối với cảm xúc trình bày Thử nghiệm 13 cho kết nhận dạng tốt kết hợp tập tham số prm79 với biến thể 𝐹0 Luận án thử nghiệm nhận dạng sử dụng biến thể 𝐹0 79 tham số khác cho tập ngữ liệu từ T1 đến T4, với M=512 Với T1, biến thể 𝐹0 (18), (19), (20), (22) và (23) cho tỷ lệ nhận dạng tăng lên tối đa và đạt 100% Khi thêm biến thể 𝐹0 (23) T1, T3 T4 có tỷ lệ nhận dạng cao tỷ lệ 100%, 87,42% 93,46% 3.5 Quan hệ số thành phần Gauss tỷ lệ nhận dạng Các thử nghiệm nhận dạng cảm xúc với mơ hình GMM cho thấy, tỷ lệ nhận dạng thay đổi theo số thành phần Gauss sử dụng mơ hình Khi M tăng đủ lớn (khoảng 512), mơ hình GMM đạt tới mức xấp xỉ việc mơ hình hóa cảm xúc nên tỷ lệ nhận dạng trung bình tăng theo dạng bão hòa tăng M Việc xác định tối ưu thành phần Gauss 𝑀 quan trọng lại tốn khó [2] 𝑀 càng tăng thời gian tính tốn tăng theo Tùy tham số đưa vào nhận dạng mà giá trị tối ưu 𝑀 cần lựa chọn thích hợp theo thời gian tính tốn cần thiết và độ xác nhận dạng theo yêu cầu 3.6 Kết chương Chương luận án trình bày kết nghiên cứu nhận dạng cảm xúc tiếng Việt nói dựa mơ hình nhận dạng GMM với tham số đặc trưng khác GMM mơ hình thích hợp cho nhận dạng cảm xúc tiếng Việt Tỷ lệ nhận dạng với tập ngữ liệu cảm xúc tiếng Việt phụ thuộc người nói nội dung đạt tới 99,97% sử dụng tham số prm87, với 18 ngữ liệu độc lập người nói nội dung đạt 97,58% sử dụng tham số prm79 kết hợp với biến thể LogF0NormMinMax 𝐹0 Với kết nhận dạng phân tích và đánh giá chương này, luận án đề xuất mơ hình tớt để nhận dạng cảm xúc tiếng Việt với GMM cần phải kết hợp MFCC, đặc trưng phổ và đặc biệt tần số 𝐹0 biến thể 𝐹0 Chương NHẬN DẠNG CẢM XÚC TIẾNG VIỆT SỬ DỤNG MƠ HÌNH DCNN SÂU 4.1 Mơ hình mạng nơron lấy chập Mạng nơron lấy chập CNN giải thuật học sâu cho kết tốt hiện hầu hết toán thị giác máy phân lớp, nhận dạng Về CNN kiểu mạng ANN truyền thẳng, kiến trúc gồm nhiều thành phần ghép nối với theo cấu trúc nhiều tầng bao gồm: lấy chập (Convolution), lấy gộp (Pooling), kích hoạt phi tuyến (Non-linear activation) kết nối đầy đủ (Fully-connected) 4.1.1 Lấy chập Lấy chập thao tác quan trọng cấu trúc mạng học sâu CNN Đầu vào phép lấy chập mảng giá trị liệu Để thực hiện lấy chập, lọc (filter) gọi là kernel di chuyển qua vị trí tồn ma trận ảnh Thao tác lấy chập thực hiện vị trí mà lọc qua Ý nghĩa thao tác lấy chập xác định khả xuất hiện mẫu vị trí định ảnh Mỗi mẫu biểu diễn trọng số cửa sổ tương ứng với lọc Mỗi vị trí lọc tính giá trị theo công thức: 𝑦 = ∑ 𝑤𝑖 𝑥𝑖 + 𝑏 (4.1) 𝑖 Trong công thức (4.1), 𝑥𝑖 bao gồm điểm ảnh phổ nằm phạm vi cửa sổ quét, 𝑏 là hệ sớ độ lệch 4.1.2 Kích hoạt phi tuyến Sau lớp lấy chập, đầu ánh xạ lấy chập thường cho qua hàm kích hoạt phi tuyến để tăng tính phi tuyến mơ hình tồn mạng Một sớ hàm kích hoạt phi tuyến thường dùng ReLU (Rectified Linear Unit), ELU (Exponential Linear Unit) 4.1.3 Lấy gộp Tầng Pool (hay gọi subsampling downsampling) thành phần tính tốn cấu trúc CNN Xét mặt tốn 19 học, pooling thực chất q trình tính tốn ma trận đầu vào mục tiêu đạt sau tính tốn giảm kích thước ma trận làm bật lên đặc trưng có ma trận đầu vào Có nhiều tốn tử pooling sum-pooling, max-pooling, L2-pooling song max-pooling thường sử dụng 4.1.4 Kết nối đầy đủ Kết nối đầy đủ cách kết nối nơron hai tầng với tầng sau kết nới đầy đủ với nơron tầng trước Trong CNN, tầng này thường sử dụng tầng phía ći kiến trúc mạng kết nối với đầu mạng Lớp này lấy thơng tin đầu vào (có thể đầu lớp lấy chập kích hoạt phi tuyến lớp gộp) còn đầu là véctơ 𝑁 chiều với 𝑁 số lớp cần phân lớp 4.2 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt Tín hiệu tiếng nói biểu diễn hình ảnh phổ mel để làm ảnh đầu vào cho CNN Vì vậy, sử dụng mơ hình CNN để nhận dạng cảm xúc tiếng nói nói riêng cho xử lý tín hiệu tiếng nói nói chung Cấu hình đầy đủ mạng nơron DCNN sâu để huấn luyện mô tả Bảng 4.1 trường hợp mơ hình baseline với 260 tham số Bảng 4.1 Cấu trúc mạng DCNN cho nhận dạng cảm xúc tiếng Việt trường hợp 260 tham số 20 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt với trường hợp sử dụng tập 260 tham số trình bày Hình từ 4.8 Hình 4.8 Mơ hình DCNN cho nhận dạng cảm xúc tiếng Việt với 260 tham sớ Đới với mơ hình có sớ lượng tham sớ lớn 260, cấu hình mạng dễ dàng suy diễn theo cách tương tự 4.3 Ngữ liệu và tham số dùng cho thử nghiệm Để thực hiện thử nghiệm với DCNN, bốn tập ngữ liệu T1, T2, T3 T4 Bảng 2.2 Chương phân chia theo tỷ lệ số file tiếng nói 2-1-1 tương ứng với huấn luyện - đánh giá - thử nghiệm Các tham số sử dụng nhận dạng cảm xúc với mơ hình DCNN thớng kê Bảng 4.6 Trong đó, thử nghiệm thực hiện đối với năm tập tham số bốn tập ngữ liệu Bảng 4.6 Năm tập tham số thử nghiệm nhận dạng với DCNN Tập tham số 260 Các tham số sử dụng 260 hệ số MFCC 21 Tập tham số 264 267 294 296 Các tham số sử dụng - 260 hệ số MFCC - Tần số 𝐹0 - biến thể 𝐹0: F0NormMinMax, logF0NormAver, logF0NormMinMax - 264 tham số - biến thể 𝐹0: F0NormAver, F0NormAverStd, logF0NormAverStd - 260 hệ số MFCC - Intensity, 𝐹0 - biến thể 𝐹0: F0NormAver, F0NormMinMax, F0NormAverStd, logF0NormMinMax, logF0NormAverStd - formant dải thông tương ứng - đặc trưng phổ: harmonicity, centre of gravity, central moment, skewness, kurtosis - 14 hệ số đáp ứng xung lọc đảo tuyến âm - 294 tham số - tham số liên quan đến 𝐹0: dF0, logF0NormAver 4.4 Thử nghiệm nhận dạng cảm xúc tiếng Việt mơ hình DCNN Trong thử nghiệm với tham số khác nhau, tỷ lệ nhận dạng đạt cao ứng với tập ngữ liệu T1, T2 sử dụng 296 tham số Đối với T3, tỷ lệ nhận dạng cao sử dụng 267 tham số, còn đối với T4 cao sử dụng 294 tham sớ Tỷ lệ nhận dạng trung bình tất thử nghiệm đối với tham số trình bày Hình 4.13 Hình 4.13 Kết nhận dạng với tập tham số cho tập ngữ liệu 22 Hình 4.14 cho thấy tỷ lệ nhận dạng trung bình tập ngữ liệu đạt cao sử dụng 296 tham số nhỏ sử dụng 260 tham số Như vậy, việc bổ sung đặc trưng lượng, phổ, tần số 𝐹0 biến thể 𝐹0, formant dải thông tương ứng tăng tỷ lệ nhận dạng Đặc biệt, ảnh hưởng hai tham số liên quan đến tần số 𝐹0 𝑑𝐹0 𝑙𝑜𝑔𝐹0𝑁𝑜𝑟𝑚𝐴𝑣𝑒𝑟 sử dụng tham số 296 nâng tỷ lệ nhận dạng lên tốt (từ 87,26% lên 88,01%) Hình 4.14 Tỷ lệ nhận dạng trung bình của thử nghiệm với tập tham số Tỷ lệ nhận dạng trung bình tham sớ ứng với cảm xúc thớng kê Hình 4.16 Hình 4.16 Tỷ lệ nhận dạng đúng trung bình của cảm xúc đối với tập ngữ liệu 4.5 Kết chương Chương trình bày kết nhận dạng bớn cảm xúc sử dụng mơ hình DCNN Tính trung bình, độ xác nhận dạng tới đa đạt 23 97,86% đối với phụ thuộc vào nội dung phụ thuộc vào người nói Kết thử nghiệm cho thấy 𝐹0 biến thể góp phần đáng kể vào gia tăng độ xác nhận dạng cảm xúc tiếng Việt Đối với thử nghiệm sử dụng mô hình DCNN, cảm xúc buồn cho tỷ lệ cao cảm xúc lại KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN Kết luận Luận án thực hiện nghiên cứu cảm xúc khái quát nghiên cứu nhận dạng cảm xúc hiện giới và nước từ nghiên cứu đánh giá ngữ liệu, tham số đặc trưng, thử nghiệm với mơ hình nhận dạng và đưa mơ hình chung cho nhận dạng cảm xúc tiếng Việt Với mục tiêu đề ban đầu, luận án hoàn thành mục tiêu Đóng góp khoa học luận án: (1) Sử dụng phương pháp thích hợp để đánh giá ngữ liệu cảm xúc tiếng Việt từ đề xuất ngữ liệu cảm xúc tiếng Việt dùng cho thử nghiệm nhận dạng cảm xúc tiếng Việt nói (2) Nghiên cứu, khai thác và đề xuất mơ hình GMM, DCNN và tham số đặc trưng phù hợp cho nhận dạng cảm xúc tiếng Việt nói đồng thời đánh giá ảnh hưởng tham số đặc trưng đến kết nhận dạng cảm xúc tiếng Việt với bốn cảm xúc vui, buồn, tức và bình thường Định hướng phát triển Từ kết nghiên cứu thực hiện, luận án đề xuất kiến nghị sau nhằm mở rộng hướng nghiên cứu hiện có: • Mở rộng nghiên cứu nhận dạng cho hình thái cảm xúc khác đới với tiếng Việt nói • Mở rộng nghiên cứu thử nghiệm nhận dạng với mơ hình mạng nơron điều chỉnh cấu hình mạng, tham sớ đầu vào, sớ lượng tham sớ • Nghiên cứu thử nghiệm với mơ hình nhận dạng khác • Tiếp cận hướng nghiên cứu nhằm đảm bảo độ xác nhận dạng ngữ liệu môi trường thực không hoàn toàn ngữ liệu huấn luyện • Kết hợp việc nhận dạng cảm xúc tiếng Việt nói với nhận dạng tiếng Việt nói để góp phần hướng tới xây dựng hệ thống tương tác người-máy hoạt động hoàn thiện hiệu 24 ... án nhận dạng cảm xúc cho tiếng Việt nói theo phương diện xử lý tín hiệu tiếng nói Từ kết nhận dạng cảm xúc, xây dựng mơ hình nhận dạng cảm xúc cho tiếng Việt nói Các hình thái cảm xúc đa dạng. .. Chương 1: Tổng quan cảm xúc nhận dạng cảm xúc tiếng nói Chương này trình bày nghiên cứu cảm xúc, phân loại cảm xúc cảm xúc Đồng thời, nghiên cứu nhận dạng cảm xúc tiếng nói và ngoài nước,... quan cảm xúc và nhận dạng cảm xúc tiếng nói • Nghiên cứu sớ mơ hình nhận dạng dùng cho nhận dạng cảm xúc tiếng nói mơ hình GMM, ANN, … • Phân tích đánh giá và đề xuất ngữ liệu cảm xúc tiếng

Nhận dạng cảm xúc cho tiếng Việt nói tt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan