Cảm xúc trong tiếng nói và phân tích thống kê ngữ liệu cảm xúc tiếng Việt

13 63 0
Cảm xúc trong tiếng nói và phân tích thống kê ngữ liệu cảm xúc tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết trình bày về các tham số cơ bản đặc trưng cho cảm xúc trong tiếng nói, mô tả phương pháp xây dựng ngữ liệu tiếng Việt có cảm xúc, sử dụng phương pháp phân tích phương sai ANOVA và kiểm định T để đưa ra kết quả phân tích thống kê sự khác biệt của các cảm xúc theo tần số cơ bản F0 và năng lượng tiếng nói,...

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 15 (35), tháng 6/2016 Cảm xúc tiếng nói phân tích thống kê ngữ liệu cảm xúc tiếng Việt Speech Emotions and Statistical Analysis for Vietnamese Emotion Corpus Lê Xuân Thành, Đào Thị Lệ Thủy, Trịnh Văn Loan, Nguyễn Hồng Quang Abstract: Research on emotional speech has been carried out for many languages over the world and for Vietnamese, there was a beginning This paper describes some research results on main features of four basic emotions: happiness, sadness, anger and neutrality Our preliminary research on emotions of Vietnamese shows that in general anger and happiness correspond to speech energy and fundamental frequency higher than the one of neutral emotion, the sad emotion has the lowest values for energy and fundamental frequency These comments come from the statistical methods such as analysis of variance (ANOVA) and Tukey’s test applied for our Vietnamese emotion corpus The classifiers SMO, lBk, trees J48 have been used for preliminary identification of emotions based on BKEmo corpus The highest recognition rate is 98.17% for the classifier lBk using 384 feature parameters and this rate decreases to 82.59% for the case using only 48 parameters relating to the F0 and intensity Keywords: Speech, emotions, Vietnamese, corpus, ANOVA, Tukey’s test, fundamental frequency, speech energy, recognition, SMO, lBk, trees J48 I GIỚI THIỆU Tiếng nói ngày sử dụng rộng rãi giao tiếp người máy Việc trao đổi thông tin tiếng nói chuyển từ việc phải sử dụng cấu trúc chặt chẽ sang dùng cách thức giao tiếp linh hoạt hơn, điều giúp cho ứng dụng tiếng nói phổ biến đến người dùng phổ thơng cách dễ dàng Sự linh hoạt việc sử dụng cấu trúc câu lệnh linh hoạt mà hướng tới thể cung bậc cảm xúc khác giao tiếp người máy Để làm điều này, hệ thống tương tác người máy cần trang bị thêm tính Các tính bao gồm việc phân tích nội dụng liệu tiếng nói nhận để lấy thông tin như: cảm xúc câu lệnh, nội dung câu lệnh đưa phản hồi với nội dung cảm xúc phù hợp Chính nghiên cứu cảm xúc tiếng nói trở nên quan trọng lĩnh vực tương tác người máy Hiện nay, nghiên cứu tiếng nói tiếng Việt với giọng trần thuật (bình thường) có nhiều kết tốt Trong nghiên cứu phương diện cảm xúc tổng hợp hay nhận dạng tiếng Việt chưa nhiều Một số nghiên cứu cảm xúc tiếng Việt công bố thường thực ngữ liệu đa thể thức, kết hợp video biểu khuôn mặt, cử tiếng nói với ứng dụng chủ yếu để tổng hợp tiếng Việt Chẳng hạn nghiên cứu [23], [24] thử nghiệm mơ hình hóa ngơn điệu tiếng Việt với ngữ liệu đa thể thức nhằm tổng hợp tiếng Việt biểu cảm Các tác giả [20] đề xuất mơ hình biến đổi tiếng Việt nói để tạo biểu cảm kênh tiếng nói cho nhân vật ảo nói tiếng Việt Trong nghiên cứu này, ngữ liệu có cảm xúc bao gồm phát âm tiếng Việt nghệ sĩ nam nghệ sĩ nữ phát âm 19 câu năm trạng thái bản: tự nhiên, vui, buồn, giận, giận Đối với nhận dạng cảm xúc tiếng Việt, nghiên cứu [21] sử dụng SVM (Support Vector Machines) để phân lớp với đầu vào tín hiệu điện não (EEG) Kết cho thấy nhận dạng thời gian thực trạng -86- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thái cảm xúc với độ xác trung bình 70,5% Một số tác giả Trung Quốc [28], [29] có kết hợp với sinh viên Việt Nam xây dựng ngữ liệu cảm xúc tiếng Việt theo cách đóng kịch biểu lộ cảm xúc Người nói sinh viên Việt Nam, nghiên cứu [28] có nam, nữ, [29] có người nói với cảm xúc vui, bình thường, buồn, ngạc nhiên, tức giận, sợ hãi Các tác giả ban đầu xây dựng ngữ liệu với ý định nghiên cứu chéo ngôn ngữ Việt Nam Trung Quốc Các tham số ngữ liệu phân tích phục vụ nhận dạng cảm xúc bao gồm cao độ (pitch), formant F1, F2, F3 lượng tín hiệu GMM (Gaussian Mixture Model) sủ dụng [28] MRF (Markov Random Fields) sử dụng [29] để nhận dạng cảm xúc Những tham số để phân biệt cảm xúc bao gồm tần số F0, lượng tiếng nói [7] Sự phân biệt xác minh thơng qua cách sử dụng phương pháp phân tích kiểm định giả thuyết thống kê Bài báo trình bày kết nghiên cứu sử dụng phương pháp phân tích ANOVA kiểm định T để giới thiệu phần thử nghiệm phân lớp cảm xúc Nội dung báo gồm phần sau: Phần II trình bày tham số đặc trưng cho cảm xúc tiếng nói; Phần III mơ tả phương pháp xây dựng ngữ liệu tiếng Việt có cảm xúc; Phần IV sử dụng phương pháp phân tích phương sai ANOVA kiểm định T để đưa kết phân tích thống kê khác biệt cảm xúc theo tần số F0 lượng tiếng nói; Phần V trình bày kết thử nghiệm nhận dạng cảm xúc tiếng Việt; Phần VI tổng kết định hướng nghiên cứu II CÁC THAM SỐ VỀ CẢM XÚC TRONG TIẾNG NÓI Trong giao tiếp thơng thường người với người, ngồi nội dung thơng điệp trao đổi người nghe thu nhiều thông tin thông qua cảm xúc người nói lúc Vì vậy, giao tiếp người máy cần phát triển hệ thống tiếng nói xử lý cảm xúc kèm theo nội dung cần Tập V-1, Số 15 (35), tháng 6/2016 truyền tải Các mục tiêu hệ thống xử lý tiếng nói có cảm xúc nhận dạng cảm xúc thể tiếng nói tổng hợp cảm xúc mong muốn tiếng nói để truyền tải ý định nội dung Từ góc độ kỹ thuật, để làm điều này, cần phải tìm tham số đặc trưng cảm xúc tiếng nói nói chung tiếng nói tiếng Việt nói riêng Sau đưa mơ hình tổng hợp, nhận dạng tiếng nói có cảm xúc Cảm xúc người khơng thể đo lường cách xác phương tiện đo đạc bình thường Vì vậy, phương pháp phân tích nhận dạng tổng hợp cảm xúc đặt thách thức người máy tính Cowie Schroder phân biệt cách rõ ràng loại cảm xúc khác [1] Tuy nhiên có nhiều nghiên cứu phân loại cảm xúc tiếng nói nhà nghiên cứu đưa 300 trạng thái cho cảm xúc khác [2], có tác giả lại thống kê 107 loại cảm xúc [30] Liên hệ với tiếng Việt dễ thấy cảm xúc coi buồn lại phân nhánh thành buồn bã, buồn bực, buồn rười rượi, buồn thiu, buồn tênh, v.v [31] Cũng có nhiều tác giả thống với quan điểm cho cảm xúc phân giải thành cảm xúc theo kiểu phân tích màu thành màu Các cảm xúc là: tức giận, chán ghét, sợ hãi, vui, buồn, ngạc nhiên [17] Miwa cộng [18] định nghĩa cảm xúc gán chúng vào nhóm bốn cảm xúc chủ yếu là: vui, buồn, tức giận, bình thường Trong khn khổ báo này, theo hướng cách tập trung vào loại cảm xúc mang tính đại diện vui, buồn, tức giận bình thường Về mặt sinh lý chế tạo cảm xúc, người ta phát với biểu cảm xúc hưng phấn cao giận dữ, vui, sợ hãi, hệ thống thần kinh kích thích làm cho tim đập nhanh hơn, huyết áp cao hơn, có thay đổi thở, áp suất khơng khí phổi ứng với phần môn lớn làm khơ miệng Kết tiếng nói to hơn, nhanh lượng phạm vi tần số cao lớn -87- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT hơn, trung bình tần số cao phạm vi biến thiên rộng [3] Mặt khác, cảm xúc hưng phấn thấp buồn bã, hệ thần kinh kích thích gây sụt giảm nhịp tim, huyết áp, dẫn đến tăng tiết nước bọt, nói chậm tần số giảm với lượng tần số cao nhỏ Vì vậy, đặc tính âm học pitch, lượng, nhịp điệu, chất lượng giọng nói, tín hiệu tiếng nói có độ tương quan lớn với cảm xúc [4] Về mặt kỹ thuật, có nhiều nghiên cứu đưa tham số khác ảnh hưởng đến cảm xúc nhận dạng tổng hợp tiếng nói, thơng số phân tích để tìm quy luật ảnh hưởng đến cảm xúc ngôn ngữ khác Đường bao F0 thông số quan trọng theo nghiên cứu [5], khẳng định lại nghiên cứu tiếng Đức Burkhardt Sendlmeier [6] tiếng Hà Lan Mozziconacci Hermes [7] Thời hạn tham số ảnh hướng nhiều đến cảm xúc theo Cahn [8] kết hợp với đường bao F0 đủ để phân biệt cảm xúc bình thường, vui, buồn, giận dữ, chán nản, sợ hãi phẫn nộ tiếng Hà Lan [9] Nghiên cứu [10] tham khảo mối quan hệ đường bao F0, tốc độ phát âm, cường độ cao độ ảnh hưởng đến tiếng nói tổng hợp có cảm xúc ngơn ngữ Malayalam Đặc tính phổ sử dụng thành công cho nghiên cứu tiếng nói khác phát triển hệ thống nhận dạng tiếng nói nhận dạng người nói Nghiên cứu cho thấy đặc tính MFCC (MelFrequency Cepstral Coefficients) bậc thấp mang thông tin âm vị đặc tính bậc cao chứa thơng tin khơng phải tiếng nói Tổ hợp hệ số MFCC, LPCC (Linear Predictive Cepstral Coefficients), RASTA PLP (Relative Spectral Transform - Perceptual Linear Prediction) hệ số logarit công suất tần số xem tập đặc điểm để phân loại cảm xúc: tức giận, chán, bình thường, vui, buồn tiếng phổ thông Trung Quốc [11] SVM dùng để nhận dạng cảm Tập V-1, Số 15 (35), tháng 6/2016 xúc vui, buồn, bình thường tiếng Trung Quốc [16] sử dụng tham số lượng, tần số bản, LPCC, MFCC MEDC (Mel-Energy spectrum Dynamic Coefficients) [17] sử dụng tham số LPC, MFCC với thuật giải OSALPC (linear prediction of the causal part of the autocorrelation sequence algorithm) cho mơ hình GMM (Gaussian Mixture Model) ngữ liệu tiếng Đức (Emo-DB) đạt độ xác trung bình 89% cho cảm xúc Các tham số sử dụng cho mơ hình GMM K-NN (K-Nearest Neighbor) gồm: hệ số MFCC, đặc trưng sóng tiếng nói tần số F0 nghiên cứu [25] thực ngữ liệu tiếng Đức Mạng nơ-ron sâu [19] sử dụng với tham số MFCC, đặc trưng liên quan cao độ chu kỳ bản, HNR (Harmonics-to-Noise Ratio) chênh lệch tham số khung tiếng nói để nhận dạng cảm xúc liệu đa thể thức IEMOCAP (interactive emotional dyadic motion capture database) Về mặt âm học, nhiều nghiên cứu khẳng định nhận thấy lượng hóa cảm xúc tiếng nói cách phân tích tham số tần số F0, cường độ thời hạn Ví dụ, âm tiết có trọng âm có tần số cao hơn, biên độ lớn thời hạn dài so với âm tiết khơng có trọng âm Ở mức cảm thụ, sóng tiếng nói vào hệ thống thính giác người nghe, thơng qua ngơn điệu q trình xử lý cảm nhận cảm thụ mà sinh thông tin ngôn ngữ thông tin đồng hành với ngôn ngữ Dãy đặc điểm ngôn điệu theo khung trích rút từ đoạn tiếng nói dài từ câu dùng để đặc trưng cho cảm xúc có tiếng nói Thơng tin F0 phân tích để phân loại cảm xúc kết cho thấy giá trị cực đại, cực tiểu, trung bình F0 đường bao F0 đặc trưng bật cho cảm xúc Độ xác nhận dạng cảm xúc đạt vào khoảng 80% sử dụng đặc tính F0 nêu với phân lớp láng giềng K gần [12] Các đặc tính ngơn điệu trích rút từ đơn vị ngôn ngữ nhỏ âm tiết với phụ âm nguyên âm dùng để phân tích cảm xúc -88- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tầm quan trọng đường bao ngôn điệu dẫn tới ngữ cảnh có cảm xúc khác nghiên cứu [13] Các cực đại cực tiểu tần số bản, cường độ, thời hạn khoảng dừng, đột biến đề xuất để định danh cảm xúc như: sợ hãi, tức giận, buồn vui [14] III XÂY DỰNG NGỮ LIỆU CẢM XÚC TIẾNG VIỆT Theo thống kê [22], có nhiều liệu cảm xúc xây dựng cho ngôn ngữ khác giới với số lượng liệu tương ứng đặt ngoặc đơn sau: Anh (43), Pháp (5), Đức (14), Nga (1), Trung Quốc (11), Nhật (6)…Trong số liệu này, có số liệu xây dựng đồng thời cho 2, ngôn ngữ khác Để xây dựng ngữ liệu cảm xúc, thực theo phương pháp như: ghi âm trực tiếp đối thoại tự nhiên, xây dựng kịch cho đối thoại nhận vật tùy biến cảm xúc theo tình huống, ghi âm trực tiếp giọng nghệ sĩ diễn đạt nội dung theo yêu cầu biểu đạt cảm xúc cho trước Trong số phương pháp này, phương pháp ghi âm giọng nghệ sĩ biểu đạt cảm xúc cho trước phương pháp cho phép xây dựng ngữ liệu thuận lợi theo thiết kế định sẵn [26], dễ đạt số lớn ngữ liệu đồng nhất, từ thuận tiện cho việc phân tích xác định tham số đặc trưng cách tin cậy Vì vậy, phương pháp lựa chọn để xây dựng ngữ liệu cảm xúc tiếng Việt BKEmo Với mục tiêu phân tích tập trung vào bốn cảm xúc vui, buồn, tức giận bình thường, kịch thu âm xây dựng phù hợp yêu cầu người nói thể tập trung vào bốn loại cảm xúc cách tốt Kịch thu âm xây dựng gồm 55 câu theo tiêu chí sau:  Nội dung gồm câu cảm thán biểu lộ cảm xúc nói, câu bình thường khơng có từ ngữ cảm thán, biểu cảm mặt cảm xúc Với câu khơng có từ ngữ cảm thán (ví dụ: “Vườn hoa trước Tập V-1, Số 15 (35), tháng 6/2016 nhà”, “Trường Đại học Bách khoa Hà Nội”…) người nói tập trung vào việc biểu lộ cảm xúc mà khơng bị ảnh hưởng nội dung câu nói Với loại câu có cảm thán (ví dụ: “Thật á!”, “Có lương rồi!”….) giúp phân tích nhiều tham số cảm xúc tham số phụ ảnh hưởng đến cảm xúc đó;  Kịch có tổ hợp từ (ví dụ: “Thật á!”) câu câu ngắn (ví dụ: “Vườn hoa trước nhà”), câu dài (ví dụ: “À, anh dám ăn nói với bố à!”) nhằm mục đích phân tích ảnh hưởng tham số từ riêng lẻ hay câu;  Kịch cố gắng lựa chọn câu cho có nhiều âm tiết tiếng Việt tốt Ngữ liệu thu phòng thu âm, lồng tiếng chuyên nghiệp với hệ thống cách âm, lọc nhiễu tốt Mỗi câu lưu thành file wav, tín hiệu thu lấy mẫu tần số 16000Hz 16 bit cho mẫu Mỗi câu nói lặp lại lần cho cảm xúc Mỗi giọng nói thu 220 file cho cảm xúc Dữ liệu thu gồm có 52800 file với tổng dung lượng 2,68Gb Có 56 giọng thu âm, gồm 28 nữ 28 nam diễn viên, nghệ sĩ lồng tiếng chuyên nghiệp, lựa chọn theo tiêu chí: có độ tuổi trải từ 18 đến 60 tuổi, có phân bố cân giọng nam giọng nữ, có kinh nghiệm biểu đạt tốt, rõ ràng cảm xúc nói Kịch thu xếp không xuất theo quy luật cụ thể để người nói biểu lộ cảm xúc tốt Người nói huấn luyện biểu diễn cảm xúc theo cách thống (cùng kiểu vui, kiểu buồn ) dễ nhận hay dễ biểu lộ để tránh tình trạng liệu gồm nhiều cách biểu lộ khác loại lại có vài câu gây khó khăn việc tìm quy luật Dữ liệu thu xong xử lý trước cách sử dụng công cụ cắt bỏ hết khoảng lặng đầu cuối câu, nghe nhanh lượt để loại bỏ câu bị lỗi trình thu cắt tự động -89- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 15 (35), tháng 6/2016 IV PHÂN TÍCH VÀ ĐÁNH GIÁ MỘT SỐ THAM SỐ VỀ CẢM XÚC TRONG TIẾNG VIỆT NĨI P-value phần diện tích phía đường cong F nằm bên phải giá trị Bài báo sử dụng phân tích phương sai ANOVA kiểm định T (Tukey’s test) để đánh giá biến thiên tần số F0 trung bình lượng trung bình cảm xúc ngữ liệu cảm xúc tiếng Việt xây dựng Mặt khác, để lấy mẫu tham gia phân tích thống kê, chúng tơi dùng phương pháp: phương pháp kinh nghiệm chủ quan chủ động lựa chọn mẫu nghệ sĩ biết tiếng, có kinh nghiệm lồng tiếng cho phim phương pháp cảm nhận thực tế dùng người nghe để lựa chọn mẫu phát âm phù hợp với cảm xúc quy định Khi phân tích phương sai ANOVA cho kết loại bỏ giả thuyết H0, tức có cặp giá trị kỳ vọng tập hợp khác nhau; cần biết xác cặp giá trị Một phương pháp sử dụng phổ biến kiểm định T (Tukey’s test [15]) Phương pháp sử dụng phân phối Student để đánh giá giá trị µi - µj Khoảng tin cậy giá trị mô tả phương trình với Qα,I,I(J-1) giá trị phân phối Student mức ý nghĩa α IV.1 Phân tích phƣơng sai ANOVA kiểm định T IV.1.1 Phân tích phương sai ANOVA Phương pháp thực so sánh giá trị thống kê (giá trị trung bình) nhiều tập hợp liệu Giả sử số tập hợp liệu cần so sánh µ1, …, µI giá trị kỳ vọng tập hợp Khi giả thuyết cần kiểm định H0: µ1 = µ2 = … µI (1) Giả thuyết đối lập Ha: giá trị µi khác Phương pháp ANOVA [15] để kiểm định giả thuyết bao gồm:  Tính trung bình bình phương tập hợp MSTr (Phương trình 1) Trong phương trình 1, I số tập hợp J số giá trị đo cho tập hợp ̅ giá trị trung bình mẫu i, ̅ giá trị trung bình tồn liệu ∑ (̅ ̅) (1)  Tính trung bình bình phương lỗi MSE (Phương trình 2) Trong phương trình 2, phương sai mẫu thứ i (2)  Giá trị thống kê cho kiểm định: Giá trị có phân bố F với ( ) bậc tự tử số ( ) bậc tự mẫu số Khi với mức ý nghĩa α, vùng loại bỏ là: , , ( ) IV.1.2 Kiểm định T ̅ ̅ ( ) ̅ ̅ ( ) (3) Ngoài P-value tính cho trường hợp IV.2 Phân tích biến thiên F0 cảm xúc Praat [27] sử dụng để tính F0 Giá trị F0 tính trung bình câu tiếng nói (mỗi câu người nói thể cảm xúc cụ thể) Các giá trị F0 trung bình thể đồ thị box-plot, phân tích thống kê phương pháp phân tích phương sai ANOVA sau kiểm định lại phương pháp kiểm định T Theo kinh nghiệm chủ quan, bốn nghệ sĩ tiếng gồm hai nghệ sĩ nam Đ.K (50 tuổi), H.P (40 tuổi) hai nghệ sĩ nữ T.T.H (34 tuổi), B.H.G (38 tuổi) lựa chọn để đánh giá Các nghệ sĩ số 56 nghệ sĩ tham gia thu âm Mỗi cảm xúc nghệ sĩ thể 55 câu, lần (220 file liệu cho cảm xúc) Hình mơ tả đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc Hình cho thấy tần số F0 trung bình cho cảm xúc buồn thấp nhất, cảm xúc bình thường Cảm xúc tức giận cảm xúc vui có F0 lớn so với cảm xúc buồn cảm xúc bình thường Cảm xúc tức giận có giá trị F0 trung bình lớn Phương pháp phân tích phương sai ANOVA sử dụng để kiểm định lại nhận xét trên, giá trị F P-value cho Bảng -90- Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT 0,9) Điều phù hợp với Hình Cảm xúc tức giận cảm xúc buồn có độ chênh lệch F0 cao nhất, khoảng tin cậy cho sai lệch (92,9 Hz, 107,9 Hz) Trung bình 350 F0 (Hz) Tập V-1, Số 15 (35), tháng 6/2016 250 Bảng Kết phân tích kiểm định T tần số F0 cho giọng người nói T.T.H Đ.K 150 50 Vui F0 (Hz) 450 Buồn Tức Trung bình Bthường Buồn Bthường Buồn – BT Tức – BT Vui – BT Tức – Buồn Vui – Buồn Vui – Tức 350 250 150 50 Vui Tức Hình Đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc nghệ sĩ Đ.K (bên trên) H.P (bên dưới) Buồn – BT Tức – BT Vui – BT Tức – Buồn Vui – Buồn Vui – Tức Bảng Giá trị F P-value phân tích phương sai ANOVA cho giọng nam nữ với tần số F0 trung bình lượng trung bình Năng lƣợng F0 Trung bình trung bình Ngƣời nói Giá P-value : Giá trị P-value : trị F Pr(>F) F Pr(>F) 586,93 < 2,2.10-16 111,2 < 2,2.10-16 Đ.K 2931,7 < 2,2.10-16 188,25 < 2,2.10-16 H.P 223,43 < 2,2.10-16 T.T.H 2681,1 < 2,2.10-16 -16 100,05 < 2,2.10-16 B.H.G 2543,4 < 2,2.10 F0 trung bình T.T.H Giá trị Giá trị Giá trị dƣới Ptrung khoảng khoảng value bình tin cậy tin cậy -75,2 -80,7 -69,3 0 64,7 59,1 70,3 0 104,8 99,3 110,3 0 139,9 134,4 145,4 0 179,9 174,4 185,5 0 40,1 34,6 45,6 0 F0 trung bình Đ.K Giá trị Giá trị Giá trị dƣới Ptrung khoảng khoảng value bình tin cậy tin cậy -2,0 -9,5 5,5 0,9 98,3 90,9 105,9 0 67,2 59,7 74,8 0 100,4 92,9 107,9 0 69,3 61,7 76,8 0 -31,2 -38,7 -23,6 0 Hình mơ tả đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc giọng nữ chọn Bảng cho thấy giá trị P-value nhỏ, giả thuyết H0 bị loại bỏ với tất mức ý nghĩa quan trọng Để đánh giá khác biệt giá trị F0 trung bình cảm xúc khác nhau, kiểm định T với mức ý nghĩa 95% sử dụng Kết cho bảng Bảng cho thấy có khác biệt giá trị F0 trung bình tất cảm xúc với ngoại trừ cảm xúc buồn cảm xúc bình thường (P-value = Hình cho thấy với giọng nam, cảm xúc tức giận cảm xúc vui giọng nữ có F0 lớn so với cảm xúc buồn cảm xúc bình thường Tuy nhiên với giọng nữ, cảm xúc vui lại có F0 lớn so với cảm xúc tức giận Để đánh giá khác biệt giá trị F0 trung bình cảm xúc khác nhau, kiểm định T với mức ý nghĩa 95% sử dụng Từ Bảng thấy có khác biệt giá trị F0 trung bình tất cảm xúc với Điều phù hợp với Hình Cảm xúc vui cảm xúc buồn có độ chênh lệch F0 cao nhất, khoảng tin cậy cho sai lệch (174,4 Hz, 185,5 Hz) -91- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 15 (35), tháng 6/2016 Trung bình Trung bình 90 400 80 Năng lƣợng (dB) 450 F0 (Hz) 350 300 250 200 150 70 60 50 40 30 Vui 100 Vui Buồn Tức Buồn Tức Bthường Bthường Trung bình 80 500 450 400 350 300 250 200 150 100 Năng lƣợng (dB) F0 (Hz) Trung bình 70 60 50 40 Vui Vui Buồn Tức Bthường Buồn Tức Bthường Hình Đồ thị box-plot phân bố giá trị lượng trung bình theo cảm xúc người nói Đ.K (trên: giọng nam) T.T.H (dưới: giọng nữ) Hình Đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc người nói T.T.H (dưới) B.H.G (trên) IV.3 Phân tích biến thiên lƣợng cảm xúc Giá trị lượng tính trung bình câu nói, thể đồ thị box-plot kiểm định phương pháp phân tích phương sai ANOVA kiểm định T Đồ thị box-plot phân bố lượng người nói Đ.K T.T.H.cho Hình Hình cho thấy với giọng nam có phân biệt rõ rệt mặt lượng cảm xúc vui/tức giận so với cảm xúc bình thường/buồn Kết phân tích ANOVA Bảng cho thấy có khác biệt mặt lượng trung bình cảm xúc Tuy nhiên, dải biến thiên lượng cảm xúc rộng Do đó, khơng thể tách biệt cảm xúc trường hợp tần số F0 Kiểm định T với mức ý nghĩa 95% sử dụng để đánh giá khác biệt giá trị lượng trung bình cảm xúc khác Kết cho Bảng Bảng cho thấy có khác biệt giá trị lượng trung bình tất cảm xúc với ngoại trừ cảm xúc buồn cảm xúc bình thường (P-value = 0,22) cảm xúc vui cảm xúc tức (P-value = 0,47) Điều phù hợp với Hình nhận định Cảm xúc vui cảm xúc bình thường có độ chênh lệch lượng cao nhất, khoảng tin cậy cho sai lệch (5,34 dB, 8,09 dB) Từ Hình thấy với nữ giới, cảm xúc rõ ràng qua giá trị lượng trung bình Chẳng hạn, cảm xúc bình thường lại có lượng trung bình cao so với cảm xúc vui Phân tích ANOVA (Bảng 4) cho thấy phân -92- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT biệt cảm xúc với dựa giá trị lượng Bảng Kết phân tích kiểm định T lượng Tập V-1, Số 15 (35), tháng 6/2016 giận Ngồi có phân biệt rõ tần số F0 cảm xúc buồn/bình thường so với cảm xúc vui/tức giận trung bình cho giọng Đ.K (nam) T.T.H (nữ) Buồn – BT Tức – BT Vui – BT Tức – Buồn Vui – Buồn Vui – Tức Buồn – BT Tức – BT Vui – BT Tức – Buồn Vui – Buồn Vui – Tức Năng lƣợng trung bình T.T.H Giá trị Giá trị Giá trị dƣới Ptrung khoảng khoảng value bình tin cậy tin cậy -8,49 -9,48 -7,50 0 -0,06 -1,04 0,93 0,99 -4,25 -5,23 -3,26 0 8,43 7,45 9,42 0 4,24 3,26 5,23 0 -4,19 -5,17 -3,20 0 Năng lƣợng trung bình Đ.K Giá trị Giá trị Giá trị dƣới Ptrung khoảng khoảng value bình tin cậy tin cậy -1,02 -2,39 0,35 0,22 5,94 4,56 7,31 0 6,71 5,34 8,09 0 6,96 5,59 8,33 0 7,74 6,36 9,11 0 0,77 -0,61 2,14 0,47 Từ Bảng ta thấy có khác biệt giá trị lượng trung bình tất cảm xúc với ngoại trừ cảm xúc tức cảm xúc bình thường (P-value = 0,99) Điều phù hợp với Hình Cảm xúc buồn cảm xúc tức giận có độ chênh lệch lượng cao nhất, khoảng tin cậy cho sai lệch (7,45 dB, 9,42 dB) IV.4 Phƣơng pháp cảm nhận thực tế Hình Đồ thị phân bố điểm giá trị F0 trung bình so với lượng trung bình theo cảm xúc giọng nam (trái) giọng nữ (phải) Phần trình bày kết kiểm định theo phương pháp cảm nhận thực tế cách thực nghe lại đánh giá trực tiếp để xác định câu nói thể cảm xúc theo yêu cầu Trung bình cảm xúc cho giới tính có khoảng 500 câu đánh giá với người nói cho giới tính lấy ngẫu nhiên Từ Hình 5, tần số F0 trung bình cảm xúc bình thường cảm xúc buồn có xu hướng nhỏ so với cảm xúc tức giận cảm xúc vui Ở giọng nam, F0 trung bình cảm xúc tức giận lớn so với cảm xúc vui, ngược lại giọng nữ Từ Hình nhận thấy cảm xúc có tập trung tốt vùng định: lượng tham số tốt để phân biệt cảm xúc buồn cảm xúc bình thường, cảm xúc vui cảm xúc tức Phương pháp phân tích phương sai ANOVA thực tần số F0 trung bình lượng trung bình Kết Bảng cho thấy có khác biệt tham số cảm xúc -93- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Bảng Giá trị F P-value phân tích phương sai Trung bình ANOVA cho giọng nam nữ với F0 trung bình lượng trung bình F0 trung Năng lƣợng trung bình Giới bình tính Giá trị P-value : Giá trị P-value: F Pr(>F) F Pr(>F) Nam 2049 < 2,2e-16 427,94 < 2,2e-16 Nữ 3277,7 < 2,2e-16 132,65 < 2,2e-16 F0 (Hz) 350 250 150 50 Vui Buồn Tức Bthường Trung bình Bảng Kết phân tích kiểm định T F0 trung 400 F0 (Hz) Tập V-1, Số 15 (35), tháng 6/2016 bình lượng trung bình cho giọng giọng nam 300 Buồn – BT Tức – BT Vui – BT Tức –Buồn Vui –Buồn Vui –Tức Giá trị trung bình -17,6 -19,9 2,49 -2,35 20,1 22,4 Buồn – BT Tức –BT Vui – BT Tức –Buồn Vui –Buồn Vui –Tức Giá trị trung bình -19,1 90,4 60,2 109,5 79,2 -30,2 200 100 Vui Buồn Tức Bthường Hình Đồ thị box-plot phân bố giá trị F0 trung bình theo cảm xúc giọng nam (trên) giọng nữ (dưới) Trung bình Năng lƣợng (dB) 90 70 50 30 10 Vui Buồn Tức Bthường Năng lƣợng trung bình Giá trị Giá trị dƣới khoảng khoảng tin cậy tin cậy -19,4 -15,7 -21,8 -18,0 0,23 4,77 -4,17 -0,54 17,9 22,3 20,2 24,6 F0 trung bình Giá trị Giá trị dƣới khoảng khoảng tin cậy tin cậy -23,2 -14,9 86,3 94,5 55,2 65,1 105,5 113,4 74,4 84,0 -35,1 -25,4 Pvalue 0 0 0,0242 0,0048 0 0 Pvalue 0 0 0 0 0 0 Trung bình Năng lƣợng (dB) 80 Kiểm định T thực để đánh giá khác tham số cảm xúc Kết giọng nam mô tả Bảng giọng nữ mô tả Bảng 70 60 50 40 30 20 Vui Buồn Tức Bthường Hình Đồ thị box-plot phân bố giá trị lượng trung bình theo cảm xúc, giọng nam (trên) giọng nữ (dưới) Kết Bảng cho thấy có phân biệt rõ rệt F0 cảm xúc cho giọng nam (Pvalue 0) F0 trung bình cảm xúc tức-buồn cao với khoảng tin cậy (105,5Hz, 113,4Hz) Như vậy, lựa chọn mẫu theo đánh giá cảm nhận cho kết phân biệt cảm xúc xác so với lựa chọn mẫu theo kinh nghiệm chủ quan Tuy nhiên, với -94- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT lượng có giá trị P-value đáng kể (ví dụ 0,0242), khơng thể phân biệt cảm xúc với mức ý nghĩa 0,01 Bảng Kết phân tích kiểm định T F0 trung bình lượng trung bình cho giọng giọng nữ Buồn – BT Tức – BT Vui – BT Tức –Buồn Vui –Buồn Vui –Tức Buồn – BT Tức –BT Vui –BT Tức –Buồn Vui –Buồn Vui –Tức Năng lƣợng trung bình Giá trị Giá trị dƣới khoảng khoảng tin cậy tin cậy -13,6 -9,2 -17,1 -12,7 -7,5 -3,1 -5,3 -1,7 4,3 7,9 7,8 11,4 F0 trung bình Giá Giá trị Giá trị trị dƣới trung khoảng khoảng bình tin cậy tin cậy -3,5 -8,2 1,2 93,4 88,7 98,2 125,6 120,9 130,4 96,9 93,1 100,7 129,1 125,2 133,1 32,2 28,3 36,1 Giá trị trung bình -11,4 -14,9 -5,3 -3,5 6,1 9,6 Pvalue 0 0 0 0 0 0 Pvalue 0,22 0 0 0 0 0 Tập V-1, Số 15 (35), tháng 6/2016 [34] Bộ phân lớp trees J48 [33] dùng để có luật từ định riêng phần xây dựng cách sử dụng J48 J48 cài đặt mã nguồn mở Java thuật giải C4.5 thuật giải dùng để tạo định Ross Quinlan phát triển Ngữ liệu dùng cho thử nghiệm gồm 5584 file tương ứng với cảm xúc 16 nghệ sĩ (8 giọng nam giọng nữ) thể Số file chia làm phần nhau, phần dùng để huấn luyện phần lại dùng cho nhận dạng Thử nghiệm nhận dạng thực theo phương pháp đánh giá chéo (crossvalidation) Bộ tham số đặc trưng trích rút nhờ cơng cụ OpenSMILE [35] với 384 tham số bao gồm: lượng, MFCC, tỉ lệ biến thiên qua trục không, tần số F0, xác suất xuất âm hữu Các tham số lại đánh giá theo giá trị cực đại, cực tiểu, vị trí xuất cực đại, vị trí xuất cực tiểu, dải giá trị, giá trị trung bình, độ lệch chuẩn, độ lệch phổ so với tần số trung bình (Skewness), độ khác biệt phổ quanh tâm phổ so với phân bố Gauss (Kurtosis) Bảng Ma trận nhầm lẫn nhận dạng cảm xúc với 384 tham số Bộ phân lớp Tức Vui SMO BT Buồn Tức Vui lBk BT Buồn Tức Trees Vui J48 BT Buồn Với giọng nữ, kết Bảng cho thấy khơng có phân biệt rõ rệt F0 trung bình cảm xúc buồn cảm xúc bình thường (P-value = 0,22) F0 trung bình cảm xúc vui buồn cao với độ tin cậy (125,2Hz, 133,1Hz) V THỬ NGHIỆM NHẬN DẠNG CẢM XÚC TIẾNG VIỆT Với ngữ liệu cảm xúc tiếng Việt BKEmo, phân lớp SMO, lBk, trees J48 thử nghiệm để nhận dạng cảm xúc Các phân lớp thuộc công cụ Weka gồm tập hợp thuật giải học máy dùng cho khai phá liệu Đại học Waikato, NewZealand phát triển [34] SMO (Sequential Minimal Optimization) [32] thuật giải tối ưu hóa cực tiểu để huấn luyện phân lớp hỗ trợ véctơ dùng kernel đa thức Gauss lBk phân lớp k láng giềng gần sử dụng độ đo khoảng cách Ơclit Tức 1341 41 1383 13 0 1084 216 61 19 Vui 51 1342 11 1380 225 1103 58 25 BT 13 1300 75 1367 43 62 54 1128 164 Buồn 0 84 1307 2 29 1352 25 23 149 1188 Bảng ma trận nhầm lẫn nhận dạng cảm xúc dùng 384 tham số Bảng ma trận nhầm lẫn nhận dạng cảm xúc dùng tham số liên quan đến F0 lượng Kết hai bảng dùng phân lớp SMO, lBk, trees J48 Bảng cho thấy tỉ lệ nhận dạng trung bình cao cho -95- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT cảm xúc đạt 98,17% với phân lớp lBk tỉ lệ nhận dạng trung bình thấp 80,64% với phân lớp trees J48 Đối với Bảng 8, số tham số giảm xuống 48 tham số liên quan đến F0 lượng, tỉ lệ nhận dạng giảm so với Bảng nhiên giữ quy luật tỉ lệ nhận dạng cao cho phân lớp lBk thấp cho phân lớp trees J48 Trường hợp sử dụng tham số liên quan đến F0 lượng, tỉ lệ nhận dạng trung bình cao giảm xuống 82,59% tỉ lệ nhận dạng trung bình thấp giảm xuống 75,25% Nhìn chung, kết khả quan so với số kết nhận dạng cảm xúc tiếng Việt công bố [28], [29] kết nhận dạng cảm xúc số ngôn ngữ khác [36-39] Bảng Ma trận nhầm lẫn nhận dạng cảm xúc với 48 tham số liên quan đến F0 lượng Bộ phân lớp Tức Vui SMO BT Buồn Tức Vui lBk BT Buồn Tức trees Vui J48 BT Buồn VI Tức 1144 182 31 14 1186 139 30 21 1084 227 77 17 Vui 178 1103 99 33 144 1174 50 13 218 1052 92 33 BT 53 100 903 156 45 63 1093 203 70 99 969 249 Tập V-1, Số 15 (35), tháng 6/2016 lớp lBK cho kết nhận dạng tốt Hướng nghiên cứu chúng tơi tập trung vào phân tích ảnh hưởng đến cảm xúc tham số trường độ, tốc độ nói số tham số khác liên quan đến nguồn âm tiến hành nhận dạng cảm xúc tiếng Việt dùng mơ hình nhận dạng khác sử dụng ngữ liệu xây dựng Bên cạnh mở rộng nghiên cứu cho hình thái cảm xúc đa dạng LỜI CẢM ƠN Bài báo thực khuôn khổ đề tài nghiên cứu “Xây dựng ngữ liệu cảm xúc tiếng Việt” Trường Đại học Bách khoa Hà Nội Các tác giả chân thành cảm ơn Trường Đại học Bách khoa Hà Nội, Phòng Khoa học Cơng nghệ, Viện Công nghệ Thông tin Truyền thông hỗ trợ để chúng tơi thực thành cơng đề tài TÀI LIỆU THAM KHẢO Buồn 21 11 363 1193 21 20 223 1159 24 18 258 1097 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong báo này, tham số cảm xúc, việc xây dựng ngữ liệu cảm xúc cho tiếng Việt, sử dụng phân tích phương sai ANOVA kiểm định T để đánh giá biến thiên F0 lượng trung bình cảm xúc trình bày Kết phân tích cho thấy tần số F0 tham số đáng tin cậy để phân biệt cảm xúc Năng lượng tham số hiệu phân biệt cảm xúc, phản ánh rõ nét nam giới so với nữ giới Trong số phân lớp sử dụng để thử nghiệm bước đầu nhận dạng cảm xúc theo ngữ liệu BKEmo, phân [1] RODDY COWIE, MARC SCHRÖDER, “Piecing together the emotion jigsaw”, Workshop on Machine Learning for Multimodal Interaction (MLMI04), Martigny, Switzerland, June 21-23, 2004 [2] MARIA SCHUBIGER, “English intonation: its form and function” Language Vol 36, No 4, 1960, pp 544-548 [3] KLAUS R SCHERER, “Vocal communication of emotion: A review of research paradigms”, Speech Communication, vol 40, 2003, pp 227–256 [4] JANET CAHN, “The generation of affect in synthesized speech” Journal of American Voice Input/Output Society, vol 8, 1990, pp 1–19 [5] CARL E WILLIAMS, KENNETH N STEVENS, “Emotions and speech: Some acoustical correlates” The Journal of the Acoustical Society of America Vol 52 (4), 1972, pp 1238-1250 [6] FELIX BURKHARDT, WALTER F SENDLMEIER, “Verification of acoustical correlates of emotional speech using formant-synthesis” In Proceedings of the ISCA Workshop on Speech and Emotion, Newcastle, Northern Ireland, UK, 2000 [7] SYLVIE MOZZICONACCI, DIK J HERMES, “Role of intonation patterns in conveying emotion in speech” In Proceedings of ICPhS 1999 , San Francisco 1999, pp 2001-2004 [8] JANET E CAHN, “Generating expression in synthesized speech”, Master's Thesis, Massachusetts Institute of Technology, May 1989 -96- Các công trình nghiên cứu, phát triển ứng dụng CNTT-TT [9] JEAN VROOMEN, RENÉ COLLIER, SYLVIE MOZZICONACCI, "Duration and intonation in emotional speech”, Proceedings of the Third European Conference on Speech Communication and Technology, Berlin, Germany, September 21-23, 1993 [10] DEEPA P GOPINATH, SHEEBA P.S, ACHUTHSANKAR S NAIR, “Emotional Analysis for Malayalam Text to Speech Synthesis Systems”, Proceedings of the Setit 2007 - 4th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications, Tunisia, March 2529, 2007 [11] TSANG-LONG PAO, YU-TE CHEN, JUN-HENG YEH, WEN_YUAN LIAO, “Combining acoustic features for improved emotion recognition in mandarin speech”, in ACII (Affective Computing and Intelligent Interaction), Beijing, China, October 22-24, 2005 [12] FRANK DELLERT, THOMAS POLZIN, ALEX WAIBEL, “Recognising emotions in speech”, ICSLP 96, Philadelphia, USA, Oct 03-06, 1996 [13] IAIN R MURRAY, JOHN L ARNOTT, ELIZABETH A ROHWER, “Emotional stress in synthetic speech: Progress and future directions”, Speech Communication, vol 20, Nov 1996, pp 85-91 [14] SINÉAD MCGILLOWAY, RODDY COWIE, ELLEN DOUGLAS-COWIE, STAN GIELEN, MACHIEL WESTERDIJK, SYBERT STROEVE “Approaching automatic recognition of emotion from voice: A rough benchmark”, Proceedings of the ISCA Workshop on Speech and Emotion, Newcastle, Northern Ireland, UK, Sep 5-9, 2000 [15] JAY L DEVORE, “Probability and Statistics for Engineering and the Sciences”, Eighth Edition, Brooks/Cole Edition, 2010 [16] YIXIONG PAN, PEIPEI SHEN, LIPING SHEN, “Speech Emotion Recognition Using Support Vector Machine”, International Journal of Smart Home Vol 6, No 2, April, 2012, pp 101-108 [17] R SUBHASHREE1, G N RATHNA, “Speech Emotion Recognition: Performance Analysis based on Fused Algorithms and GMM Modelling”, Indian Journal of Science and Technology, Vol 9(11), March 2016, pp 1-8 [18] H MIWA, T UMETSU, A TAKANISHI, H TAKANOBU, “Robot personalization based on the mental dynamics”, IEEE/RSJ Conference on Intelligent Robots and Systems, vol 1, Takamatsu, Oct 31-Nov 5, 2000 [19] KUN HAN, DONG YU, IVAN TASHEV, “Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine”, INTERSPEECH 2014, Singapore, September 14-18, 2014 [20] THI DUYEN NGO, THE DUY BUI, “A study on prosody of Vietnamese emotional speech”, Proceedings of Tập V-1, Số 15 (35), tháng 6/2016 the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, Danang city, Vietnam, Aug 17-19, 2012 [21] VIET HOANG ANH, MANH NGO VAN, BANG BAN HA, THANG HUYNH QUYET, “A real-time model based Support Vector Machine for emotion recognition through EEG”, International Conference on Control, Automation and Information Sciences (ICCAIS), Ho Chi Minh city, Vietnam, Nov 26-29, 2012 [22] JOHANNES PITTERMANN, ANGELA PITTERMANN, WOLFGANG MINKER, “Handling Emotions in Human-Computer Dialogues”, Springer, 2010 [23] DANG-KHOA_MAC, ERIC CASTELLI, VÉRONIQUE AUBERGÉ, “Modeling the Prosody of Vietnamese Attitudes for Expressive Speech Synthesis”, Workshop of Spoken Languages Technologies for Under-resourced Languages (SLTU 2012), Cape Town, South Africa, May 7-9, 2012 [24] DANG-KHOA MAC, DO-DAT TRAN, “Modeling Vietnamese Speech Prosody: A Step-by-Step Approach Towards an Expressive Speech Synthesis System”, Springer, Trends and Applications in Knowledge Discovery and Data Mining, vol 9441, Springer, 2015, pp 273-287 [25] RAHUL B LANEWAR, SWARUP MATHURKAR, NILESH PATEL, “Implementation and Comparison of Speech Emotion Recognition System using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques”, Procedia Computer Science, vol 49, Elsevier, 2015, pp 50-57 [26] MOATAZ EL AYADI, MOHAMED S KAMEL, FAKHRI KARRAY, “Survey on speech emotion recognition: Features, classification schemes, and databases”, Pattern Recognition Journal, vol 44, Issue 3, Elsevier, March 2011, pp 572–587 [27] www.praat.org, last visited 20/02/2016 [28] LA VUTUAN, HUANG CHENG-WEI, HA CHENG, ZHAO LI, “Emotional Feature Analysis and Recognition from Vietnamese Speech”, Journal of Signal Processing, China, 2013 [29] JIANG ZHIPENG, HUANG CHENGWEI, “HighOrder Markov Random Fields and Their Applications in Cross-Language Speech Recognition”, Cybernetics and Information Technologies, Volume 15, No 4, Sofia, 2015, pp 50-57 [30] ROBERT PLUTCHIK, HENRY KELLERMAN, “Emotion: Theory, research and experience”, vol Academic Press, New York, USA, 1989 [31] NGUYỄN TÔN NHAN, PHÚ VĂN HẲN, “Từ điển tiếng Việt”, Nhà xuất Từ điển Bách Khoa, 2013 -97- Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT [32] JOHN C PLATT, “Technical Report MSR-TR-98-14”, Microsoft Research, April 21, 1998 [33] QUINLAN, J R “C4.5: Programs for Machine Learning”, Morgan Kaufmann Publishers, 1993 [34] WITTEN, IAN H., AND EIBE FRANK, “Data Mining: Practical machine learning tools and techniques”, Morgan Kaufmann Publishers, 2005 [35] EYBEN, FLORIAN, MARTIN WÖLLMER, AND BJÖRN SCHULLER, "Opensmile: the munich versatile and fast open-source audio feature extractor", Proceedings of the 18th ACM international conference on Multimedia, Firenze, Italia, Oct 25-29, 2010 [36] SIQING WUA, TIAGO H FALKB, WAI-YIP CHAN, “Automatic speech emotion recognition using modulation spectral features”, Speech Communication, Volume 53, Issue 5, 2011, pp 768–785 Tập V-1, Số 15 (35), tháng 6/2016 [37] S LALITHA, ABHISHEK MADHAVAN, BHARATH BHUSHAN, SRINIVAS SAKETH, “Speech emotion recognition”, Proceedings of the International Conference on Advances in Electronics, Computers and Communications, Bangalore, India, Oct 10-11, 2014 [38] MARTIN GJORESKI, HRISTIJAN GJORESKI, ANDREA KULAKOV, “Machine Learning Approach for Emotion Recognition in Speech”, Informatica, vol 38, no 4, 2014, pp 377-384 [39] ANKUSH CHAUDHARY,ASHISH KUMAR SHARMA, JYOTI DALAL, LEENA CHOUKIKER, “Speech Emotion Recognition”, Journal of Emerging Technologies and Innovative Research, vol 2, issue 4, 2015, pp 1169-1171 Nhận ngày: 26/02/2016 SƠ LƢỢC VỀ TÁC GIẢ LÊ XUÂN THÀNH TRỊNH VĂN LOAN Sinh năm 1982 Sinh năm 1956 Tốt nghiệp ĐH Bách khoa Hà Nội năm 2006 Tốt nghiệp ĐH Bách khoa Hà Nội năm 1978 Nhận DEA năm 1988 nhận Docteur năm 1992 Viện ĐH Bách khoa Quốc gia Grenoble (INPG) Pháp Hiện giảng viên nghiên cứu sinh Bộ mơn Kỹ thuật Máy tính, Trường ĐH Bách khoa Hà Nội Lĩnh vực nghiên cứu: Xử lý tín hiệu, Xử lý tiếng nói, Hệ nhúng Hiện cơng tác Viện CNTT Truyền thông, Trường ĐH Bách khoa Hà Nội Email: thanhlx@soict.hust.edu.vn Lĩnh vực nghiên cứu: Xử lý tín hiệu, Xử lý tiếng nói, Hệ nhúng Điện thoại : 0906755789 Email: loantv@soict.hust.edu.vn ĐÀO THỊ LỆ THỦY NGUYỄN HỒNG QUANG Sinh năm 1976 Sinh năm 1978 Tốt nghiệp Học viện Kỹ thuật Quân năm 2008 Tốt nghiệp ĐH Bách khoa Hà Nội năm 2000 Hiện nghiên cứu sinh Viện CNTT Truyền thông, Trường ĐH Bách khoa Hà Nội Nhận tiến sỹ Trường ĐH Avignon, CH Pháp năm 2008 Lĩnh vực nghiên cứu: Xử lý tín hiệu, Xử lý tiếng nói, cơng nghệ Hiện giảng viên Viện CNTT Truyền thông, Trường ĐH Bách khoa Hà Nội phần mềm Email: thuydt@hht.edu.vn Lĩnh vực nghiên cứu: Xử lý tiếng nói, Học máy thống kê Email: quangnh@soict.hust.edu.vn -98- ... xây dựng ngữ liệu tiếng Việt có cảm xúc; Phần IV sử dụng phương pháp phân tích phương sai ANOVA kiểm định T để đưa kết phân tích thống kê khác biệt cảm xúc theo tần số F0 lượng tiếng nói; Phần... này, cần phải tìm tham số đặc trưng cảm xúc tiếng nói nói chung tiếng nói tiếng Việt nói riêng Sau đưa mơ hình tổng hợp, nhận dạng tiếng nói có cảm xúc Cảm xúc người đo lường cách xác phương tiện... định danh cảm xúc như: sợ hãi, tức giận, buồn vui [14] III XÂY DỰNG NGỮ LIỆU CẢM XÚC TIẾNG VIỆT Theo thống kê [22], có nhiều liệu cảm xúc xây dựng cho ngôn ngữ khác giới với số lượng liệu tương

Ngày đăng: 12/03/2020, 20:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan