Báo cáo khoa học: "Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt sử dụng mô hình Markov ẩn" pot

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 116 nhận dạng từ có thanh điệu khác nhau trong tiếng việt sử dụng mô hình markov ẩn Hoàng Hữu Việt (a) Tóm tắt. Trên cơ sở nghiên cứu mô hình Markov ẩn (HMM) và ngữ âm tiếng Việt, bài báo này đa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng Việt và một số kết quả thử nghiệm với hệ thống nhận dạng thanh điệu tiếng Việt. Các thử nghiệm giới hạn là từ tiếng Việt giống nhau về âm đầu, vần và chỉ khác nhau về thanh điệu, bộ từ vựng nhỏ, phụ thuộc ngời nói. Kết quả nhận dạng tốt nhất với độ chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu. 1. Giới thiệu Nhận dạng tiếng nói bằng máy tính cho phép con ngời giao tiếp với máy tính bằng tiếng nói. Hiện nay trên thế giới đã có những hệ thống nhận dạng tiếng nói cỡ lớn, độ chính xác tơng đối cao nhng chủ yếu đợc phát triển trên những cơ sở dữ liệu tiếng nói khá hoàn chỉnh, chủ yếu là tiếng Anh. ở Việt Nam, việc nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói mới ở bớc đầu với rất ít kết quả đợc công bố. Để xây dựng đợc các hệ thống nhận dạng tiếng nói thành công của mỗi một dân tộc, ngoài những nguyên tắc nhận dạng chung, đòi hỏi ngời nghiên cứu phải quan tâm, khai thác triệt để các yếu tố tiếng nói đặc thù riêng nhằm phát triển đợc hệ thống nhận dạng phù hợp. Tiếng Việt là một ngôn ngữ đơn âm, có thanh điệu, mỗi âm tiết đều có một thanh điệu đóng vai trò là một âm vị mang tính siêu đoạn. Đó là loại âm vị không có âm đoạn, không độc lập tồn tại nhng có chức năng phân biệt nghĩa [1]. Việc đi sâu nghiên cứu, tích hợp các đặc trng của tiếng Việt vào các hệ thống nhận dạng tiếng nói bằng các phơng pháp nhận dạng hiện đại là một hớng nghiên cứu nhằm tiến tới xây dựng các ứng dụng nhận dạng tiếng Việt phù hợp. Nghiên cứu ảnh hởng của thanh điệu, một trong những đặc trng cơ bản của tiếng Việt, là cần thiết giúp cho quá trình xây dựng một hệ thống nhận dạng tiếng Việt sau này. Trong bài viết này, chúng tôi trình bày cấu trúc cơ bản của âm tiết tiếng Việt và một số kết quả nghiên cứu thử nghiệm nhận dạng âm tiết có thanh điệu khác nhau trong tiếng Việt sử dụng mô hình Markov ẩn. 2. Cấu trúc cơ bản của âm tiết tiếng việt 2.1. Cấu trúc cơ bản của âm tiết tiếng Việt Về mặt cấu trúc, âm tiết tiếng Việt đợc tạo thành từ 3 thành phần khá độc lập là âm đầu, vần và thanh điệu, trong đó phần vần có thể đợc chia thành âm đệm, âm chính và âm cuối. Nhận bài ngày 18/9/2006. Sửa chữa xong 28/02/2007. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 117 Bảng 2.1. Cấu trúc của âm tiết tiếng Việt. Thanh điệu Vần Âm đầu Âm đệm Âm chính Âm cuối Âm đầu luôn luôn là một phụ âm hoặc có thể thiếu trong một số âm tiết. Vần đợc phân thành âm đệm, âm chính và âm cuối. Âm đệm và âm cuối có thể thiếu trong một số âm tiết. Âm chính là một nguyên âm đơn hoặc một nguyên âm đôi. Âm cuối là một phụ âm hoặc bán nguyên âm. Tiếng Việt có 22 âm đầu, 155 vần, 1 âm đệm, 16 âm chính và 8 âm cuối. Tổng số âm tiết phát âm khác nhau khoảng 18598 âm tiết nhng thực tế chỉ có 7000 âm tiết khác nhau đợc sử dụng [1]. Thanh điệu là một âm vị siêu đoạn tính, nó đợc biểu hiện trong toàn bộ âm tiết bao gồm cả âm đầu, âm đệm, âm chính và âm cuối. Thanh điệu tiếng Việt có 6 thanh là thanh ngang (không dấu), thanh sắc, thanh ngã, thanh hỏi, thanh huyền và thanh nặng. Theo các nhà ngữ âm học, ba tiêu chí khu biệt cho 6 âm vị thanh điệu đợc biểu diễn theo sơ đồ hình cây sau: Trong hình 2.1 tính từ mỗi điểm phân nhánh, nhánh trái biểu thị vế đầu, nhánh phải biểu thị vế sau của thế đối lập. Âm vực là độ cao của thanh điệu. Âm điệu là sự biến thiên của độ cao theo thời gian. Sự thể hiện âm điệu của các thanh điệu trong những âm tiết tách rời nh sau: - Thanh không dấu là một thanh thuộc âm vực cao, đờng nét âm điệu bằng phẳng hầu nh không lên không xuống từ đầu đến cuối. - Thanh huyền là một thanh thuộc âm vực thấp, xuất phát thấp hơn thanh không dấu một nữa độ cao. Đờng nét âm điệu bằng phẳng hơi đi xuống thoai thoải. Không dấu Huyền Ng Hỏi Sắc Nặng Âm điệu bằng - Trắc Âm điệu gy - Không gy Âm vực cao - Thấp Hình 2.1 . Tiêu chí khu biệt cho 6 âm vị th anh điệu. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 118 - Thanh ngã xuất phát gần ngang với độ cao xuất phát của thanh huyền. Thanh này bắt đầu ở âm vực thấp nhng kết thúc ở âm vực cao. Đờng nét âm điệu không bằng phẳng, có hai biến thể: + Đờng nét bắt đầu cao hơn thanh huyền một chút đến giữa âm tiết đi xuống đột ngột, dốc đứng trong một thời gian ngắn, sau đó vút lên ngang với độ cao ban đầu và đi thêm 1 quãng nữa. + Đờng nét bắt đầu và kết thúc tơng tự nh trên nhng bị gián đoạn ở giữa. - Thanh hỏi bắt đầu ở mức cao của độ xuất phát thanh huyền. Đờng nét âm điệu thấp dần từ khi bắt đầu, đến quãng giữa thì chuyển sang một nét đi lên cân đối với nét đi xuống ban đầu, và kết thúc ngang bằng với độ cao xuất phát. - Thanh sắc có các biến thể: + Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đờng nét âm điệu bắt đầu xấp xỉ với thanh không dấu, với một âm điệu bằng ngang sau đó âm điệu đi lên, kết thúc cao hơn thanh không dấu. + Trong các âm tiết có âm cuối là âm tắc, vô thanh. Nếu âm chính là nguyên âm dài thì phần bằng ngang ngắn hơn nhiều hoặc có khi mất hẳn. Độ cao xuất phát và độ cao kết thúc về cơ bản nh trờng hợp trên. Nếu âm chính là nguyên âm ngắn thì thanh điệu bắt đầu cao hơn khá nhiều, đờng nét âm điệu đi lên mạnh hơn và kết thúc ở một khoảng cách nhỏ. - Thanh nặng là thanh điệu thuộc âm vực thấp, nó bắt đầu xấp xỉ với mức cao ban đầu của thanh huyền. Các biến thể gồm: + Trong các âm tiết có âm cuối không phải là âm tắc, vô thanh, đờng nét bắt đầu bằng ngang và kéo dài trong phần lớn của bộ phận vần, sau đó đi xuống với độ dốc lớn. Nếu âm cuối là âm mũi thì phần đi xuống nằm vào âm cuối. + Trong các âm tiết kết thúc bằng âm tắc, vô thanh, phần đi xuống nằm ngay ở cuối nguyên âm làm âm chính. Nếu âm chính là nguyên âm ngắn thì phần ngang bằng thu ngắn lại. Thanh điệu là sự nâng cao hoặc hạ thấp giọng nói trong một âm tiết, điều đó có nghĩa là sự thay đổi tần số âm thanh cơ bản của nguyên âm. Dây thanh chấn động tạo ra âm thanh. Khi âm cơ bản giữ nguyên, các hoạ âm (là các tần số bằng bội số của tần số âm cơ bản) thay đổi về cờng độ và độ cao do hiện tợng cộng hởng thì toàn bộ âm thanh sẽ thay đổi âm sắc và nhận đợc các nguyên âm khác nhau về thanh điệu, ví dụ à, ù, ì. Ngợc lại, nếu tần số âm cơ bản thay đổi trong khi các hoạ âm không thay đổi do không có sự biến đổi gì về cộng hởng thì sẽ chỉ có một nguyên âm với một âm sắc không đổi, nhng với nhiều thanh điệu khác nhau, ví dụ à, á, ạ. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 119 Nh vậy thanh điệu đợc xác định bởi tần số âm cơ bản, tuy nhiên độ cao của âm cơ bản không nhất thiết phải đồng đều trong thời gian tồn tại của âm tiết mà có sự biến thiên theo thời gian. Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết trong phát ngôn "ma, mà, má, mạ, mả, mã" đợc trích chọn trong khoảng thời gian 10ms sử dụng phần mềm Praat [8] đợc chỉ ra trong hình 2.2. Hình 2.2. Tín hiệu tiếng nói và sự biến thiên của tần số cơ bản của các âm tiết. 2.2. Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt Xét việc phát âm các từ ma, má, mà, mả, mã, mạ, nếu bỏ đi phần thanh điệu thì đợc phát âm là /ma/, là những âm tiết đồng âm. Trong một câu nói, để xác định chính xác âm tiết nào đợc phát âm cần phải sử dụng các thông tin về ngữ cảnh, nghĩa là các âm tiết đợc phát âm trớc và sau nó, điều này đợc giải quyết bằng mô hình ngôn ngữ. Tuy nhiên, nếu nhận dạng chính xác đợc thanh điệu, thì có thể xác định đợc âm tiết phát âm thay vì phải sử dụng mô hình ngôn ngữ. Căn cứ vào cấu tạo âm tiết tiếng Việt, vào tính chất thanh điệu đợc xác định bởi tần số âm cơ bản F o và vào tập tham số MFCC (Mel - Frequency Cepstral Coefficients) không chứa tần số âm cơ bản F 0 chúng tôi tiến hành thử nghiệm tập tham số MFCC kết hợp với tần số cơ bản F 0 để xem xét sự chính xác của hệ thống nhận dạng âm tiết có các thanh điệu khác nhau trong tiếng Việt. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 120 3. Thực nghiệm Hệ thống nhận dạng tiếng Việt đợc xây dựng bằng phần mềm Matlab dựa trên một số modul phân tích tham số đặc trng của tiếng nói [6] và modul nhận dạng HMM [7]. 3.1. Mô hình hệ thống nhận dạng Mô hình hệ thống nhận dạng đợc mô tả ở hình 3.1 [5]. Môi trờng thử nghiệm là phòng máy tính, tín hiệu tiếng nói đợc ghi bằng micro thông thờng, tốc độ lấy mẫu là 11025Hz, PCM 16 bit mono. Chuỗi quan sát là véc tơ đặc trng của các khung tín hiệu. Hình 3.1. Mô hình hệ thống nhận dạng. Sáu mô hình HMM đợc sử dụng để nhận dạng sáu âm tiết của các thử nghiệm. Với các cơ sở dữ liệu đợc chọn là tập các âm tiết có 3 âm vị, qua các thử nghiệm cho thấy mỗi mô hình HMM có 3 trạng thái, tơng đơng với số âm vị của mỗi âm tiết, cho kết quả nhận dạng tốt nhất. Mỗi mô hình HMM đợc mô tả ở hình 3.2. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 121 Hình 3.2. Mô hình Markov ẩn 3 trạng thái sử dụng nhận dạng. Ma trận xác suất chuyển trạng thái của mỗi mô hình HMM đợc khởi tạo nh sau: 0.3333 0.3333 0.3333 0.0000 0.5000 0.5000 0.0000 0.0000 1.0000 Tập các phân bố xác suất cho trạng thái khởi đầu của mỗi mô hình HMM đợc chọn là: (0.3333, 0.3333, 0.3333). 3.2. Thử nghiệm 1 a. Cơ sở dữ liệu: Cho tới nay cha có cơ sở dữ liệu tiếng Việt dùng chung nào đợc xây dựng và công bố. Đây là một trở ngại trong việc nghiên cứu và đánh giá độ chính xác của tập tham số nhận dạng tiếng Việt. Cơ sở dữ liệu tiếng nói sử dụng trong thực nghiệm do tác giả tự thu âm giọng nói của chính mình. Cơ sở dữ liệu đợc chia thành hai tập: - Tập huấn luyện: Gồm 100 câu, mỗi câu có 6 âm tiết "na, ná, nà, nạ, nã, nả" đợc đọc theo thứ tự ngẫu nhiên. - Tập nhận dạng: Gồm 59 câu không thuộc tập các câu huấn luyện, mỗi câu có 6 âm tiết "na, ná, nà, nạ, nã, nả" đợc đọc theo thứ tự ngẫu nhiên. Tất cả các âm tiết của tập huấn luyện và tập nhận dạng đợc phân đoạn và gán nhãn theo từng âm tiết của các câu đọc vào dựa trên 1 thủ tục tự động. Tiêu chí phân đoạn là năng lợng của mỗi âm tiết, dựa trên thuật toán phát hiện điểm kết thúc âm tiết [3]. Độ dài của các âm tiết là khác nhau (kể cả với một âm tiết đợc phát âm những lần khác nhau), phụ thuộc vào tốc độ phát âm của từng âm tiết. b. Tập tham số: Tín hiệu của mỗi âm tiết đợc phân tích thành các khung với mỗi khung có chiều dài 256 mẫu, các khung chồng lên nhau 128 mẫu. Số khung của mỗi âm tiết phụ thuộc vào độ dài tín hiệu của âm tiết. Bốn tập tham số cho mỗi khung tín hiệu đợc thử nghiệm với bộ nhận dạng gồm [4]: - (MFCC + E): Tập tham số gồm 12 hệ số MFCC (Mel - Frequency Cepstral Coefficients), 1 hệ số năng lợng. Véc tơ tham số cho mỗi khung tín hiệu gồm 13 hệ số. Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 122 - (MFCC + E )+ D: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng lợng, 13 hệ số đạo hàm bậc một. Véc tơ tham số cho mỗi khung tín hiệu gồm 26 hệ số. - (MFCC + E) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng lợng, 13 hệ số đạo hàm bậc một, 13 hệ số đạo hàm bậc 2. Véc tơ tham số cho mỗi khung tín hiệu gồm 39 hệ số. - (MFCC + E + F 0 ) + D + A: Tập tham số gồm 12 hệ số MFCC, 1 hệ số năng lợng, 1 hệ số là tần số cơ bản F 0 , 14 hệ số đạo hàm bậc một, 14 hệ số đạo hàm bậc 2. Véc tơ tham số cho mỗi khung tín hiệu gồm 42 hệ số. 3.3. Thử nghiệm 2 Các tham số đợc chọn giống nh thử nghiệm 1 nhng thay đổi về tập âm tiết huấn luyện và nhận dạng. - Tập huấn luyện: Gồm 90 câu, mỗi câu có 6 âm tiết "ma, má, mà, mạ, mã, mả" đợc đọc theo thứ tự ngẫu nhiên. - Tập nhận dạng: Gồm 40 câu không thuộc tập các câu huấn luyện, mỗi câu có 6 âm tiết "ma, má, mà, mạ, mã, mả" đợc đọc theo thứ tự ngẫu nhiên. 4. Kết quả Bảng 4.1a là kết quả nhận dạng âm tiết, bảng 4.1b là kết quả nhận dạng nhầm các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F 0 ) + D + A của thử nghiệm 1. Bảng 4.1a. Kết quả nhận dạng của thử nghiệm 1. Độ chính xác Tập tham số Âm tiết Câu (MFCC + E) 75.42% 15.25% (MFCC + E) + D 83.62% 28.81% (MFCC + E) + D + A 84.75% 35.59% (MFCC + E + F 0 ) + D + A 92.66% 62.71% Bảng 4.1b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 1. Thanh bị nhận dạng nhầm Thanh lỗi Thanh không Thanh sắc Thanh huyền Thanh nặng Thanh ngã Thanh hỏi Tổng cộng Thanh không 0 0 8 0 0 0 8 Thanh sắc 0 0 0 0 3 0 3 Thanh huyền 4 0 0 0 0 0 4 Thanh nặng 0 0 2 0 0 0 2 Thanh ngã 0 0 0 0 0 7 7 Thanh hỏi 0 0 0 0 2 0 2 Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 123 Bảng 4.2a là kết quả nhận dạng âm tiết, bảng 4.2b là kết quả nhận dạng nhầm các thanh điệu cho tập tham số có độ chính xác cao nhất (MFCC + E + F 0 ) + D + A của thử nghiệm 2. Bảng 4.2a. Kết quả nhận dạng của thử nghiệm 2. Độ chính xác Tập tham số Âm tiết Câu (MFCC + E) 80.00% 25.00% (MFCC + E) + D 92.50% 67.50% (MFCC + E) + D + A 94.58% 72.50% (MFCC + E + F 0 ) + D + A 96.67% 82.50% Bảng 4.2b. Kết quả nhận dạng nhầm các thanh điệu của thử nghiệm 2. Thanh bị nhận dạng nhầm Thanh lỗi Thanh không Thanh sắc Thanh huyền Thanh nặng Thanh ngã Thanh hỏi Tổng cộng Thanh không 0 0 3 0 0 0 3 Thanh sắc 0 0 0 0 0 0 0 Thanh huyền 2 0 0 0 0 0 2 Thanh nặng 0 0 1 0 0 0 1 Thanh ngã 0 0 0 0 0 1 1 Thanh hỏi 0 0 0 0 1 0 1 Bảng 4.1b và bảng 4.2b cho thấy số lợng lỗi nhận dạng nhầm giữa các thanh điệu. Tỷ lệ nhận dạng nhầm ở thanh không dấu sang thanh huyền là cao nhất, tiếp đến là nhận dạng nhầm ở thanh huyền sang thanh không dấu. Âm tiết chứa thanh nặng và thanh hỏi cho kết quả nhận dạng chính xác cao nhất. 5. Kết luận Bài báo này trình bày một số kết quả thực nghiệm nhận dạng thanh điệu tiếng Việt dựa trên tập gồm các âm tiết có chung âm đầu, âm vần nhng khác nhau về thanh điệu. Phơng pháp nhận dạng đợc chọn là mô hình Markov ẩn. Đơn vị nhận dạng là âm tiết. Dựa trên lý thuyết về ngữ âm tiếng Việt cũng nh thực nghiệm đã chứng tỏ việc bổ sung tần số cơ bản F 0 vào vector tham số đặc trng đã tăng đáng kể độ chính xác nhận dạng cho hệ thống nhận dạng thanh điệu tiếng Việt. Kết quả nhận dạng tốt nhất với độ chính xác là 96.67% ở mức âm tiết và 82.50% ở mức câu với tập tham số (MFCC + E + F 0 ) + D + A. Tuy nhiên những kết quả trong bài báo này chỉ là những kết quả bớc đầu đợc thử nghiệm trên những cở sở dữ liệu nhỏ. Một trong những nghiên cứu chính Đại học Vinh Tạp chí khoa học, tập XXXVI, số 2A-2007 124 tiếp theo là cần phải xây dựng và thử nghiệm trên các cơ sở dữ liệu lớn, có nhiều ngời nói và cần xác định mô hình phiên âm của các âm tiết hay âm vị phù hợp với hệ thống nhận dạng để tăng độ chính xác nhận dạng. Tài liệu tham khảo [1] Đặng Ngọc Đức, Lơng Chi Mai, Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt, Tạp chí Tin học và Điều khiển học, T.19, S.2, pp.131-138, 2003. [2] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất bản Đại học quốc gia Hà Nội, 1999. [3] Lawrence R. Rabiner and Ronald W. Schafer, Digital Processing of Speech Signals, Prentice Hall, 1978. [4] Lawrence R. Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993. [5] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, IEEE, Vol.77, No.2, pp. 257 - 285, February, 1989. [6] Barbara Resch, Signal Processing and Speech Communication Laboratory, http://www.igi.tugraz.at/lehre/CI. [7] VOICEBOX: Speech Processing Toolbox for MATLAB, http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html. [8] Paul Boersma and David Weenink, Institute of Phonetic Sciences (IFA) in the University of Amsterdam, www.praat.org. SUMMARY recognition of Vietnamese speech words with different tones by using Hidden Markov Model Based on the study of the hidden Markov model (HMM) and Vietnamese phonetics, this paper presents some proposals of recognition of Vietnamese speech words with differrent tones and some results of recognition experiments with Vietnamese speech databases of words. The recognition task is limited to Vietnamese words, which have the same initial and final, but different tones. The best recognition rate is 96.67% for words and 82.50% for sentences. (a) Khoa Công nghệ Thông tin, trờng Đại học Vinh. . khoa học, tập XXXVI, số 2A-2007 116 nhận dạng từ có thanh điệu khác nhau trong tiếng việt sử dụng mô hình markov ẩn Hoàng Hữu Việt (a) Tóm tắt. Trên cơ sở nghiên cứu mô hình Markov. và ngữ âm tiếng Việt, bài báo này đa ra một số đề xuất nhận dạng từ có thanh điệu khác nhau trong tiếng Việt và một số kết quả thử nghiệm với hệ thống nhận dạng thanh điệu tiếng Việt. Các thử. cuối. Thanh điệu tiếng Việt có 6 thanh là thanh ngang (không dấu), thanh sắc, thanh ngã, thanh hỏi, thanh huyền và thanh nặng. Theo các nhà ngữ âm học, ba tiêu chí khu biệt cho 6 âm vị thanh điệu

Báo cáo khoa học: "Nhận dạng từ có thanh điệu khác nhau trong tiếng Việt sử dụng mô hình Markov ẩn" pot

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan