Mô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói (Luận văn thạc sĩ)

Thông tin tài liệu

Mô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nóiMô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN THỊ THU HUYỀN MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2018 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THU HUYỀN MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Vũ Vinh Quang THÁI NGUYÊN - 2018 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu tơi, có hỗ trợ từ Giáo viên hướng dẫn TS Vũ Vinh Quang Các nội dung nghiên cứu kết đề tài trung thực chưa cơng bố cơng trình nghiên cứu trước Những số liệu hình phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi phần tài liệu tham khảo Ngoài ra, đề tài sử dụng số nhận xét, đánh số liệu tác giả, quan tổ chức khác, thể phần tài liệu tham khảo Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm trước Hội đồng, kết luận văn Thái nguyên, ngày … tháng … năm 2018 Tác giả NGUYỄN THỊ THU HUYỀN ii LỜI CẢM ƠN Để hoàn thành luận văn này, em xin tỏ lòng biết ơn sâu sắc đến thầy TS Vũ Vinh Quang, tận tình hướng dẫn suốt trình viết luận văn tốt nghiệp Em chân thành cảm ơn quý thầy, cô trường Đại Học Công nghệ Thơng tin Truyền thơng tận tình truyền đạt kiến thức hai năm học tập Với vốn kiến thức tiếp thu trình học tảng cho q trình nghiên cứu để em hồn thành luận văn Thái nguyên, ngày … tháng … năm 2018 Tác giả NGUYỄN THỊ THU HUYỀN iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC HÌNH ẢNH .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC TỪ VIẾT TẮT vii LỜI MỞ ĐẦU CHƯƠNG MỘT SỐ KIẾN THỨC CƠ BẢN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Khái niệm chung 1.1.1 Khái niệm nhận dạng tiếng nói 1.1.2 Phân loại nhận dạng tiếng nói 1.1.3 Hệ thống nhận dạng tiếng nói tự động 1.2 Các nghiên cứu thời nhận dạng tiếng nói 1.2.1 Các nghiên cứu nhận dạng tiếng nói nước 1.2.2 Các nghiên cứu nhận dạng tiếng nói tiếng Việt 1.3 Các hướng tiếp cận nhận dạng tiếng nói 10 1.4 Những khó khăn nhận dạng tiếng nói .11 1.5 Xử lý tiếng nói 13 1.5.1 Khái niệm xử lý tiếng nói 13 1.5.2 Kỹ thuật lấy mẫu tín hiệu 13 1.5.3 Cấu trúc lọc tín hiệu 13 1.5.4 Kỹ thuật dị tìm điểm cuối .15 1.5.5 Kỹ thuật rút trích đặc trưng .16 1.5.6 Phương pháp tính hệ số MFCC .18 1.6 Sơ lược ngôn ngữ tiếng Việt 23 1.6.1 Giới thiệu âm tiết 23 1.6.2 Một số đặc điểm âm tiết tiếng Việt 23 1.6.3 Lý thuyết âm vị 25 CHƯƠNG TỔNG QUAN VỀ MƠ HÌNH MẠNG MARKOV ẨN 27 iv 2.1 Mơ hình Markov ẩn 27 2.2 Các tốn mơ hình Markov ẩn .30 2.2.1 Bài toán 30 2.2.2 Bài toán 30 2.2.3 Bài toán 31 2.3 Các thuật toán 31 2.3.1 Thuật toán tiến (forward) 31 2.3.2 Thuật toán lùi (Backward) 32 2.3.3 Các giải pháp giải toán 32 2.4 So sánh loại mơ hình Markov ẩn 33 CHƯƠNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT 35 3.1 Tổng quan HTK (HMM Tool Kit) 35 3.1.1 Giới thiệu hệ thống 35 3.1.2 Mơ hình cấu trúc tập tin khai báo HMM MFCC cho nhận dạng tiếng nói 36 3.1.3 Các bước xây dựng mơ hình nhận dạng tiếng nói sử dụng HTK 40 3.1.4 Một số Modul sử dụng trình xây dựng hệ thống nhận dạng tiếng nói tiếng việt cơng cụ HTK 44 3.2 Xây dựng hệ thống nhận dạng chữ số Tiếng việt .47 3.2.1 Xây dựng sở liệu chữ số tiếng việt .47 3.2.2 Bảng phiên âm 10 chữ số tiếng Việt .47 3.2.3 Phương pháp xây dựng hệ thống nhận dạng chữ số tiếng việt .47 3.2.4 Các kết thực nghiệm 48 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 v DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Quá trình phát âm khác tùy theo người nói Hình 1.2: Mơ hình nhận dạng tiếng nói bán độc lập người nói Hình 1.3: Cấu trúc hệ thống ASR .7 Hình 1.4: Cấu trúc hệ thống nhận dạng ngơn ngữ có điệu Hình 1.5 Ví dụ lấy mẫu tín hiệu F(t) miền thời gian 13 Hình 1.6 Minh họa hoạt động lọc FIR 14 Hình 1.7 Minh họa hoạt động lọc IIR 15 Hình 1.8 Dị tìm điểm cuối dựa mức lượng .16 Hình 1.9 Sơ đồ rút trích vevtor đặc trưng tổng quát 17 Hình 1.10 Các bước xử lý tính hệ số MFCC 18 Hình 1.11 Sóng âm chữ “ANH” trước làm phẳng (bên trái) sau làm phẳng (Bên phải) .19 Hình 1.12 Phân đoạn tín hiệu tiếng nói thành khung có chồng lấp 20 Hình 1.13 Cửa sổ Hamming 20 Hình 1.14 Cửa sổ Hanning .21 Hình 1.15 Cửa sổ hình chữ nhật .21 Hình 2.1: Minh họa mơ hình Markov nhận dạng tiếng nói với trạng thái chèn sp 28 Hình 2.2: Mơ hình Markov ẩn với sáu trạng thái 30 Hình 3.1: Minh họa giảm dần lượng Error! Bookmark not defined Hình 3.2 Các Module chức HTK 35 Hình 3.3 Các công cụ chức HTK 36 Hình 3.4 Phân bố tham số số vector đặc trưng HTK 38 Hình 3.5 Các bước xây dựng hệ thống nhận dạng tiếng nói 40 Hình 3.6: Mơ hình HMM 42 vi DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng người máy tính số hệ thống nhận dạng Bảng 3.1: Bảng phiên âm 10 chữ số tiếng Việt 47 Bảng 3.2 Kết thử nghiệm hệ thống nhận dạng với từ điển có chèn sp khơng chèn sp 49 Bảng 3.3 Kết thử nghiệm hệ thống nhận dạng với liệu test trùng với liệu huấn luyện 50 vii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt AI Artificial intelligence Trí tuệ nhân tạo AR Augmented reality Tương tác thực ảo CSDL Database Cơ sở liệu DBMS Database Management System Hệ quản trị sở liệu IoT Internet of things Internet vạn vật IR Information Retrieval Hệ thống tự động truy tìm thơng tin MIRS MMDBMS Multimedia Indexing & Retrieval Hệ thống mục truy tìm System thông tin đa phương tiện Multimedia Database Hệ thống quản trị sở liệu Management System đa phương tiện MRI Magnetic Resonance Imaging VR Virtual reality WWW World Wide Web Thực tế ảo LỜI MỞ ĐẦU Tiếng nói phương tiện giao tiếp lồi người, hình thành phát triển với q trình tiến hóa lồi người Ngay từ hình thành tiếng nói thể sức mạnh như: Khả truyền đạt thông tin, tốc độ… Ngày nay, nhờ phát triển mạnh mẽ khoa học kỹ thuật, máy móc thay lao động tay chân Tuy nhiên để điều khiển máy móc, người phải làm nhiều thao tác vừa tốn thời gian vừa phức tạp cần phải đào tạo Chính lẽ đó, nhận dạng tiếng nói đóng vai trị quan trọng giao tiếp người máy Nó giúp người điều khiển máy móc, thiết bị giọng nói đặc biệt thiết bị như: máy tính, điện thoại di động, rô bốt… Hiện nay, với phát triển vượt bậc ngành khoa học nhận dạng tiếng nói, điện thoại quay số giọng nói đời, máy tính cá nhân với phần mềm nhận dạng tiếng nói trợ giúp cho người khuyết tật tay, chân hay khiếm thính Tuy vậy, thành tựu lại nghiên cứu nhận dạng tiếng nói ngơn ngữ nước Với tiếng Việt, số lượng nghiên cứu cịn dường quan tâm Có thể nói nghiên cứu nhận dạng tiếng nói tiếng Việt chủ yếu tập trung vào nhận dạng từ rời rạc, hay hệ thống nhận dạng liên tục với kích thước nhỏ Tuy nhiên, để ngành khoa học nhận dạng tiếng nói Việt Nam thực phát triển đạt thành tựu to lớn để áp dụng vào thực tế lĩnh vực nhận dạng tiếng nói cần phát triển Chính vậy, việc nghiên cứu nhận dạng tiếng nói đặc biệt nhận dạng tiếng nói tiếng Việt cần thiết để xây dựng hệ thống nhận dạng, ứng dụng nhận dạng tiếng nói thực hữu ích riêng tiếng Việt Đề tài xây dựng với mục đích tìm hiểu, nghiên cứu, so sánh đánh giá phương pháp, hướng tiếp cận nhận dạng tiếng nói giới như: Tiếp cận âm học, tiếp cận trí tuệ nhân tạo, nhận dạng mẫu thống kê (dựa vào 38 Hình 3.4 Phân bố tham số số vector đặc trưng HTK b/ Cấu trúc tập tin mơ hình Markov ẩn (HMM) tạo HTK Mơ hình HMM tạo HTK có cấu trúc sau: Trong cấu trúc tập tin HMM:  ~h”hmm”: Tên mơ hình mơ hình hmm1  : Bắt đầu mơ hình HMM  : Kết thúc tập tin HMM  Phần thân bao bọc  : Số trạng thái mơ hình 39  : Tên trạng thái  : Chuyển trạng thái… Với mơ hình Markov ẩn tạo HTK người dùng thay đổi số chiều vector đặc trưng cho phù hợp với mục đích c/ Cấu trúc tập tin đánh nhãn liệu Với liệu dùng để huấn luyện hay nhận dạng đánh nhãn (được đặt tên với tập tin liệu có kiểu mạc định lab) Mỗi dịng đánh dấu cho vị trí bắt đầu kết thúc cho từ Trong HTK có hỗ trợ nhiều dạng tập tin đánh nhãn dạng tập tin đánh nhãn Master Lable File hay dùng, có cú pháp sau: Ví dụ ta có tập tin thu âm liệu 001.wav lưu trữ nội dung gồm số “ba moojt nawm chisn” tập tin đánh nhãn là: 40 3.1.3 Các bước xây dựng mơ hình nhận dạng tiếng nói sử dụng HTK Qua tìm hiểu cách xây dựng hệ thống nhận dạng tiếng Anh tiếng Thái ASR Lap HTK Book , Ta nhận thấy để xây dựng hệ thống nhận dạng tiếng nói đơn giản cần thực theo bước sau: Hình 3.5 Các bước xây dựng hệ thống nhận dạng tiếng nói  Bước 1: Tạo tập tin cấu trúc văn phạm Cấu trúc văn phạm đồ thị có hướng tổng quát Nó chứa cấu trúc câu có ngữ cảnh ứng dụng mà ta muốn dùng hệ thống nhận dạng 41 Ví dụ ta muốn xây hệ thống nhận dạng tiếng nói để nhận dạng chữ người dùng đọc từ hay cụm từ có từ “ Vũ”, “Vinh”, “Quang” ta có tập tin cấu trúc văn phạm sau //gram.txt $digit = Vũ| Vinh |Quang; (SENT-START SENT-END)  Bước 2: Tạo từ điển Muốn xây dựng từ điển bước tập hợp tất từ dùng ngữ cảnh Các từ xếp thứ tự alphabet tập tin phải phiên âm tương ứng Qui cách phiên âm quan trọng, ảnh hưởng lớn tới hệ thống nhận dạng Tiếp tục với ví dụ ta có tập tin từ điển sau: #dict Vũ V ux Vinh V i nh Quang Q u a ng  Bước 3: Tạo tập tin huấn luyện Ở bước ta thực trình thu âm liệu huấn luyện file âm lưu trữ dạng mở rộng *.wav  Bước 4: Để huấn luyện tập mơ hình HMM, với tất file liệu huấn luyện phải có tập tin tương ứng mức độ âm vị liên quan Với ví dụ tập tin Straincript có dạng: #!MLF!# "*/001.lab" V ux 42 "*/002.lab" v i nh "*/003.lab" q u a ng  Bước 5: Rút trích đặc trưng Tại bước này, file âm mà ta thu bước rút đặc trưng với modul HCopy HTK HTK hỗ trợ dạng đặc trưng MFCC LPC MFCC nên sử dụng tốt  Bước 6, 7: Tạo mơ hình HMM trộn hàm Gauss vào mơ hình Tại bước này, định nghĩa mơ hình cho HMM Việc gán thông tin cho prototype không quan trọng, chủ yếu xây dựng khung cho mơ hình ban đầu Một mơ hình tốt mà HTK Book đề xuất mơ hình trạng thái trái – – phải Hình 3.6: Mơ hình HMM Sau mơ hình Prototype HMM khởi tạo ban đầu: 43 Mơ hình prototype khởi đầu gồm có trạng thái, độ dài vector đặc trưng khởi tạo 39 Trong hệ số MFCC_0 = 13, hệ số delta = 13 hệ số gia tốc (delta delta) = 13  Bước 8: Tạo liệu kiểm tra Trong bước này, ta thu âm liệu để chuẩn bị cho q trình đánh giá mơ hình vừa khởi tạo Dữ liệu để đánh giá thu âm trích chọn đặc trưng liệu huấn luyện  Bước 9: Đánh giá 44 Với mơ hình nhận dạng vừa khởi tạo, ta thực đánh giá dựa liệu kiểm tra tạo bước HTK hỗ trợ cho phép đánh giá hệ thống theo thuật toán Viterbi  Bước 10: Nhận dạng thời gian thực (Online) Ở bước ta tạo tập tin định dạng cho phép hệ thống nhận dạng trực tiếp có người dùng đọc vào Nó chuyển thành dạng văn hay câu lệnh điều khiển ta tích hợp vào hệ thống Để thực trình xử lý tiếng nói, nhận dạng bước ta sử dụng modul công cụ HTK như: HVite, HCopy, HCompv, HRest, HResult… 3.1.4 Một số Modul sử dụng trình xây dựng hệ thống nhận dạng tiếng nói tiếng việt cơng cụ HTK 1) HCopy Modul copy hay nhiều file liệu vào file đầu định trước, chuyển đổi liệu sang dạng tham số Là modul để rút trích đặc trưng tập tin chứa tiếng nói HCopy sử dụng theo bước sau: Bước 1: Tạo tập tin script dùng để chứa tên tập tin cần chuyển đổi tên tập tin kết (chẳng hạn đặt tên chuyendoi.scp) Mỗi dòng tập tin script chứa đường dẫn: Tên_tập_tin_cần_xử_lý Tên_tập_tin_kết_quả_tương_ứng Ví dụ: c:/YOU_2/wave/1.mfc c:/YOU_2/wave/10.mfc c:/YOU_2/wave/11.mfc c:/YOU_2/wave/12.mfc c:/YOU_2/wave/13.mfc c:/YOU_2/wave/14.mfc c:/YOU_2/wave/15.mfc 45 Bước 2: Tạo tập tin cấu hình có tên HCopy.cfg chứa thơng tin kiểu tập tin nguồn, kiểu tập tin đích, kích thước cửa sổ… Ví dụ: Bước 3: Thực thi lệnh để tạo tập tin đích, chẳng hạn dịng lệnh sau: HCopy –C HCopy.cfg –S chuyendoi.scp 2) HParse Modul dùng để tạo tập tin mơ hình ngơn ngữ từ tập tin văn phạm sử dụng cách sau: Bước 1: Tạo tập tin văn phạm phù hợp với ngữ cảnh (chẳng hạn đặt tên gram), Ví dụ tập tin sau: $digit= moojt | hai | ba | boosn | nawm | sasu | bary | tasm | chisn | khoong; () Bước 2: Thực thi lệnh HParse: HParse gram wdnet Kết thúc trình ta thu tập tin wdnet Tập tin dùng để gán nhãn modul HVite 3) HVite HVite modul dùng để nhận dạng hệ thống nhận dạng tiếng nói mơ hình Markov ẩn, sử dụng qua bước sau: Bước 1: Tạo tập tin script chứa tất tập tin cần nhận dạng ví dụ đặt tên test.scp 46 Bước 2: Chuẩn bị tập tin như: từ điển dict, mạng ngơn ngữ wdnet, mơ hình HMM hmmlist, tập mơ hình HMM huấn luyện hmmset Bước 3:Thực thi lệnh HVite với dòng lệnh tham số: HVite –w wdnet –I recout.mlf –S test.scp –H hmmset dict hmmlist Kết thúc lệnh tệp tin Master lable recout.mlf chứa mô tả liệu cần nhận dạng tạo 4) HCompV HCompV đùng để khởi tạo mơ hình Markov ẩn tập tin huấn luyện chưa đánh nhãn Các bước sử dụng HCompV sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng huấn luyện (chẳng hạn đặt tên train.scp) Bước 2: Tạo mơ hình HMM khởi đầu nêu (4.1.1) giả sử tên proto Bước 3:Thực thi HCompV với lệnh sau: HCompV –S train.scp proto Kết thúc lệnh ta thu mơ hình HMM với tham số tập tin liệu 5) HRest Dùng để huấn luyện mơ hình HMM, thực theo bước sau: Bước 1: Tạo tập tin script chứa tất tập tin dùng để huấn luyện (chẳng hạn có tên Train.scp) Bước 2: Khởi tạo tập tin mơ hình Hmm HCompV nói Bước 3: Thực thi lệnh HRest với dòng lệnh tham số như: HRest –S train.scp vidu Kết thúc lệnh ta thu mơ hình HMM huấn luyện tập tin vidu 47 3.2 Xây dựng hệ thống nhận dạng chữ số Tiếng việt 3.2.1 Xây dựng sở liệu chữ số tiếng việt Cơ sở liệu thực nghiệm Luận văn sở liệu với 1000 mẫu tập huấn luyện 100 mẫu tập test Để thuận tiện cho việc gán nhãn, liệu thu theo câu phát sinh ngẫu nhiên (dạng văn bản) nhờ công cụ HTK 3.2.2 Bảng phiên âm 10 chữ số tiếng Việt Cách phiên âm có vài trị quan trọng đảm bảo chất lượng hệ thống nhận dạng Luận văn sử dụng bảng phiên âm âm vị cho hệ thống nhận dạng 10 chữ số tiếng Việt sau: Bảng 3.1: Bảng phiên âm 10 chữ số tiếng Việt Chữ số Phiên âm tả Phiên âm âm vị Khoong /Kh/ /oo/ /ng/ Moojt /m/ /ooj/ / t/ Hai /h/ / a // i/ Ba /b/ / a / Boosn /b//oos//n/ Nawm /n//aw//m Sasu /s//as//u/ Bary /b//ar//y/ Tasm /t//as//m/ Chisn /ch//is//n/ 3.2.3 Phương pháp xây dựng hệ thống nhận dạng chữ số tiếng việt Phương pháp xây dựng hệ thống nhận dạng 10 chữ số phát âm tiếng Việt tiến hành theo bước sau:  Từ điển: xây dựng dựa bảng phiên âm âm vị bao gồm loại từ điển cho thực nghiệm khác để đánh giá độ xác chọn từ điển thích hợp Một từ điển không chèn sp (short pause) từ điển có chèn thêm sp 48  Sử dụng công cụ HTK để xử lý rút trích đặc trưng liệu huấn luyện liệu Test  Xây dựng mơ hình Markov ẩn với hàm phát xạ quan sát hàm mật độ Gauss  Số lượng trạng thái mơ hình Markov ẩn trạng thái, có trạng thái khởi đầu trạng thái kết thúc khơng có phát xạ quan sát  Sử dụng vector đặc tính phổ gồm hệ số MFCC, giá trị lượng delta, delta- delta giá trị tạo thành tập 39 đặc tính phổ tương ứng với khung tín hiệu 10ms  Tiến hành buộc âm vị khơng có đủ liệu huấn luyện theo phương pháp dùng (tree- based) Các âm vị tập liệu kiểm tra mà khơng có mặt liệu huấn luyện tổng hợp từ âm vị huấn luyện giống  Thử nghiệm trộn nhiều hàm Gauss mix trạng thái 3.2.4 Các kết thực nghiệm a) Thử nghiệm với từ điển có chèn short pause khơng chèn short pause Trong nói, câu từ có khoảng ngừng nghỉ khác Để máy phân biệt điều khó khăn Để kiểm tra ảnh hưởng yếu tố ngừng nghỉ câu từ tới độ xác hệ thống luận văn tiến hành thử nghiệm từ điển phiên âm 10 chữ số tiếng việt khác Một từ điển phiên âm không chèn thêm âm quy định khoảng nghỉ từ điển có chèn thêm sp quy định khoảng nghỉ từ +Từ điển khơng chèn thêm sp: 49 +Từ điển có chèn thêm sp: Kết thử nghiệm độ xác hệ thống nhận dạng theo từ điển cho bảng sau: Bảng 3.2 Kết thử nghiệm hệ thống nhận dạng với từ điển có chèn sp khơng chèn sp Hệ thống nhận dạng Mức câu Mức từ Bộ từ điển khơng chèn SP 56% 90% Bộ từ điển có chèn SP 70% 90% Như vậy, với từ điển có chèn thêm sp độ xác mức câu tăng lên Đây từ điển chọn để tiến hành thực nghiệm sau b) Thử nghiệm với liệu test nằm liệu huấn luyện độc lập với liệu huấn luyện Trong q trình thực nghiệm phát sinh vấn đề có câu liệu test mà khơng có mặt liệu huấn luyện Như hệ thống phải nhận dạng câu âm tiết mà chưa học trước Nếu tập liệu bổ sung độ xác kết nhận dạng nâng lên Để nghiên cứu độ tốt hệ thống đạt tới, ta cần thử nghiệm trường hợp liệu test trùng với liệu huấn luyện Trong thực nghiệm này, liệu huấn luyện 1000 mẫu liệu test 50 liệu huấn luyện Kết thu tốt so với thử nghiệm liệu test độc lập với liệu huấn luyện Kết thực nghiệm cho bảng sau: Bảng 3.3 Kết thử nghiệm hệ thống nhận dạng với liệu test trùng với liệu huấn luyện Hệ thống nhận dạng Mức câu Mức từ Dữ liệu test trùng với liệu huấn luyện 80% 95% Dữ liệu test độc lập với liệu huấn luyện 70% 90% 51 KẾT LUẬN Nhận dạng tiếng nói vấn đề khó lĩnh vực nhận dạng Trong trình thực luận văn, em gặp khơng khó khăn mặt tài liệu, lí Việt Nam nghiên cứu nhận dạng tiếng nói khơng nhiều, người chun sâu lĩnh vực cịn Tuy nhiên, với cố gắng động viên giúp đỡ thầy em hồn thiện luận văn có đóng góp sau:  Nghiên cứu phương pháp nhận dạng tiếng nói, đánh giá lựa chọn phương pháp phù hợp để xây dựng hệ thống nhận dạng tiếng nói tiếng Việt  Tìm hiểu phương pháp xử lý trích chọn đặc trưng đánh giá tầm quan trọng việc trích chọn đặc trưng tiếng nói với hệ thống nhận dạng  Tìm công cụ HTK đặc biệt bước tổng quát để xây dựng hệ thống nhận dạng tiếng nói  Tìm đặc điểm quan trọng ngôn ngữ tiếng Việt để xây dựng hệ thống nhận dạng tiếng nói tiếng Việt  Nghiên cứu xây dựng hệ thống nhận dạng 10 chữ số phát âm tiếng Việt  Xây dựng sở liệu với 1000 câu làm liệu huấn luyện 100 câu làm liệu Test  Tìm hiểu mơ hình phiêm âm âm vị tiếng việt  Xây dựng hệ thống nhận dạng, đánh giá kết thực nghiệm Trong khoảng thời gian ngắn, điều kiện sở vật chất phục vụ cho q trình thu âm liệu cịn hạn chế nên lượng liệu thu vào chưa phong phú (độ đa dạng, số lượng chất lượng), kết đạt hệ thống nhận dạng chưa cao Trong thời gian tiếp sau, luận văn tiếp tục cải thiện độ xác hệ thống nhận dạng cách bổ sung thêm sở liệu cho hệ thống 52 TÀI LIỆU THAM KHẢO [1] Barbara S, “High- Performance Automatic Speech Recognition via Enhanced Front-end Analysis and Acoustic Modeling”,Ph.D.Thesis, University of California, 2001 [2] Hosom J.P, Cole R.A, and Cosi P, “ Improverment in Neural-Network Training and Search technique for continunous Digit recognition” Australia Journal of Intelligent information processing systems, vol.5,no.5, pp.227-284, 1998 [3] Đặng Ngọc Đức, “Nghiên cứu ứng dụng mạng Neural mơ hình Markov ẩn vào nhận dạng tiếng Việt”, Luận án tiến sĩ toán học, Đại học Quốc Gia Hà Nội, 2004 [4] Đỗ Xuân Thọ, Lê Hữu Tĩnh, “Giáo trình tiếng Việt 2”, nhà xuất Giáo dục, 1997 [5] Lương Chi Mai, Hồ Tú Bảo, “Về xử lý tiếng Việt công nghệ thông tin”, Báo cáo khoa học, Viện công nghệ thông tin [6] Nguyễn Thành Phúc, “Một phương pháp nhận dạng lời Việt: áp dụng phương pháp kết hợp mạng Neural với mơ hình Markov ẩn”, Luận án tiến sĩ Kỹ thuật, Đại học Bách khoa Hà Nội, 2000 [7] http://luanvan.net.vn/luan-van/luan-van-nhan-dang-tieng-noi-tieng-viet-sudung-mang-no-ron-nhan-tao-va-mo-hinh-markov-an-52153/ [8] http://4tech.com.vn/forums/showthread.php/5055-T%C3%ACmhi%E1%BB%83u-m%C3%B4-h%C3%ACnh-Markov-%E1%BA%A9n [9] http://doc.edu.vn/tai-lieu/luan-van-nhan-dang-tieng-noi-tieng-viet-tim-hieuva-ung-dung-54092/ ... bước xây dựng mơ hình nhận dạng tiếng nói sử dụng HTK Qua tìm hiểu cách xây dựng hệ thống nhận dạng tiếng Anh tiếng Thái ASR Lap HTK Book , Ta nhận thấy để xây dựng hệ thống nhận dạng tiếng nói. .. kế, xây dựng mở rộng từ điển tiếng Việt cho hệ thống nhận dạng tiếng Việt liên tục Hiện nay, có hai hướng xây dựng hệ thống nhận dạng tiếng nói: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng. .. nghiên cứu nhận dạng tiếng nói đặc biệt nhận dạng tiếng nói tiếng Việt cần thiết để xây dựng hệ thống nhận dạng, ứng dụng nhận dạng tiếng nói thực hữu ích riêng tiếng Việt Đề tài xây dựng với mục

Ngày đăng: 12/10/2018, 14:15

Xem thêm: Mô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói (Luận văn thạc sĩ)

Mô hình Markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói (Luận văn thạc sĩ)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan