Nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ***** PHẠM ANH TÚ NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC TRÊN BỘ TỪ VỰNG NHỎ VÀ TRUNG BÌNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ***** PHẠM ANH TÚ NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC TRÊN BỘ TỪ VỰNG NHỎ VÀ TRUNG BÌNH Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Lƣơng Chi Mai HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu phát triển hệ thống nhận dạng tiếng Việt phát âm liên tục từ vựng nhỏ trung bình” tơi tìm hiểu, nghiên cứu thực dƣới hƣớng dẫn PGS.TS Lƣơng Chi Mai Trong toàn nội dung nghiên cứu luận văn, vấn đề đƣợc trình bày tìm hiểu nghiên cứu cá nhân tơi đƣợc trích dẫn từ nhiều nguồn tài liệu hợp phápđƣợc nêu mục Tài liệu tham khảo Tôi xin chịu trách nhiệm thông tin nêu chịu hình thức kỷ luật cho lời cam đoan Hà Nội, tháng năm 2017 Phạm Anh Tú LỜI CẢM ƠN Trƣớc tiên, với lòng kính trọng biết ơn sâu sắc, tơi xin chân thành gửi lời cảm ơn đến PGS.TS.Lƣơng Chi Mai tận tình hƣớng dẫn, bảo giúp đỡ tơi suốt thờigian nghiên cứu để hoàn thành luận vănnày Tôi xin gửi lời cảmơn tới thầy cô TrƣờngĐại học Công nghệ - Đại học Quốc gia Hà Nộiđãtận tình hƣớng dẫn, giảng dạy, cung cấp cho kiến thức quý báu suốt thời gian học tập nghiên cứu trƣờng Tôi xin gửi lời cảmơn tới gia đình, bạn bè nhữngngƣời sát cánh, động viện tạo điều kiện tốt để tơi hồn thành tốt luận văn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan nhận dạng tiếng nói 1.1.1 Giới thiệu 1.1.2 Ứng dụng 10 1.1.3 Các vấn đề nhận dạng tiếng nói 11 1.2 Giới thiệu hệ thống nhận dạng tiếng nói 12 1.2.1 Các thành phần hệ thống nhận dạng tiếng nói 12 1.2.2 Đặc trƣng tiếng nói 13 1.2.3 Mơ hình âm học 13 1.2.4 Mơ hình ngơn ngữ 14 1.3 Tình hình nghiên cứu nƣớc 14 CHƢƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC 17 2.1 Tổng quan tiếng Việt 17 2.1.1 Âm tiết đặc điểm âm tiết 17 2.1.2 Âm vị tiếng Việt 18 2.2 Mơ hình Markov ẩn 20 2.2.1 Mơ hình Markov 20 2.2.2 Mơ hình Markov ẩn 22 2.2.3 Ba tốn mơ hình Markov ẩn giải pháp 23 2.3 Các phƣơng pháp trích chọn đặc trƣng xử lý tiếng nói 27 2.3.1 Mel Frequency Cepstral Coefficients (MFCC) 28 2.3.2 Perceptual Linear Prediction (PLP) 29 CHƢƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN TỤC SỬ DỤNG HTK 31 3.1 Giới thiệu HTK 31 3.2 Huấn luyện 31 3.2.1 Chuẩn bị liệu 31 3.2.2 Huấn luyện âm đơn 34 3.2.3 Huấn luyện âm buộc 40 3.3 Nhận dạng 43 3.3.1 Tạo mạng từ nhận dạng 43 3.3.2 Mơ hình ngơn ngữ bigram 44 3.3.3 Giải mã 45 3.3.4 Đánh giá kết nhận dạng 46 3.4 Chƣơng trình nhận dạng mƣời chữ số tiếng Việt phát âm liên tục 47 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Diễn giải ASR Automatic Speech Recognition ANN Artificial Neural Network CMS Cepstral Mean Subtraction DFT Discrete Fourier Transform DTW Dynamic Time Warping EM Expectation Maximization FFT Fast Fourier Transform HMM Hidden Markov Model F0 Formant (Tần số formant bản) F1, F2, F3 Formant 1, Formant 2, Formant LPC Linear Predictive Coding MFCC Mel Scale Frequency Cepstral Coefficients (Các hệ số cepstral với thang tần số Mel) HTK Hidden Markov Model Toolkit DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Các thành phần hệ thống nhận dạng tiếng nói 13 Hình 2.1 Cấu trúc âm tiết tiếng Việt 17 Hình 2.2 Cấu trúc hai bậc âm tiết tiếng Việt 18 Hình 2.3 Các điệu tiếng việt 18 Hình 2.4 Mơ hình trạng thái thời tiết 20 Hình 2.5: Hai mơ hình HMM với ba trạng thái cho âm A B 23 Hình 2.6 Q trình trích xuất đặc trƣng tiếng nói 28 Hình 3.1 Ngữ pháp cho việc nhận dạng chuỗi chữ số tiếng Việt 32 Hình 3.2 Thuật toán hàm HInit 36 Hình 3.3 Mơ hình hoạt động HInit 37 Hình 3.4 Mơ hình hoạt động HCompV 38 Hình 3.5 Mơ hình hoạt động HRest 38 Hình 3.6 Hoạt động HERest 39 Hình 3.7 Dùng HHed chuyển âm đơn sang âm ba 41 Hình 3.8 Quá trình buộc âm ba HHed 42 Hình 3.9 Sơ đồ ngữ pháp hệ thống nhận dạng mƣời chữ số liên tục 44 Hình 3.10 Cấu trúc ba lớp mạng từ nhận dạng 46 MỞ ĐẦU Khoa học công nghệ ngày cơng nghệ thơng tin có bƣớc tiến vƣợt bậc, đƣa ngƣời máy móc ngày hiểu Và để giúp cho việc trao đổi ngƣời máy móc thuận tiện việc nghiên cứu để giúp máy móc nhận thức hiểu đƣợc tiếng ngƣời nói qua thực nhiệm vụ đƣợc yêu cầuđang đƣợc nhà khoa học giới tập trung nghiên cứu Trong cơng đoạn để giúp máy móc hiểu đƣợc tiếng ngƣời nhận dạng tiếng nói công đoạn quan trọng Trên giới, nhà khoa họcđã theo đuổi nghiên cứuvà công nghệ hàng chục năm qua hiệnđã xây dựng đƣợc số hệ thống nhận dạng tiếng nói cỡ lớn có độ xác tƣơng đối cao Các hệ thống chủ yếuđƣợc phát triển công nghệ hiệnđại với máy tính lớn, vi mạch đƣợc thiết kế riêng để chuyên xử lý tiếng nói sử dụng sở liệu tiếng nói hồn chỉnh nhƣng phần lớn xử lý cho tiếng Anh Ở Việt Nam, tiếng Việt, việc tìm hiểu, nghiên cứu phát triển hệ thống nhận dạng tiếng nói chƣa có nhiều nghiên cứu kết Do đặc thù tiếng Việt ngôn ngữđơn âm có điệu nên việc lựa chọn phƣơng pháp tiếp cận toán nhận dạng phù hợp vấn đề tƣơng đối khó khăn Qua thấy việc nghiên cứu nhận dạng tiếng nói tiếng Việt cần thiết Các thành nghiên cứu nhận dạng tiếng nói ngơn ngữ nƣớc ngoồi cần đƣợc kế thừa nghiên cứu đểáp dụng vào tiếng Việt Vì lý trên, tơi xin lựa chọn đề tài: “Nghiên cứu phát triển hệ thống nhận dạng tiếng Việt phátâm liên tục từ vựng nhỏ trung bình”, nhằm nghiên cứu vấn đề nhận dạng tiếng nói vàáp dụng chúng nhận dạng tiếng nói tiếng Việt Mục đích nghiên cứu  Mục tiêu đề tài - Nắm rõ khái niệm, phƣơng pháp liên quan đến nhận dạng tiếng nói - Nắm vững kiến thức vềđặc trƣng tiếng nói, mơ hìnhâm học, mơ hình ngơn ngữ thích hợp cho tiếng Việt - Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói - Xây dựng chƣơng trình mơ phỏng, thực nghiệm, đƣa nhận xét kết luận  Kết cần đạt Hiểu cài đặt đƣợc chƣơng trình nhận dạng giọng nói tiếng Việt, qua đóđƣa đánh giá, nhận xét kết luận mức độ sẵn sàng khả thi chƣơng trình Đối tƣợng phạm vi nghiên cứu - Giải toán nhận dạng chuỗi phátâm liên tục, độc lập ngƣời nói - Nội dung huấn luyện xoay quanh chuỗi phát âm liên tục Phƣơng pháp nghiên cứu - Áp dụng lý thuyết mơ hình Markov ẩn – HMM (Hidden Markov Model), bao gồm khái niệm, thuật toán liên quan vàý nghĩa HMM hệ nhận dạng tiếng nói - Áp dụng cácđặc trƣng tiếng nói nhƣ MFCC (Mel-Frequency Cepstral Coefficients), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng nói Nội dung luận văn Bên cạnh phần mở đầu kết thúc, luận văn đƣợc chia làm ba chƣơng: - Chƣơng 1: Tổng quan vấn đề nghiên cứu vấn đề nhận dạng tiếng nói - Chƣơng 2:Nhận dạng giọng nói tiếng Việt phát âm liên tục - Chƣơng 3: Xây dựng hệ thống nhận dạng tiếng Việt liên tục sử dụng HTK 38 Hình 3.4 Mơ hình hoạt động HCompV 3.2.2.3 Huấn luyện HRest HRest công cụ cuối cơng cụ đƣợc thiết kế để tính tốn riêng cho khối HMM Hoạt động tƣơng tự nhƣ cơng cụ Hinit trừ việc khối mơ hình HMM đầu vàođã đƣợc khởi tạo sử dụng ƣớc lƣợng lại Baum-Welch thay cho việc huấn luyện Viterbi Hình 3.5 Mơ hình hoạt động HRest 39 Hoạt động liên quan đến việc tìm kiếm xác suất trạng thái thờiđiểm sử dụng giải thuật Forward-Backward Xác suất sau đƣợc sử dụng để tạo trọng số trung bình cho tham số HMM Do đó, huấn luyện sử dụng giải thuật Viterbi đƣa quyếtđịnh mạnh tới vector huấn luyện đƣợc trạng thái tạo giải thuật Baum-Welch lạiđƣa quyếtđịnh yếu Điều cóích ƣớc lƣợng HMM dựa trênâm vị thực tế khơng có ranh giới cácâm tiếng nói sử dụng quyếtđịnh yếu thu đƣợc kết tốt 3.2.2.4 Huấn luyện nhúng HERest Trong huấn luyệnđơn làđủ cho việc xây dựng tồn mơ hình từ khởi tạo mơ hình ban đầu sử dụng liệu mồi đƣợc gán nhãn tay thủ tục huấn luyện HMM cho việc xây dựng hệ thống từ lại xoay quanh khái niệm huấn luyện nhúng Khơng giống nhƣ q trìnhở trên, huấn luyện nhúng cập nhật đồng thời tất mơ hình HMM hệ thống sử dụng tất liệu huấn luyện Nó đƣợc thực cơng cụ HERest khơng giống nhƣ HRest, thực lặp lạiđúng lần Hình 3.6 Hoạt động HERest Trong Hình 3.6, HERest hoạt động nhƣ sau Khi bắt đầu, tải tồn tậpđịnh nghĩa HMM Mỗi file huấn luyện phải đƣợc gắn với file nhãn tƣơng ứng HERest thực với chuỗi nhãnâm vị bỏ qua thông tin nhãn thời gian Do phiên âm đƣợc tạo tự động từ ngữ pháp từđiển phátâm 40 Công cụ HERest xử lý lần lƣợt file huấn luyện Sau tải toàn vào nhớ, sử dụng phiên âm liên quan để tạo tổ hợp mơ hình HMM cho tồn phátâm Tổ hợp mơ hình HMM đƣợc tạo cách nối liên tiếp mơ hình HMM cácâm vị tƣơng ứng với nhãn phiên âm Giải thuật Forward-Backward đƣợc áp dụng vào để tính toán sau tất file huấn luyện đƣợc xử lý, tham số ƣớc lƣợng đƣợc sinh đƣợc cập nhật vào tập mơ hình HMM đầu 3.2.2.5 Gán nhãn cưỡng liệu huấn luyện Trong từđiển có chứa nhiều cách phát âm số từ, đặc biệt từ chức Các mơ hìnhâm đƣợc tạo thờiđiểm nàyđã đƣợc sử dụng để xếp lại liệu huấn luyện tạo phiên âm Nó khâu cuối huấn luyện mơ hình Markov ẩn cácđơn vị nhận dạng độc lập ngữ cảnh Theo phiên âm mức từ lần huấn luyện trƣớc đƣợc kết hợp với từđiểm phátâm để tạo phiên âm mớiở mứcâm vị Điểm khác biệtt hoạt động tạo phiên âm thích hợp cho liệuâm học Khi liệuđã đƣợc gán nhãn cƣỡng bức, thủ tục HERest đƣợc thực lại để huấn luyệnvà ƣớc lƣợng lại tập tham số HMM 3.2.3 Huấn luyện âm buộc Trải qua bƣớcở ta nhận đƣợc tập cácđơn vịđã đƣợc huấn luyệnở mứcđơn âm Tậpđơn vị đƣợc dùng cho việc nhận dạng độc lập ngữ cảnh Do cácâm thƣờng chịuảnh hƣởng lẫn ngữ cảnh, nên để nâng cao độ xác hệ thống nhận diện, HTK đãđƣa khái niệmâm ba (triphone) làđơn vị phụ thuộc ngữ cảnh so vớiâm đơn làđơn vị độc lập ngữ cảnh 3.2.3.1 Tạo âm ba từ âm đơn Cácâm ba độc lập ngữ cảnh đƣợc tạo cáchđơn giản việc chép lại cácâm đơn ƣớc lƣợng lại tham số sử dụng phiên âm củaâm ba.Âm ba đƣợc khai báo theo dạng “L-X+R” ghép từ ba âm đơn, đóâm L làâm xuất trƣớcâm X vàâm R xuất sau âm X Dƣớiđây ví dụ chuyển đổi khai báo từâm đơn sang âm ba dòng khai báo cho âm đơn dòng thứ hai khai báo cho âm ba 41 Với mơ hìnhâm học cho âm ba này, chất tìmâm đơn ngữ cảnh cácâm đơn khác Từđó nâng cao độ xác nhận dạng hệ thống nhận dạng phải tìm xác chuỗi ba âm nối với Ngồi ra, âm ba làm giảm khả gây lỗi nhầm lẫn âm vớiâm khác vìhiện ta cầnđi tìm chuỗi ba âm Mỗiâm ba đƣợc xây dựng mơ hình HMM riêng nó, nhiên có nhiều trƣờng hợpâm ba có trạng thái tƣơng tự đủ để chúng chia liệu nhómâm ba Q trình chia sẻ đƣợc gọi “buộc” Có nghĩa buộc trạng thái mơ hìnhâm ba sử dụng tập liệu tham số giống Bằng cách này, thực việc ƣớc lƣợng lại cho tham số đƣợc buộc ta có đƣợc kết ƣớc lƣợng tốt Về bản, khơng cóđủ liệu tiếng nói để xây dựng mơ hình cho tất cácâm ba tập liệu huấn luyện, “gian lận” cách chia sẻ phần liệu cácâm ba tƣơng tự để nâng cao việc nhận dạng Để chuyển đổi mơ hìnhâm đơn sang mơ hìnhâm ba, ta sử dụng cơng cụ HHed, hoạt động đƣợc thể Hình 3.7 Hình 3.7 Dùng HHed chuyểnâm đơn sang âm ba Bên cạnh việc chuyển đổi mơ hìnhâm đơn huấn luyện sang mơ hìnhâm ba, file phiên âm củaâm đơn cần đƣợc chuyển sang dạng phiên âm củâm ba cách sử dụng cơng cụ HLed 42 3.2.3.2 Buộc âm ba Một hạn chế việc tạo mơ hìnhâm học dựa âm ba bƣớc trƣớc khơng giải đƣợc vấn đề với cácâm ba khơng có mẫu tập liệu huấn luyện Tuy nhiên vấn đề tránh đƣợc cách phải xây dựng cẩn thận sở liệu huấn luyện từ ban đầu, nhƣng xây dựng từ vựng lớn dựa trênâm ba thìđiều khơng thể khơng tránh khỏi Hình 3.8 Q trình buộc cácâm ba HHed Bƣớc cuối trình xây dựng mơ hình buộc trạng thái tậpâm ba để chia sẻ liệu qua có thểđƣa ƣớc lƣợng tham số manh.Để làm việc này, công cụ đƣợc sử dụng ởđây HHed, hoạt động đƣợc mơ tả Hình 3.8, cung cấp hai chế cho phép phân cụm trạng thái sau buộc cụm lại Đầu tiên lái liệu (data-driven) sử dụng phƣơng phápđo đạc độ tƣơng tự trạng thái Thứ hai sửdụng quyếtđịnh vàdựa vào việc hỏiâm bên trái phải mỗiâm ba Cây quyếtđịnh cố gắng tìm ngữ cảnh tạo nên khác biệt lớn cácâm sau phân biệt cụm Một nhữngƣu điểm việc sử 43 dụng phân cụm dựa quyếtđịnh cho phép tổng hợp cácâm ba chƣa xuất trƣớcđó 3.3 Nhận dạng Hệ thống nhận dạng giờđã hồn thành nóđã đƣợc dùng để nhận dạng Mạng từ nhận dạng, từđiển liệu thu âm liệu cần thiết để chạy hệ thống nhận dạng Công cụ HVite đƣợc dùng cho q trình nhận dạng cơng cụ HResult đƣợc dùng đểđánh giá hệ thống 3.3.1 Tạo mạng từ nhận dạng Mạng từ (word network) mà hệ thống nhận dạng yêu cầu đƣợc khai báo cách sử dụng ký hiệu cấp thấp đƣợc gọi SLF (Standard Lattice Format), từ chuyển đổi từ-sang-từ đƣợc liệt kê cách rõ ràng Tuy nhiên, mạng từ đƣợc tạo tự động từ ngữ pháp đƣợcđịnh nghĩaở sử dụng công cụ HParse công cụ HBuild Một mạng từđịnh dạng SLF bao gồm danh sách nút cung Trong đó, nút sẽđại diện cho từ cung đại diện cho chuyển đổi từ Các cung thƣờng đƣợc gắn thêm giá trị xác suất cho cung.nhằm nhữngƣu tiên mạng ngữ pháp Ví dụ sau môt mạng từ hệ thống nhận dạng mƣời chữ số liên tục: 44 Hình 3.9 Sơ đồ ngữ pháp hệ thống nhận dạng mười chữ số liên tục Vớisố lƣợng từ vựng nhỏ trung bình củacác hệ thống nhận dạng, mạng từ hệ thống thƣờng cấu trúc vòng lặp cáctừ (word-loop), có nghĩa từ từ điển hệ thống theo sau từ từ điển 3.3.2 Mơ hình ngơn ngữ bigram Mơ hình ngơn ngữ thống kê HTK chỉở mức bigram (2-gram) Nó đƣợc xây dựng công cụ HLStats kết hợp với file MLF (Master Label File) chứatoàn bộdanh sách cácfile nhãn đƣợc dùng cho việc huấn luyện Công cụ thực việc đọc phiên âm file nhãn này, sau giải thuật back-off đƣợc sử dụng để tạo kết đầu Ý tƣởng đƣợc dựa theo cơng thức: 𝑝 𝑖, 𝑗 = 𝑁 𝑖, 𝑗 − 𝐷 𝑁 𝑖 , 𝑛ế𝑢 𝑁 𝑖, 𝑗 > 𝑡 𝑏 𝑖 𝑝 𝑗 , 𝑣ớ𝑖 𝑡𝑟ườ𝑛𝑔 𝑕ợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 Trong 𝑁(𝑖, 𝑗) số lần từ 𝑗 đứng sau từ 𝑖 𝑁(𝑖) số lần mà từ 𝑖 xuất Về bản, giảm xác suất bigram xuất nhiều để bù cho bigram xuất Quá trình đƣợc gọi discounting Dƣới ví dụ kết bigram theo giải thuật back-off đƣợc lƣu dƣới định dạng ARPA MIT-LL chuẩn: 45 Dữ liệu đƣợc sử dụng để tạo mạng word-loop với xác suất bigram cách sử dụng công cụ HBuild Mạng nhận dạng cách xếp đƣợc sử dụng hầu hết ứng dụng dictation ứng dụng phiên âm 3.3.3 Giải mã Chức trình giải mã (nhận dạng) tìm đƣờng mà có xác suất trọng mạng nhận dạng lớn kết hợp với tập mô hình HMM đƣợc huấn luyện Quá trình giải mã đƣợc điều khiển mạng nhận dạng đƣợc tạo từ mạng từ, từ điển tập mơ hình huấn luyện Mạng nhận dạng bao gồm tập nút đƣợc kết nối với cung Mỗi nút mơ hình HMM kết thúc từ Mỗi nút mơ hình thân lại mạng gồm trạng thái đƣợc kết nối với cung Do đó, sau đƣợc biên dịch hoàn chỉnh, mạng nhận dạng cuối gồm trạng thái HMM đƣợc kết nối với giá trị chuyển Có thể xem mạng theo ba cấp độ nhƣ Hình 3.10 dƣới 46 Hình 3.10 Cấu trúc ba lớp mạng từ nhận dạng Nhƣ nói trên, để tìm đƣợc đƣờng có xác suất tốt mạng nhận dạng, giải thuật truy cập xác định (Token Passing) đƣợc sử dụng Giải thuật nhƣ sau: coi thẻ xác thực (token) đoạn đƣờng qua mạng thời điểm tới thời điểm t Ở thời điểm 0, thẻ đƣợc đặt vào nút bắt đầu Sau thời điểm, thẻ đƣợc chuyển tới điểm dừng mà phát sinh trạng thái HMM Khi xuất nhiều điểm dừng từ nút, thẻ đƣợc chép tất đƣờng đƣợc duyệt qua song song với Khi thẻ đƣợc tới nút, log xác suất đƣợc tăng theo xác suất chuyển phát xạ Một nút mạng chứa N thẻ cuối thời điểm, tất thẻ nút bị loại bỏ trừ N thẻ có xác suất cao Mỗi thẻ đƣợc chuyển qua mạng đƣợc ghi lại lịch sử định định tuyến Độ chi tiết lịch sử phụ thuộc vào yêu cầu đầu nhận dạng Thông thƣờng, lịch sử lƣu lại chuỗi từ Số lƣợng thẻ nút độ chi tiết lịch sử có ảnh hƣởng đáng kể đến thời gian nhớ cho việc tính tốn nên giá trị N thƣờng đƣợc cấu hình để có hiệu tốt 3.3.4 Đánh giá kết nhận dạng Khi liệu kiểm tra đƣợc xử lý hệ thống nhận dạng bƣớc cần làm phân tích kết HTK cung cấp cơng cụ HResult cho mục đích Cơng cụ so sánh phiên âm đầu đƣợc xử lý HVite với phiên âm tham chiếu gốc sau đƣa kết thống kê HResult so khớp chuỗi nhãn đƣợc nhận dạng với liệu tham chiếu cách thực so khớp chuỗi tối ƣu sử dụng lập trình động đƣa liệu thống kê độ nhận dạng xác theo từ độ xác câu theo cơng thức sau: 47 𝑪𝒐𝒓𝒓𝒆𝒄𝒕 = 𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚 = 𝑵−𝑫−𝑺 × 𝟏𝟎𝟎% 𝑵 𝑵−𝑫−𝑺−𝑰 × 𝟏𝟎𝟎% 𝑵 𝑾𝒐𝒓𝒅𝑬𝒓𝒓𝒐𝒓𝒓𝒂𝒕𝒆 = 𝟏𝟎𝟎% − 𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚 Trong đó:N tổng số từ kiểm tra, D số từ phải xóa bỏ, I số từ phải thêm vào, S số từ phải thay Trong đánh giá hệ thống nhận dạng tiếng nói, tham số độ xác theo từ đƣợc sử dụng phổ biến 3.4 Chƣơng trình nhận dạng mƣời chữ số tiếng Việt phát âm liên tục  Cơ sở liệu Cơ sở liệu tiếng nói sử dụng luận văn đƣợc trích từ sở liệu tiếng nói điện thoại tiếng Việt trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại học Oregon, Mỹ Cơ sở liệu tiếng nói tiếng Việt bao gồm phát âm chữ số nhƣ số điện thoại, địa chỉ, số bƣu điện, tuổi… Các câu đƣợc ghi âm nhiều loại điện thoại khác Dữ liệu thu âm đa dạng tốc độ phát âm, độ to nhỏ, độ nhiễu tạp âm Dữ liệu bao gồm: - Tập liệu huấn luyện: gồm 300 câu, 1686 từ, 158 ngƣời nói(104 nam 54 nữ) - Tập liệu phát triển: gồm 74 câu, 342 từ, 38 ngƣời nói (27 nam 11 nữ) - Tập liệu kiểm tra:gồm 68 câu, 317 từ, 47 ngƣời nói(34 nam 13 nữ) Để đảm bảo tính khách quan, ngƣời nói liệu kiểm tra độc lập với ngƣời nói liệu huấn luyện  Trích chọn đặc trƣng Loại đặc trƣng đƣợc sử dụng thử nghiệm MFCC vớikhoảng thời gian khung (target-rate) 10msec (HTK sử dụng đơn vị 100ns), biến đổi Fourier (FTT) sử dụng cửa sổ Hamming với kích thƣớc 25ms tín hiệu đƣợc tăng cƣờng với hệ số 0.97 Kích thƣớc vector đặc trƣng 39 với 13 hệ số MFCC (12 hệ số MFCC ban đầu [c1, c12] hệ số MFCC rỗng [c0] ), 13 hệ 48 sốdelta 13 hệ số acceleration MFCC tƣơng ứng liệu đầu đƣợc lƣu dạng nén  Từ điển Số từ vựng hệ thống 10 từ gồm 10 chữ số tiếng Việt từ khơng đến chín Số từ vựng có tổng số âm vị 20 âm vị  Mơ hình âm học Dữ liệu huấn luyện mức đơn âm (Monophone) mức âm ba(Tri-phone) với 32 âm buộc sử dụng thành phần trộn  Mơ hình ngơn ngữ Hệ thống nhận dạng tiếng Việt sử dụng mơ hình Bi-gram theo thiết kế cơng cụ HTK  Kết Độ xác nhận dạng Hệ thống đơn âm Hệ thống âm buộc Chính xác theo câu 18.92 20.26 Chính xác theo từ 75.68 77.14 Với kết nhận thấy độ xác nhận dạng hệ thống nhận dạng sử dụng âm buộc tốt so với hệ thống nhận dạng sử dụng âm đơn Cụ thể hệ thống nhận dạng dùng âm buộc có độ xác theo câu cao 1,34% độ xác theo từ cao 1,46% so với hệ thống nhận dạng sử dụng âm đơn 49 KẾT LUẬN Các công việc đƣợc thực đề tài: Nghiên cứu lý thuyết  Lý thuyết chung nhận dạng tiếng nói Nguyên tắc chung hệ thống nhận dạng tiếng nói, lý thuyết phƣơng pháp trích trọn đặc trƣng tiếng nói Lý thuyết mơ hình ngơn ngữ mơ hìnhâm học  Mơ hình Markov ẩn, tốn mơ hình Markov ẩn, giải pháp cho ba toán nhƣ phƣơng pháp chứng minh cơng thức tốn  Ngơn ngữ tiếng Việt, đặc điểm riêng việt tiếng Việt Hệ thống âm vị vàâm tiết tiếng Việt  Nghiên hệ thống nhận dang thông qua công cụ HTK Các công việc thực Nghiên cứu công cụ xây dựng hệ nhận dạng tiếng nói HTK, qua cài đặt chạy thành cơng chƣơng trình mô phỏng, thực nghiệm nhận dạng mƣời chữ số tiếng Việt phát âm liên tục phƣơng pháp nhận dạng tiếng nói HTK liên tục Các kiến nghị hƣớng nghiên cứu Hiện luận văn đƣa nghiên cứu lý thuyết cần nắm đƣợc trình xây dựng hệ thống nhận dạng tiếng Việt Trên sở đó, hƣớng nghiên cứu luận văn bao gồm vấn đề sau đây:  Nghiên cứu mạng ANN hệ thống nhận dạng lai ghép HMM/ANN Lý thuyết mạng ANN đặc biệt mạng Perceptron đa lớp MLP Phƣơng pháp nhận dạng tiếng nói mạng lai ghép HMM/ANN, nguyên tắc hoạt động, phƣơng pháp huấn luyện nhận dạng  Nghiên cứu hệ thống nhận dạng theo phƣơng pháp CSLU thông qua công cụ Qua xây dựng hệ thống nhận dạng HMM/ANN CSLU  Gán nhãn khâu quan trọng xây dựng sở liệu, hƣớng nghiên cứu phƣơng pháp gán nhãn sở liệu  Nghiên cứu phƣơng pháp nâng cao khả nhận dạng hệ thống, thực thử nghiệm tiến hành để nâng cao độ xác nhận dạng 50 TÀI LIỆU THAM KHẢO Vũ Kim Bảng, Triệu Thị Thu Hƣơng, Bùi Đăng Bình (2001) "Âm tiết tiếng Việt khả hình thành thực tế ứng dụng", Toàn văn Báo cáo Khoa học, Hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, tr 525-533 Vũ Ngọc Cân, Lê Đinh Tƣ (1999), Nhập môn ngôn ngữ học, Nhà xuất Giáo dục Nguyễn Thành Phúc (2000), Một phƣơng pháp nhận dạng lời Việt: áp dụng phƣơng pháp kết hợp mạng neuron với mơ hình Markov ẩn cho hệ thống nhận dạng lời Việt, Luận án Tiến sĩ Kỹ thuật, Đại học Bách khoa Hà nội Đỗ Xuân Tho (1997), Lê Hữu Tỉnh, Giáo trình tiếng Việt 2, Nhà xuất Giáo dục Đoàn Thiện Thuật (1999), Ngữ âm Tiếng Việt, Nhà xuất Đại học Quốc gia Hà nội Mai Ngọc Trừ, Vũ Đức Nghiệu, Hồng Trọng Phiến (1997), Cơ sở Ngơn ngữ học Tiếng Việt, Nhà xuất Giáo dục Lƣơng Chi Mai Hồ Tú Bảo (2009) Báo cáo Tổng kết đề tài KC.01.01/0610 “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt” “Về xử lý tiếng Việt công nghệ thông tin” (2006), Viện công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam Nguyễn Văn Huy (2016), Nghiên cứu mơ hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, Luận án Tiến sĩ Toán học, Học viện Khoa học Công nghệ Tiếng Anh Barbara S (2001), High-Performance Automatic Speech Recognition via Enhanced Front-end Analysis and Acoustic Modeling , Ph.D Thesis, University of California 10 Bilmes J A (1998), “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gauss Mixture and Hidden Markov Models”, Technical Report ICSI-TR-97-021, University of Berkeley 11 Bourlard H and Morgan N (1998) "Hybrid HMM/ANN systems for speech recognition: Overview and new research directions", Adaptive Processing of Sequences and Data Structures, Volume 1387 of Lecture Notes in Artificial Intelligence, pp 389 417 Springer 12 Cole R., "Tools for research and education in speech science" (1999) Proceedings of the International Conference of Phonetic Sciences, San Francisco, CA, pp 280-289 51 13 Cosi P , and Hosom J P (1999), “HMM/Neural Network-Based System for Italian Continuous Digit Recognition” Proceedings of the 14th International Congress of Phonetic Sciences (ICPhS ‘99), San Francisco, CA, USA, Vol 3, pp 1669-1672 14 Dong M and Lua K (2001), “Automatic prosodic break labeling for Mandarin Chinese speech data”, ICASSP2001, International Conference on Acoustics, Speech, and Signal Processing, Salt Palace Convention Center in Salt Lake City, Utah, USA 15 Hermansky H., Morgan N (1994), “RASTA processing of speech”, IEEE Trans Speech and Audio Processing,2(4), pp 578–589 16 Hieronymus J.L (1993), “Ascii phonetic symbols for the world’s language: Worldbet” Technical report Bell Labs 17 Hosom J.P (2000), “A Comparison of Speech Recognizers Created Using Manually-Aligned and Automatically-Aligned Training Data”, Technical Report CSE-00-002, Computer Science and Engineering, Oregon Graduate Institute, Beaverton, OR, USA 18 Hosom J.P (2000), Automatic Time Alignment of Phonemes Using AcousticPhonetic Information, PhD Thesis Center for Spoken Language Understanding, Oregon Graduate Institute 19 Huang X.D, Ariki Y., Jack M.A (1990), Hidden Markov Models for Speech Recognition, Edinburgh university press ISBN 0-7486-0162-7 20 Joseph P (1993), "Signal Modeling Techniques in Speech Recognition", Proceedings of the IEEE, Vol 81, No 9, pp 1215-1247 21 Karayiannis N.B., Venetsanopoulos A.N (1993), Artificial Neural NetworkLearning Algorithms, Performance Evaluation, and Applications, Kluwer Academic Publishers 22 Kondo K., Picone J., and Wheatley B (1994), “A comparative analysis of Japanese an English digit recognition”, Proc IEEE ICSSSP’94, I-101 23 Nguyen Q.C., Castelli E., Pham N.Y (2001), “Tone Recognition for Vietnamese” Technical Report CLIPS-IMAG Laboratory, France 24 Rabiner L., Juang B.H (1993) Fundamentals of Speech Recognition Prentice Hall, ISBN 0-13-01517-2 25 Rabiner L R (1999), “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc IEEE, Vol 77, No 2, pp 257-286 26 Virach, Potipiti T., Wutiwiwatchai C and Mittrapiyanuruk P (2000), “The State of the Art in Thai Language Processing”, 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, China 52 27 Tebelskis J (1995), Speech Recognition using Neural Networks, PhD thesis, CMU-CS-95-142 Cambridge University Engineering Department 28 Thubthong N., Kijsirikul B (2000), "Improving Connected Thai Digit Speech Recognition using Prosodic Information", National Computer Science and Engineering Conference (NCSEC'2000), Thailand 29 Trentin E (2001), Robust Combination of Neural Nwtwork and Hidden Markov Models for Speech Recognition, PhD thesis, Universita di Firenze, V.S Marta, –Firenze, Italy 30 Wu J J., Deng L., Chan J (1996), “Modeling context-dependent phonetic units in a continuous speech recognition system for Mandarin Chinese“, IEEE International Conference on Spoken Language Processing(ICSLP), pp 22812284 Website 31 HTK Speech Recognition Toolkit http://htk.eng.cam.ac.uk/ 32 Ngôn ngữ học tiếng Việt http://ngonngu.net/ 33 Wikipedia https://www.wikipedia.org/ ... HỌC CÔNG NGHỆ ***** PHẠM ANH TÚ NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC TRÊN BỘ TỪ VỰNG NHỎ VÀ TRUNG BÌNH Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông... thống nhận dạng tiếng Việt phát m liên tục từ vựng nhỏ trung bình , nhằm nghiên cứu vấn đề nhận dạng tiếng nói và p dụng chúng nhận dạng tiếng nói tiếng Việt Mục đích nghiên cứu  Mục tiêu đề tài... thành nghiên cứu nhận dạng tiếng nói ngơn ngữ nƣớc ngoồi cần đƣợc kế thừa nghiên cứu đểáp dụng vào tiếng Việt Vì lý trên, tơi xin lựa chọn đề tài: Nghiên cứu phát triển hệ thống nhận dạng tiếng Việt

Nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan