DSpace at VNU: Mô hình Markov ẩn và ứng dụng trong nhận dạng tiếng nói

12 200 3
DSpace at VNU: Mô hình Markov ẩn và ứng dụng trong nhận dạng tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN DUY PHƯƠNG M Ô H ÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NĨI Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ THUẦN Hà Nội - 2007 LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn chân thành tới PGS.TS Hồ Thuần - ngƣời tận tình hƣớng dẫn em suốt q trình hồn thành đề tài Những buổi nói chuyện, kinh nghiệm tài liệu thầy giúp em có đƣợc định hƣớng đắn đƣa phƣơng pháp tốt để thực đề tài Em xin chân thành cảm ơn đến thầy cô Trƣờng Đại học Công nghệ, ngƣời dìu dắt giúp đỡ em suốt năm học Xin cảm ơn bạn bè anh chị Khóa trên, ngƣời tơi học tập, san sẻ khó khăn, có ủng hộ tinh thần quý giá Và cuối cùng, xin cám ơn bố mẹ ngƣời thân, ngƣời ủng hộ mặt Khơng có quan tâm đó, khơng thể hồn thành tốt đồ án 2 MỤC LỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU .7 CHƢƠNG MƠ HÌNH HMM VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI Error! Bookmark not defined Giới thiệu .Error! Bookmark not defined Những khái niệm toán học liên quan tới HMM Error! Bookmark not defined 2.1 Giới thiệu nhận dạng thống kê Error! Bookmark not defined 2.2 Định lý Bayes Error! Bookmark not defined Mơ hình HMM .Error! Bookmark not defined 3.1 Tính chất Markov Error! Bookmark not defined 3.2 Xích Markov Error! Bookmark not defined 3.3 Quá trình Markov Error! Bookmark not defined 3.4 Mơ hình HMM Error! Bookmark not defined 3.4.1 Các thành phần HMM Error! Bookmark not defined 3.4.2 Ví dụ mơ hình HMM Error! Bookmark not defined 3.5 Hai giả thuyết để xây dựng hệ thống nhận dạng dựa HMM Error! Bookmark not defined 3.6 Ba vấn đề mơ hình HMM cách giải Error! Bookmark not defined 3.6.1 Giải vấn đề tính tốn Thuật tốn tính xi tính ngƣợc Error! Bookmark not defined 3.6.2 Giải vấn đề ƣớc lƣợng tham số cho mơ hình HMM Thuật tốn huấn luyện Baum-Welch Error! Bookmark not defined 3.6.3 Giải vấn đề decoding Thuật toán Viterbi Error! Bookmark not defined Nhận dạng tiếng nói nhận dạng âm vị dựa HMM Error! Bookmark not defined 3 4.1 Mơ hình Nhận dạng Error! Bookmark not defined 4.2 Các thành phần hệ thống nhận dạng tiếng nói dựa HMM mối liên hệ chúng Error! Bookmark not defined 4.3 Ví dụ nhận dạng từ đơn dựa HMM Error! Bookmark not defined Mơ hình HMM cho âm vị đƣợc sử dụng luận văn Error! Bookmark not defined Kết luận chƣơng Error! Bookmark not defined CHƢƠNG TIỀN XỬ LÝ TÍN HIỆU TIẾNG NĨI Error! Bookmark not defined Ý nghĩa Error! Bookmark not defined Một số thao tác tiền xử lý tín hiệu Error! Bookmark not defined 2.1 Làm tín hiệu (pre-emphais) Error! Bookmark not defined 2.2 Lọc tiếng ồn Error! Bookmark not defined Trích rút đặc trƣng Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Một số phƣơng pháp trích rút đặc trƣng Error! Bookmark not defined 3.2.1 Phƣơng pháp Mã hố dự báo tuyến tính (LPC) Error! Bookmark not defined 3.2.2 Phƣơng pháp Mã hoá cepstral tần số Mel (MFCC) Error! Bookmark not defined 3.2.3 Phƣơng pháp Mã hoá cepstral tần số Mel dựa LPC (MFCC) Error! Bookmark not defined 3.2.4 Các hệ số delta (D) hệ số gia tốc (A) Error! Bookmark not defined 3.3 So sánh phƣơng pháp trích đặc trƣng Error! Bookmark not defined Kết luận chƣơng Error! Bookmark not defined CHƢƠNG THUẬT TOÁN HUẤN LUYỆN NHÚNG – XÂY DỰNG MƠ HÌNH HMM TỰ ĐỘNG CHO ÂM VỊ Error! Bookmark not defined 4 Tách nhận dạng âm vị tự động dựa HMM Error! Bookmark not defined 1.1 Thuật toán huấn luyện đơn vị độc lập - Huấn luyện liệu gán nhãn .Error! Bookmark not defined 1.2 Thuật toán huấn luyện nhúng - huấn luyện liệu âm không gán nhãn âm vị Error! Bookmark not defined Các cơng thức ƣớc lƣợng tham số mơ hình HMM Error! Bookmark not defined 2.1 Ƣớc lƣợng tham số huấn luyện mơ hình HMM độc lập Error! Bookmark not defined 2.2 Ƣớc lƣợng tham số thuật toán huấn luyện nhúng Error! Bookmark not defined Các vấn đề tham số HMM sử dụng thuật toán huấn luyện nhúng Error! Bookmark not defined 3.1 Khởi tạo tham số .Error! Bookmark not defined 3.2 Ngƣỡng Error! Bookmark not defined 3.3 Số lần lặp bƣớc luyện thuật toán Error! Bookmark not defined 3.4 Dữ liệu huấn luyện Error! Bookmark not defined Kết luận chƣơng .Error! Bookmark not defined CHƢƠNG CÀI ĐẶT THUẬT TỐN – TỪ ĐIỂN TIẾNG NĨI Error! Bookmark not defined Giới thiệu .Error! Bookmark not defined Một số giao diện chƣơng trình .Error! Bookmark not defined KẾT LUẬN .Error! Bookmark not defined TÀI LIỆU THAM KHẢO .11 CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Từ viết tắt Ý nghĩa Artificial Neural Network ANN Mạng nơron nhân tạo Fast Fourier Transform FFT Biến đổi Fourier nhanh Dicrette Cosine Transform DCT Biến đổi cosin rời rạc Hidden Markov Model HMM Mơ hình Markov ẩn Linear predictive code LPC Mã hố dự báo tuyến tính Mel-scale Frequency Cepstral Coefficient MFCC Mã hoá cepstral số Mel Multi Layer Perceptron MLP Mạng perceptron truyền thẳng nhiều lớp Speech Recognition SR,ASR Nhận dạng tiếng nói Bias Ngƣỡng kích hoạt Pattern Recognition Nhận dạng mẫu Likelihood Mức độ giống, độ hợp lý Similarity Mức độ tƣơng tự Feature Đặc trƣng Spectral, spectrum Phổ tín hiệu DANH SÁCH CÁC HÌNH VẼ HÌNH – Mơ hình HMM trạng thái 34 HÌNH – Sơ đồ huấn luyện mơ hình HMM 44 HÌNH - Sơ đồ nhận dạng từ mơ hình HMM đƣợc huấn luyện 44 HÌNH – Mơ hình nhận dạng theo cấp 46 HÌNH - Vấn đề nhận dạng từ tách rời 50 HÌNH - Tách riêng phần mơ hình Markov 51 HÌNH - Dùng HMM cho nhận dạng từ tách rời 53 HÌNH – Sóng âm chữ “hai” trƣớc (hình trái) sau (hình phải) đƣợc làm phẳng 58 HÌNH - Sơ đồ khối q trình trích chọn đặc trƣng MFCC 64 HÌNH 10 - Các lọc mel-scale tam giác (triangle mel-scale filters) 66 HÌNH 11 – Sơ đồ lọc MFCC dựa biến đổi dự báo tuyến tính biến đổi Fourier 69 HÌNH 12 – Lƣu đồ huấn luyện từ đơn công cụ HRest (HTK) 72 HÌNH 13 – Dãy sóng âm “MO6T MO6T HAI HAI BA MO6T” 74 HÌNH 14 – Mơ hình huấn luyện nhúng 75 MỞ ĐẦU Ngay máy tính đời ngƣời mơ ƣớc máy tính nói chuyện với u cầu đơn giản máy xác định đƣợc từ ngữ mà nói với máy Đó mục tiêu ngành nhận dạng tiếng nói Nhận dạng tiếng nói đóng vai trò quan trọng giao tiếp ngƣời máy Nó giúp máy móc hiểu thực hiệu lệnh ngƣời Hiện giới, lĩnh vực nhận dạng tiếng nói đạt đƣợc nhiều tiến vƣợt bậc Đã có nhiều cơng trình nghiên cứu lĩnh vực nhận dạng tiếng nói (Speech recognition) sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết trở thành sản phẩm thƣơng mại nhƣ ViaVoice, Dragon , hệ thống bảo mật thơng qua nhận dạng tiếng nói, hệ quay số điện thoại giọng nói Triển khai cơng trình nghiên cứu đƣa vào thực tế ứng dụng vấn đề việc làm có ý nghĩa đặc biệt giai đoạn cơng nghiệp hố đại hoá nƣớc nhà Nhận dạng tiếng nói q trình nhận dạng mẫu, với mục đích phân lớp (classify) thơng tin đầu vào tín hiệu tiếng nói thành dãy mẫu đƣợc học trƣớc lƣu trữ nhớ Các mẫu đơn vị nhận dạng, chúng từ, âm vị Nếu mẫu bất biến không thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu đƣợc học lƣu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến đổi theo thời gian có khác biệt lớn tiếng nói ngƣời nói khác nhau, tốc độ nói, ngữ cảnh mơi trƣờng âm học khác Xác định thông tin biến thiên tiếng nói có ích thơng tin khơng có ích nhận dạng tiếng nói quan trọng Đây nhiệm vụ khó khăn mà với kỹ thuật xác suất thống kê mạnh khó khăn việc tổng qt hố từ mẫu tiếng nói biến thiên quan trọng cần thiết nhận dạng tiếng nói Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc [1]:  Tín hiệu tiếng nói đƣợc biểu diễn xác biên độ phổ khung thời gian ngắn (short-term amplitude spectrum) Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói  Nội dung tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, dãy ký hiệu ngữ âm Do ý nghĩa phát âm đƣợc bảo toàn phiên âm phát âm thành dãy ký hiệu ngữ âm  Nhận dạng tiếng nói q trình nhận thức Thơng tin ngữ nghĩa (semantics) suy đốn (pragmatics) có giá trị q trình nhận dạng tiếng nói, thông tin âm học không rõ ràng Lĩnh vực nghiên cứu nhận dạng tiếng nói rộng liên quan đến nhiều ngành khác nhau, nhƣ xử lý tín hiệu số (digital signal proccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thơng tin khoa học máy tính (information and computer science theory), ngôn ngữ học (linguistics), sinh lý học (physiology), tâm lý học ứng dụng (applied psychology) Các hệ thống nhận dạng tiếng nói đƣợc phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, ngƣời ta lại phân biệt hệ thống nhận dạng có kích thƣớc từ điển nhỏ hệ thống nhận dạng với kích thƣớc từ điển trung bình lớn 9 Ý tƣởng xây dựng hệ thống nhận dạng tiếng nói có từ năm 50 kỷ 20 đến đạt đƣợc nhiều kết đáng kể Có hƣớng tiếp cận cho nhận dạng tiếng nói [8]:  Tiếp cận Âm học: Hƣớng tiếp cận dựa vào đặc điểm âm học đƣợc rút từ phổ âm Tuy nhiên kết hƣớng tiếp cận thấp thực tế, đặc trƣng âm học có biến động lớn Hơn phƣơng pháp đòi hỏi tri thức đầy đủ âm học (Vốn tri thức âm học chƣa thể đáp ứng)  Tiếp cận Nhận dạng mẫu thống kê: Sử dụng phƣơng pháp máy học dựa thống kê để học rút mẫu tham khảo từ lƣợng liệu lớn Hƣớng đƣợc sử dụng nhiều, chủ yếu dựa vào Mơ hình Markov ẩn (HMM)  Tiếp cận Trí tuệ nhân tạo: hƣớng kết hợp hai hƣớng Phƣơng pháp kết hợp đƣợc tri thức chuyên gia phƣơng pháp mẫu thống kê Đây hƣớng tiếp cận tƣơng lai nhận dạng tiếng nói Việc nhận dạng tiếng nói gặp số khó khăn sau:  Trong mơi trƣờng sinh hoạt hàng ngày, chất lƣợng tiếng nói biến động lớn chịu ảnh hƣởng yếu tố ngoại cảnh, tâm sinh lý ngƣời nói: câu ngƣời nói thu vào máy khác nói hai tâm trạng khác (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác (lúc khoẻ nói khác, lúc bệnh nói khác), tốc độ nói khác (nói chậm rõ nói nhanh), mơi trƣờng xung quanh khác (mơi trƣờng có tiêng ồn âm thu vào bị nhiễu), v.v… Và nhiều yếu tố khác tác động lên chất 10 lƣợng lời nói nhƣ thiết bị thu khơng tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên khó khăn  Trong nhận dạng tiếng nói theo hƣớng nhận dạng âm vị, khó khăn gặp phải là: âm vị liền chuỗi tiếng nói khơng có vách ngăn rõ ràng (2 âm vị sát có phần giao nhau, khó xác định đƣợc phần giao thuộc âm vị trƣớc hay âm vị sau) Ngay ngƣời, tách âm vị từ âm tiết (xác định vị trí bắt đầu vị trí kết thúc âm vị sóng âm âm tiết) công việc đơn giản Hiện nay, hầu hết hƣớng tiếp cận để nhận dạng âm vị nhận dạng theo học mẫu thống kê Thông thƣờng để học mẫu ngƣời ta cung cấp cho chƣơng trình học nguồn liệu có nhiều mẫu đƣợc phân loại thành nhiều lớp có gán nhãn (nhãn cho biết mẫu thuộc lớp nào) Nguồn liệu phải đƣợc phân lớp gán nhãn xác hồn tồn để máy học Tuy nhiên khơng thể tách âm vị cách xác, nguồn liệu âm vị đƣa vào khó đạt đƣợc mức độ xác, kết việc huấn luyện giảm hiệu suất, làm cho hiệu suất chƣơng trình nhận dạng giảm theo Chúng tơi xin nêu hƣớng giải để tránh việc gán nhãn âm vị khơng xác: thay đánh nhãn âm vị, đánh nhãn âm tiết, đồng thời cho biết âm vị cấu thành âm tiết Nhƣ vậy, liệu mẫu cung cấp cho trình học âm tiết Thuật toán học đƣợc sử dụng để tách âm vị thuật toán huấn luyện nhúng (Embedded training) Kết thu đƣợc mô hình HMM cho âm vị Do dãy âm vị đƣợc chọn tƣơng đƣơng với âm tiết, công việc đánh nhãn âm vị sóng âm thực chất khơng có (chỉ đánh nhãn âm tiết, vốn đƣợc thực dễ dàng) Vì vậy, xem liệu đƣa vào trình huấn luyện liệu không 11 TÀI LIỆU THAM KHẢO [1] R Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of IEEE, vol 77, no 2, 1998 [2] Tom Mitchell, Machine Learning, McGraw Hill, 1996 [3] Đặng Hùng Thắng, Mở đầu lý thuyết xác suất ứng dụng, 1998 [4] R Rabiner and W Schafer, Digital Processing Of Speech Signals, Prentice Hall, 1978 [5] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Sách NXB ĐHQG Hà nội 2002 [6] Nguyễn Thanh Thuỷ, Nhập môn xử lý ảnh số, Sách NXBKHKT [7] John-Paul Hosom, Ron Cole, A diphone-based digit recognition system using neural networks, http://cslu.cse.ogi.edu/cslu [8] Đặng Thái Dƣơng – Hà Giang Hải, Nhận dạng tiếng nói tiếng Việt theo hƣớng tiếp cận nhận dạng âm vị tự động, luận văn cử nhân tin học 2004 [9] Rabiner L.R, Huang B H, Fundamentals of Speech Recognition, Sách NXB Prentice Hall – 1993 [10] V.Mantha, R.Duncan, Y.Wu, J.Zhao, Implementation and analysis of speech recognition front-ends, ECE4773/Digital Signal Processing – 1998 [11] Nguyễn Duy Tiến, Các mơ hình xác suất ứng dụng Phần – Xích Markov, Sách NXB ĐHQG Hà Nội – 2000 [12] Bách khoa toàn thƣ mở Wikipedia, http://vi.wikipedia.org [13] Phần mềm điều khiển giọng nói tiếng Việt, Phạm Hữu Ngơn Bành Duy Khánh, thi trí tuệ Việt Nam 2004 ... khơng thay đổi cơng việc nhận dạng tiếng nói trở nên đơn giản cách so sánh liệu tiếng nói cần nhận dạng với mẫu đƣợc học lƣu trữ nhớ Khó khăn nhận dạng tiếng nói tiếng nói ln biến đổi theo thời... SÁCH CÁC HÌNH VẼ HÌNH – Mơ hình HMM trạng thái 34 HÌNH – Sơ đồ huấn luyện mơ hình HMM 44 HÌNH - Sơ đồ nhận dạng từ mơ hình HMM đƣợc huấn luyện 44 HÌNH – Mơ hình nhận dạng theo... thống nhận dạng từ rời rạc hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, ngƣời ta lại phân biệt hệ thống nhận dạng có kích thƣớc từ điển nhỏ hệ thống nhận dạng với

Ngày đăng: 15/12/2017, 07:46

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan