Nghiên cứu mạng nơron nhân tạo và ứng dụng nhận dạng tiếng nói

MỤC LỤC MỤC LỤC CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO Lịch sử phát triển 2 Khái niệm mạng nơron .4 2.1 Mạng nơron sinh học : 2.2 Mạng nơron nhân tạo : Cấu trúc mạng Nơron Kiến Trúc Mạng 4.1 Mạng Một Tầng .8 4.2 Mạng Đa Tầng .9 Các luật học Các tính chất của mạng nowrron nhân tạo .13 Mô hình toán học mạng nơron truyền thẳng mạng nơron hồi quy 13 7.1.Mạng nơ ron truyền thẳng 13 7.2.Mạng nơron hồi quy 17 Quá trình huấn luyện mạng nhiều lớp 18 8.1 Quá trình thực hiện 19 8.2 Qui tắc chuỗi .20 8.3 Độ xác của thuật toán lan truyền ngược 21 8.4 Biến thể của thuật toán lan truyền ngược 22 8.5 Tổng quát (Phép nội suy ngoại suy) 22 Ứng dụng 25 CHƯƠNG 2: LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI 26 2.1 Âm 26 2.1.1 Nguồn gốc âm thanh: 26 2.1.2 Các đại lượng đặc trưng cho âm thanh: 26 2.1.3 Các tần số của âm thanh: 27 2.1.4 Cơ chế tạo lập tiếng nói của người: 27 2.1.5 Mô hình lọc nguồn tạo tiếng nói: .28 2.1.6 Hệ thống nghe của người: .29 2.1.7 Quá trình sản xuất tiếng nói thu nhận tiếng nói của người: 29 2.1.8 Các âm tiếng nói đặc trưng: 30 2.2 Tổng quan nhận dạng tiếng nói 32 2.2.1 Các nguyên tắc nhận dạng tiếng nói 33 2.2.2 Các hệ thống nhận dạng tiếng nói: 33 2.2.4 Các tiếp cận nhận dạng tiếng nói .38 2.3 Các phương pháp nhận dạng tiếng nói 42 2.3.1 Mô hình Fujisaki: 42 2.3.2 Mô hình Markvo ẩn 44 2.4 Những thuận lợi khó khăn nhận dạng tiếng Việt 54 CHƯƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI BẰNG MẠNG NƠRON TRONG MATLAB 55 3.1 Công cụ sử dụng matlab 55 3.2 xây dựng chương trình mô phỏng nhận dạng tiếng nói bằng mạng Nơron MLP 58 3.2.1 Các bước xây dựng 58 3.2.2 Chương trình nhận dạng phát âm mười chữ số tiếng Việt 62 CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO Lịch sử phát triển Quá trình nghiên cứu phát triển noron nhân tạo chia thành giai đoạn sau :  Giai đoạn 1: Có thể tính từ nghiên cứu William (1890) tâm lý học với liên kết noron thần kinh Năm 1940 Mc Culloch Pitts cho biết nơron mô hình hoá thiết bị ngưỡng (Giới hạn) để thực phép tính logic mô hình mạng nơron Mc Culloch - Pitts với giải thuật huấn luyện mạng Hebb đời năm 1943  Giai đoạn 2: Vào khoảng gần năm 1960, số mô hình noron hoàn thiện đưa như: Mô hình Perceptron Rosenblatt (1958), Adalile Widrow (1962) Trong mô hình Perceptron quan tâm nguyên lý đơn giản, có hạn chế Marvin Minsky Seymour papert MIT ( Massachurehs Insritute of Technology) chứng minh không dùng cho hàm logic phức (1969) Còn Adaline mô hình tuyến tính, tự chỉnh, dùng rộng rãi điều khiển thích nghi, tách nhiễu phát triển  Giai đoạn 3: Có thể tính vào khoảng đầu thập niên 80 Những đóng góp lớn cho mạng nơron giai đoạn phải kể đến Grossberg,Kohonen, Rumelhart Hopfield Trong đóng góp lớn Hopfield gồm hai mạng phản hồi: Mạng rời rạc năm 1982 mạng liên tục năm 1984 Đặc biệt, ông dự kiến nhiều khả tính toán lớn mạng mà nơron khả Cảm nhận Hopfield Rumelhart, Hinton Williams đề xuất thuật toán sai số truyền ngược tiếng để huấn luyện mạng noron nhiều lớp nhằm giải toán mà mạng khác không thực  Giai đoạn 4: Tính từ năm 1987 đến nay, hàng năm giới mở hội nghị toàn cầu chuyên ngành nơron IJCNN (International Joit Conference on Neural Networks) Rất nhiều công trình nghiên cứu để ứng dụng mạng nơron vào lĩnh vực như: Kỹ thuật tính, điều khiển, toán tối ưu, y học, sinh học, thống kê, giao thông, hoá học, Cho đến mạng nơron tìm khẳng định vị trí nhiều ứng dụng khác Khái niệm mạng nơron Theo nghĩa sinh học, mạng nơron tập hợp dây thần kinh kết nối với nhau.Do thuật ngữ mạng nơ ron xác định hai khái niệm phân biệt: • Mạng nơron sinh học • Mạng nơron nhân tạo 2.1 Mạng nơron sinh học : Mỗi nơron sinh học gồm có thành phần: Thân nơron với nhân bên (soma), đầu dây thần kinh (axon) hệ thống phân nhánh hình (Dendrite) để nhận thông tin vào Trong thực tế có nhiều dây thần kinh vào chúng bao phủ diện tích lớn (0,25mm2) Mỗi nơron nhận tín hiệu vào từ tế bào thần kinh khác Chúng tích hợp tín hiệu vào, tổng tín hiệu vượt ngưỡng chúng tạo tín hiệu gửi tín hiệu tới nơron khác thông qua dây thần kinh Các nơron liên kết với thành mạng Mức độ bền vững liên kết xác định hệ số gọi trọng số liên kết 2.2 Mạng nơron nhân tạo : mạng nơron mô hình toán học hay mô hình tính toán xây dựng dựa mạng nơron sinh học Nó gồm có nhóm nơron nhân tạo (nút) nối với nhau, xử lý thông tin cách truyền theo kết nối tính giá trị nút (cách tiếp cận connectionism tính toán) Trong nhiều trường hợp, mạng nơron nhân tạo hệ thống thích ứng tự thay đổi cấu trúc dựa thông tin bên hay bên chảy qua mạng trình học Sau mô hình nơron nhân tạo Nơron hoạt động sau: giả sử có N inputs, nơron có N trọng số tương ứng với N đường truyền inputs Nơron lấy tổng có trọng số tất inputs Nói có nghĩa nơron lấy input thứ nhất, nhân với weight đường input thứ nhất, lấy input thứ hai nhân với weight đường input thứ hai v.v , lấy tổng tất kết thu Đường truyền có trọng số lớn tín hiệu truyền qua lớn, xem weight đại lượng tương đương với synapse nơron sinh học Có thể viết kết lấy tổng nơron sau: Kết so sánh với threshold t nơron, lớn t nơron cho output 1, nhỏ output Ngoài ta trừ tổng nói cho t, so sánh kết thu với 0, kết dương nơron cho ouput 1, kết âm output Dưới dạng toán học ta viết output nơron sau: Trong f hàm Heaviside: f gọi ngưỡng chức hay chuyền chức nơron, giá trị (-t) gọi bias hay offset nơron.Nếu đưa thêm input vào, input thứ 0, có giá trị luôn weight luôn bias (-t) output nơron viết dạng: Lưu ý số tổng trước Cấu trúc mạng Nơron Mỗi Nơron (nút) đơn vị xử lý thông tin mạng nơron, yếu tố để cấu tạo nên mạng nơron Hình 3.1: Cấu trúc nơron xi: tín hiệu input wkp: trọng số input f(.): hàm hoạt động yk: kết xuất nơron b: thông số ảnh hưởng đến ngưỡng output Phân loại cấu trúc mạng Nơron : a Mạng dẫn tiến lớp Đây cấu trúc mạng nơron đơn giản Mạng nơron gồm lớp xuất, lớp ẩn Hình 3.2 cấu trúc nơron đơn giản b Mạng dẫn tiến nhiều lớp Hình 3.3: Cấu trúc mạng nơron nhiều lớp Mạng nơron nhiều lớp giải toán phi tuyến nhờ vào lớp ẩn Các lớp ẩn xen input bên output mạng Càng nhiều lớp ẩn khả mở rộng thông tin cao xử lý tốt mạng có nhiều input output Ngoài có mạng hồi quy mạng nơron dạng lưới Kiến Trúc Mạng Là hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay gọi nơron) tựa nơron thần kinh não người, hoạt động song song nối với liên kết nơron Mỗi liên kết kèm theo trọng số đó, đặc trưng cho tính kích hoạt ức chế nơron Có thể xem trọng số phương tiện để lưu trữ thông tin dài hạn mạng neural nhiệm vụ trình huấn luyện mạng cập nhật trọng số có thêm thông tin mẫu học Hay nói cách khác, trọng số điều chỉnh cho dáng điệu vào mạng mô hoàn toàn phù hợp với môi trường xem xét 4.1 Mạng Một Tầng Mạng tầng với S nơron minh họa hình 4.1.1 Chú ý với đầu vào số R đầu vào nối với nơron ma trận trọng số có S hàng.Một tầng bao gồm ma trận trọng số, cộng, vector ngưỡng b, hàm chuyển vector đầu a Mỗi phần tử vector đầu vào p nối với nơron thông qua ma trận trọng số W Mỗi nơron có ngưỡng bi, cộng, hàm chuyển f đầu với nhau, đầu tạo thành vector đầu a.Thông thường số lượng đầu vào tầng khác với số lượng nơ-ron.(R#S) Ma trận trọng số cho phần tử vector đầu vào W: hình 4.1.1: Mô hình mạng lớp Các số hàng phần tử ma trận W nơron đích kết hợp với trọng số đó, số cột cho biết đầu vào cho trọng số Vì vậy, số nói trọng số đầu vào thứ nối với nơron thứ 4.2 Mạng Đa Tầng Hình 4.2.1 :Ví dụ mô hình mạng đa tầng Mô hình mạng nơron gồm lớp: lớp nhập (input), lớp ẩn(hidden) lớp xuất (output) Mỗi nút lớp nhập nhận giá trị biến độc lập chuyển vào mạng Dữ liệu từ tất nút lớp nhập tích hợp – ta gọi tổng trọng số – chuyển kết cho nút lớp ẩn Gọi “ẩn” nút lớp liên lạc với nút lớp nhập lớp xuất, có người thiết kế mạng biết lớp (người sử dụng lớp này) Các nút lớp xuất nhận tín hiệu tổng trọng hóa từ nút lớp ẩn Mỗi nút lớp xuất tương ứng với biến phụ thuộc Các luật học Thông thường mạng nơron điều chỉnh huấn luyện để hướng đầu vào riêng biệt đến đích đầu Cấu trúc huấn luyện mạng hình 5.1 Ở đây, hàm trọng mạng điều chỉnh sở so sánh đầu với đích mong muốn (taget) đầu mạng phù hợp với đích Những cặp vào/đích (input/taget) dùng để giám sát cho huấn luyện mạng Hình 5.1 Cấu trúc huấn luyện mạng nơron Để có số cặp vào/ra, giá trị vào gửi đến mạng giá trị tương ứng thực mạng xem xét so sánh với giá trị mong muốn Bình thường tồn sai số lẽ giá trị mong muốn không hoàn toàn phù hợp với giá trị thực Sau lần chạy, ta có tổng bình phương tất sai số Sai số sử dụng để xác định hàm trọng Sau lần chạy, hàm trọng mạng sửa đổi với đặc tính tốt tương ứng với đặc tính mong muốn Từng cặp giá trị vào/ra phải kiểm tra trọng lượng điều chỉnh vài lần Sự thay đổi hàm trọng mạng dừng lại tổng bình phương sai số nhỏ giá trị đặt trước chạy đủ số lần chạy xác định (trong trường hợp mạng không thoả mãn yêu cầu đặt sai lệch cao) Có hai kiểu học: Học thông số :Tìm biểu thức cập nhật thông số trọng số, cập nhật kết nối nơron Học cấu trúc :Trọng tâm biến đổi cấu trúc mạng nơron gồm số lượng nút (node) mẫu liên kết Nhiệm vụ việc học thông số cách đó, tìm ma trận xác mong muốn từ ma trận giả thiết ban đầu với cấu trúc mạng nơron có sẵn Để làm việc đó, mạng nơron sử dụng trọng số điều chỉnh, với nhiều phương pháp học khác tính toán gần ma trận W cần tìm đặc trưng cho mạng Có ba phương pháp học:  Học có giám sát Là trình học thời điểm thứ i đưa tín hiệu xi vào mạng nơ ron,tương ứng có đáp ứng mong muốn di đầu cho trước thời điểm 10 số tới sách mã.Một khung tín hiệu biến đổi thành từ mã cách tìm vector gần với sách mã.Nhược điểm mô hình có sai số trình lượng tử hóa kích thước sách mã nhỏ, ngược lại kích thước sách mã lớn số lượng tính toán tăng lên  Mô hình HMM liên tục: khắc phục nhược điểm mô hình trên.Trong phương pháp không gian cácđặc tính phổ mô hình hóa hàm m t độ xác suất ,thông thường hàm trộn với hàm Gaussian.Nhược điểm phương pháp trạng thái có tham số riêng chúng nên số lượng tham số lớn tránh khỏi trường hợp không đủ liệu huấn luyện cho trạng thái.Ngoài thời gian tính toán lâu  Mô hình HMM bán liện tục: kết hợp hai mô hình trên.Mô hình cải thiện thời gian tính toán mô hình liên tục g/ T ổ chức nhận dạng từ mô hình markvo ẩn: Giả sử ta cần nhận dạng từ vựng có V từ,mỗi từ có mô hình marvo riêng nói K lần ta thực bước sau:  Bước 1: với từ v từ vựng , ta phải xây dựng mô hình marvo ẩn , tức ta phải ước lượng tham số mô hình (A, B ,) cho ML dựa tập liệu huấn luyện  Bước 2: với từ chưa biết ta xây dựng mô hình nh n dạng hình bên Tín hiệu tiếng nói trích đặc điểm phương pháp melcepstrum hay LPC- cepstrum, thông qua lượng tử hóa vector ta có quan sát O = ( o1 , o2 , …, oT).Tiếp theo ta tính xác suất cho tất mô hình P(O| ), ≤ v ≤ V , chọn từ có xác suất lớn, tức là: Bước tính xác suất thường dùng thuật toán Viterbi cần V N T phép tính.Với từ vựng V=100 từ, mô hình trạng thái T=40 quan sát cho từ chưa biết tổng cộng có 103 phép tính Điều chấp nhận cho máy tính ngày 53 Hình 2.3.2.4: Sơđồ khối hệ nhận dạng từ mô hình markvo ẩn 2.4 Những thuận lợi khó khăn nhận dạng tiếng Việt Theo thống kê tiếng Việt có khoảng 6000 âm tiết Nhìn mặt ghi âm: âm tiết có cấu tạo chung là: phụ âm – vần Phụ âm âm vị âm vị liên kết lỏng lẻo với phần lại âm tiết Vần tiếng việt lại cấu tạo từ âm vị nhỏ hơn, có âm vị nguyên âm Do đặc điểm , nhận dạng tiếng nói tiếng Việt có số thuận lợi: • Tiếng Việt ngôn ngữ đơn âm, số lượng âm tiết không lớn Điều giúp hệ nhận dạng xác định ranh giới âm tiết dễ dàng • Tiếng Việt ngôn ngữ không biến hình từ Âm tiết tiếng Việt ổn định, có cấu trúc rõ ràng Đặc biệt âm tiết đọc giống mà viết khác Điều dễ dàng việc xây dựng mô hình âm tiết nhận dạng Ngoài thuận lợi trên, nhận dạng tiếng nói tiếng Việt gặp nhiều khó khăn sau: 54 • Tiếng Việt ngôn ngữ có điệu ( thanh) Thanh điệu âm vị siêu đoạn tính, đặc trưng điệu thể tín hiệu tiếng nói không rõ nét thành phần khác âm tiết • Cách phát âm tiếng việt thay đổi theo vùng địa lý • Hệ thống ngữ pháp ngữ nghĩa tiếng Việt phức tạp, khó để áp dụng vào hệ nhận dạng với mục đích tăng hiệu nhận dạng Hệ thống phiên âm chưa thống • Các nghiên cứu nhận dạng chưa nhiều phổ biến CHƯƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI BẰNG MẠNG NƠRON TRONG MATLAB 3.1 Công cụ sử dụng matlab Matlab môi trường trợ giúp tính toán hiển thị mạnh hãng MathWorks phát triển Ngoài thư viện hàm tính toán, vào-ra, đồ hoạ bản, Matlab có toolbox thư viện cho lĩnh vực cụ thể Ví dụ có toolbox cho xử lí tín hiệu ,mô mô hình, logic mờ,mạng nơron ,… chí cho thiết kế máy bay hay giải phương trình vi phân … Chúng ta tập trung chủ yếu vào giới thiệu hàm toolbox hàm cần thiết để xây dựng mộ mô hình nhận dạng tiếng nói dung mạng nơron, mà cụ thể xây dựng mạng MLP ba lớp Các hàm xử lý âm thanh: 55 Đọc tín hiệu âm từ file wav cho [y fs]=wavread(wavfile) xâu wavfile,y vector mô tả tín hiệu âm (có giá trị thực từ đến 1),fs tần số lấy mẫu (giá trị nguyên) Ghi tín hiệu âm từ file wav cho wavwrite(y,fs,wavfile) xâu wavfile,y vector mô tả tín hiệu âm thanh,f s tần số lấy mẫu Phát âm loa, y vector mô sound(y) tả tín hiệu âm Ghi âm (từ micro) với tần số lấy mẫu fs n mẫu Kết vector y=wavrecord(n, fs) y.Đoạn lệnh sau ghi âm giây với tần số lấy mẫu 8kHz, ghi vào file: y=wavrecord(16000,8000); wavwrite(y,8000,‘temp.wav’); VoiceBox toolbox VoiceBox toolbox Matlab chuyên xử lí tiếng nói Mike Brookes phát triển VoiceBox yêu cầu Matlab phiên trở lên VoiceBox gồm hàm chia thành số nhóm chức sau:  Xử lí file âm (đọc, ghi file wav số định dạng file âm khác)  Phân tích phổ tín hiệu  Phân tích LPC  Tính toán MFCC, chuyển đổi spectral - cepstral  Chuyển đổi tần số (mel-scale, midi, )  Biến đổi Fourier , Fourier ngược, Fourier thực  Tính khoảng cách (sai lệch) vector dãy vector  Loại trừ nhiễu tín hiệu tiếng nói Chức quan trọng trích đặc trưng tín hiệu tiếng nói, mà loại phổ biến LPC MFCC Hàm tính MFCC tín hiệu V oiceBox hàm : melcepst(s,fs,w,nc,p,n,inc,fl,fh) Hàm có nhiều tham số, số tham số quan trọng là: 56  s vector tín hiệu tiếng nói (có sau dùng hàm ), fs tần số lấy mẫu (mặc định 11050)  nc số hệ số MFCC cần tính (tức số phần tử vector đặc trưng, mặc định 12)  p số lọc mel-scale  w xâu mô tả lựa chọn khác: có tính thêm log lượng, có tính thêm đặc trưng delta Mặc dù hàm gọi cách đơn giản là: c=melcepst(s,fs); Lời gọi hàm sinh ma trận c, dòng ma trận 12 hệ số MFCC frame Để kèm thêm log lượng liệu delta nh hệ nhận dạng khác, ta dùng lệnh: c=melcepst(s,fs,’ed’); Khi dòng c vector 26 hệ số MFCC frame tương ứng NetLab toolbox NetLab Ian T Nabney phát triển Chúng sử dụng toolbox NetLab để xây dựng, huấn luyện thử nghiệm mạng nơron MLP cho hệ thống nhận dạng đồ án Lệnh khởi tạo MLP NetLab có cú pháp sau: net = mlp(inode, hnode, onode, func, anpha); Trong đó: • inode, hnode, onode số nơron lớp vào, lớp ẩn lớp • func kiểu hàm kích hoạt, func có giá trị ‘logistic’, ‘softmax’… • anpha ngưỡng giá trị trọng số, thường lấy 0.01 • net mạng MLP hàm tạo Mạng MLP sau điều kiện khởi tạo có th ể huấn luyện với liệu huấn luyện cho trước Lệnh huấn luyện MLP NetLab có cú pháp sau: [net, error] = mlptrain(net, x, t, its) Trong đó: • x, t liệu huấn luyện x vector đầu vào, t vector đầu cần đạt đến (target) • its số vòng huấn luyện (số lần thực thuật toán lan truyền ngược lỗi) • net mạng nơron • error tổng sai số lần huấn luyện cuối 57 Sau huấn luyện ta dùng mạng MLP để tính đầu ứng với đầu vào Lệnh tính đầu y MLP ứng với đầu vào x sau: y = mlpfwd(net, x) Trong đó: • x hay nhiều vector đầu vào • y vector đầu tương ứng 3.2 xây dựng chương trình mô phỏng nhận dạng tiếng nói mạng Nơron MLP Trong phạm vi đồ án môn học, xây dựng chương trình nhỏ nhận dạng mười chữ số tiếng Việt công cụ có sẵn Matlab Do tiếp xúc lĩnh vực nên khả năng, kiến thức hạn chế, cộng vào khó khăn thời gian, phương tiện …nên xây dựng hệ thống nhận dạng nhỏ 3.2.1 Các bước xây dựng Hệ thống nhận dạng mười chữ số tiếng Việt xây dựng với đặc trưng sau : - Phương pháp: nhận dạng từ đơn (isolate word recognition) - Input: file wav , file chứa từ Hoặc ghi âm trực tiếp - Output: chữ số nh n dạng file đầu vào - Bộ từ vựng: 11 từ đơn âm chữ số tiếng Việt (“không”, “một”, “hai” “mười”) Sơ đồ khối hệ thống nhận dạng tiếng nói chữ số tiếng Việt mạng nơron MLP môi trường Matlab mô tả hình 3.2.1.1 Chức khối mô tả sau: Thu thập tiền xử lí : tín hiệu tiếng nói giai đoạn huấn luyện thực phương pháp thủ công: sử dụng phần mềm ghi âm , lọc nhiễu cắt thành từ riêng rẽ, từ ghi vào file (tên file ghi từ tương ứng) Bộ liệu tự xây dựng gồm: • File wav 16 bit 8kHz, file phát âm từ • Từ chữ số tiếng Việt từ đến 10 (Mặc dù “mười” chữ số cần hệ nhận dạng chữ số có số phát âm “mười một”, “mười hai” ) 58 hình 3.2.1.1: Sơđồ khối hệ thống nhận dạng tiếng nói chữ số tiếng Việt mạng nơron MLP môi trường Matlab Việc thu thập tiền xử lí (cắt vùng không chứa tín hiệu tiếng nói) thực lệnh sau: x = wavrecord (10000,8000); %t n số lấy mẫu 8kHz, ghi âm chừng x = x'; y = endcut(x, 64, 1.5E-3); %chuyển x thành ma trận dòng %cắt khoản lặng 1s Hàm endcut dùng cắt khoảng lặng không chứa tín hiệu âm, sơ đồ giải thuật miêu tả hình 3.2.2 Các lệnh miêu tả sau: function y = endcut(x, n, es) % cat khoang lang khoi x % n độ dài frame, es ngưỡng lượng x = x - mean (x); %dk: x dã chuẩn hóa if nargin < es = 2E-3; %mặc định 2e-3 end; if nargin < 59 n = 128; %mặc định 128 mẫu end; y=[]; i=1; while ies) y = [y t]; end; i=i+n; end; Hình 3.2.2: Giải thuật cắt khoản lặng file wav Mỗi file âm thanhđược trích chọn đặc trưng MFCC thành dãy vector MFCC hàm wave2mfcc: function mfcc = wave2mfcc(wav, fs, p); if nargin < % mặc định lấy vector MFCC 8pt p = 8; 60 end; if nargin < % mặc định t n số lấy mẫu = 8kHz fs = 8000; end; if isstr (wav) % wav tên file đọc [wav fs] = wavread(wav); end; % chuẩn hoá để max (wav)=1 mx = max (wav); wav = wav / mx; % tính vector MFCC p ph n tử, gồm lượng mfcc = melcepst (wav,fs,'e',p-1); Vì file wav có độ dài ngắn khác nên dãy vector đặc trưng MFCC tương ứng số phần tử Nhưng đầu vào mạng nơron MLP lại phải cố định Do thực biện pháp đơn giản chia dãy đặc trưng thành phần nhau, tính trung bình phần vector ghép lại thành vector Kết đầu vào mạng nơron vector 8x5=40 thành phần function x = VecAvr(ft,k); % trích ft thành k ph n chia trung bình n = length (ft); m = floor(n/k); x=[]; i=0;t=1; while i[...]... như sau: • Nhận dạng từ phát âm rời rạc/liên tục; • Nhận dạng tiếng nói phụ thuộc người nói/ không phụ thuộc người nói; • Hệ thống nhận dạng từ điển cớ nhỏ (dưới 20 từ)/từ điển cỡ lớn (hàng nghìn từ); • Nhận dạng tiếng nói trong môi trường có nhiễu thấp/cao; • Nhận dạng người nói Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ trong câu Trong hệ nhận dạng tiếng nói liên... trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng 2.2.2 Các hệ thống nhận dạng tiếng nói: Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích... hệ thống nhận dạng tiếng nói khác nhau 33 Hình 2.2.2.1: Các hệ thống nhận dạng tiếng nói Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lâp Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong các chương trình dạng câu lệnh-điều khiển chẳng hạn như ứng dụng quay... ra của mạng nhiều lớp Hình 7.4 Cấu trúc mạng nơron 3 lớp 16 Hình 7.5 Ký hiệu tắt của mạng nơron 3 lớp 7.2 .Mạng nơron hồi quy Mạng hồi quy còn được gọi là mạng phản hồi là loại mạng tự liên kết thành các vòng và liên kết hồi quy giữa các nơron Mạng nơron hồi quy có trọng số liên kết đối xứng như mạng Hopfield luôn hội tụ về trạng thái ổn định Mạng liên kết hai chiều (BAM) là mạng thuộc nhóm mạng nơron. .. mã ngôn ngữ và hiểu được thông điệp 2.1.8 Các âm thanh tiếng nói và các đặc trưng: a/ Nguyên âm: Các nguyên âm có tầm rất quan trọng trong nhận dạng tiếng nói; hầu hết các hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng 30 tốt Các nguyên âm nói chung là có thời gian tồn tại dài và dễ xác định phổ.Chính vì thế dễ dàng cho việc nhận dạng tiếng nói, cả đối với con người và máy móc... lớp nơron liên kết tay đôi, trong đó đảm bảo nơron của cùng một lớp không liên kết với nhau, cũng hội tụ về trạng thái ổn định Nghiên cứu mạng nơron hồi quy có trọng số liên kết khôn đối xứng sẽ gặp nhiều phức tạp hơn so với mạng truyền thẳng và mạng hồi quy đối xứng Mạng nơron hồi quy có khả năng về nhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một ưu điểm khác của mạng nơron hồi quy là chỉ cần mạng. .. vựng và ngữ pháp Cơ sở dữ liệu tiếng nói được sử dụng trong quá trình huấn luyện (mô hình hóa/phân lớp) để xác định các tham số hệ thống 2.2.1 Các nguyên tắc cơ bản trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:  Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn Nhờ vậy ta có thể trích ra đặc điểm tiếng nói. .. ngắn và dùng các đặc điểm này làm dữ liệu nhận dạng tiếng nói  Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các kí hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các kí hiệu ngữ âm  Nhận dạng tiếng nói là một quá trình nhận thức Ngôn ngữ nói là có nghĩa, do đó thông tin về ngữ nghĩa và suy đoan có giá trịtrong quá trình nhận dạng. .. hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ 34 Hình 2.2.3.1: Các quá trình nhận dạng tiếng nói  Phân tích các đặc trưng (tham số) tiếng nói Tiếng nói được phân tích theo các khung thời gian gọi là frame Kết quả ra của giai đoan này là các vector đặc tính của mỗi khung tín hiệu tiếng nói Có 2 cách thông dụng hiện nay thường được áp dụng để phân... bộ lọc băng thông, có đáp ứng phủ lắp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị của băng tần tới hạn 2.1.7 Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người: Sơ đồ biểu diễn quá trình thu nhận tiếng nói của con người 29 Quá trình sản xuất tiếng nói bắt đầu khi người nói muốn chuyển tải thông điệp của mình cho người nghe thông qua tiếng nói. Tổ chức thần kinh sẽ ... Markvo ẩn nghiên cứu rộng rãi gần công cụ mạnh áp dụng thành công nhận dạng tiếng nói Đa số hệ thống nhận dạng tiếng nói dùng mô hình Markov ẩn Mạng neuron áp dụng nhận dạng tiếng nói từ năm... phương pháp nhận dạng ngữ âm Sử dụng mạng nơron nhân tạo để học mối quan hệ ngữ âm, sau dùng để nhận dạng tiếng nói Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức người vào hệ nhận dạng: Kiến... nghìn từ); • Nhận dạng tiếng nói môi trường có nhiễu thấp/cao; • Nhận dạng người nói Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng từ câu Trong hệ nhận dạng tiếng nói liên

Nghiên cứu mạng nơron nhân tạo và ứng dụng nhận dạng tiếng nói

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

CHƯƠNG I : TÌM HIỂU VỀ MẠNG NƠRON NHÂN TẠO

1. Lịch sử phát triển

2. Khái niệm mạng nơron

2.1 Mạng nơron sinh học :

2.2 Mạng nơron nhân tạo :

3. Cấu trúc mạng Nơron

4. Kiến Trúc Mạng

4.1 Mạng Một Tầng

4.2 Mạng Đa Tầng

5. Các luật học.

6. Các tính chất của mạng nowrron nhân tạo

7. Mô hình toán học mạng nơron truyền thẳng và mạng nơron hồi quy.

7.1.Mạng nơ ron truyền thẳng.

7.2.Mạng nơron hồi quy

8. Quá trình huấn luyện mạng nhiều lớp

8.1 Quá trình thực hiện.

8.2 Qui tắc chuỗi.

8.3 Độ chính xác của thuật toán lan truyền ngược.

8.4 Biến thể của thuật toán lan truyền ngược.

8.5 Tổng quát (Phép nội suy và ngoại suy).

9. Ứng dụng

CHƯƠNG 2: LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI

2.1 Âm thanh

2.1.1 Nguồn gốc âm thanh:

2.1.2 Các đại lượng đặc trưng cho âm thanh:

2.1.3 Các tần số của âm thanh:

Tài liệu cùng người dùng

Tài liệu liên quan