Ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3

Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG iv HVTH: LÊ HOÀNG HÂN TÓM TẮT Ngay khi phát minh ra máy tính, con người đã mơ ước máy tính có thể nói chuyện với mình. Yêu cầu đơn giản nhất là máy có thể xác định được từ ngữ mà chúng ta nói với máy. Đó là mục tiêu của ngành nhận dạng tiếng nói. Đối với con người, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá đơn giản. Còn đ ối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát âm của một từ nào hoàn toàn không đơn giản, khó khăn cũng như việc học nghe ngoại ngữ của chúng ta. Lĩnh vực nhận dạ ng tiếng nói đã được nghiên cứu hơn 4 thập kỉ và hiện nay mới chỉ có một số thành công. Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp của OfficeXP…). Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 - 95%) nhưng còn xa mới đạt đến mức mơ ước của chúng ta: có một hệ thống có thể nghe chính xác và hiểu hoàn toàn nhữ ng điều ta nói. Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ. Chư a hề thấy xuất hiện một phần mềm nhậ n dạng tiếng Việt hoàn chỉnh trên thị trường. Số công trình nghiên cứu về nhận dạng tiếng nói tiếng Việt được công bố rất hiếm hoi, và kết quả còn hạn chế về bộ từ vự ng, độ chính xác…. Tiếng Việt có nhiều đặc tính khác với các ngôn ngữ đã được nghiên cứu nhận dạng nhiều như tiếng Anh, tiếng Pháp. Do đó việc nghiên cứu nhận dạng tiếng Việt là rất cầ n thiết. Bên cạnh đ ó, việc triển khai hệ thống nhận dạng tiếng nói trên phần cứ ng ở Việt Nam cũng còn nhiều hạn chế, và khả năng nhận dạng còn phụ thuộc vào người nói Vì những lí do trên, tôi chọn đề tài “ứng dụng neural network vào nhận dạng tiếng nói trên KIT ARM Cortex-M3”, nhằm nghiên cứ u các phư ơng pháp nhận dạng tiếng nói đối với tiếng Việt và thử nghiệm xây dựng một hệ thố ng nhận dạng cỡ nhỏ.Việc nhận dạng đư ợc thực thi trên KIT STM32F103ZET6 của hãng ST, với bộ từ vựng gồm 5 từ đơn (tiến, lùi, trái, phải, dừng) với kết quả nhận dạng có độ chính xác khoảng hơn 80% trong điều kiện bình thường. Từ khóa: Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC methods, FFT algorithm, K-mean algorithm, STM32F10x KIT Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG v HVTH: LÊ HOÀNG HÂN ABSTRACT The purpose with this final master degree project was to develop a speech recognition tool, to make the technology accessible. The development includes an extensive study of Artifactial Neural Network, which is currently the state of the art in the field of speech recognition. A speech recognizer is a complex machine developed with the purpose to understand human speech. In real life this speech recognition technology might be used to get a gain in traffic security or facilitate for people with functional disability. The technology can also be applied to many other areas. However in a real environment there exist disturbances that might influence the performance of the speech recognizer. The report includes an performance evaluation in different noise situations, in a robot environment. The result shows that the recognition rate varies from 90%, in a noise free environment, to 80% in a more noisy environment. Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG vi HVTH: LÊ HOÀNG HÂN MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN ii LỜI CẢM ƠN iii TÓM TẮT iv MỤC LỤC vi DANH SÁCH CÁC HÌNH viii DANH SÁCH CÁC BẢNG ix DANH SÁCH CÁC CHỮ VIẾT TẮT x Chương 1. TỔNG QUAN 1 1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước 1 1.1.1. Nhận dạng tiếng nói 1 1.1.2. Tổng quan tình hình nghiên cứu 2 1.2. Mục đích nghiên cứ u 5 1.3. Nhiệm vụ và giới hạn của đề tài 5 1.3.1. Nhiệm vụ 5 1.3.2. Giới hạn 6 1.4. Phương pháp nghiên cứ u 6 1.4.1. Ý tưởng về nhận dạng tiếng nói tiếng Việt sử dụng mạng Neural Networks 6 1.4.2. Các công việc phải làm 7 1.4.3. Các công cụ cần cho nghiên cứu 8 1.5. Nội dung luận văn 9 Chương 2. CƠ SỞ LÝ THUYẾT 10 2.1. Đặc trưng tiếng Việ t (1) 10 2.1.1. Âm tiết và đặc điểm âm tiết tiếng Việt 10 2.1.2. Âm vị và các hệ thống âm vị tiếng Việt 11 2.2. Phương pháp phân tích hệ số MFCC 14 2.2.1. Tiền xử lý 14 2.2.2. Tạo khung và cửa sổ hóa tín hiệu 18 2.2.3. Trích đặc trưng 20 2.2.4. Hậu xử lý 26 2.3. Neural Networks 26 2.3.1. Mô hình Neural Network 27 2.3.2. Sử dụng neural network trong nhậ n dạng mẫu 32 2.4. Mô hình Markov ẩn: 33 Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG vii HVTH: LÊ HOÀNG HÂN 2.5. Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn: 36 2.5.1. Bài toán 1: 36 2.5.2. Bài toán 2: 38 2.5.3. Bài toán 3: 39 Chương 3. THIẾT KẾ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3 43 3.1. Tổng quan về KIT STM32F103ZET6 43 3.1.1. Giới thiệu bộ xử lý ARM Cortex-M3 43 3.1.2. Kế hoạch thiết kế phần mềm 46 3.1.3. Cấu hình bộ KIT STM32F103ZET6 47 3.2. Thiết kế hệ thống nhận dạng tiếng nói trên KIT STM32F103ZET6 53 3.2.1. Trích đặc trưng 55 3.2.2. Lượng tử hóa vector 58 3.2.3. Huấn luyện ANN 62 3.2.4. Nhận dạng bằng mô hình ANN kết hợp với HMM 63 3.2.5. Kết quả thử nghiệm trên phần cứng 65 Chương 4. KẾT LUẬN VÀ HƯ ỚNG PHÁT TRIỂN 68 4.1. Kết luận 68 4.2. Nhận xét 68 4.3. Hạn chế của đề tài: 69 4.4. Hướng phát triển của đề tài 69 TÀI LIỆU THAM KHẢO 70 Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG viii HVTH: LÊ HOÀNG HÂN DANH SÁCH CÁC HÌNH Hình 2. 1. Sơ đồ về 3 tiêu chí khu biệt cho sáu âm vị thanh điệu 13 Hình 2. 2. Lăng trụ thanh điệu 13 Hình 2. 3. Biểu đồ thanh điệu 14 Hình 2. 4. Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói 14 Hình 2. 5. Tiền xử lý tín hiệu 15 Hình 2. 6. Phân tích khoảng lặng của tiếng nói 16 Hình 2. 7. Tách tiếng nói khỏi khoảng im lặng theo VAD 17 Hình 2. 8. Từ tiếng nói có khoảng im lặng tách thành tiếng nói không có khoảng lặng 18 Hình 2. 9. Frame blocking và Windowing 18 Hình 2. 10. Chia khung chuỗi tín hiệu 19 Hình 2. 11. Cửa sổ Hamming với các hệ số α khác nhau 19 Hình 2. 12. Tín hiệu tiếng nói sau khi được cửa sổ hóa so với ban đầu 20 Hình 2. 13. Các bước thự c hiện MFCC 20 Hình 2. 14. Phổ Fourier của tín hiệu gốc và tín hiệu đã cửa sổ hóa 21 Hình 2. 15. Băng lọc tam giác melscale trên miền tần số 22 Hình 2. 16. Tính các hệ số delta 24 Hình 2. 17. Quá trình rút trích đặc trưng 25 Hình 2. 18. Các bước hậu xử lý tín hiệu 26 Hình 2. 19. Mô hình một Neural Network perceptron 27 Hình 2. 20. Mô hình mạng perceptron 3 lớp (MLP) 28 Hình 2. 21. Mô hình nhận dạng bằng cơ cấu nhận dạng dựa theo xác suất phân lớp 32 Hình 2. 22. Ví dụ một mô hình Markov ẩn sáu trạng thái 34 Hình 2. 23. Mô tả các dãy phép toán được thực hiện để tính α t (i) 37 Hình 2. 24. Mô tả các dãy phép toán được thực hiện để tính biến β t (i) 38 Hình 3. 1. Giản đồ kế hoạch thiết kế phần mềm 46 Hình 3. 2. Hoàn chỉnh kế hoạch và thử nghiệ m 46 Hình 3. 3. Bộ KIT STM32F103ZET6 47 Hình 3. 4. Thiết lập chế độ boot từ System Memory của chip 50 Hình 3. 5. Thiết lập kết nối 50 Hình 3. 6. Thông tin Flash sau khi kết nối với chip thành công 51 Hình 3. 7. Thông tin chip 51 Hình 3. 8. Giao diện thông tin của flash ở phiên bản Flash Loader Demonstrator v1.2 52 Hình 3. 9. Nạp chương trình xuống flash 52 Hình 3. 10. Hoàn tất nạp chương trình 53 Hình 3. 11. Sơ đồ khối mô hình huấn luyện và nhận dạng từ đơn 54 Hình 3. 12. Lưu đồ giải thuật thực hiện tách tiếng nói khỏi khoảng lặng 55 Hình 3. 13. Lưu đồ giải thuật thực hiện phân tích hệ số đặc trư ng 56 Hình 3. 14. Minh họa lượng tử hóa vector 62 Hình 3. 15. Lưu đồ giải thuật huấn luyện ANN 63 Hình 3. 16. Lưu đồ giải thuật nhận dạng từ đơn sử dụng ANN 64 Hình 3. 17. Minh họa phân tích dữ liệu tiếng nói thành các hệ số đặc trưng để sử dụng cho huấn luyện hệ thống và nhận dạng 65 Hình 3. 18. Kết quả nhận dạng từ “TIẾN” 67 Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG ix HVTH: LÊ HOÀNG HÂN DANH SÁCH CÁC BẢNG Bảng 2. 1: Bảng hệ thống âm đầu tiếng Việt 12 Bảng 2. 2: Bảng hệ thống nguyên âm tiếng Việt 12 Bảng 2. 3: Bảng hệ thống âm cuối tiếng Việt 13 Bảng 3. 1. Kết quả thử nghiệm cho nhóm hệ thống học mẫ u 66 Bảng 3. 2. Kết quả thử nghiệm cho nhóm mạo danh 66 Bảng 3. 3. Kết quả thử nghiệm nhận dạng từ trên KIT STM32F103ZET6 67 Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG x HVTH: LÊ HOÀNG HÂN DANH SÁCH CÁC CHỮ VIẾT TẮT Thuật ngữ Từ viết tắt Ý nghĩa Artifactial Neural Network ANN Mạng nơron nhân tạo Fast Fourier Transform FFT Biến đổi Fourier nhanh Dicrette Cosine Transform DCT Biến đổi cosin rời rạc. Hidden Markov Model HMM Mô hình Markov ẩn Linear predictive code LPC Hế số dự đoán tuyến tính Mel-scale Frequency Cepstral Coefficient MFCC Hệ số cepstral độ đo mel Multi Layer Perceptron MLP Mạng perceptron truyền thẳng nhiều lớp Speech Recognition SR,ASR Nhận dạng tiếng nói Bias Ngưỡng kích hoạt Pattern Recognition Nhận dạng mẫu Likelihood Mức độ giống Similarity Mức độ tương tự Feature Đặc trưng Spectral, spectrum Phổ tín hiệu Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG 1 HVTH: LÊ HOÀNG HÂN Chương 1. Tổng quan Chương 1. TỔNG QUAN 1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước 1.1.1. Nhận dạng tiếng nói Nhận dạng tiếng nói bao gồm cả nhận dạng âm tiết rời rạc, liên tục, nhận dạng người nói, ngôn ngữ nói và cao cấp hơn có thể nhận dạng được trạng thái tâm lý của người nói. Có rất nhiều ứng dụng của nhận dạng tiếng nói trong đời sống xã hội như xác nhận thông tin (liên quan đến security), dịch tự động, các hệ thống phone banking, voice mail,… Tuy nhiên cái mà mọi người cố gắng nghiên cứu là làm sao máy tính có thể giao tiếp với con người thông qua tiếng nói. Nhận dạng tiếng nói là một lĩnh vực của xử lý ngôn ngữ tự nhiên (Natural Language Processing), tức là về cơ bản nhận dạng tiếng nói phụ thuộc vào ngôn ngữ nói. Do vậ y ngôn ngữ nhận dạng tiếng Việt rất khác so với tiếng Anh và các thứ tiếng khác. Một ví dụ đơn giản để có thể hình dung, nếu sử dụng các engine nhận dạng tiếng Anh có sẵn (bao gồm cả software như speech engine trong Microsoft Office hay hardware như một số vi mạch xử lý tiếng nói đang bán trên thị trường) thì hiệu quả đối với tiếng Việt là khá thấp. Một số không thể phân biệt được như chuẩn, chuẫn, chuân,…(vì tiếng Việt có thanh điệu - tonal language, còn tiếng Anh thì không), vì vậy nhận dạng tiếng Việt chỉ có thể do người Việt làm. Nhận dạng và tổng hợp tiếng nói không thể dựa trên các mức xử lý thấp (signal processing) mà còn phải kết hợp xử lý thông tin ở các mức cao và cao nhất là tri thức. Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biế n và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG 2 HVTH: LÊ HOÀNG HÂN Chương 1. Tổng quan âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối vớ i nhận dạng tiếng nói là rấ t quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: − Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. − Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệ u ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm. − Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiế ng nói, nhất là khi thông tin về âm học là không rõ ràng. [1] 1.1.2. Tổng quan tình hình nghiên cứu Tiếng nói là phương tiện giao tiếp cơ bản nhất của loài người, nó hình thành và phát triển song song với quá trình tiến hóa của loài người. Đối với con ngư ời, sử dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ưu đ iểm của việc giao tiếp bằng tiếng nói trước tiên là ở tốc độ giao tiếp, tiếng nói từ người nói được người nghe hiểu ngay lập tức sau khi được phát ra. Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay chân. Tuy nhiên để điều khiể n máy móc, con người phả i làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,… Để máy tính có thể nghe được tiếng nói, âm thanh con người đã xây dựng lĩnh vực nhận dạng tiếng nói. Hơn nửa thế kỷ trôi qua con người đã thu được những thành tựu đáng kể, và có những ứng dụng hữu ích thiết thực vào trong cuộ c sống. Như ng dù sao khả năng nghe Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex-M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG 3 HVTH: LÊ HOÀNG HÂN Chương 1. Tổng quan hiểu của máy tính vẫn còn nhiều hạn chế và khoảng cách khác xa so với thự c tế. Mặt khác, nhận dạng tiếng nói chỉ đang được phát triển trên các thứ tiếng khác, còn đối với nước ta nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ. 1.1.2.1. Ngoài nước Hiện nay, trên thế giới có rấ t nhiều hệ thống nhận dạng tiếng nói đã và đang được ứng dụng rấ t hiệu quả như: Via Voice của IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Understanding) trong tiếng Anh, mô hình Fujisaki được trong hệ thống của tiếng Nhật, mô hình MFGI (Mixdorff – Fujisaki model of German Intonation) trong tiếng Đức, … Sự phát triển vượt bậc của công nghệ vi xử lý và công nghệ xử lý tiếng nói trong những năm gần đây đã mở ra rất nhiều những ứng dụng khác nhau mà đáng kể nhất là các hệ thống giao tiếp, hỏi đáp thông tin qua mạng điện thoại. Có thể kể tên một số ứng dụng như: − Quay số bằng giọng nói. − Truy cập thông tin bằng giọ ng nói qua đường điện thoại. − Hệ thống hỗ trợ y tế qua điện thoại. − Ứng dụng truy vấn thông tin trong ngân hàng. − Ứng dụng chuẩn đoán, điều trị bệnh từ xa. Theo thống kê và dự báo về thị trường công nghệ thông tin và truyển thông năm 2009, chi tiêu cho nghiên cứu, phần cứng, phầ n mềm liên quan đến công nghệ xử lý tiếng nói trong năm 2008 trên toàn thế giới đã vượt con số 5 tỷ đô-la Mỹ. Công nghệ xử lý tiếng nói đã thay đổi cách con người tương tác với hệ thống, không còn bó buộc trong cách thức tương tác truyền thống (như bấm phím trên điện thoại) mà chuyển sang tương tác trực tiếp bằng giọng nói. Trong môi trường kinh tế cạnh tranh, các ứng dụng dần dần đã chuyển sang tích hợp tính năng tương tác âm thanh. Việc ứng dụng và khách hàng có thể tương tác với nhau thông qua âm thanh không có nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm một cách truy cập thông tin và dịch vụ tiện lợi, tự nhiên hơn. Một số ứng dụng thương mại đòi hỏi sự giao tiếp giữa khách hàng và hệ thống với số lượng lớn, có tích hợp tính năng tương tác âm thanh. Từ đó, các hệ thống giao [...]... khó có thể đạt được tối ưu trên cùng lúc cả ba yếu tố trên Vấn đề nhận dạng tiếng nói tiếng Việt đã có nhiều công trình nghiên cứu nhưng chưa được triển khai thực hiện tốt trên phần cứng là do ba yếu tố trên Bên cạnh đó, Chương 1 Tổng quan 4 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA có... (MFCC), phân loại, nhận dạng tín hiệu tiếng nói (Hidden Marko Models, Neural Networks, mô hình lai Hidden Marko Models – Neural Networks) + Tìm hiểu các phần mềm lập trình Keil C for ARM, Matlab… Chương 1 Tổng quan 5 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG + Viết code mô phỏng trên máy tính, code thực thi cho vi điều khiển ARM Cortext M-3 +... nghiên cứu 1.4.1 Ý tưởng về nhận dạng tiếng nói tiếng Việt sử dụng mạng Neural Networks 1.4.1.1 Hệ thống nhận dạng cỡ nhỏ Với hệ thống nhận dạng cỡ nhỏ (cỡ vài chục đến vài trăm từ) ta có thể chọn đơn vị nhận dạng là âm tiết vì số lượng đơn vị không quá lớn Các bước nhận dạng: 1 Nhận tín hiệu âm thanh từ các nguồn vào 2 Tách riêng vùng tín hiệu của mỗi âm tiết (dựa trên nhận định: tín hiệu của âm tiết... thuộc vào đặc điểm của nhiễu nền Sau quá trình kiểm tra thực nghiệm thì giá trị α tốt nhất được xác định là: 4 = 0,252 6 Hàm dò tiếng nói có thể thực hiện như sau: 789 =, 1, : 0, : ≥ 12 < 12 Hình 2 7 Tách tiếng nói khỏi khoảng im lặng theo VAD Chương 2 Cơ sở lý thuyết 17 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Hình 2 8 Từ tiếng nói có... 2 Cơ sở lý thuyết 26 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 2.3.1 Mô hình Neural Network Có nhiều mô hình Neural Network khác nhau Mô hình mạng đơn giản và phổ biến nhất là mô hình mạng perceptron truyền thẳng nhiều lớp (multi layer perceptron MLP) Đó là mô hình mạng tôi sử dụng trong hệ nhận dạng được trình bày trong khoá luận này... nhận dạng tiếng nói trên KIT ARM Cortex- M3 Phần đầu của chương trình bày tóm tắt về các ưu điểm chính của vi điều khiển ARM Cortex- M3, cấu hình bộ KIT STM32F103ZET6 Phần sau trình bày về vấn đề thiết kế hệ thống nhận dạng trên KIT ARM Cortex- M3 của hãng ST dựa trên các vấn đề về lý thuyết đã đề cập ở các chương trước Hệ thống nhận dạng thực hiện tác vụ nhận dạng các từ đơn − Chương 4: Kết luận Chương... nhiễu, nhấn tín hiệu và tách tiếng nói khỏi khoảng lặng Chương 2 Cơ sở lý thuyết 14 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG Hình 2 5 Tiền xử lý tín hiệu Tín hiệu tiếng nói bị ảnh hưởng bởi môi trường xung quanh Ví dụ tín hiệu x(n) thu được bởi các thành phần: x(n) = s(n) + d(n), trong đó s(n) là tín hiệu thuần tiếng nói và d(n) là nhiễu Có... này nghiên cứu thử nghiệm một hướng nhận dạng tiếng nói – tiếng Việt dựa trên việc trích đặc trưng của tiếng nói bằng phương pháp MFCC (Mel–Frequency Ceptrums Coefficients), và nhận dạng bằng mô hình ANN (Artificial Neural Networks) Đồng thời, một mô hình điều khiển bằng tiếng nói – tiếng Việt được xây dựng với bộ từ vựng nhỏ, thiết lập hệ thống điều khiển bằng tiếng nói với một tập lệnh cố định Tập lệnh... hiệu tiếng nói để tạo ra các vector đặc trưng Ở đây, trong khâu trích đặc trưng chọn phương pháp MFCC (trích đặc trưng theo thang tần số Mel) do tốc độ tính toán cao, độ tin cậy lớn và đã được sử dụng rất hiệu quả trong các chương trình nhận dạng tiếng nói trên thế giới Phần sau của chương trình bày vấn đề lượng tử hóa vector, cơ sở ANN − Chương 3: Thiết kế hệ thống nhận dạng tiếng nói trên KIT ARM Cortex- M3. .. (frame) Chương 1 Tổng quan 6 HVTH: LÊ HOÀNG HÂN Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS LÊ TIẾN THƯỜNG 3 Dùng biến đổi FFT chuyển tín hiệu từ miền thời gian sang miền tần số 4 Sử dụng các bộ lọc để lấy giá trị năng lượng tại từng vùng tần số, lấy đó làm đặc trưng của âm tiết 5 Đưa đặc trưng của âm tiết vào mô hình Neural Networks Đầu ra của mạng là các giá trị xác suất, . nhận dạng còn phụ thuộc vào người nói Vì những lí do trên, tôi chọn đề tài ứng dụng neural network vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 , nhằm nghiên cứ u các phư ơng pháp nhận dạng. Bên cạnh đó, Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG 5 HVTH: LÊ HOÀNG HÂN Chương 1. Tổng quan nhận dạng tiếng nói tiếng Việt trên nền công. nhóm mạo danh 66 Bảng 3. 3. Kết quả thử nghiệm nhận dạng từ trên KIT STM32F103ZET6 67 Ứng dụng NN vào nhận dạng tiếng nói trên KIT ARM Cortex- M3 GVHD: PGS.TS. LÊ TIẾN THƯỜNG x HVTH: LÊ

Ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3

Thông tin tài liệu

Từ khóa liên quan

Mục lục

4 BIA SAU.pdf

Page 1

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan