Đồ án tốt nghiệp đại học “nhận dạng giọng nói bằng mạng neural hồi quy”

67 4.3K 20
Đồ án tốt nghiệp đại học “nhận dạng giọng nói bằng mạng neural hồi quy”

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC 1 LỜI NÓI ĐẦU Mọi người có thể dễ dàng hiểu được người khác nói gì và có thể chỉ cần nghe giọng nói là có thể phân biệt được đó là ai. Tuy nhiên, trong lĩnh vực thị giác máy tính để có thể làm được điều này là vô cùng khó khăn. Hơn một thập kỷ qua với sự phát triển mạnh mẽ của công nghệ thông tin, công nghệ xử lý tiếng nói như mã hóa, nhận dạng tiếng nói, chuyển lời nói thành văn bản, chuyển chữ viết thành lời nói…đã trở thành vấn đề nghiên cứu trọng điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau như tin học, toán học, điều khiển, điện tử, sinh học… Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng tiếng Anh và một số ngôn ngữ khác, ví dụ như các phần mềm Via Voice Gold của hãng IBM, Speech SDK của Microsoft, Dragon Natural Speaking của Dragon System. Đối với nước ta, đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng giọng nói (Speech Recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo và cũng đã có những sản phẩm thương mại. Tuy nhiên những kết quả đó độ chính xác chưa cao. Vì vậy trong đồ án tốt nghiệp của mình em đã chọn đề tài “Nhận dạng giọng nói bằng mạng neural hồi quy” để có thể hiểu thêm về công nghệ xử lý âm thanh và các ứng dụng thực tế của nó. Mục tiêu của đồ án là tìm hiểu được đặc điểm của tiếng Việt, các phương pháp trích chọn đặc trưng, nghiên cứu về mạng Neural và xây dựng một ứng dụng nhận dạng một số từ tiếng Việt. Đồ án được trình bày trong bốn chương với bố cục như sau: - Chương 1: Âm thanh và số hóa âm thanh. - Chương 2: Tiếng việt và các đặc trưng. 2 - Chương 3: Mạng neural và ứng dụng trong nhận dạng giọng nói. - Chương 4: Thiết kế chương trình nhận dạng. Trong quá trình thực hiện em xin chân thành cảm ơn thầy giáo đã tận tình hướng dẫn, chỉ bảo từng nội dung của đề tài, các thầy, cô giáo trong khoa Công Nghệ Thông Tin đã có nhiều giúp đỡ chuyên sâu về công nghệ xử lý tiếng nói, để em có thể hoàn thành nội dung đồ án. 3 CHƯƠNG 1: ÂM THANH VÀ SỐ HÓA ÂM THANH 1.1. Đặc trưng sóng âm 1.1.1.Các đặc trưng a. Tần số Tần số là tốc độ mà các dạng sóng riêng biệt lặp lại theo hàm thời gian, tần số phụ thuộc vào chấn động nhanh hay chậm của không khí trong một thời gian nhất định. b. Biên độ Biên độđộ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính quan trọng góp phần nhận diện sự khác biệt giữa nhiễu nền và giọng nói. c. Dạng sóng Dạng sóng là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các sóng hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào. Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz). 1.1.2. Đơn vị vật lý của âm thanh Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động màng nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ cao của âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về âm: 4 a. Quãng độ cao (quãng tần số) Độ cao của âm là một đặc tính sinh lý của âm, nó dựa vào đặc tính của âm là tần số. Những âm có tần số khác nhau gây cho ta những cảm giác khác nhau, âm có tần số lớn gọi là âm cao hoặc thanh, âm có tần số nhỏ gọi là âm thấp hoặc trầm. Quãng tần số của hai âm là khoảng cách của hai âm đó. Nếu một âm tần số là f 1 , một âm khác tần số là f 2 (f 2 > f 1 ) thì f 2 /f 1 =2 x . Khi x=1 thì f 2 /f 1 =2 gọi là một quãng tần số (một ốc-ta) Khi x=½ thì f 2 /f 1 = 1.41 gọi là nửa ốc-ta. Khi x=1/3 thì f 2 /f 1 = 1.26 gọi là 1/3 ốc-ta. -> Mức áp suất của một ốc-ta bằng mức áp suất âm của ½ ốc-ta cộng thêm 3db. Cao độ được tiếp nhận phần lớn là do quy định bởi tần số cơ bản của sóng âm và một phạm vi nhỏ hơn bởi cường độ của âm. Nhưng mối quan hệ giữa cao độ và tần số cơ bản lại không mang tính chất tuyến tính và thường thay đổi cùng với tần số đi kèm. Vì quãng tần số của một âm quy định độ cao của âm đó nên còn gọi là quãng độ cao (quãng 8 – bát bộ). b. Độ mạnh Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động càng lớn âm phát ra càng mạnh. Độ mạnh còn gọi là cường độ. Cường độ âm được biểu thị qua năng lượng được sóng âm truyền trong một đơn vị thời gian qua một đơn vị diện tích vuông góc với phương truyền âm (W/m 2 ). Đối với con người, giá trị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỷ đối của I với một giá trị I 0 nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm L là logarit thập phân của tỷ số I/I 0 . L(B) = lg(I/I 0 ) hoặc L(dB) = 10lg(I/I 0 ) với 1B = 10dB. 5 Trong thực tế người ta thường dùng đơn vị dB (deciben) hơn B, khi đó L= 1dB thì lớn gấp 1,26 lần I 0 . Đó là mức cường độ nhỏ nhất mà tai ta có thể nghe được. c. Độ dài Độ dài hay trường độ của âm phụ thuộc vào sự chấn động lâu hay chóng của các phần tử không khí. d. Âm sắc Âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Thực chất, âm sắc là chất lượng tiếp nhận trong các âm phức. Cùng một nốt nhạc nhưng âm thanh của các loại đàn khác nhau sẽ có những sắc thái khác nhau. Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ. thực nghiệm chứng tỏ rằng khi một nhạc cụ hoặc một người phát ra một âm có tần số f 1 thì đồng thời cũng phát ra các âm có tần số f 2 =2f 1 , f 3 =3f 1 ,… Âm có tần số f 1 gọi là âm cơ bản hay hoạ âm thứ nhất, các âm có tần số f 2 , f 3 ,… gọi là các hoạ âm thứ hai, thứ ba … Tuỳ theo cấu trúc từng nhạc cụ hoặc cổ họng từng người, mà trong số các hoạ âm cái nào có biên độ khá lớn, cái nào có biên độ nhỏ, cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra là sự tổng hợp của âm cơ bản và các hoạ âm, nó có tần số f 1 của âm cơ bản nhưng đường biểu diễn của nó không còn là đường hình sin mà trở thành một đường phức tạp có chu kỳ. Đó là sự khác nhau về âm sắc, lý do: è Vật tạo ra âm khác nhau. è Cách làm cho vật phát âm khác nhau. è Hiện tượng cộng hưởng khác nhau. 6 1.2. Quá trình số hóa âm thanh 1.2.1. Quá trình lấy mẫu âm thanh tương tự Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian. Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được lấy mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu phải chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần số lấy mẫu phải là 10kHz hoặc lớn hơn. Hình 1.1: Quá trình số hoá thành dạng sóng file Wave 1.2.2. Quá trình lượng tử hóa Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự. Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét hai kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của chất lượng âm (quality). 7 è Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố định nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe trung thực với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn của tín hiệu tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất lượng âm thanh cần thu). è Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều này đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm số phải nghe giống sóng âm tương tự ban đầu được số hoá. Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông tin (hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu. Hệ số nhiễu tín hiệu (Signal – to – noise) được dùng để đánh giá chất lượng âm thanh, được tính theo công thức: ∑ ∑ = = N i N i ie ix 1 2 1 2 )( )( Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó. Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta xem xét các loại file phổ biến sau. 1.3. Cấu trúc file Wave 8 1.3.1. Các loại file âm thanh Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”, “.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” . Dạng file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh rất tốt nhưng kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn. 1.3.2. Cấu trúc file Wave Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu và một chunk dữ liệu có chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”. 9 Hình 1.2: Cấu trúc chuẩn của File Wave Dạng Header WAVE bắt đầu cùng với RIFF header offset Size Name Description 0 4 ChunkID Có chứa các chữ cái “RIFF” 4 4 ChunkSize 36+SubChunk2Size, chính xác hơn: 4+(8+SubChunk1Size) +(8+SubChunk2Size). Kích thước phần còn lại của chunk, đó là kích thước của toàn bộ file tính theo byte trừ đi 8 byte cho 2 trường không chứa trong nó là ChunkID và ChunkSize. 8 4 Format Có chứa các chữ cái “WAVE” 10 [...]... 2.3.4.7 Làm trơn quyết định vùng hoạt động giọng nói Quyết định hoạt động giọng nói được làm trơn để mang lại tín hiệu giọng nói tự nhiên Làm trơn được thực hiện trong 4 giai đoạn Một flag được dùng để đánh dấu vùng làm việc, ký hiệu v_flag Chúng là tập rỗng tại mỗi thời gian trước khi làm trơn quyết định giọng nói được thực thi Biểu thị làm trơn quyết định giọng nói của khung, −1 −2 −1 khung trước đó,... điểm cắt không Đánh giá độ lệch qua điểm không được tạo ra bằng sai lệch giữa tỉ lệ qua điểm không khung hiện thời ZC, và trung bình trượt của tỉ lệ qua điểm không nhiễu nền ZC : ∆ZC = ZC − ZC (B.7) 2.3.4.6 Khởi tạo đa đường quyết định giọng nói Khởi tạo quyết định hoạt động giọng nói biểu diễn bởi IVD ,và được đặt bằng 0(“FALSE”) nếu vectơ các tham số sai lệch nằm trong vùng giọng nói không hoạt động,... and ( E f < E min ) { E f = E min Cn = 0 } CHƯƠNG 3: MẠNG NEURAL VÀ ỨNG DỤNG TRONG NHẬN DẠNG GIỌNG NÓI 3.1 Các phương pháp nhận dạng 3.1.1 Khái niệm - Nhận dạng (Pattern Recognition): Có thể hiểu đó là phương pháp để xây dựng một hệ thống tin học có khả năng: cảm nhận-nhận thức-nhận biết các đối tượng vật lý gần giống khả năng của con người Nhận dạng có gắn chặt với 3 khả năng trên là một lĩnh vực... hiện diện của nhiễu nền và không có mặt giọng nói Một ngưỡng thích nghi được kiểm tra và chỉ cập nhật nếu gặp tiêu chuẩn ngưỡng 2.3.3.2 Trích chọn tham số Với mỗi khung, một tập các tham số được trích rút từ tín hiệu giọng nói Các module được trích chọn có thể được dùng chung giữa VAD, bộ mã hóa có hoạt động của giọng nói, và bộ mã hóa không có hoạt động của giọng nói Tập các tham số cơ sở này chính là... vắng mặt hoạt động giọng nói Nếu đầu ra của VAD là 1, Bộ mã G729 sẽ thực hiện mã hóa hoặc giải mã các khung tiếng nói hoạt động, nếu đầu ra VAD là 0, thuật toán DTX/CNG được sử dụng để mã hóa hoặc giải mã các khung không có hoạt động tiếng nói 2.3.3.1 Mô tả chi tiết thuật toán Thuật toán VAD hoạt động trên các khung âm thanh đã được số hóa Các khung được xử lý theo trình tự và được đánh số liên tục từ... thời gian ngắn, hoặc phân tích dự báo tuyến tính thực hiện trên khung tín hiệu giọng nói sử dụng phương thức tự tương quan cùng với cửa sổ không đối xứng 30 ms Với 80 mẫu(tương ứng với 10 ms), các 18 hệ số tự tương quan của tín hiệu giọng nói đã được cửa sổ hóa, được tính toán và chuyển đổi sang các hệ số LP sử dụng thuật toán Levinson Sau đó các hệ số LP được biến đổi sang miền LSP cho mục đích lượng... ra âm câm (Unvoice) + Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác nhau 13 Hình 2.1: Quá trình phát âm + Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms + Lượng khí từ phổi đẩy ra xác định âm lượng phát ra Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nói chung trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác nhau... bình được thực hiện, và quyết định hoạt động tiếng nói được gán giá trị 1 nếu năng lượng khung nhận được từ phân tích LPC lớn hơn 15 dB, ngược lại được gán giá trị 0 Nếu số lượng khung bằng Ni, một giai đoạn khởi tạo năng lượng đặc trưng nhiễu nền xảy ra 26 Hình 2.3: Chi tiết thuật toán VAD Tại giai đoạn tiếp theo một tập các tham số khác nhau được tính toán Tập này được sinh ra như là sự đo lường khác... tính toán: - Sự méo quang phổ - Sự chênh lệch năng lượng 27 - Sự chênh lệch năng lượng băng thông thấp - Sự chênh lệch qua điểm không Việc quyết định hoạt động giọng nói được thực hiện tại giai đoạn tiếp theo sử dụng các vùng quyết định đa đường trong không gian 4 đặc trưng khác nhau đo được Quyết định giọng nói hoạt động dựa vào sự kết hợp các vùng quyết định và quyết định không có hoạt động tiếng nói. .. hình, đồ thị, ngôn ngữ, cơ sở dữ liệu, phương pháp ra quyết định Hệ thống nhận dạng phải có khả năng thể hiện được quá trình nhận thức của con người qua các mức: - Mức 1- mức cảm nhận: cảm nhận được sự tồn tại các đối tượng quan sát, hay đối tượng mà hệ thống cần nhận dạng Mức này cũng đưa ra quá trình thu nhận số liệu qua các bộ cảm biến trong hệ thống nhận dạng, ví dụ trong hệ thống nhận dạng tiếng nói: . trong đồ án tốt nghiệp của mình em đã chọn đề tài “Nhận dạng giọng nói bằng mạng neural hồi quy” để có thể hiểu thêm về công nghệ xử lý âm thanh và các ứng dụng thực tế của nó. Mục tiêu của đồ án. tin học, toán học, điều khiển, điện tử, sinh học Trong thời gian gần đây, các nhà nghiên cứu đang tập trung vào công nghệ nhận dạng giọng nói và đã có một số thành công đối với việc nhận dạng. dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính quan trọng góp phần nhận diện sự khác biệt giữa nhiễu nền và giọng nói. c. Dạng sóng Dạng sóng là hình dạng của sóng âm thanh, sóng dạng

Ngày đăng: 19/06/2014, 20:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan