Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt

77 685 0
Báo cao đồ án tốt nghiệp nhận dạng một số phụ âm bật tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC 1 LỜI NÓI ĐẦU Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon , các hệ thống bảo mật thông qua nhận dạng tiếng nói, các hệ quay số điện thoại bằng giọng nói Triển khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay. Tuy nhiên do tính phức tạp của vấn đề mà kết quả của những công trình có thể có nhiều phạm vi áp dụng khác nhau. Mỗi công trình ứng dụng cho một phạm vi nào đó, mong muốn chung là có một hệ thống nhận dạng được toàn bộ các từ, của nhiều người nói. Những việc phải giải quyết của bài toán này còn nhiều khó khăn nhất là với tiếng Việt. Mạng neural (Neural Netwok) là một công cụ có khả năng giải quyết được nhiều lớp bài toán khó, thực tế những nghiên cứu về mạng neural đưa ra một cách tiếp cận hiệu quả trong nhận dạng tiếng nói. Với bài toán nhận dạng một số phụ âm bật tiếng Việt, thông qua mạng neural hy vọng góp phần nâng cao hiệu quả của hệ thống nhận dạng. Sau thời gian nghiên cứu không dài với sự giúp đỡ nhiệt tình của thầy hướng dẫn PGS_TS và các thầy cô giáo của khoa CNTT em đã hoàn thành đúng thời hạn các nhiệm vụ đặt ra trong quá trình nghiên cứu. Em xin chân thành cảm các thầy đã tận tình giúp đỡ em, cảm tất cả các thành viên trong lớp đã tạo điều kiện tốt nhất để em hoàn thành tốt đề tài của mình. Em mong sự đóng góp ý kiến của thầy cô để em tiếp tục hoàn thiện và phát triển đề tài của mình. 2 I. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1. Nhận dạng tiếng nói nói chung. Nhận dạng tiếng nói đã có lịch sử khoảng 40 năm nay. Những nhân tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến như sự phát triển của các hệ thống phân tích phổ âm thanh (1946) thể hiện dưới dạng trực quan các tín hiệu âm, lý thuyết tạo âm thanh tiếng nói của con người (1948) và tất nhiên phải kể đến sự xuất hiện và phát triển máy tính số thương mại đầu tiên trên thế giới (1958). Hệ thống nhận dạng tiếng nói đầu tiên có khả năng nhận dạng từ rời rạc và phụ thuộc người nói để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng đặc tính miền thời gian và các ngân hàng bộ lọc tương tự. Cũng như vậy với phương pháp âm học hệ thống nhận dạng âm vị phụ thuộc người nói và không phụ thuộc người nói đã được thiết kế, xây dựng mặc dù mới cho được những kết quả còn rất khiêm tốn. Trong thập kỉ 70, với sự phát triển của các thuật toán phân tích tín hiệu (mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian) công nghệ nhận dạng tiếng nói được tiếp tục phát triển mạnh mẽ. Với các phương pháp này hệ thống nhận dạng vớí số lượng từ rất lớn không phụ thuộc người nói đã được thực thi. Một mốc quan trọng trong hướng nghiên cứu nhận dạng tiếng nói phải kể đến là dự án DARPA SUR (Department of Defense Advanced Research Projects Agency Speech Understanding Research) được thực hiện tại bộ quốc phòng Mĩ từ năm 1971 đến năm 1976. Mục tiêu của dự án nhận dạng tiếng nói liên tục với nhiều giọng nói trong môi trường yên tĩnh. 3 Năm 1984, hãng IBM đã phát triển hệ thống nhận dạng tiếng nói đầu tiên, hệ thống này được trợ giúp bởi một máy tính lớn có thời gian tính toán chậm và có khả năng nhận dạng 5000 từ tiếng Anh rời rạc. Năm 1988 tại Trung tâm khoa học Heidelberg (Đức) phát triển hệ thống TANGORA nhận dạng tiếng Đức, hệ thống này có khả năng nhận dạng 20000 từ đến 30000 từ rời rạc. Đặc biệt, năm 1974 tại Trung tâm tính toán viện Hàn lâm Liên Xô, một tập thể các nhà khoa học đã đưa ra hệ thống nhận dạng với 10 chữ số. và 100 câu lệnh phục vụ cho điều khiển quỹ đạo đạn đạo của tên lửa và vệ tinh. 2. Nhận dạng tiếng Việt. Đối với tiếng Việt do có đặc thù riêng chúng ta không thể ứng dụng nguyên vẹn các thành quả nghiên cứu của các ngôn ngữ khác (tiếng Anh, Đức, Nga…) vào nhận dạng tiếng Việt. Vì thế nghiên cứu đặc trưng và xây dựng chương trình nhận dạng cho tiếng Việt là hết sức quan trọng. Trong những năm qua đã có nhiều công trình, luận án nghiên cứu nhận dạng tiếng nói, tuy nhiên kết quả đạt được chưa nhiều. Đáng chú ý là những công trình nghiên cứu như. - “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt” do GS. Bạch Hưng Khang làm chủ nhiệm. Kết quả đạt 70% - 90% cho giọng chuẩn Hà Nội. - “Điều khiển robot bằng tiếng Việt theo hướng dẫn thông minh“ do tiến sĩ Nguyễn Thiện Thành và các nhà khoa học thuộc sở KHCN TP.HCM nghiên cứu 4 - Hệ thống nhận dạng tiếng nói có thanh điệu đầu tiên trên thế giới với bộ 10 chữ số tiếng Việt và 200 từ phát âm rời rạc do tiến si Nguyễn Anh Tuấn thuộc Trung tâm tính toán viện hàn lâm Liên Xô nghiên cứu. Kết quả chính xác khoảng 97% - 98%. - Và một số luận án tiến sĩ, thạc sĩ khác đã nghiên cứu về nhận dạng tiếng nói tiếng Việt. Dù là hướng nghiên cứu nào thì bài toán nhận dạng phải thuộc lớp mô hình bài toán nhận dạng sau: - Phân theo số người nói. o Nhận dạng một giọng nói o Nhận dạng nhiều giọng nói. - Phân theo số lượng từ. o Số lượng từ hữu hạn. o Số lượng từ không hạn chế. o Nhận dạng nói từng từ và nói cả câu. - Phân theo môi trường nói o Có nhiễu. o Không có nhiễu Ngoài ra nhận dạng tiếng Việt cần lưu ý tới đặc điểm vùng như sau: - Giọng nói của người miền Bắc. 5 - Giọng nói của người miền Trung. - Giọng nói của người miền Nam. - Giọng nói của người dân tộc khi nói tiếng Kinh. Bài toán nhận dạng thường là tổng hợp của các đặc điểm trên: - Tiếng nói do một người nói với số từ hạn chế. - Tiếng nói do nhiều người nói với số từ hạn chế. - Tiếng nói do một người nói với số từ không hạn chế. - Tiếng nói do nhiều người nói, số từ không hạn chế. - Nhận dạng từ đơn. - Nhận dạng các từ dính nhau trong câu nói. Các hệ thống nhận dạng tuỳ thuộc vào mục đích ứng dụng mà lựa chọn một trong các mô hình trên. Lĩnh vực nghiên cứu của nhận dạng tiếng nói là khá rộng liên quan đến nhiều ngành khác nhau như xử lý tín hiệu số (digital signal proccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thông tin và khoa học máy tính (information and computer science theory),ngôn ngữ học (inguistics), sinh lý học (physiology), tâm lý học ứng dụng (applied psychology). Dù nhận dạng theo mô hình nào, việc lựa chọn đơn vị nhận dạng là hết sức quan trọng chi phối nhiều đến chất lượng nhận dạng. Tiếng Việt là 6 một ngôn ngữ có thanh điệu nên lựa chọn đơn vị nhận dạng như thế nào lại càng quan trọng. Luận văn trình bày quan niệm về cấu trúc tiếng Việt (đặc biệt cấu trúc tiếng Việt dưới góc độ CNTT), nghiên cứu đặc trưng của từ, các thành phần của từ, tập trung chủ yếu vào phần phụ âm đầu, nhằm phục vụ cho bài toán nhận dạng phụ âm đã đặt ra theo lớp bài toán nhận dạng từ rời rạc. II. KHÁI QUÁT CHUNG VỀ MÁY HỌC. 1. Khái niệm máy học: Để bắt đầu với khái niệm máy học, trước tiên phải xem xét đến khái niệm học. Học là việc làm tăng khả năng thực hiện nhiệm vụ T của chương trình dựa trên kinh nghiệm E với hiệu quả thực hiện nhiệm vụ là P. Như vậy chương trình được thiết kế có khả năng học gọi là máy học. Mỗi bài toán về máy học ta phải xác định nhiệm vụ T, hiệu quả thực hiện P và kinh nghiệm E còn gọi là bộ dữ liệu huấn luyện cho máy. E còn được gọi là bộ dữ liệu kinh nghiệm, phương pháp thực hiện làm tăng khả năng thực hiện nhiệm vụ T(Làm tăng hiệu quả P) bằng cách khai thác dữ liệu từ bộ dữ liệu kinh nghiệm E được gọi là phương pháp học… Mỗi phương pháp học sẽ có thuật toán tương ứng gọi là thuật toán học, việc lựa chọn phương pháp phụ thuộc vào nhiệm vụ T và bộ dữ liệu kinh nghiệm E. Một số ví dụ: 7 Xét một số bài toán ứng dụng máy học. Bài toán chơi cờ. T: Chơi cờ (máy - người, máy - máy) P: Tỉ lệ ván thắng đối thủ. E: Kinh nghiệm từ những ván tự chơi (máy - máy) hoặc máy - người. Bài toán nhận dạng chữ viết tay. T: Nhận dạng và phân lớp các chữ viết tay từ ảnh. P: Tỷ lệ các từ phân lớp đúng. E: Cơ sở dữ liệu là các từ được phân lớp. Bài toán nhận dạng tiếng nói T: Phân lớp các từ theo đặc trưng của một từ từ tín hiệu đã được số hoá. P: Số phần trăm các từ đã phân lớp đúng. E: Cơ sở dữ liệu các từ đã được phân lớp. Bài toán tự lái xe ô tô T: Lái xe ô tô. P: Tỉ lệ đường ô tô tự lái an toàn. E: Cơ sở dữ liệu đặc điểm đường đi, các lệnh thực hiện theo đặc điểm đường đi. Các lĩnh vực ứng dụng Các lĩnh vực được ứng dụng chủ yếu là: - Khai phá dữ liệu: Dựa vào dữ liệu đã có hỗ trợ ra quyết định. 8 - Nhận dạng: Nhận dạng vân tay, mặt người, chữ viết, tiếng nói… - Điều khiển tự động: tự động lái xe ô tô, điều khiển robot… - Ứng dụng tự lựa chọn: Tự dộng trích tóm tắt của một bài viết, tóm tắt những thông tin độc giả thường quan tâm. 2. Thiết kế hệ thống học Thiết kế hệ thống học cho máy có thể có những mô hình khác nhau cho từng bài toán, tuy nhiên các bài toán đều tuân theo các bước quy định sau: - Xác định tập dữ liệu mẫu để huấn luyện. - Xác định hàm mục tiêu. - Xác định cách biểu diễn giá trị hàm mục tiêu. - Xác định thuật toán học. 2.1. Xác định tập dữ liệu mẫu để huấn luyện. Bộ dữ liệu mẫu dùng huấn luyện cho máy được xem là bộ dữ liệu kinh nghiệm E. Mỗi bài toán cụ thể sẽ xác định cấu trúc của bộ dữ liệu mẫu dùng để huấn luyện. Ví dụ: Bài toán nhận dạng tiếng nói thì bộ dữ liệu mẫu dùng để huấn luyện là những đặc trưng được trích chọn từ mỗi từ. 9 Bộ dữ liệu mẫu là tập hợp các mẫu dữ liệu, mỗi mẫu dữ liệu thường được biểu diễn bởi véctơ b(x 1 , x 2 ,…, x n ), trong đó x i là các giá trị đặc trưng, mẫu dữ liệu được phân thành hai loại: - Mẫu dữ liệu có giá trị đích: Mẫu dữ liệu được xác định là thuộc phân lớp, đối tượng hoặc quyết định, trong trường hợp này máy học theo cách học có giám sát. - Mẫu dữ liệu không có giá trị đích: Mẫu dữ liệu không được xác định trước phân lớp, đối tượng hoặc quyết định. Trong trường hợp này máy học theo cách học không có giám sát. Dữ liệu huấn luyện kiểu này máy sẽ phải tự xác định những dữ liệu nào là cùng một phân lớp, đối tượng hay cùng một quyết định theo tiêu chí đánh giá riêng. 2.2. Xác định hàm mục tiêu. Hàm mục tiêu là các lớp, đối tượng hay quyết định, các giá trị hàm mục tiêu được xác định từ bộ dữ liệu huấn luyện có giá trị đích hoặc máy tự xác định, ví dụ trong bài toán nhận dạng tiếng nói thì tập giá trị hàm đích là tập các từ rời rạc, trong bài toán xấp xỉ hàm thì tập các giá trị mục tiêu được xác định theo một hàm. Hàm mục tiêu V(b) có thể được xác định như sau: V: B→ R V: Hàm mục tiêu B: Tập giá trị mẫu trong bộ dữ liệu. R : Miền giá trị hàm mục tiêu. 2.3. Xác định cách biểu diễn hàm mục tiêu 10 [...]... này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại tiếng nói của các nước khác nhau 1.2 Các thông số cơ bản của tín hiệu tiếng nói Tần số cơ bản: Một âm thanh có thể là tổ hợp của nhiều tần số, tần số chính trong âm được gọi là tần số cơ bản Trong tiếng nói, tần số cơ bản là tổng của sự rung động các dây thanh âm, tần số cơ bản còn được kí hiệu là F0 còn gọi là Pitch Tần số cơ bản... nhau, bài toán giao tiếp giữa người và máy, bài toán cho người mù sử dụng máy tính đều liên quan nhiều đến nhận dạng tiếng nói Trên thế giới các nhà khoa học đã nghiên cứu nhiều về vấn đề này nhưng nhận dạng tiếng Việt đã và đang là vấn đề mới được các nhà khoa học ở Việt Nam nghiên cứu Với một vị trí quan trọng trong nhiều lĩnh vực, tiếng Việtnhận dạng tiếng Việt cần phải được quan tâm nghiên cứu... quyết bài toán phân lớp cũng là giải quyết bài toán nhận dạng Ví dụ đối với bài toán nhận dạng tiếng nói, các từ lấy đặc trưng b(x 1, x2, , xn), đặt giá trị hàm mục tiêu Vtrain(b) đưa vào hệ thống máy học huấn luyện thu được bộ hệ số học wi, khi thực hiện nhận dạng tiếng nói một từ bằng cách đánh giá hàm đích của bộ đặc trưng tiếng nói đó với bộ hệ số học w i, giá trị hàm đích sai lệch so với giá... đầu tôi đã nghiên cứu âm thanh, tiếng nói và nhận dạng với các phát âm từ đơn và nghiên cứu các phụ âm trong Tiếng Việt 1.1 Đặc điểm tiếng nói Hệ thống phát âm tiếng nói được bắt đầu từ luồng khí ở phổi, qua thanh hầu, miệng và mũi Những thay đổi nhất định về vị trí môi, răng và lưỡi tạo thành các khoang cộng hưởng khác nhau về hình dáng, thể tích, lối thoát không khí và tạo ra các âm thanh khác nhau... sóng âm thanh dao động, bản nhạc phát ra sẽ tổng hợp bởi nhiều nhạc cụ khác nhau, có tần số khác nhau Mỗi dao động thể hiện các mức năng lượng của âm thanh một cách liên tục 24 1.2 Tín hiệu số của âm thanh Trong các thiết bị số, điển hình là máy tính, âm thanh nói riêng và dữ liệu nói chung đươc lưu trữ dưới dạng số Tín hiệu tương tự của âm thanh được chuyển thành các số gọi là tín hiệu số của âm thanh... kinh trung ương cảm nhận được đóâm thanh và là âm thanh gì, nếu là tiếng nói thì biết được nội dung câu nói Như vậy bản chất của âm thanh là một dao động có tần số, con người cảm nhận được từ dao động này Nếu dao động có biên độ càng lớn thì âm lượng càng lớn và ngược lại Tần số dao động của âm thanh trong tự nhiên có pham vi rộng, tuy nhiên con người chỉ cảm nhận được trong một phạm vi nhất định... Chất lượng âm thanh khôi phục được càng giống âm thanh gốc Tuy nhiên nếu 25 tần số càng cao thì cần phải dùng dung lượng lớn hơn để lưu trữ và đồng thời tốc độ xử lý phải chậm lại do cần xử lý số lượng dữ liệu lớn Từ đó, ta cần xác định tần số lấy mẫu sao cho có thể khôi phục lại gần đúng dạng tín hiệu với yêu cầu tốc độ xử lý giới hạn trong mức cho phép Các file âm thanh số (kiểu wave) có tần số lấy mẫu... mẫu bằng bội số của một giá trị q (q gọi là bước lượng tử) Nếu q không thay đổi thì quá trình lượng tử gọi là đồng nhất Số lượng các bước lượng tử (số bội số của q) càng lớn sẽ làm cho dung lượng lưu trữ tăng lên cao nhưng bù lại khả năng khôi phục giống tín hiệu gốc càng cao, tín hiệu âm thanh càng trung thực Từ đó cần xác định lại số bước lượng tử sao cho có thể khôi phục lại gần đúng dạng tín hiệu... người bởi vì tiếng nói và lao động là các nhân tố tạo lên sự phát triển của xã hội loài người Tiếng nói, hay ngôn ngữ là một vấn đề vô cùng phức tạp và đã được nhiều các nhà khoa học trên thế giới quan tâm nghiên cứu dưới nhiều góc độ khác nhau Dưới góc độ CNTT tiếng nói và nhận dạng tiếng nói có một vai trò to lớn giải quyết nhiều bài toán hóc búa mà từ trước nay con người đang quan tâm Bài toán thông... các phụ âm, nguyên âm cùng các đặc trưng của chúng Qua đó người ta thường phân tiếng nói thành âm hữu thanh, âm vô thanh Tiếng nói được số hoá, tín hiệu thu được là chuỗi các số, mỗi sốmột giá trị nằm trong phạm vi mức lượng tử (Ví dụ: với mức lượng tử là 8 bít thì giá trị thuộc đoạn [0,255], nếu 16 bít thì giá trị thuộc đoạn [-32768, 32767]) Như vậy để xử lý trên tập tín hiệu lấy mẫu thì số lượng . nhiều lớp bài toán khó, thực tế những nghiên cứu về mạng neural đưa ra một cách tiếp cận hiệu quả trong nhận dạng tiếng nói. Với bài toán nhận dạng một số phụ âm bật tiếng Việt, thông qua mạng. 98%. - Và một số luận án tiến sĩ, thạc sĩ khác đã nghiên cứu về nhận dạng tiếng nói tiếng Việt. Dù là hướng nghiên cứu nào thì bài toán nhận dạng phải thuộc lớp mô hình bài toán nhận dạng sau:. dạng sau: - Phân theo số người nói. o Nhận dạng một giọng nói o Nhận dạng nhiều giọng nói. - Phân theo số lượng từ. o Số lượng từ hữu hạn. o Số lượng từ không hạn chế. o Nhận dạng nói từng từ và

Ngày đăng: 23/05/2014, 14:31

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan