Hệ thống nhận dạng tiếng nói tiếng việt sử dụng dịch vụ trên nền điện toán đám mây

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG DỊCH VỤ TRÊN NỀN ĐIỆN TỐN ĐÁM MÂY NGUYỄN VĂN MẠNH CHUN NGÀNH: CƠNG NGHỆ THÔNG TIN MÃ SỐ : 8.48.02.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS DƯƠNG THĂNG LONG HÀ NỘI - 2018 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình TÁC GIẢ LUẬN VĂN Nguyễn Văn Mạnh LỜI CẢM ƠN Tôi xin chân thành cảm ơn TS Dương Thăng Long – Trường Đại học Mở Hà Nội tận tình giúp đỡ, động viên, định hướng, hướng dẫn tơi nghiên cứu hồn thành luận văn Tơi xin cảm ơn giảng viên Viện Đại học Mở Hà Nội giảng dạy giúp đỡ hai năm học qua, cảm ơn giúp đỡ nhiệt tình bạn đồng nghiệp Trong trình nghiên cứu mình, hướng dẫn nhiệt tình, đầy trách nhiệm TS Dương Thăng Long thầy cô giáo Trường Đại học Mở Hà Nội với nỗ lực cá nhân khơng thể tránh thiếu sót Tác giả chân thành mong nhận ý kiến đóng góp từ q Thầy, Cơ bạn bè đồng nghiệp Trân trọng cám ơn Hà Nội, ngày tháng năm 2018 Nguyễn Văn Mạnh MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ .vii MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 Giới thiệu nhận dạng tiếng nói 1.1.1 Tổng quan nhận dạng tiếng nói 1.1.2 Lịch sử phát triển nhận dạng tiếng nói 1.1.3 Phân loại hệ thống nhận dạng tiếng nói 1.1.4 Khó khăn nhận dạng tiếng nói 10 1.2 Một số nghiên cứu nhận dạng tiếng Việt 11 1.3 Đặc điểm tiếng Việt nhận dạng tiếng nói .13 1.3.1 Đặc điểm tiếng Việt 13 1.3.2 Cấu trúc âm tiết, âm vị tiếng Việt 13 1.4 Mơ hình nhận dạng tiếng nói .19 1.4.1 Mơ hình GMM 19 1.4.2 Mơ hình phân lớp SVM 19 1.4.3 Mô hình HMM 20 1.4.4 Mạng nơ ron nhân tạo 21 1.4.5 Mơ hình nhận dạng tiếng nói Deep Neural Networks (DNN) 40 1.5 Kết luận chương .49 CHƯƠNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT DỰA TRÊN NỀN DỊCH VỤ CỦA ĐIỆN TOÁN ĐÁM MÂY .51 2.1 Dịch vụ điện toán đám mây 51 2.1.1 Khái niệm điện toán đám mây .51 2.1.2 Các đặc điểm điện toán đám mây 51 2.1.3 Các mơ hình triển khai 54 2.1.4 Các đặc tính điện tốn đám mây .58 2.2 Một số dịch nhận dạng tiếng nói tiếng Việt dựa điện tốn mây .58 2.3 Mơ hình cho hệ thống nhận dạng tiếng Việt 67 2.4 Ưu điểm hệ thống nhận dạng tiếng nói sử dụng DNN so với hệ thống khác 68 2.5 Kết luận chương .69 CHƯƠNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 70 TIẾNG VIỆT 70 3.1 Đặt vấn đề toán 70 3.2 Mô tả chức đầu vào, đầu 71 3.3 Thử nghiệm đánh giá 74 3.4 Kết luận chương .76 KẾT LUẬN 77 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói ANN Artificial Neural Network Mạng nơ-ron nhân tạo DNN Deep Neural Networks Mạng nơ-ron sâu NLP Natural Language Processing Phương pháp xử lý ngôn ngữ tự nhiên SVM Support Vector Machines Máy véc-tơ hỗ trợ GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Cấu chúc âm tiết tiếng Việt 15 Bảng 1.2 Hệ thống phụ âm làm âm đầu 16 Bảng 1.3 Bảng âm nguyên âm đơn 18 Bảng 1.5 Vị trí âm vị hệ thống âm cuối 18 Bảng 1.6 Kết so sánh .49 Bảng 2.1 Các tệp âm 62 Bảng 2.2 Kết cuối Sphinx 65 Bảng 2.3 Kết cuối Microsoft API 65 Bảng 2.4 Kết cuối Google API .66 Bảng 2.5 Bảng so sánh hệ thống 66 Bảng 3.1 Số lượng bệnh nhân nhóm thống kê theo ngày 74 Bảng 3.2 Tốc độ thực nhóm thống kê theo ngày, với tỷ lệ [nhập tiếng nói / nhập tay] (đvt: giây) 75 Bảng 3.3 Tỷ lệ sai sót Nhóm sử dụng nhận diện tiếng nói thống kê theo ngày 75 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sơ đồ tổng qt nhận dạng tiếng nói Hình 1.2 Các phần tử mơt hệ thống nhận dạng tiếng nói Hình 1.3 Vị trí, vai trò âm đệm âm tiết 17 Hình 1.4 Một mơ hình nơ ron .21 Hình 1.5 Biến đổi làm mịn tạo thiên áp bk ; lưu ý vk= bk uk =0 23 Hình 1.6 Mơ hình nơ ron phi tuyến 24 Hình 1.7 Hàm ngưỡng 24 Hình 1.8 Hàm kích tuyến tính đoạn 25 Hình 1.9 Hàm kích hoạt Sigmoid với tham số độ dốc a .26 Hình 1.10 Mạng nơ-ron truyền thẳng lớp 27 Hình 1.11 Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm lớp ẩn 29 Hình 1.12 Mạng nơ-ron hồi quy khơng có vòng tự phản hồi khơng có nơ-ron ẩn 30 Hình 1.13 Mạng nơ-ron hồi quy với nơ-ron ẩn 30 Hình 1.14 Kiến trúc đồ thị Multilayer Perceptron với hai lớp ẩn 33 Hình 1.15 Minh họa chiều hai luồng tín hiệu Multilayer Perceptron (hàm tín hiệu lan truyền thẳng lan truyền ngược tín hiệu lỗi) 34 Hình 1.16 Đồ thị luồng tín hiệu chi tiết nơ-ron j 36 Hình 1.17 Đồ thị chi tiết luồng tín hiệu nơ-ron k kết nối với nơ-ron ẩn j 39 Hình 1.18 HMM với trạng thái, cấu trúc liên kết từ trái sang phải vòng tự lặp, thường sử dụng nhận dạng tiếng nói .41 Hình 2.1 Dịch vụ sở hạ tầng (IaaS) 52 Hình 2.2 Dịch vụ Đám mây công cộng 55 Hình 2.3 Dịch vụ Đám mây doanh nghiệp 56 Hình 2.4 Dịch vụ Đám mây Lai 57 Hình 2.5 Giao diện hệ thống 63 Hình 2.6 Cấu trúc hệ thống 64 Hình 2.7 Kết Sphinx-4 .64 Hình 2.8 Bảng so sánh hệ thống 67 Hình 2.9 Mơ hình cho hệ thống nhận dạng tiếng Việt 67 Hình 3.1 Chức đăng nhập hệ thống 72 Hình 3.2 Chức danh sách chức bệnh nhân chờ khám 72 Hình 3.3 Chức khám bệnh 73 Hình 3.4 Kết mong muốn .73 MỞ ĐẦU Tính cấp thiết đề tài Ngày nay, với phát triển cùa ngành điện tử tin học, hệ thống máy tự động dần thay người nhiều cơng đoạn cơng việc Máy có khả làm việc hiệu suất cao người nhiều Song nay, vấn đề giao tiếp người - máy cải thiện nhiều thủ cơng thơng qua bàn phím thiết bị nhập liệu khác Giao tiếp với thiết bị máy tiếng nói phương thức giao tiếp văn minh tự nhiên nhất, dấu ấn giao tiếp người - máy mà thay vào cảm nhận giao tiếp người với người, hồn thiện phương thức giao tiếp tiện lợi hiệu Do có khác biệt mặt ngữ âm ngôn ngữ nên ta áp dụng chương trình nhận dạng khác để nhận dạng tiếng Việt Một hệ thống nhận dạng tiếng nói nước ta phải xây dựng tảng tiếng nói tiếng Việt Vấn đề nhận dạng tiếng nói tiếng Việt quan tâm nghiên cứu năm gần chưa có chương trình nhận dạng hồn chỉnh cơng bố Trên giới có nhiều hệ thống nhận dạng tiếng nói (tiếng Anh) ứng dụng hiệu như: Via Voice cùa IBM, Spoken Toolkit CSLU (Central of Spoken Laguage Under-standing) tiếng Việt nhiều hạn chế Trong lĩnh vực y tế tiếp nhận thông tin bệnh nhân tới khám, điều trị cho bệnh nhân việc nhập liệu thông tin khám bệnh, định cận lâm sàng, kê đơn thuốc cho bệnh nhân, bệnh án điện tử,… chức có nhiều thơng tin nên việc nhập thơng tin bàn phím nhiều thời gian, dẫn đến việc nhập sai, chậm Với bệnh viện lớn ngày có hàng nghìn lượt bệnh nhân tới khám bệnh, phòng khám số lương tới khám tới hàng trăm CHƯƠNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 3.1 Đặt vấn đề toán Cùng với phát triển nhanh chóng khoa học cơng nghệ Cách mạng Công Nghiệp 4.0, doanh nghiệp Việt Nam riết tìm cách bắt kịp xu hướng mẻ Nhờ có đổi cơng nghệ, mặt ngành nghề xã hội dần có đổi ngày để đáp ứng nhu cầu phát triển thời đại Ngành y tế khơng phải ngoại lệ Quy trình truyền thống với giấy tờ thủ tục phức tạp, gây khơng khó khăn cho đội ngũ cán bệnh viện bệnh nhân Trước khó khăn tồn đó, hệ thống quản lý thơng tin bệnh viện (HIS) đời nhằm khắc phục hạn chế, tồn tại, giúp cho quy trình khám chữa bệnh, nghiệp vụ y tế trở nên thông suốt, hiệu quả, tiết kiệm thời gian HIS hệ thống tích hợp quản trị chức phục vụ cho nhu cầu bệnh viện, cho phép quản lý tất lĩnh vực, phân hệ bệnh viện Ví dụ Dược, Tài kế tốn, Ngoại trú, Nội trú, Quản trị hệ thống… Hệ thống cung cấp thơng tin lịch sử tình trạng sức khỏe bệnh nhân Cho phép lưu trữ liệu an tồn, có phân quyền truy cập rõ ràng nhóm người dùng Việc cung cấp thông tin cần thiết giúp cho việc thăm khám bệnh nhân, chẩn đoán, điều trị trở nên dễ dàng hiệu nhiều so với phương pháp tài liệu giấy truyền thống Thông tin xét nghiệm bệnh nhân hiển thị theo cách trực quan, vd KQ chụp XQuang hệ thống Giúp bác sỹ chủ động việc chẩn đốn tránh nhầm lẫn sai sót khơng đáng có HIS cung cấp phương thức để liên kết với hệ thống khác dựa vào nhu cầu người sử dụng, ví dụ liên thơng với Bảo Hiểm Xã Hội … Hệ thống cung cấp nhiều phương thức truy cập, vd thơng qua máy tính để bàn, máy tính xách tay hay điện thoại thơng minh Trí tuệ nhân tạo ngày phát triển mạnh mẽ năm gần đây, ứng dụng trí tuệ nhân tạo ngày sâu vào lĩnh vực sống, hỗ trợ giúp cho sống người trở nên tốt đẹp Lĩnh vực 74 quản lý y tế điện tử năm gần có cải tiến đổi bước áp dụng trí tuệ nhân tạo để tăng hiệu phần mềm, đáp ứng yêu cầu ngày cao đội ngũ y bác sỹ, người sử dụng, tạo tiện lợi thoải mái q trình thao tác Ví dụ đọc kết chẩn đốn, tác vụ có tính chất máy móc, lặp lặp lại đọc KQ xét nghiệm, KQ chẩn đốn hình ảnh … Các thiết bị đeo (wearable) chứng tỏ vai trò tích cực lĩnh vực y tế, giúp bác sỹ dễ dàng theo dõi tình trạng sức khỏe bệnh nhân theo thời gian thực, đưa phân tích tự động để từ bác sỹ giảm tải công việc, tập trung tốt vào việc chữa trị cho bệnh nhân Trong luận văn này, tính trung tâm trí tuệ nhân tạo tính nhân diện tiếng nói - áp dụng vào việc nhập thơng tin bệnh nhân Thay gõ thông tin khám bệnh bệnh nhân bàn phím, bác sỹ đọc kết quả, hệ thống tự động điền thơng tin vào form, giúp cho q trình khám bệnh nhanh chóng hiệu quả, đem lại hài lòng cho bác sỹ bệnh nhân Để thực yêu cầu toán nhận dạng tiếng nói, tác giả ứng dụng tốn phòng khám phương đơng, tác giả xây dựng hoàn thiện ứng dụng quản lý khám bệnh phân hệ ngoại trú phòng khám phương đơng, tác giả xin phép đồng ý đơn vị quản lý để nâng cấp ứng dụng sử dụng nhập liệu thông tin khám bệnh tiếng nói Do ứng dụng quản lý phòng khám nhiều chức nên tác giả xin phép lấy chức khám bệnh để thực nghiệm, chức khám bệnh phòng khám tác giả sử dụng cơng nghệ nhận dạng tiếng nói để hỗ trợ bác sĩ việc nhập thông tin khám bệnh bệnh nhân Hiện chức khám bệnh giao tiếp qua bàn phím, để đảm bảo quy trình khám bệnh không bị gián đoạn tác giả bổ sung thêm lựa chọn nhập tiếng nói tức thêm nút để chuyển đổi việc nhập bàn phím hay nhập tiếng nói Do dùng thư viện “Speed to text” google nên yêu cầu bắt buộc máy tính phải có kết nối internet 3.2 Mơ tả chức đầu vào, đầu Người bác sĩ/ điều dưỡng đăng nhập hệ thống theo user/pass hệ thống thiết lập 75 Hình 3.1 Chức đăng nhập hệ thống Sau đăng nhập hệ thống, người dùng chọn phòng khám để thực khám bệnh cho bệnh nhân, phòng khám hiển thị danh sách bệnh nhân phòng 76 Hình 3.2 Chức danh sách chức bệnh nhân chờ khám Bác sĩ thực khám bệnh cách chọn bệnh nhân sau vào chức khám bệnh để nhập thông tin khám bệnh bệnh nhân Mặc định chức hỗ trợ nhập thơng tin bàn phím, muốn sử dụng chức nhập thơng tin tiếng nói người dùng click vào button để chuyển đổi cách nhập thơng tin Hình 3.3 Chức khám bệnh Bác sĩ muốn nhập nội dung thông tin mục cần đọc tiêu đề mục để focus vào mục đó, vd muốn nhập thơng tin khám tồn thân bác sĩ đọc “khám toàn thân” trỏ nhập nháy mục tiếp bác sĩ đọc nội dung cần nhập vào đó, tương tự cho hạng mục khác Kết mong muốn hình sau: 77 Hình 3.4 Kết mong muốn 3.3 Thử nghiệm đánh giá Khi đưa chức vào sử dụng ngày đầu bác sĩ điều dưỡng gặp bỡ ngỡ trình sử dụng hệ thống, bị nhầm thao tác nhập bàn phím hay nhận diện tiếng nói, Trong q trình khám bệnh người dùng đọc ko rõ hay đọc theo giọng địa phương nên hệ thống nhận dạng không ý người dùng đào tạo trước đưa vào sử dụng nên người dùng xử lý tốt sai sót Sau tuần sử dụng hệ thống thành thạo tác giả có xin phép lãnh đạo phòng khám nhờ giúp đỡ bác sĩ phòng khám số thực khám bệnh với Với việc nhập thông tin khám bệnh 100 bệnh nhân luân phiên hình thức tác giả có kết đánh giá kết thử nghiệm sau: Khảo sát thực với 190 Bệnh nhân thuộc phòng khám số phòng khám Phương Đông Hà Nam Thời gian khảo sát ngày, bắt dầu từ ngày 12/11/2018 tới 15/11/2018 Bác sỹ khám bệnh hướng dẫn chi tiết để tự chủ động thao tác với phần mềm Việc nhập liệu thực phương thức: nhập tay thông tin khám bệnh, sử dụng nhận diện tiếng nói để nhập thơng tin Bác sỹ nhập thông tin xen kẽ sử dụng cách Với ngày có số lượng BN vào phòng khám lẻ trừ BN tập liệu tính toán, bảo đảm kết khảo sát hợp lý Dữ liệu thu thập lấy phần từ thông số ghi nhận 78 Cơ Sở Dữ Liệu (vd thời gian bắt đầu nhập liệu, thời gian lưu thông tin, số lượng BN theo ngày), riêng thông tin tỷ lệ lỗi tác giả phối hợp bác sỹ ghi nhận trực tiếp phòng khám (do số liệu thực nên bác sỹ cần sửa để bảo đảm tính khách quan) Sau ngày phối hợp tích cực với bác sỹ sở, tác giả có số thống kê sau: Bảng 3.1 Số lượng bệnh nhân nhóm thống kê theo ngày Nhóm\Ngày Nhóm Nhóm Ngày 20 20 Ngày 23 23 Ngày 27 27 Ngày 25 25 Bảng 3.2 Tốc độ thực nhóm thống kê theo ngày, với tỷ lệ [nhập tiếng nói / nhập tay] (đvt: giây) Ngày Ngày Ngày Ngày Ngày Nhóm 1/ Nhóm 330/420 350/450 411/388 342/390 Tỷ lệ 1.273 1.285 0.944 1.140 Trung bình 1.1605 Bảng 3.3 Tỷ lệ sai sót Nhóm sử dụng nhận diện tiếng nói thống kê theo ngày Ngày 3.10% Ngày 3% Ngày 3.40% Ngày 3.30% Qua thống kê ta thấy, nhìn chung tốc độ nhóm bệnh nhân đọc thơng tin có tốc độ thực trung bình nhanh nhóm nhập tay truyền thống (Gấp 1.1605 lần so với nhập tay) Ngồi tỷ lệ lỗi khơng đáng kể, khoảng ~3% Với tập liệu tiếng nói huấn luyện tốt, tỷ lệ giảm dần theo thời gian 79 Biểu đồ so sánh tốc độ thực nhóm theo ngày (đvt: Giây) 500 450 400 350 300 250 200 150 100 50 Ngày Ngày Ngày Nhóm Ngày Nhóm Tỷ lệ lỗi nhận diện tiếng nói theo ngày (đvt: %) 3.5 3.4 3.3 3.2 3.1 2.9 2.8 2.7 Ngày Ngày Ngày Ngày Tỷ lệ lỗi 3.4 Kết luận chương Trong chương này, tác giả giới thiệu tổng quan hệ thống quản lý khám bệnh phòng khám phương đơng chức hệ thống cần xây dựng, tác giả mơ tả rõ kết chạy chương trình ứng dụng sau xây dựng xong Qua nghiên cứu kết chạy ứng dụng, nhận xét luận văn đạt mục tiêu đề nghiên cứu nhận dạng tiếng nói tiếng việt 80 KẾT LUẬN Từ nghiên cứu thấy thời đại cơng nghệ thơng tin nay, việc giao tiếp người với máy, máy với máy…ln vấn đề quan tâm việc trao đổi thơng tin tiếng nói có vai trò quan trọng Tiếng Việt có đặc trưng vùng miền đa dạng, phong phú Các nghiên cứu đặc trưng tiếng Việt thực chủ yếu theo phương diện ngôn ngữ Nghiên cứu theo phương diện xử lý tín hiệu đặc trưng tiếng Việt cơng bố Đặc trưng tiếng Việt phân chia thành nhiều vùng khác Theo ý kiến đa phần nhà nghiên cứu đặc trưng tiếng Việt, phân chia làm ba vùng Bắc, Trung Nam Sự phân chia mang tính tương đối khác đặc trưng xuất làng xã liền kề thay đổi theo vị trí địa lý Luận văn tiến hành nghiên cứu khác biệt tiếng Việt theo phương thức phát âm, ứng dụng hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu nhận dạng hệ thống Con người mong muốn máy tính ngày mạnh hơn, thơng minh yếu tố máy tính tương lai phải tương tác với người sử dụng tiếng nói tự nhiên Đây bước tiến lớn nhằm nâng cao sức mạnh máy tính, đồng thời tăng tốc độ truyền đạt thông tin người với máy tính Xử lý tiếng nói trở thành lĩnh vực quan trọng xu hướng phát triển công nghệ xã hội Đặc biệt công nghệ thông tin ngày cành 81 phát triển ứng dụng xử lý tiếng nói ngày trở lên cấp thiết Việc nghiên cứu đề tài “Hệ thống nhận dạng tiếng nói tiếng Việt sử dụng dịch vụ điện tốn đám mây” hồn thành nội dung nghiên cứu, đáp ứng mục tiêu đặt ban đầu "Nghiên cứu nhận dạng tiếng nói tiếng Việt" Trong q trình thực đề tài, tơi có nhiều cố gắng nghiên cứu tài liệu liên quan Tuy nhiên với khả thân có hạn chế, luận văn khơng thể tránh khỏi khiếm khuyết định Một lần xin chân thành cảm ơn giảng viên giúp đỡ tơi tận tình thời gian học tập hoàn thành luận văn 82 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Phê (1963) Một số ý kiến vấn đề thống tiêu chuẩn hóa tiếng Việt Văn học số [2] Hồng Thị Châu (2009) Phương ngữ học tiếng Việt NXB Đại học Quốc gia Hà Nội [3] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến (2008) Cơ sở ngơn ngữ học tiếng Việt NXB Giáo Dục [4] Nguyễn Hồng Quang, Trịnh Văn Loan (2004) Nhận dạng tiếng nói tiếng Việt phát âm liên tục Kỷ yếu Hội thảo khoa học Quốc gia lần thứ hai nghiên cứu, phát triển ứng dụng Công nghệ Thông tin truyền thông ICT.rda, Hà Nội, pp 243-250 [5] Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu (2002) Tiếng Việt ường phát triển NXB Khoa học Xã hội [6] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên Nhà xuất Khoa học xã hội Tài liệu tiếng ANH [7] Anastasakos, T., J McDonough, and J Makhoul (1997) Speaker adaptive training: A maximum likelihood approach to speaker normalization Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Munich, Germany, pp 1043–1046 [8] Baker, J (1975) Stochastic modeling for automatic speech recognition, in D R Reddy Speech Recognition New York: Academic Press [9] Biadsy, F (2011) Automatic dialect and accent recognition and its application to speech recognition (Doctoral dissertation, Columbia University) [10] Boser, Bernhard E., Isabelle M Guyon, and Vladimir N Vapnik (1992) A training algorithm for optimal margin classifiers Proceedings of the fifth annual workshop on Computational learning theory, ACM, pp 144-152 [11] Davis, S and P Mermelstein (1980) Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 28(4), pp 357–366 83 [12] Deng, L., M Aksmanovic, D Sun, and J Wu (1994) Speech recognition using hidden Markov models with polynomial regression functions as nonstationary states IEEE Transactions on Speech and Audio Processing, vol 2(4), pp 507– 520 [13] Eide, Ellen, and Herbert Gish (1996) A parametric approach to vocal tract length normalization Proceedings of the International Conference on Acoustics, Speech, and Signal Processing IEEE, Atlanta, GA, pp 346–349 [14] F P´erez-Cruz and O Bousquet (2004) Kernel Methods and Their Potential Use in Signal Processing IEEE Signal Processing Magazine, vol 21, no 3, pp 57–65 [15] Fletcher, Roger (2013) Practical methods of optimization John Wiley & Sons [16] Hermansky, H (1990) Perceptual linear predictive analysis of speech Journal of the Acoustical Society of America, vol 87(4), pp 1738–1752 [17] Huang, X D and K.-F Lee (1993) On speaker-independent, speakerdependent and speaker adaptive speech recognition IEEE Transactions on Speech and Audio Processing, vol 1(2), pp 150–157 [18] Jean-Franҫois Bonastre, Frédéric Wils (2005) ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION IEEE International Conference, pp I 737 I 740 [19] JING, Y P., ZHENG, J., & HU, W X (2014) Belongingness of Chinese dialect speech recognition based on deep neural network Journal of East China Normal University (Natural Science), vol 1, p 008 141 [20] Kumar, N and A Andreou (1998) Heteroscedastic analysis and reduced rank HMMs for improved speech recognition Speech Communication, vol 26(4), pp.283–297 [21] Navia-Vázquez, A., Pérez-Cruz, F., Artes-Rodriguez, A., & Figueiras-Vidal, A R (2001) Weighted least squares training of support vector classifiers leading to compact and adaptive schemes IEEE Transactions on Neural Networks, vol 12, no 5, pp 1047-1059 [22] Ney, Hermann (1984) The use of a one-stage dynamic programming algorithm 84 for connected word recognition IEEE Transactions on Acoustics, Speech, and Signal Processing, vol 32(2), pp 263–271 [23] Nguyen Hong Quang, P Nocera, E Castelli, Trinh Van Loan (2008) Tone recognition of Vietnamese continuous speech using hidden Markov model Proceedings of the 2nd International Conference on Communication and Electronics, Hoi An, Vietnam, pp 235-238 [24] Osuna, E., Freund, R., Girosi, F (1997) An Improved Training Algorithm for Support Vector Machines IEEE NNSP '97, pp 276-285 [25] Platt, John C (1999) Fast Training of Support Vector Machines Advances in kernel methods, pp 185-208 [26] Povey, B., Kingsbury, L Mangu, G Saon, H Soltau, and G Zweig (2005) FMPE: Discriminatively trained features for speech recognition Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, PA, pp 961-964 [27] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed 145 McMaster University Hamilton [28] Solera-Ura, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A., Peláez-Moreno, C., & Díaz-de-María, F (2007) SVMs for Automatic Speech Recognition: A Survey Progress in nonlinear speech processing, pp 190-216 [29] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G (2005) The IBM 2004 conversational telephony system for rich transcription In Acoustics, Speech, and Signal Processing, 2005 Proceedings.(ICASSP'05) IEEE International, Philadelphia, PA, pp I-205 [30] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006) Vietnamese Large Vocabulary Continuous Speech Recognition Proceedings of Eurospeech, Lisboa [31] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining characteristics of Vietnamese non-accent vowels Post and telecommunication Journal, Special issue: R&D on telecommunication and IT, vol 2, pp 77-82 [32] Chen, Too, Chao Huang, Eric Chang, and Jingehan Wang (2001) Automatic 85 accent identification using Gaussian mixture models Automatic Speech Recognition and Understanding ASRU'01 IEEE Workshop, pp 343-346 [33] Faria, Arlo (2005) Accent classiýication for speech recognition In International Workshop on Machine Learning for Multimodal Interaction, pp 285-293 [34] H Tang, and A A Ghorbani (2003) Accent classification using Support Vector Machine and Hidden Markov Models Proceedings 16th Canadian conference on Artiíícial Intelligence AI‘03, pp 629-631 [35] Rao, K S., & Koolagudi, S G (2011) Identification of Hindi dialects and emotions using spectral and prosodic features of speech IJSCI: International Journal of Systemics, Cybernetics and Informatics, vol 9, no 4, pp 24-33 [36] Chen, N F., Shen, W., Campbell, J P., & Torres-Carrasquillo, P A (2011) Informative dialect recognition using context-dependent pronunciation modeling Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference, pp 4396-4399 [37] Biadsy, Fadi, Julia Hirschberg, and Nizar Habash (2009) Spoken Arabic dialect identification using phonotactic modeling Proceedings of the eacl 2009 workshop on computational approaches to semitic languages, pp 53-61 [38] Haykin, Simon S (2001) Neural networks: a comprehensive foundation, 2nd ed Tsinghua University Press [39] Lopez-Moreno, I., Gonzalez-Dominguez, J., Plchot, O., Martinez, D., Gonzalez- Rodriguez, J., & Moreno, P (2014) Automatic language identification using deep neural networks In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference, pp 5337-5341 [40] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G (2005) The IBM 2004 conversational telephony system for rich transcription In Acoustics, Speech, and Signal Processing, 2005 Proceedings.(ICASSP'05) IEEE International, Philadelphia, PA, pp I-205 [41] JING, Y P., ZHENG, J., & HU, W X (2014) Belongingness of Chinese dialect speech recognition based on deep neural network Journal of East China Normal University (Natural Science), vol 1, p 008 86 [42] W Walker, P Lamere, P Kwok, B Raj, R Singh, E Gouvea, P Wolf, and J Woelfel, Sphinx-4: A Flexible Open Source Framework for Speech Recognition, Sun Microsystems, SMLI TR-2004-139, 2004,1- 14 [43] C Gaida, P Lange, R Petrick, P Proba, A Malatawy, and D SuendermannOeft, Comparing Open-Source Speech Recognition Toolkits The BadenWuerttemberg Ministry of Science and Arts as part of the research project, 2011 [44] K Samudravijaya and M Barol, Comparison of Public Domain Software Tools for Speech Recognition ISCA Archive, 2013 [45] P Lange and D Suendermann, Tuning Sphinx to Outperform Google’s Speech Recognition API, The Baden-Wuerttemberg Ministry of Science and Arts as part of the research project [46] J Kačur, HTK vs Sphinx for Speech Recognition Department of telecommunication FEI STU [47] D Isaacs and D Mashao, A Comparison of the Network Speech Recognition and Distributed Speech Recognition Systems and their eect on Speech Enabling Mobile Devices, doctoral diss Speech Technology and Research Group, University of Cape Town, 2010 [48] R Srikanth, L Bo and J Salsman, Automatic Pronunciation Evaluation and Mispronunciation Detection Using CMUSphin COLING, 2012, 61-68 [49] V Kepuska, Wake-Up-Word Speech Recognition IN TECH, 2011 [50] STAR (2016) SRI International's Speech Technology and Research (STAR) Laboratory SRI, http://www.speech.sri.com/ [51] ITU (2016) Committed to connecting the world ITU, http://www.itu.int// [52] V Beat and J Novet (2016) Google says its speech recognition technology now has only an 8% word error rate Venture beat, http://venturebeat.com/2015/05/28/ [53] Microsoft Corporation (2016) Exploring New Speech Recognition and Synthesis APIs In Windows Vista Microsoft, http://web.archive.org/ [54] CMUSphinx (2016) CMUSphinx Tutorial for Developers Carnegie Mellon University, http://www.speech.cs.cmu.edu/sphinx/ 87 [55] TIMIT (2016) TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, https://catalog.ldc.upenn.edu/LDC93S1 [56] Microsoft Corporation (2016) Historic Achievement: Microsoft researchers reach human parity in conversational speech recognition”, https://blogs.microsoft.com [57] L Deng, X Li (2013) Machine Learning Paradigms for Speech Recognition, IEEE Transactions on Audio, Speech and Language Processing, vol 2, n [58] L Rabiner (1989) A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of the IEEE 77, no 2, p 257-86 [59] L Rabiner (1989) A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of the IEEE 77, no 2, p 257-86 [60] R Kneser, H Ney, (1995) Improved Backing-off for m-gram Language Modeling IEEE International Conference on Acoustics, Speech and Signal Processing, Detroit, MI, volume 1, pp 181–184 88 ... 2.2 Một số dịch nhận dạng tiếng nói tiếng Việt dựa điện tốn mây .58 2.3 Mơ hình cho hệ thống nhận dạng tiếng Việt 67 2.4 Ưu điểm hệ thống nhận dạng tiếng nói sử dụng DNN so với hệ thống khác... nói tiếng Việt sử dụng dịch vụ điện toán Đám mây thực cần thiết Mục tiêu nghiên cứu Tìm hiểu tổng quan tốn nhận dạng tiếng nói, mơ hình cho hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng nhận. .. nên ta áp dụng chương trình nhận dạng khác để nhận dạng tiếng Việt Một hệ thống nhận dạng tiếng nói nước ta phải xây dựng tảng tiếng nói tiếng Việt Vấn đề nhận dạng tiếng nói tiếng Việt quan

Hệ thống nhận dạng tiếng nói tiếng việt sử dụng dịch vụ trên nền điện toán đám mây

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU

CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1. Giới thiệu về nhận dạng tiếng nói

1.1.1. Tổng quan về nhận dạng tiếng nói

Hình 1.1. Sơ đồ tổng quát nhận dạng tiếng nói

Hình 1.2. Các phần tử cơ bản của môt hệ thống nhận dạng tiếng nói

1.1.2. Lịch sử phát triển của nhận dạng tiếng nói

1.1.3. Phân loại hệ thống nhận dạng tiếng nói

1.1.4. Khó khăn trong nhận dạng tiếng nói

1.2. Một số nghiên cứu nhận dạng tiếng Việt

1.3. Đặc điểm của tiếng Việt trong nhận dạng tiếng nói

1.3.1. Đặc điểm của tiếng Việt

1.3.2. Cấu trúc âm tiết, âm vị trong tiếng Việt

Bảng 1.1. Cấu chúc âm tiết tiếng Việt

Bảng 1.2. Hệ thống phụ âm làm âm đầu

Hình 1.3. Vị trí, vai trò âm đệm trong âm tiết

Bảng 1.3. Bảng các âm chính là nguyên âm đơn

Bảng 1.5. Vị trí các âm vị trong hệ thống âm cuối

1.4. Mô hình nhận dạng tiếng nói

1.4.1. Mô hình GMM

Tài liệu cùng người dùng

Tài liệu liên quan