Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt

89 1.2K 2
Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích cú pháp trong tổng hợp tiếng nói tiếng việt

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ──────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN PHÂN TÍCH CÚ PHÁP TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Sinh viên thực : Lớp: Công nghệ phần mềm – K51 Giáo viên hướng dẫn: TS Cao Tuấn Dũng ThS Nguyễn Thị Thu Trang HÀ NỘI 05-2011 MỤC LỤC Thông tin sinh viên Họ tên sinh viên: Điện thoại liên lạc: Lớp: Công nghệ phần mềm K51 Hệ đào tạo: Đại học quy Đồ án tốt nghiệp thực tại: Trung tâm nghiên cứu Mica – Trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 21/02/2011 đến 28/05/2011 Mục đích nội dung ĐATN Tìm hiểu phương pháp phân tích cú pháp tiếng Việt phục vụ cho tổng hợp tiếng nói tiếng Việt Các nhiệm vụ cụ thể ĐATN − Tìm hiểu tiếng Việt, nghiên cứu phương pháp phân tích tiếng Việt nước nước − Đề xuất giải pháp giúp tối ưu hóa hiệu phân tích cú pháp − Tiến hành kết nối liệu với công đoạn khác tổng hợp tiếng nói Lời cam đoan sinh viên: Tôi – Lê Quang Thắng - cam kết ĐATN công trình nghiên cứu thân hướng dẫn TS Cao Tuấn Dũng ThS Nguyễn Thị Thu Trang Các kết nêu ĐATN trung thực, chép toàn văn công trình khác Hà Nội, ngày 20 tháng 05 năm 2011 Tác giả ĐATN Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày 28 tháng 05 năm 2011 Giáo viên hướng dẫn TS Cao Tuấn Dũng ThS Nguyễn Thị Thu Trang TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Tổng hợp tiếng nói lĩnh vực đáp ứng lại mong muốn người giao tiếp với máy tính qua tiếng nói Trong đó, người muốn máy tính đọc lên đoạn văn mong muốn Lĩnh vực tìm hiểu phát triển từ sớm đến đạt thành quan trọng Với mong muốn tìm hiểu phát triển tổng hợp tiếng nói cho tiếng Việt, đồ án chọn lĩnh vực tổng hợp tiếng nói làm hướng nghiên cứu Trong đồ án này, đồ án tập trung vào phần phân tích cú pháp tổng hợp tiếng nói Với mong muốn cải thiện hiệu cho hệ thống tiếng nói tổng hợp Trong đồ án này, đồ án tập trung tìm hiểu sở lý thuyết phân tích cú pháp ngữ pháp tiếng Việt Sau đó, đồ án tập trung vào vấn đề cải tiến giải thuật phân tích cú pháp, đồng thời đề xuất thuật toán hoàn thiện chất lượng, tốc độ phân tích cú pháp áp dụng cho tổng hợp tiếng nói tiếng Việt Đồ án tiến hành cài đặt đánh giá hiệu hệ thống Từ đưa hướng phát triển cho đồ án LỜI CẢM ƠN Đầu tiên, xin cảm ơn bố mẹ, người nuôi nấng, động viên, giúp đỡ tận lúc tự đặt tay gõ dòng Anh xin cảm ơn cô em gái dằn, nghịch ngợm anh động viên, “chọc tức”anh suốt trình anh làm đồ án Em xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Bách Khoa Hà Nội thầy cô Viện Công nghệ thông tin truyền thông truyền dạy cho em kiến thức kinh nghiệm quý giá suốt trình học tập tu dưỡng suốt năm qua Em xin gửi lời cảm ơn đến TS Cao Tuấn Dũng, TS Trần Đỗ Đạt Ths.Nguyễn Thị Thu Trang dẫn dắt em suốt trình làm đồ án Em xin cảm ơn lần nữa, thầy cô người giáo viên tận tình mà em biết đến Em xin đặc biệt gửi lời cảm ơn đến thầy giáo Đỗ Bá Lâm Dù giáo viên hướng dẫn em thầy, em hoàn thành đồ án tốt đến Em xin gửi lời cảm ơn đến bạn Tô Hoàng Long lớp Việt Nhật K51 Cậu người bạn thân sát cánh tớ từ cấp đến Và tận lên đại học, đến tớ tự hào hoàn thành đồ án, cậu người giúp tớ có nghị lực vượt qua ngã lòng mệt mỏi Em xin gửi lời cảm ơn đến nhóm bạn Q4T lớp công nghệ phần mềm Chúng ta anh em, đội thật tuyệt vời phải không bạn Hãy hoàn thành tốt đồ án đời bạn nhé, chiến hữu tớ Em xin gửi lời cảm ơn đến nhóm bạn trung tâm mica Các cậu nguồn cảm hứng khiến tớ không ngừng phấn đấu thân Chúng ta trải qua nhiều kỉ niệm thật khó quên, bạn người bạn tốt tớ DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN Số TT Từ Giải nghĩa CFG Context-Free Grammar PCFG Probalistic Context-Free Grammar LPCFG lexical probabilistic context-free grammar CYK Cocke-Younger-Kasami Earley Thuật toán Earley TreeBank Kho ngữ liệu lưu trữ cú pháp phân tích DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN LỜI NÓI ĐẦU Máy tính? Một cụm từ trở nên quen thuộc xã hội thông tin ngày Máy tính tác động đến lĩnh vực sống Máy tính giúp đỡ người nhiều sống hối khắc nghiệt Nhờ có máy tính, công việc trở nên dễ dàng nhiều Nhờ có máy tính, người giới xích lại gần Chúng ta có điều thú vị để khám phá máy tính Máy tính khởi nguồn nhiều phát minh sáng tạo khoa học Có thể nói máy tính trở thành phần thiếu sống Có nghĩ máy tính bạn người? Có thể trả lời “không” Nhưng câu trả lời thực “chưa” Chúng ta thử hình dung tuyệt vời bên cạnh ta máy tính vừa giúp đỡ ta làm núi việc lại vừa trò chuyện, tâm với ta người bạn Với hi vọng ngày đó, máy tính thực trò chuyện với người, nhà khoa học giới miệt mài nghiên cứu hệ thống tổng hợp tiếng nói Tổng hợp tiếng nói hệ thống giúp máy móc mô giọng nói người cách xác tự nhiên Cho đến nay, nhiều sản phẩm nghiên cứu tổng hợp tiếng nói giới cho kết khả qua Tại Việt Nam có nhiều tổng hợp tiếng nói phát triển tổng hợp “Sao Mai” trung tâm Sao Mai, “Hoa Súng” trung tâm nghiên cứu Mica – ĐH BKHN, “Tiếng nói phương Nam” ĐHQG-TPHCM Tuy nhiên, tổng hợp hạn chế mặt chất lượng giọng nói tổng hợp Với mong muốn cải thiện chất lượng tổng hợp tiếng nói, đồ án định sâu vào nghiên cứu hệ thống phân tích cú pháp tổng hợp tiếng Việt Phân tích cú pháp giai đoạn nằm khâu phân tích văn tổng hợp tiếng nói, có ảnh hưởng mạnh mẽ đến công đoạn khác tổng hợp tiếng nói Tại Việt Nam, kết nghiên cứu phân tích cú pháp hạn chế thực toán không dễ Sự phức tạp toán thể số đặc điểm mà cần phải giải nhập nhằng ngữ nghĩa, bùng nổ tổ hợp, khả bao quát trường hợp ngôn ngữ Trên sở nghiên cứu có sẵn phân tích cú pháp tiếng Việt, đồ án tiếp tục phát triển đề xuất giải pháp cải tiến giúp tối ưu hóa hiệu phân tích cú pháp tổng hợp tiếng Việt Bố cục đồ án: Chương 1: Phân tích cú pháp tổng hợp tiếng nói Chương tập trung giới thiệu tổng hợp tiếng nói tiếng Việt đồng thời vai trò phân tích cú pháp tổng hợp tiếng nói tiếng Việt Từ đó, nêu lên mục đích nhiệm vụ đồ án Chương : Tiếng Việt số chiên lược phân tích cú pháp Chương giới thiệu cho tiếng Việt số lý thuyết sở phương pháp phân tích cú pháp Đây chương quan trọng, kiến thức tiền đề cho việc dẫn đến định đưa đề xuất cho mô hình phương pháp phân tích cú pháp đồ án Chương 3: Các đề xuất đồ án cho phân tích cú pháp tiếng Việt Hai chương đầu sở lý thuyết mà đồ án sử dụng, sang chương thứ đồ án nêu mô hình phương pháp mà đồ án áp dụng cho phân tích cú pháp tiếng Việt Ngoài ra, số cải tiến trình làm đồ án mô tả kĩ Chương 4: Xây dựng đánh giá chương trình Đây chương mô tả trình cài đặt xây dựng chương trình theo phương pháp trình bày chương Sau đó, thử nghiệm đánh giá hiệu chương trình dựa kết đạt 10 • “Dạo không thích đến trường lúc trước nữa” “Nguyên nhân phần, động lực đến trường không có” Đầu xml: dạo không thích đến trường lúc trước dạo dạo này này tôi không thích đến trường lúc trước không còn thích đến trường lúc trước thích đến trường lúc trước đến trường lúc trước trường như lúc trước như lúc trước lúc trước nữa nguyên nhân phần , động lực đến trường nguyên nhân phần nguyên nhân một phần , do động lực đến trường động lực đến trường không có không có • Sau thử với câu khó vài dài: Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 75 “gã đàn ông đứng cửa, thân thể vạm vỡ kẻ nuôi sống chất bột, lấn át dội khuôn mặt mờ ám, không rõ thiện hay ác” Hệ thống hoàn toàn phân tích được: Hình 4-27 Hình ảnh phân tích câu khó dài Dưới bảng tổng kết trình thử nghiệm hệ thống với 630 câu văn phức tạp(có so sánh với thuật toán CYK-Beam search): Bảng 4-19 Bảng tổng kết thử nghiệm với 630 câu hành văn Thuật toán Thời gian xử lí Số lượng phân tích A* 15 phút 92% CYK-Beam search 45 phút 75% Về độ xác, sau thử nghiệm với khoảng 200 câu tập TreeBank, độ xác đạt khoảng 70% (A*) 4.3.3 Đánh giá hệ thống Với phạm vi đồ án tốt nghiệp, kết mà hệ thống đạt khả quan Tuy nhiên, kết thử nghiệm cho thấy kết phân tích cú pháp chưa thấp Nguyên nhân lí sau đây: • Bộ phân tích cú pháp chưa có giải thuật huấn luyện với tập TreeBank mà đơn sử dụng thống kê nên hiệu chương trình không cải tiến • Tập luật cú pháp cần phải hoàn thiện thêm • Bộ tách từ gán nhãn cho kết sai dẫn đến đầu phân tích cú sai • Các câu tập VietTreeBank khó dài, hầu hết câu có độ phức tạp 50-60 từ cấu trúc phức tạp Về mặt tốc độ, hệ thống giữ tốc độ phân tích ổn định kể với câu dài khó cho thấy ưu việt thuật A* Hơn nữa, bước đầu, kết hợp thêm giải thuật lelightwin cắt tỉa, tốc độ hệ thống cải thiện lên hàng chục lần Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 76 4.4 Kết chương Chương trình bày kết kiểm thử đánh giá hiệu chương trình phân tích cú pháp tiếng Việt • Giải thuật phân tích cú pháp A* cho kết khả quan phân tích 630 câu hành văn thời gian 15 phút, tốc độ trung bình khoảng 3s/1 câu Những câu câu dài khó • So với giải thuật CYK-Beam search, giải thuật A* tỏ ưu hẳn mặt tốc độ Về độ xác, không đủ thời gian nên chưa có thử nghiệm cho chương trình Nhưng tương lai định có hoàn nghiệm để đánh giá hiệu hệ thống cách chuẩn xác • Độ xác phân tích câu mẫu tập TreeBank chưa cao Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 77 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những thành tựu mà đồ án đạt được: • Tìm hiểu nghiên cứu phương pháp phân tích cú pháp mô hình giới để tìm hướng cho nhánh đề tài • Tìm hiểu kết hợp sử dụng tách từ gán nhãn thành tiền xử lí cho đầu vào phân tích cú pháp • Thiết kế liệu đầu cho hệ thống hỗ trợ công đoạn khác tổng hợp tiếng nói dễ dàng sử dụng • Xây dựng thành công giải thuật A* áp dụng cho phân tích cú pháp tiếng Việt với tốc độ độ xác khả quan • Đề xuất ý tưởng giải thuật lelightwin cắt tỉa giúp tăng tốc độ hệ thống phân tích lên tầm Hướng phát triển đồ án: Đồ án thử đem so sánh hệ thống với số hệ thống phân tích cú pháp khác hệ thống phân tích cú pháp PCFG thầy Hoàng Anh Việt K46, hệ thống phân tích cú pháp học máy thống kê VLSP Kết cho thấy sau: • Chương trình phân tích thầy Việt tốc độ nhanh tập luật cú pháp đơn giản có 180 luật (trong luật hệ thống 938 luật) nhiên với trường hợp câu phức tạp lằng nhằng kết không khả quan Nhưng hệ thống thầy Việt có điểm mà hệ thống đồ án cần phải học hỏi có sử dụng giải thuật huấn luyện inside outside, giải thuật giúp cải thiện chất lượng phân tích cú pháp lên nhiều • Chương trình PTCP VLSP thật tốt, kết cho vô khả quan Nếu với câu dấu phẩy, phân tích cú pháp VLSP tỏ ưu hẳn so với hệ thống đồ án Nguyên nhân kết VLSP (GS.Hồ Tú Bảo) có tập TreeBank khổng lồ gồm 10.000 câu với luật cú pháp nghiên cứu kĩ lưỡng Thêm vào đó, hệ thống tách từ gán nhãn họ nghiên cứu khoa học thử nghiệm đảm bảo độ xác 90% Ngoài ra, mô hình PCFG mà hệ thống sử dụng chưa phải tối ưu trường hợp nhập nhằng cú pháp cấp độ từ vựng chưa thể giải Về vấn đề này, mô hình LPCFG nghiên cứu từ lâu cho kết vô khả quan việc xử lí nhập nhằng cấp độ từ vựng Ngoài ra, với việc thêm thông tin từ vào luật cú pháp, mô hình LPCFG tận dụng tối đa Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 78 thông tin mà tập TreeBank mang lại, thực hướng phát triển đầy hứa hẹn Qua điều phân tích trên, hướng phát triển đồ án tương lai : • Hoàn thành giải thuật lelightwin cắt tỉa • Kết hợp giải thuật A* sử dụng mô hình LPCFG giúp nâng cao độ xác phân tích cú pháp • Xây dựng tập VietTreeBank có quy mô lớn tái sử dụng tập TreeBank VLSP nhằm nâng cao chất lượng liệu huấn luyện luật cú pháp • Hệ thống lại nhãn từ loại ngữ loại để sử dụng vnTagger thay cho vnqtag Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 79 Tài liệu tham khảo [1] [2] Fei Xia, “Inside-Outside algorithm”, LING 572 Christopher D.Manning and Hinrich Schutze “Probabilistic Grammars”, Chapter11, 1999 [3] Michael Collins, “Head-Driven Statistical Models for Natural Language Parsing”, MIT Computer Science and Artificial Intelligence Laboratory [4] Dan Klein and Christopher D Manning 2003 “A* parsing: Fast exact Viterbi parse selection In Proceedings of the Human Language Technology Conference and the North American Association for Computational Linguistics”(HLT-NAACL) [5] Dan Klein and Christopher D Manning 2002 “A* parsing: Fast exact Viterbi parse selection” Technical Report dbpubs/2002-16, Stanford University, Stanford, CA [6] Adam Pauls and Dan Klein, “K-Best A* Parsing”, Computer Science Division University of California, Berkeley [7] Hoàng Anh Việt, “Phân tích cú pháp tiếng Việt sử dụng mô hình xác suất PCFG”, đồ án tốt nghiệp đại học năm 2006 [8] Phạm Thị Nhung, “Phân tích cú pháp tiếng Việt sử dụng beam search”, đồ án tốt nghiệp đại học năm 2009 [9] Đỗ Bá Lâm, Lê Thanh Hương, “Implementing a Vietnamese syntactic parser using HPSG”, Khoa Công nghệ thông tin, trường Đại học Bách khoa Hà Nội [10] Diệp Quang Ban, Hoàng Văn Thung, “Ngữ pháp tiếng Việt”, tập 1,2, Nhà xuất giáo dục, 1991-1992 [11] Trung tâm khoa học xã hội nhân văn Quốc Gia “Ngữ pháp tiếng Việt” Nhà xuất Khoa học Xã hội – 2000 [12] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền “Xây dựng treebank tiếng Việt” PHỤ LỤC Bảng ký hiệu dùng tập luật cú pháp A tính từ AE Phụ tố trước tính từ Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B Pu đại từ xưng hô QP cụm từ số lượng 80 AH Tính từ trung tâm AP cụm tính từ AR Phụ tố sau tính từ AV trạng ngữ Ac tính từ tổng thể Al tính từ định lượng Ao tính từ tượng Ap tính từ tính chất C giới từ Cm giới từ phụ Co , Cp giới từ liên hợp D phụ từ kết E cảm từ H trung tâm I danh từ số lượng M số từ N danh từ NE Phụ tố trước danh từ NH Danh từ trung tâm NP cụm danh từ NPC cụm danh từ NR Phụ tố sau danh từ Na danh từ trừu tượng Nc danh từ đơn thể Ng danh từ tổng thể Np tên riêng Nq số từ Ns loại từ Nu danh từ đơn vị đo lường P đại từ PP cụm giới từ PRD vị ngữ Pd đại từ định Pi đại từ nghi vấn Pl đại từ hoạt động, tính chất Pn đại từ số lượng Pp đại từ xưng hô R phụ từ RP cụm phụ từ Rc phụ từ so sánh Rd phụ từ mức độ Ri phụ từ mệnh lệnh Root Các câu phân tích Rt phụ từ thời gian Rv phụ từ vị trí S Câu SBAR Mệnh đề phụ SBARS Mệnh đề phụ SBJ chủ ngữ SC Câu mệnh lệnh SE Câu cảm thán SF Câu đề thuyết SN Câu trần thuật SQ Câu hỏi V động từ VE Phụ tố trước động từ VH Động từ trung tâm VP cụm động từ VPC cụm động từ VR Phụ tố sau động từ Vc động từ tổng thể Vit động từ nội động Vt động từ ngoại động Vz động từ WHAP cụm tính từ nghi vấn WHNP cụm danh từ nghi vấn WHPP cụm giới từ nghi vấn WHRP cụm phụ từ nghi vấn X từ không xác định Y từ viết tắt Một số kết phân tích cú pháp với câu phổ cập tôi độc giả thường xuyên chuyên mục tâm tôi tôi là độc giả thường xuyên chuyên mục tâm là một độc giả thường xuyên chuyên mục tâm một độc giả thường xuyên chuyên mục tâm độc giả Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 81 thường xuyên chuyên mục tâm thường xuyên của chuyên mục tâm của chuyên mục tâm chuyên mục tâm sự tôi theo dõi xem có tình giống không để rút kinh nghiệm cho thân không thấy tôi tôi theo dõi xem có tình giống không để rút kinh nghiệm cho thân không thấy theo dõi xem có tình giống không theo dõi xem có tình giống không xem có tình giống không có tình giống tình huống nào giống giống mình không để rút kinh nghiệm cho thân không thấy rút kinh nghiệm cho thân không thấy kinh nghiệm cho thân không thấy cho bản thân không thấy bản thân nhưng không thấy nhưng không thấy không thấy Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 82 hôm muốn gửi tâm , mong bạn cho lời khuyên bổ ích hôm hôm nay tôi muốn gửi tâm , mong bạn cho lời khuyên bổ ích muốn gửi tâm , mong bạn cho lời khuyên bổ ích gửi tâm gửi tâm tâm sự của mình , rất mong bạn cho lời khuyên bổ ích rất mong các bạn cho lời khuyên bổ ích các bạn cho lời khuyên bổ ích cho tôi lời khuyên bổ ích tôi những lời khuyên bổ ích khuyên bổ ích tôi ba mươi bốn tuổi , bác sĩ tôi ba mươi bốn tuổi tôi tôi ba mươi bốn tuổi ba mươi bốn tuổi Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 83 , là bác sĩ là bác sĩ đã lập gia đình mười năm có bé trai , bé gái đã lập gia đình mười năm đã lập gia đình mười năm gia đình mười năm và có bé trai , bé gái có một bé trai , bé gái một bé trai , bé gái bé trai , một bé gái một bé gái bé gái nhìn chung vợ chồng sống hoà thuận , nhường nhịn nhìn chung vợ chồng nhìn chung nhìn chung vợ chồng vợ chồng tôi sống hoà thuận , nhường nhịn sống hoà thuận sống hoà thuận , nhường nhịn nhường nhịn nhau Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 84 chồng người tốt , thương yêu vợ chồng chồng tôi là người tốt , thương yêu vợ là người tốt là một người tốt một người tốt người tốt , thương yêu vợ thương yêu vợ con nhìn bề , bảo người vợ hạnh phúc nhìn bề nhìn bề ngoài , ai ai cũng bảo người vợ hạnh phúc cũng bảo tôi người vợ hạnh phúc tôi là người vợ hạnh phúc là người vợ hạnh phúc người vợ hạnh phúc vợ hạnh phúc nhưng có điều khổ sở mà chẳng biết tâm nhưng có điều khổ sở mà chẳng biết tâm Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 85 có những điều khổ sở mà chẳng biết tâm những điều khổ sở mà chẳng biết tâm khổ sở mà chẳng biết tâm mà chẳng biết tâm chẳng biết tâm tâm sự cùng ai thói quen sinh hoạt bẩn thỉu luộm thuộm chồng đó đó là thói quen sinh hoạt bẩn thỉu luộm thuộm chồng là thói quen sinh hoạt bẩn thỉu luộm thuộm chồng thói quen sinh hoạt bẩn thỉu luộm thuộm chồng sinh hoạt bẩn thỉu luộm thuộm bẩn thỉu và luộm thuộm của chồng của chồng chồng tôi bữa ăn anh uống năm đến sáu chén rượu , trừ buổi sáng , ngày hút hai gói thuốc , không đánh , rửa tay , tắm rửa mỗi bữa ăn anh uống năm đến sáu chén rượu , trừ buổi sáng mỗi bữa ăn anh mỗi bữa ăn anh bữa ăn Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 86 anh ấy uống năm đến sáu chén rượu , trừ buổi sáng uống năm đến sáu chén rượu , trừ buổi sáng năm đến sáu chén rượu đến sáu chén rượu sáu chén rượu chén rượu , trừ buổi sáng trừ buổi sáng , mỗi ngày hút hai gói thuốc , không đánh , rửa tay , tắm rửa mỗi ngày hút hai gói thuốc , không đánh , rửa tay , mỗi ngày hút hai gói thuốc , không đánh , rửa tay , ngày hút hai gói thuốc , không đánh hút hai gói thuốc hút hai gói thuốc hai gói thuốc gói thuốc lá , nhưng hầu không đánh hầu không hầu như không đánh đánh răng , rửa tay rửa Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 87 tay , tắm rửa Sinh viên thực Khóa K51-Lớp Công nghệ Phần mềm B 88 [...]...CHƯƠNG 1 PHÂN TÍCH CÚ PHÁP TRONG TỔNG HỢP TIẾNG NÓI Trong chương này, luận văn sẽ giới thiệu: • Tổng quan về tổng hợp tiếng nói • Vị trí và vai trò của bài toán phân tích cú pháp trong tổng hợp tiếng nói • Những nghiên cứu trên thế giới về phân tích cú pháp • Những khó khăn đối với bài toán phân tích cú pháp tiếng Việt • Nhiệm vụ của đồ án tốt nghiệp 1.1 Tổng quan về tổng hợp tiếng nói Tổng hợp tiếng nói. .. vựng trong cơ sở dữ liệu rất lớn Bên cạnh đó tiếng nói cũng có thể tạo ra bằng cách mô phỏng hệ thống phát âm Phương pháp này cho chất lượng rất tốt nhưng thực hiện khá phức tạp Một phương pháp nữa cũng được dùng để tổng hợp tiếng nói là tổng hợp formant 1.2 Vai trò của phân tích cú pháp trong tổng hợp tiếng nói Phân tích cú pháp đóng một vai trò rất quan trong trọng tổng hợp tiếng nói Một hệ thống tổng. .. lợi ích của phân tích cú pháp đó là có thể cung cấp cho hệ thống tổng hợp tiếng nói một cái nhìn toàn cảnh về cấu trúc ngữ pháp của văn bản, làm tiền đề cho rất nhiều ý tưởng khoa học thông minh, sáng tạo để cải thiện chất lượng của bộ tổng hợp tiếng nói Như vậy, trong tổng hợp tiếng nói, phân tích cú pháp đóng một vai trò không hề nhỏ trong việc góp phần tạo nên một bộ tổng hợp tiếng nói chất lượng... Nội” 1.1.2 .Phân tích cấu trúc - ngôn ngữ Phân tích cấu trúc và ngôn ngữ là quá trình phân tích và đưa ra cấu trúc liên kết của văn bản giữa các thành phần văn bản Trong phân tích cấu trúc - ngôn ngữ thì giai đoạn mấu chốt nhất chính là phân tích cú pháp Kết quả của phân tích cú pháp có thể ảnh hưởng trực tiếp đến rất nhiều công đoạn trong tổng hợp tiếng nói Ví dụ với một cây phân tích cú pháp của câu... năng của hệ thống phân tích cú pháp 1.5 Kết chương Trong chương đầu tiên này, ta đã xác định được: • Phân tích cú pháp trong tổng hợp tiếng nói có vai trò rất quan trọng ảnh hướng đến tất cả các công đoạn trong tổng hợp tiếng nói • Điểm qua một số mô hình CFG, PCFG, và các giải thuật earley, CYK áp dụng cho phân tích cú pháp • Xác định được nhiệm vụ cụ thể của đồ án là mô hình hóa tiếng Việt, nghiên cứu... 1.1.4 .Tổng hợp mức thấp Tổng hợp mức thấp là quá trình kết hợp các đoạn tín hiệu (ví dụ như diphone) Các đoạn tín hiệu này đã được phân tích, xử lý qua mức cao (phân tích ngữ âm, phân tích ngôn điệu) Hiện nay có ba phương pháp tổng hợp tiếng nói Phương pháp đơn giản nhất để phát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên (như các từ hoặc câu) Phương pháp này cho chất lượng... như những ý tưởng, đề xuất áp dụng cho phân tích cú pháp tiếng Việt Sinh viên thực hiện Khóa K51-Lớp Công nghệ Phần mềm B 29 CHƯƠNG 3 CÁC ĐỀ XUẤT CỦA ĐỒ ÁN CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT Chương này đồ án sẽ trình bày về những giải pháp mà đồ án sẽ sử dụng trong phân tích cú pháp tiếng Việt dựa trên mô hình PCFG: • Cải tiến tốc độ của hệ thống phân tích cú pháp với thuật toán Beam Search áp dụng cho... câu phát âm ra có dễ hiểu được hay không là để chỉ mức độ dễ nghe Một hệ thống tổng hợp tiếng nói lý tưởng phải là một hệ thống có thể thỏa mãn tối đa hai tính chất này Hệ thống tổng hợp tiếng nói Tổng hợp mức cao Tổng hợp mức thấp Phân tích văn bản Phân tích ngữ âm Phân tích ngữ điệu Phân tích cấu trúc Chuẩn hóa văn bản Phân tích ngôn ngữ Lựa chọn đơn Ghép vị âm nối đơn vị âm Tần số cơ bản Trường độ... CYK kết hợp với mô hình áp dụng cho phân tích cú pháp tiếng Việt Trong chương sau, chúng ta sẽ đi tìm hiểu về tiếng Việt và đi sâu vào nghiên cứu cơ sở lí thuyết của phân tích cú pháp Sinh viên thực hiện Khóa K51-Lớp Công nghệ Phần mềm B 16 CHƯƠNG 2 TIẾNG VIỆT VÀ CƠ SỞ LÝ THUYẾT CHO PHÂN TÍCH CÚ PHÁP Chương này, chúng ta sẽ tập trung tìm hiểu vào những yếu tố sau: • Các đặc trưng của tiếng Việt bao... thống tổng hợp tiếng nói Bộ tổng hợp tiếng nói được chia làm hai phần chính: tổng hợp mức cao và tổng hợp mức thấp Nhiệm vụ phần tổng hợp mức cao là chuẩn hóa văn bản, phân tích cấu trúc, phân tích ngôn ngữ, phát sinh thông tin về ngữ âm, ngữ điệu Phần tổng hợp mức thấp dựa vào các thông tin phía trên sẽ tiến hành tìm kiếm và lựa chọn đơn vị âm, thực hiện ghép nối và làm trơn tín hiệu, cho ra tiếng nói ... tổng hợp tiếng Việt Bố cục đồ án: Chương 1: Phân tích cú pháp tổng hợp tiếng nói Chương tập trung giới thiệu tổng hợp tiếng nói tiếng Việt đồng thời vai trò phân tích cú pháp tổng hợp tiếng nói tiếng. .. dùng để tổng hợp tiếng nói tổng hợp formant 1.2 Vai trò phân tích cú pháp tổng hợp tiếng nói Phân tích cú pháp đóng vai trò quan trọng tổng hợp tiếng nói Một hệ thống tổng hợp tiếng nói muốn... đạt 10 CHƯƠNG PHÂN TÍCH CÚ PHÁP TRONG TỔNG HỢP TIẾNG NÓI Trong chương này, luận văn giới thiệu: • Tổng quan tổng hợp tiếng nói • Vị trí vai trò toán phân tích cú pháp tổng hợp tiếng nói • Những

Ngày đăng: 27/10/2015, 10:36

Mục lục

  • LỜI CẢM ƠN

  • CHƯƠNG 1. PHÂN TÍCH CÚ PHÁP TRONG TỔNG HỢP TIẾNG NÓI

    • 1.1. Tổng quan về tổng hợp tiếng nói

      • 1.1.1. Chuẩn hóa văn bản

      • 1.1.2. Phân tích cấu trúc - ngôn ngữ

      • 1.1.3. Phân tích ngữ điệu

      • 1.1.4. Tổng hợp mức thấp

      • 1.2. Vai trò của phân tích cú pháp trong tổng hợp tiếng nói

      • 1.3. Một số nghiên cứu trên thế giới về phân tích cú pháp

        • 1.3.1. Các mô hình phân tích cú pháp trên thế giới

        • 1.3.2. Các chiến lược phân tích cú pháp

          • 1.3.2.1. Cách tiếp cận từ trên xuống (Top-down)

          • 1.3.2.2. Cách tiếp cận từ dưới lên (Bottom-up)

          • 1.3.3. Một số giải thuật phân tích cú pháp nổi tiếng

            • 1.3.3.1. Thuật toán Earley

            • 1.3.3.2. Thuật toán CYK

            • 1.3.3.3. Nhận xét

            • 1.4. Nhiệm vụ của đồ án tốt nghiệp

            • 1.5. Kết chương

            • CHƯƠNG 2. TIẾNG VIỆT VÀ CƠ SỞ LÝ THUYẾT CHO PHÂN TÍCH CÚ PHÁP

              • 2.1. Các từ tiếng Việt

                • 2.1.1. Danh từ - N

                  • 2.1.1.1. Danh từ đơn thể - Ns

                  • 2.1.1.2. Danh từ tổng thể - Nc

                  • 2.1.1.3. Danh từ đơn vị ­- Nu

                  • 2.1.1.4. Danh từ trừu tượng - Na

                  • 2.1.1.5. Danh từ riêng - Np

                  • 2.1.2. Động từ - V

                    • 2.1.2.1. Động từ ngoại động - Vt

Tài liệu cùng người dùng

Tài liệu liên quan