Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt

1K 1.1K 0
Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ KHOA HỌC CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM THIẾT YẾU VỀ XỬ TIẾNG NÓI VĂN BẢN TIẾNG VIỆT MÃ SỐ: KC 01.01/06-10 Cơ quan chủ trì đề tài: Viện Công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam Chủ nhiệm đề tài: PGS.TS. Lương Chi Mai Hà Nội - 2009 2 BỘ KHOA HỌC CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10 BÁO CÁO TỔNG HỢP KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM THIẾT YẾU VỀ XỬ TIẾNG NÓI VĂN BẢN TIẾNG VIỆT MÃ SỐ: KC 01.01/06-10 Chủ nhiệm đề tài Cơ quan chủ trì đề tài PGS.TS. Lương Chi Mai PGS.TS. Vũ Đức Thi Ban chủ nhiệm chương trình Bộ Khoa học Công nghệ GS.TS. Nguyễn Thúc Hải Hà Nội - 2009 3 VIỆN CÔNG NGHỆ THÔNG TIN VIỆN KHOA HỌC CÔNG NGHỆ VIỆT NAM __________________ CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Hà nội, ngày 28 tháng 07 năm 2009. BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI I. THÔNG TIN CHUNG 1. Tên đề tài: Nghiên cứu phát triển một số sản phẩm thiết yếu về tiếng nói văn bản tiếng Việtsố đề tài: KC01.01/06-10 Thuộc: Chương trình (tên, mã số chương trình): Nghiên cứu phát triển ứng dụng Công nghệ thông tin Truyền thông, mã số KC01. 2. Chủ nhiệm đề tài: Họ tên: Lương Chi Mai Ngày, tháng, năm sinh: 30/04/1958 Nữ: Học hàm, học vị: PGS.TS Chức danh khoa học: Nghiên cứu viên chính Chức vụ: Trương Phòng chuyên môn, Phó Viện trưởng Điện thoại: Tổ chức: 04-37563559, Nhà riêng: 04-37163892 Mobile: 0904100610 Fax: 04-37564217 E-mail: lcmai@ioit.ac.vn Tên tổ chức đang công tác: Phòng Nhận dạng Công nghệ tri thức, Viện Công nghệ thông tin, Viện KHCN VN Địa chỉ tổ chức: 18 Hoàng Quốc Việt, Cầu Giấy, Hà nội Địa chỉ nhà riêng: 14 Phan Huy Ích, Ba đình, Hà nội 3. Tổ chức chủ trì đề tài: Tên tổ chức chủ trì đề tài: Viện Công nghệ thông tin, Viện Khoa học Công nghệ Việt nam 4 Điện thoại: 04-37164405 Fax: 04-37564217 E-mail: vanthu@ioit.ac.vn. Website: www.ioit.ac.vn Địa chỉ: 18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội Họ tên thủ trưởng tổ chức: PGS.TS Vũ Đức Thi Số tài khoản: Ngân hàng: Tên cơ quan chủ quản đề tài: Bộ Khoa học Công nghệ II. TÌNH HÌNH THỰC HIỆN 1. Thời gian thực hiện đề tài: - Theo Hợp đồng đã ký kết: từ tháng 05/2007 – 05/2009 - Thực tế thực hiện: từ tháng 05/2007 đến tháng 31/08/2009 - Được gia hạn (nếu có): - Lần 1 từ tháng 05/2009 đến tháng 31/08/2009 - Lần 2 2. Kinh phí sử dụng kinh phí: a) Tổng số kinh phí thực hiện: 3.000 tr.đ, trong đó: + Kính phí hỗ trợ từ SNKH: 3.000 tr.đ. + Kinh phí từ các nguồn khác: không b) Tình hình cấp sử dụng kinh phí từ nguồn SNKH: Theo kế hoạch Thực t ế đạt được Số TT Thời gian (Tháng, năm) Kinh phí (Tr.đ) Thời gian (Tháng, năm) Kinh phí (Tr.đ) Ghi chú (Số đề nghị quyết toán) 2007 865,460,000 5/2007 600,000,000 1 2008 1,572,440,000 4/2007 265,460,000 2 2009 562,000,000 6/2008 1,100,000,000 12/2008 472,440,000 3/2009 393,470,000 5 c) Kết quả sử dụng kinh phí theo các khoản chi: Đối với đề tài: Đơn vị tính: Triệu đồng Theo kế hoạch Thực tế đạt được Số TT Nội dung các khoản chi Tổng SNKH Nguồn khác Tổng SNKH Nguồn khác 1 Trả công lao động (khoa học, phổ thông) 2820.0 2820.0 2680.0 2680.0 2 Nguyên, vật liệu, năng lượng 20.6 20.6 20.6 20.6 3 Thiết bị, máy móc 16.4 16.4 8.2 8.2 4 Xây dựng, sửa chữa nhỏ 5 Chi khác 143.0 143.0 114.4 114.4 Tổng cộng 3000.0 3000.0 2823.2 2823.2 - do thay đổi (nếu có): 3. Các văn bản hành chính trong quá trình thực hiện đề tài/dự án: (Liệt kê các quyết định, văn bản của cơ quan quản từ công đoạn xác định nhiệm vụ, xét chọn, phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có) Số TT Số, thời gian ban hành văn bản Tên văn bản Ghi chú 1 22/09/2006 Quyết định số 2089/QĐ-BKHCN ngày 22 tháng 9 năm 2006 của Bộ trưởng Bộ Khoa học Công nghệ về việc phê duyệt nội dung kinh phí các đề tài đã trúng tuyển thuộc Chương trình khoa học công nghệ trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC.01.01/06-10; 2 15/5/2007 Hợp đồng “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử tiếng nói văn bản tiếng Việt”, mã số KC01.01/06-10 thuộc Chương trình KC.01/06-10 theo các 6 nội dung trong Thuyết minh Đề tài. 10/05/2009 Công văn số 118/CNTT của Viện Công nghệ thông tin ký ngày 10/05/2009 về việc xin gia hạn thời gian thực hiện đề tài 3 04/06/2009 Quyết định số 917/QĐ-BKHCN về việc điều chỉnh thời gian thực hiện của đề tài KC01.01/06-10 thuộc chương trình KH&CN trọng điểm cấp nhà nước giai đoạn 2006-2010, mã số KC01/06-10 4 01/04/2009 Quyết định số 481/QĐ BKHCN về việc cử đoàn đi công tác nước ngoài 5 17/04/2009 Quyết định số 619/QĐ BKHCN về việc cử đoàn đi công tác nước ngoài 6 15/06/2009 Bản qui chế chi tiêu kinh phí của đề tài “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử tiếng nói văn bản tiếng Việt”, mã số KC01.01/06-10 giữa lãnh đạo đơn vị chủ trì chủ nhiệm đề tài 4. Tổ chức phối hợp thực hiện đề tài, dự án: Số TT Tên tổ chức đăng ký theo Thuyết minh Tên tổ chức đã tham gia thực hiện Nội dung tham gia chủ yếu Sản phẩm chủ yếu đạt được 1 Viện Công nghệ thông tin, Viện KHCN VN Viện Công nghệ thông tin, Viện KHCN VN – Xây dựng Hệ thống tổng hợp tiếng nói cho người khiếm thị – Xây dựng Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói – Xây dựng Hệ thống đối thoại sử dụng công nghệ tổng hợp nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới SP1.1 SP1.2 SP1.3 7 2 Viện Công nghệ thông tin, Viện KHCN VN – Xây dưng kho ngữ liệu cho tổng hợp tiếng nói – Xây dựng kho ngữ liệu ngữ âm cho nhận dạng tiếng Việt – Xây dựng Kho ngữ liệu ngữ âm cho đọc chữ số tiếng Việt, tên người, địa danh trên môi trường điện thoại SP6.1 SP6.2 SP6.3 3 Trung tâm Quốc tế MICA, ĐHBK HN Trung tâm Quốc tế MICA, ĐHBK HN – Hệ thống giám sát điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt – Hệ thống phân tích luồng âm thanh SP1.4 SP1.5 4 Trung tâm Từ điển học, Hà nội Trung tâm Từ điển học, Hà nội – Xây dựng Từ điển từ tiếng Việt cho máy tính SP7.2 5 Khoa CNTT, ĐH Công nghệ, ĐHQG HN Khoa CNTT, ĐH Công nghệ, ĐHQG HN – Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank) SP7.3 6 Khoa CNTT, ĐH KHTN, TpHCM Khoa CNTT, ĐH KHTN, TpHCM – Xây dựng Kho ngữ liệu song ngữ Anh – Việt. SP7.4 7 - Khoa CNTT, ĐH Công nghệ, ĐHQG HN - JAIST - Khoa CNTT, ĐH Công nghệ, ĐHQG HN - JAIST – Xây dựng công cụ Phân loại từ Việt – Xây dựng công cụ Gộp nhóm từ Việt SP8.3 SP8.4 8 Khoa CNTT, Đại học Bách Khoa Hà nội Khoa CNTT, Đại học Bách Khoa Hà nội – Xây dựng công cụ Phân tích câu Việt SP8.5 9 Khoa Toán-Cơ- Tin học, ĐHKHTN, ĐHQG HN Khoa Toán- Cơ-Tin học, ĐHKHTN, ĐHQG HN – Xây dựng công cụ Phân đoạn từ Việt SP8.2 - do thay đổi (nếu có): 8 5. Cá nhân tham gia thực hiện đề tài, dự án: (Người tham gia thực hiện đề tài thuộc tổ chức chủ trì cơ quan phối hợp, không quá 10 người kể cả chủ nhiệm) Số TT Tên cá nhân đăng ký theo Thuyết minh Tên cá nhân đã tham gia thực hiện Nội dung tham gia chính Sản phẩm chủ yếu đạt được Ghi chú* 1 PGS. TS. Lương Chi Mai PGS. TS. Lương Chi Mai Chủ nhiệm, phụ trách phần xử tiếng nói Thiết kế, điều hành xây dựng kho ngữ liệu tiếng nói. Tham gia đóng góp cho xây dựng SP1.3 Chủ nhiệm SP6.x Chủ nhiệm, phụ trách phần xử tiếng nói 2 GS.TSKH. Hồ Tú Bảo GS.TSKH. Hồ Tú Bảo - Phụ trách khối Xử văn bản - Nghiên cứu Dịch tự động - Tham gia SP7.2 Phụ trách khối Xử văn bản SP3 Phụ trách khối Xử văn bản 3 KS.Ngô Cao Sơn KS.Ngô Cao Sơn Thư ký đề tài Thư ký Đề tài 4 KS. Ngô Hoàng Huy Phát triển SP1.2 SP1.2 SP1.1 SP1.2 5 KS. Bùi Quang Trung Phát triển SP1.3 SP1.3 6 Phạm Thị Ngọc Yến PGS.TS. Phạm Thị Ngọc Yến Điều hành theo dõi triển khai SP1.4 SP1.5 Điều hành SP1.4 SP1.5 7 Phạm Thị Ngọc Yến TS. Mathias Rosignol Nghiên cứu xây dựng Hệ thống giám sát điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt SP1.4 8 Phạm Thị Ngọc TS. Nguyễn SP1.5 9 Yến Công Phương 9 CN.Vũ Xuân Lương CN.Vũ Xuân Lương Nghiên cứu, xây dựng Từ điển từ tiếng Việt cho máy tính SP7.2 10 TS. Nguyễn Phương Thái Xây dựng Kho ngữ liệu câu tiếng Việt được chú giải (Viet Treebank) SP7.3 11 TS. Hồ Bảo Quốc TS. Hồ Bảo Quốc Nghiên cứu xây dựng Kho ngữ liệu song ngữ Anh – Việt SP7.4 12 TS.Nguyễn Thị Minh Huyền TS.Nguyễn Thị Minh Huyền Nghiên cứu, xây dựng công cụ Phân đoạn từ Việt SP8.2 13 TS. Phan Xuân Hiếu TS. Phan Xuân Hiếu Nghiên cứu, xây dựng công cụ Phân loại từ Việt SP8.3 14 TS.Nguyễn Lê Minh TS.Nguyễn Lê Minh Nghiên cứu, xây dựng công cụ Gộp nhóm từ Việt SP8.4 15 TS. Lê Thanh Hương TS. Lê Thanh Hương Nghiên cứu, xây dựng công cụ Phân tích câu Việt SP.8.5 - do thay đổi ( nếu có): Đề tài tập hợp đội ngũ cán bộ nghiên cứu tại 8 cơ sở khác nhau với 15 nhánh sản phẩm, vì vậy Đề tài kiến nghị Bộ Khoa học Công nghệ xác nhận danh sách những người thực hiện chính theo các sản phẩm phụ trách như trên. Danh sách được sắp xếp theo thứ tự Ban Chủ nhiệm Thư ký, sau đó theo thứ tự đánh số của phân nhóm theo thiết kế của các sản phẩm. Khi đă ng ký, chỉ đề 10 người đại diện chính, mộtsở có thể thực hiện một số Sản phẩm, nên chỉ nêu danh sách người phụ trách, chịu trách nhiệm quản lý, tuy nhiên trong Nội dung chi tiết cũng đã nêu những người thực hiện. Hiện tại trong danh sách trên là những người thực hiện chính của từng sản phẩm. 6. Tình hình hợp tác quốc tế: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Thực tế đạt được (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Ghi chú* 1 Tham dự Hội nghị Khoa học – Trao đổi Khoa học, trình bày Theo kế 10 Quốc tế về tiếng nói tại Châu Âu hoặc Mỹ seminar khoa học về Đề tài những nghiên cứu liên quan đến dịch các ngôn ngữ nói, tại Trung tâm Nghiên cứu Quốc tế về Công nghệ truyền thông tiến tiến InterACT (International Center for Advanced Communication Technologies), Đại học Carnegie Mellon, Pittsburgh – Trình bày seminar khoa học tại CSLU với các nội dung chủ yếu như đã trình bày trên, có điểm nhấn về khía cạnh ứng dụng của Nh ận dạng cho smarrtphone Tổng hợp tiếng nói cho người khiếm thị (Center of Spoken Language Understanding – Trung tâm nghiên cứu về hiểu ngôn ngữ nói), Oregon Graduate Instiutute, Portland – Số lượng người: 01, số lượng đoàn: 01, kinh phí: 36,24 triệu. hoạch 2 Tham dự Hội nghị quốc tế tại Châu Á – Tham dự hội nghị Quốc tế lần thứ 12 “Oriental- COCOSDA” 10-12/08/2009 về thiết kế, xây dựng, CSDL ngữ âm các công cụ đánh giá trong các nước Châu Á, tại Bác Kinh, Trung Quốc, – Số lượng người: 01, số lượng đoàn: 01, kinh phí: 18,4 triệu. Theo kế hoạch 3 Tham gia dự án A-STAR ( Asian Speech Advanced Technology Research Consortium) , Tham gia xây dựng các hệ thống dịch tiếng nói sang tiếng nói thông qua mạng máy tính trong khu vực Châu Á. Đã phát triển các engine trong lĩnh vực du lịch 1. Nhận dạng tiếng Việt liên tục 2. Tổng hợp tiêng Việt 3. Dịch tự động Anh – Việt, Việt – Anh đã tích hợp vào Hệ thống dịch tiêng nói sang tiếng nói giữa các ngôn ngữ sau: Anh, Nhật, Trung quốc, Hàn, Thái, Được phát triển trong quá trình thực hi ện Đề tài [...]... người già yếu người tàn tật SP6, 7 Sản phẩm cung cấp tài nguyên cơ bản, chuẩn mực, thiết yếu cho việc phát triển các ứng dụng xửtiếng Việt SP8 Sản phẩm là các công cụ cơ bản, chuẩn mực, thiết yếu cho tất cả các nghiên cứu, phát triển ứng dụng của cộng đồng nghiên cứu xử tiếng Việt Khả năng cạnh tranh về giá thành chất lượng của sản phẩm • Các sản phẩm về xử tiếng nói tiếng Việt có khả... xác định tính kế thừa của nó Phân tích thiết kế trong giai đoạn 5 năm thực hiện, bao gồm các sản phẩm sau: 33 Trong giai đoạn 5/2007 – 5/2009, các sản phẩm của đề tài do thời gian hạn chế chỉ, nên tập trung vào một số sản phẩm, tài nguyên công cụ sau, một số sản phẩm về xử tiếng nói cho người dùng cuối: 34 TÌNH HÌNH NGHIÊN CỨU TRONG NGOÀI NƯỚC Các đặc điểm nghiên cứu, phát triển và. .. trong Đề tài giữa kỳ (khối xử văn bản 4 kỳ, nhóm tiếng nói có tổ chức xemine khoa học thường xuyên) để đánh giá tiến độ đánh giá chất lượng sản phẩm qua sinh hoạt học thuật Các sản phẩm có báo cáp tiến độ 6 tháng / lần MỤC TIÊU ĐỀ TÀI Mục tiêu1: Nghiên cứu xây dựng một số sản phẩm tiêu biểu về xử tiếng nói văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính Internet Mục tiêu2:... của người phát triển nhóm sản phẩm kia Các nguyên tắc tiếp cận về quản lý: (1) Hai người chịu trách nhiệm chính của hai hướng nghiên cứu sản phẩm: phần xử tiếng nói phần xử văn bản (2) Mỗi sản phẩm được giao cho một nhóm 2-3 người phụ trách không thuộc cùng một cơ quan, trong đó một người chịu trách nhiệm chính Kinh phí trách nhiệm sẽ được giao trực tiếp cho nhóm phụ trách sản phẩm thông... TÓM TẮT VỀ ĐỀ TÀI 32 MỤC TIÊU ĐỀ TÀI 33 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRONG NGOÀI NƯỚC 35 CHƯƠNG 1 XỬ TIẾNG NÓI KẾT QUẢ 40 1.1 Kết quả nghiên cứu về Tổng hợp Nhận dạng tiếng Việt 40 1.1.1 Khảo sát về ngữ âm tiếng Việt 40 1.1.2 Nghiên cứu cải tiến cho PSOLA 43 1.1.3 Nghiên cứu phát triển phương pháp Tổng hợp tiếng nói dựa... tiêu2: Xây dựng các tài nguyên công cụ thiết yếu nhất cho xử tiếng nói văn bản tiếng Việt, nhằm thực hiện mục tiêu 1 dùng cho nghiên cứu- phát triển lâu dài Những mục tiêu đặt ra yêu cầu cộng đồng nghiên cứu trong lĩnh vực này phải theo đuổi lâu dài từng bước đạt những kết quả mang tính kế thừa, kể cả đối với xây dựng tài nguyên, công cụ lẫn phát triển các sản phẩm đầu cuối Để đạt được những... dụng xửtiếng ViệtSản phẩm đã phát triển bước đầu trong đề tài KC01-03 Trong nước cũng đã có một số nhóm khác phát triển sản phẩm này Mục đích của đề tài là phát triển một công cụ có độ chính xác cao nhất từ trước đến nay, có tính chuẩn mực, sử dụng lại được cho nhiều ứng dụng đa dạng ● Hệ phân loại từ Việt (SP8.3) − Sản phẩm JVnTagger được xây dựng bằng ngôn ngữ Java, cùng với các sản phẩm. .. cá nhân làm nghiên cứu, phát triển về xử ngôn ngữ xử tiếng nói Việt) Để đạt mục tiêu làm ra các sản phẩm của đề tài, chúng tôi xác định tiếp cận theo hai khía cạnh: khoa học quản Các nguyên tắc tiếp cận về khoa học: (1) Với mỗi sản phẩm, yêu cầu khảo sát để hiểu được các phương pháp chính đã được dùng trên thế giới, phân tích chọn phương pháp hiệu quả phù hợp với tiếng Việt, học tập... xây dựng một dự án dài hơi cho xử tiếng nói văn bản tiếng Việt, ít nhất là 5 năm kể từ 2006-2010 Tuy vậy, theo quyết định chung của chương trình KC01/06-10, đề tài được thực hiện trong 2 năm, vì vậy đề tài đã phải hạn chế một số đầu công việc sản phẩm Đặc điểm chính của đề tài là: (1) Đối tượng nghiên cứu là các loại dữ liệu phức tạp (tiếng nói chữ viết) với đặc thù của tiếng Việt đòi hỏi... được 1 Nghiên cứu triển khai để xây dựng nhóm hệ chuyên dụng dùng công nghệ nhận dạng tổng hợp tiếng Việt (SP1) Trong cả giai đoạn thực hiện đề tài Trong cả giai đoạn thực hiện đề tài − Khảo sát nghiên cứu công nghệ chủ yếu trong nhận dạng tổng hợp tiếng nói, nhằm nắm được bản chất các đặc trưng của ngữ âm, thanh điệu ngôn điệu tiếng ViệtNghiên cứu các công nghệ nhằm tích hợp vào các . tài: Nghiên cứu và phát triển một số sản phẩm thiết yếu về tiếng nói và văn bản tiếng Việt Mã số đề tài: KC01.01/06-10 Thuộc: Chương trình (tên, mã số chương trình): Nghiên cứu phát triển và. 15/06/2009 Bản qui chế chi tiêu kinh phí của đề tài Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt , mã số KC01.01/06-10 giữa lãnh đạo đơn vị chủ trì và. KC.01.01/06-10; 2 15/5/2007 Hợp đồng Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt , mã số KC01.01/06-10 thuộc Chương trình KC.01/06-10 theo các

Ngày đăng: 23/05/2014, 16:47

Từ khóa liên quan

Mục lục

  • SP8.3.pdf

    • 1. Giới thiệu

      • 1.1 Bài toán gán nhãn từ loại

      • 1.2 Các công trình liên quan

      • 2. Phương pháp nghiên cứu và kết quả

        • 2.1 Phương pháp nghiên cứu

        • 2.2 Kết quả sản phẩm

        • 3. Tài liệu thiết kế, qui trình sản phẩm

          • 3.1 Tổng thể công cụ gán nhãn từ loại

          • Các thành phần chính trong công cụ gán nhãn từ loại tiếng Việt JVnTagger

            • 3.2 Dữ liệu

              • 3.2.1 Dữ liệu

              • 3.2.2 Ngữ cảnh cho trích xuất đặc trưng

              • 4. Kết quả đánh giá sản phẩm

                • 4.1 Đánh giá theo các tiêu chí kĩ thuật

                • 4.2 Đánh giá chủ quan

                • 5. Tài liệu tham khảo

                • Bao cao nhanh SP8.3 Quyen2.pdf

                  • 1. Giới thiệu

                    • 1.1 Bài toán gán nhãn từ loại

                    • 1.2 Các công trình liên quan

                    • 2. Gán nhãn từ loại với Maximum Entropy và Conditional Random Fields

                      • 2.1 Phương pháp Maximum Entropy

                        • 2.1.1 Các ràng buộc và đặc trưng

                        • 2.1.2 Mô hình Entropy cực đại

                        • 2.1.3 Thuật toán uớc lượng tham số

                        • 2.2 Phương pháp Conditional Random Fields

                          • 2.2.1 Định nghĩa CRF

                          • 2.2.2 Huấn luyện CRFs

                          • 2.2.3 Lập luận với CRFs

                          • 3. Giới thiệu công cụ gán nhãn từ loại tiếng Việt JVnTagger

                            • 3.1 Cấu trúc thư mục của JVnTagger:

                            • 3.2 Các packages trong JVnTagger

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan