Xây dựng phương pháp kiểm lỗi chính tả tiếng việt sử dụng mô hình từ điển

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỀ TÀI NCKH CẤP TRƯỜNG XÂY DỰNG PHƯƠNG PHÁP KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TỪ ĐIỂN MÃ SỐ: T2010 - 40 NGƯỜI CHỦ TRÌ: Th.S MAI TUẤN KHÔI THÀNH PHỐ HỒ CHÍ MINH, THÁNG 11/2010 S K C 0 0 3 0 3 3 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HCM  ĐỀ TÀI NCKH CẤP TRƯỜNG XÂY DỰNG PHƯƠNG PHÁP KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TỪ ĐIỂN MÃ SỐ: T2010-40 THUỘC NHÓM NGÀNH : KHOA HỌC KỸ THUẬT NGƯỜI CHỦ TRÌ : THS. MAI TUẤN KHÔI NGƯỜI THAM GIA : ĐƠN VỊ : KHOA CÔNG NGHỆ THÔNG TIN TP. HỒ CHÍ MINH – 11/2010 1 MỤC LỤC MỤC LỤC 1 TÓM TẮT ĐỀ TÀI 3 Mục tiêu của đề tài 3 Những cơ sở để xây dựng đề tài 3 Phương pháp tiếp cận 3 Những kết quả đạt được 4 Phần 1 ĐẶT VẤN ĐỀ 5 1.1 Đối tượng nghiên cứu 5 1.2 Tổng quan tình hình nghiên cứu 5 1.2.1 Các nghiên cứu của nước ngoài về vấn đề kiểm lỗi chính tả 5 1.2.2 Các nghiên cứu trong nước về vấn đề kiểm lỗi chính tả 10 1.3 Những vấn đề còn tồn tại 11 Phần 2 Các phương pháp thực hiện chi tiết 13 2.1 Mục đích của đề tài 13 2.2 Phương pháp nghiên cứu 13 2.3 Nội dung 13 2.3.1 Dựa trên luật cấu tạo âm tiết tiếng Việt 13 2.3.2 Sử dụng thuật toán minimum Edit Distance: 16 2.3.3 Sử dụng cấu trúc Finite State Transducer 16 2.4 Kết quả đạt được 24 2.4.1 Tính khoa học 24 2.4.2 Khả năng triển khai ứng dụng vào thực tế 24 2.4.3 Hiệu quả kinh tế - xã hội 25 2 2.4.4 Sản phẩm 25 2.5 Đánh giá 28 2.6 Kết luận 32 Phần 3 Tổng kết 33 3.1 Tổng kết 33 3.2 Hướng phát triển 33 TÀI LIỆU THAM KHẢO 35 MỤC LỤC BẢNG BIỂU Bảng 2-1 Cấu trúc file XML dựa trên luật cấu tạo âm tiết 15 Bảng 2-2 Thuật toán tách câu 22 Bảng 2-3 Thuật toán thay thế 23 Bảng 2-4 Quy trình kiểm tra chính tả 24 Bảng 2-5 Các nút chức năng trong chương trình 27 Bảng 2-6 Đánh giá các chức năng đạt được 28 Bảng 2-7 So sánh với VietSpell 32 MỤC LỤC HÌNH Hình 1-1 Sơ đồ dò tìm lỗi bằng ma trận tiếng nhầm lẫn 8 Hình 2-1 Giao diện chính 26 Hình 2-2 Cửa sổ tuỳ chọn 27 Hình 2-3 Cửa sổ danh sách từ nước ngoài 28 3 TÓM TẮT ĐỀ TÀI Mục tiêu của đề tài Hiện nay đã có một số phần mềm kiểm tra chính tả tiếng Việt đã ra mắt, tuy nhiên các nhà cung cấp đã không thể trụ được trên thò trường do các sản phẩmù chưa thực sự đạt được hiệu quả như người dùng mong muốn. Mục tiêu của tác giả là xây dựng một phần mềm kiểm tra chính tả tiếng Việt có khả năng phát hiện lỗi chính tả tốt và cung cấp phục vụ cộng đồng. Những cơ sở để xây dựng đề tài Ở Việt Nam, trung bình số người sử dụng máy tính và truy cập internet tăng đột biến trong các năm gần đây. Các văn bản viết tay ngày càng ít đi và thay vào đó là các tập tin văn bản được lưu trữ trên ổ đóa cứng. C# là ngôn ngữ lập trình mà tác giả sử dụng để phát triển ứng dụng minh hoạ trên nền tảng .Net Framework 2.0. Môi trường soạn thảo văn bản được sử dụng là Microsoft Word 2007. Trong quá trình xây dựng, tác giả cũng nhận được rất nhiều ý kiến đóng góp cũng như hỗ trợ từ phía những người quan tâm đến vấn đề chính tả tiếng Việt. Phương pháp tiếp cận Phương pháp tiếp cận của tác giả là dựa trên tư tưởng vét cạn do tác giả đề xuất. Tức là từ một từ được xem là đúng chính tả, tác giả sẽ phát sinh và lưu trữ lại tất cả các trường hợp bò sai chính tả có thể có của từ đó. Sau này khi gặp một từ có dạng sai tương tự như trường hợp đã lưu trữ, chương trình sẽ báo là có lỗi và đưa ra gợi ý là từ gốc của từ đó. Bộ từ điển được tạo ra dựa trên quy trình tạo từ điển do giáo viên hướng dẫn đưa ra, quy trình đó cụ thể sẽ được trình bày chi tiết ở chương 4 các phương pháp thực hiện chi tiết. Chương trình sử dụng một số thư viện có sẵn của bộ Visual Studio.Net 2005 và thêm vào các xử lý của tác giả để thực hiện các công việc theo quy trình kiểm lỗi chính tả do tác giả đề xuất, chi tiết cũng được trình bày ở Phần 2 “các phương pháp thực hiện chi tiết”. 4 Những kết quả đạt được Tác giả đã xây dựng xong bộ từ điển theo cấu trúc Finite State Recognition dành cho từ đơn có nghóa, từ đơn tham gia cấu tạo từ ghép, từ ghép có chiều dài hai, ba, bốn, n chữ. Ngoài ra, bộ từ điển cũng cho biết một từ không có trong từ điển sẽ là trường hợp sai của từ nào, điều này sẽ giúp cho việc cài đặt thuận lợi hơn trong việc gợi ý cho người dùng sửa lỗi khi gặp trường hợp sai. Dựa trên bộ từ điển xây dựng được, nhóm đã xây dựng một ứng dụng có thể nhúng vào MSWord để kiểm tra lỗi chính tả. Chương trình có những chức năng sau đây:  Đưa ra gợi ý trên mỗi từ mà chương trình nghi ngờ sai lỗi chính tả, người dùng có quyền chấp nhận sửa từ hoặc bỏ qua từ đó.  Nếu gặp một từ nước ngoài hoặc viết tắt, chương trình sẽ vẫn nghi ngờ sai nếu không có trong thư viện từ nước ngoài, người dùng có quyền thêm từ này vào thư viện từ nước ngoài để bỏ qua nếu gặp từ này lần tiếp theo.  Cũng tương tự với các thuật ngữ của các chuyên ngành khác nhau, nếu các từ không thuộc từ điển (của chương trình), chương trình sẽ làm tương tự như đối với một từ nước ngoài.  Chương trình sẽ không phải xây dựng lại khi có thêm các từ mới được bổ sung vào từ điển. Do vậy sau một thời gian thử nghiệm, chương trình sẽ cập nhật thêm các từ không có trong từ điển (của chương trình) để chương trình có thể bắt lỗi tốt hơn.  Chương trình bắt và sửa được những lỗi về vật lý – những lỗi sai chính tả hoàn toàn, ví dụ chuwowng – và đưa ra từ gợi ý chính xác hoặc các gần đúng nhất để người dùng có thể dựa vào đó sửa cho phù hợp.  Chương trình bắt được các lỗi về logic – lỗi mà nếu xét từng từ đơn thì nó đúng chính tả, nhưng khi đi chung với nhau lại sai chính tả, ví dụ trương chình – mà dữ liệu đã được lưu trữ cũng như một số trường hợp gần đúng mà dữ liệu chưa có lưu trữ.  Chương trình có thể bổ sung ngữ liệu và thay thế ngữ liệu một cách độc lập hoàn toàn với chương trình.  Độ dài của một cụm từ chương trình có thể bắt và sửa lỗi là không giới hạn.  Sửa được hết toàn bộ các lỗi trên mức từ và các nhập nhằng trong cả 59 trường hợp sai lỗi chính tả trong cuốn từ điển chính tả tiếng Việt của Giáo sư Nguyễn Như Ý đã đề cập đến và một số lỗi thường gặp khác. 5 Phần 1 ĐẶT VẤN ĐỀ 1.1 Đối tượng nghiên cứu Máy vi tính đã đem lại những lợi ích to lớn cho xã hội loài người. Ở Việt Nam, trung bình số người sử dụng máy tính hiện nay rất lớn và các văn bản viết tay ngày càng ít đi và thay vào đó là các tập tin văn bản được lưu trữ trên ổ đóa cứng. Với việc bùng nổ văn bản điện tử như vậy, thì vấn đề sai lỗi chính tả trong văn bản là một điều khó tránh khỏi. Các dạng văn bản bò sai lỗi chính tả và phương pháp để sửa lỗi trong các dạng văn bản đó chính là đối tượng nghiên cứu của đề tài này. 1.2 Tổng quan tình hình nghiên cứu 1.2.1 Các nghiên cứu của nước ngoài về vấn đề kiểm lỗi chính tả 1.2.1.1 Phương pháp kiểm lỗi dựa trên ngữ cảnh Một trong những đầu mối để phân biệt một từ với những từ nhập nhằng với nó là các từ xung quanh nó trong câu. Ví dụ: khi đang xem xét để chọn lựa giữa desert và dessert, nếu như có các từ như arid, sand, sun, … gần đó, ta sẽ chọn desert, còn nếu như gặp các từ như chocolate, delicious, … gần đó, ta chọn dessert. Phương pháp kiểm lỗi dựa trên ngữ cảnh[12] được Golding xây dựng dựa trên nhận xét này. Trong giai đoạn học, với mỗi từ thường bò viết sai chính tả, hệ thống sẽ ghi nhớ những từ thường xuất hiện xung quanh nó trong ngữ liệu. Khi chạy thực tế 1.2.1.2 Phương pháp kiểm lỗi dựa trên các phép lai Bayes Phương pháp kiểm lỗi dựa trên ngữ cảnh[12] rất tốt trong việc phát hiện các nguyên tắc chung nhất phụ thuộc vào những từ lân cận, nhưng không quan tâm đến trật tự của chúng. Trong trường hợp đó, các phương pháp đặc trưng lân cận tỏ ra rất thích hợp để rút ra các quy luật về trật tự. Một đặc trưng lân cận là một mẫu các yếu tố về cú pháp xung quanh từ đang xét. Có hai đặc trưng thường được sử dụng trong các phương pháp này, đó là nhãn từ loại và từ lân cận. 6 Phương pháp lai Bayes[11] được thực hiện theo cách thức tương tự với phương pháp kiểm lỗi dựa trên ngữ cảnh[12]. Ý tưởng chính ở đây là phân biệt những từ dễ bò dùng nhầm lẫn với nhau dựa vào các đặc trưng lân cận của chúng. Mỗi đặc trưng lân cận cung cấp vài dấu hiệu với khả năng quyết đònh khác nhau cho những từ trong tập nhầm lẫn. Những dấu hiệu này được kết hợp với nhau và tính toán theo một luật quyết đònh (thường là Bayes). Sau cùng, từ nào có độ hợp lý cao nhất sẽ được chọn. Tuy nhiên, phương pháp lai Bayes cũng có nhược điểm, đó là khi một từ có các đặc trưng mâu thuẫn hoặc hàm chứa nhau, gọi là xung đột. Để phương pháp này hoạt động tốt, các đặc trưng xung đột với nhau cần phải được phát hiện và loại bỏ. Hiện nay, ngoài heuristic, vẫn chưa có một phương pháp hoàn chỉnh để giải quyết vấn đề này. 1.2.1.3 Phương pháp kiểm lỗi dựa trên sự sàng lọc Phương pháp sàng lọc[10] là sự kết hợp của hai phương pháp kiểm lỗi dựa trên ngữ cảnh[12] và lai Bayes[11] để tận dụng ưu điểm của cả hai phương pháp này: kiểm lỗi dựa trên ngữ cảnh[12] sẽ rút ra các nguyên tắc tốt nhất theo cách độc lập với trật tự từ, còn lai Bayes[11] được dùng để rút ra các nguyên tắc phụ thuộc vào trật tự. Phương pháp này đòi hỏi phải xây dựng một danh sách rất lớn các đặc trưng - ở đây là các đặc tính ngữ cảnh và lai Bayes. Những đặc trưng được sắp xếp theo khả năng quyết đònh giảm dần, trong đó khả năng quyết đònh của mỗi đặc trưng phản ánh độ tin cậy của nó trong việc ra quyết đònh. Một từ nhập nhằng sẽ được phân loại bằng cách duyệt qua danh sách và so khớp từng đặc trưng với ngữ cảnh. Đặc trưng phù hợp đầu tiên sẽ được dùng để phân loại từ đang xét. Vì danh sách quyết đònh đưa ra lời giải chỉ dựa vào một đặc trưng mạnh nhất, hiệu suất của nó phần lớn phụ thuộc vào cách xác đònh khả năng quyết đònh cho những đặc trưng. Đây chính là nhược điểm của phương pháp này bởi vì việc tìm ra một công thức đánh giá tổng quát là rất khó. Do đó, phương pháp sàng lọc[10] có thể được cải tiến bằng cách dùng nhiều đặc trưng hơn. Theo đó, để lựa chọn các từ tốt nhất, hệ thống sẽ duyệt qua toàn bộ danh sách đặc trưng, so sánh từng đặc trưng với ngữ cảnh, rồi kết hợp chúng để đưa ra lời 7 giải sau cùng. Việc kết hợp các đặc trưng có thể được thực hiện nhờ vào một bộ phân loại. Ví dụ như là Bayes. 1.2.1.4 Mô hình CInsunSpell cho tiếng Hoa Mô hình kiểm lỗi này có tên là CInsunSpell[13] được đề xuất bởi Li Jianhua và Wang Xiaolong, là sự kết hợp giữa Trigram tiếng, phương pháp ước lượng Bayes và phân phối trọng tự động, được dùng cho sửa lỗi chính tả tiếng Hoa. Trigram được dùng trong bước kiểm lỗi. Theo đó, một cửa sổ Trigram kích thước 5 được dùng để đánh giá mối liên kết giữa các tiếng với nhau. Cửa sổ Trigram thực ra là một chuỗi con, với tiếng cần xét ở trung tâm, và 4 tiếng lân cận ở xung quanh (2 tiếng liền trước và 2 tiếng liền sau). Tiếng trung tâm được xem là sai chính tả khi hai liên kết trước và sau nó đều yếu. Liên kết này được xem là yếu nếu nó có giá trò nhỏ hơn một giá trò ngưỡng. Nhược điểm của mô hình n-gram là dữ liệu quá thưa thớt, dẫn đến các xác suất n- gram sẽ rất thấp (thường có giá trò bằng 0). Để khắc phục, các tác giả của CInsunSpell dùng thêm bi-gram cùng với làm mòn bằng cách mở rộng cửa sổ bi-gram từ 3 tiếng thành 4 tiếng về phía sau để nâng cao hiệu suất phát hiện lỗi. Bộ phân loại Bayes được dùng trong bước sửa lỗi. Ý tưởng chính là tìm chuỗi thích hợp nhất (có xác suất cao nhất) từ chuỗi đầu vào để làm phương án sửa lỗi. Để đánh giá sự phù hợp của chuỗi sửa lỗi, Bayes được kết hợp với phương pháp phân phối trọng số tự động dựa trên số phép biến đổi ngắn nhất (Minimum Edit Distance[16]) để biến chuỗi đầu vào thành chuỗi sửa lỗi. Theo thử nghiệm của tác giả, CInsunSpell có tỷ lệ phát hiện lỗi là khoảng 60%, tỷ lệ lỗi tích cực khoảng 10%. Hai giá trò này thay đổi tuỳ thuộc vào các ngưỡng được dùng trong hệ thống. 1.2.1.5 Phương pháp kiểm lỗi dựa trên ngữ cảnh cho tiếng Nhật Phương pháp của Nagata[15] được áp dụng đầu tiên cho các hệ thống nhận dạng chữ viết (OCR). Tuy nhiên nó cũng có thể được dùng để sửa các lỗi chính tả do con người gây ra. 8 Phương pháp này gồm hai giai đoạn: trong giai đoạn thứ nhất, câu nhập vào được chia thành nhiều chuỗi tiếng, với điều kiện mỗi chuỗi tiếng tạo thành một từ có trong từ điển hoặc gần giống với ít nhất một từ nào đó có trong từ điển. Trong giai đoạn thứ hai, bằng các phương pháp thống kê, n chuỗi từ tốt nhất (được tạo thành từ những ‚từ‛ đã có ở giai đoạn trước) được chọn làm ứng viên sửa lỗi. Dưới đây là ví dụ minh hoạ cho cách tiếp cận này. Câu đầu vào: Tôi lam việc ở hợp tát xả mua bán Ma trận tiếng nhầm lẫn lám họp tác sả báng làm tạt xã lãm lạm Hình 1-1 Sơ đồ dò tìm lỗi bằng ma trận tiếng nhầm lẫn Để có thể chia chuỗi đầu vào thành các chuỗi con một cách hợp lý, hệ thống dùng hai phương pháp, đó là mô hình ngôn ngữ thống kê và thuật toán Forward-DB Backward A* để tách từ. Ngôn ngữ thống kê được dùng để tính xác suất kết hợp của chỗi con và chuỗi nhãn từ loại. Xác suất kết hợp này thực ra là tích xác suất xuất hiện của chuỗi con với xác suất xuất hiện của chuỗi nhãn trong ngữ liệu huấn luyện. Sau cùng, thuật toán [...]... điểm, mô hình lưới từ vẫn còn những nhược điểm nhất đònh Nếu khắc phục được những nhược điểm đó, lưới từ sẽ trở thành phương pháp hữu hiệu để giải quyết bài toán kiểm lỗi chính tả 1.2.2.2 Kiểm lỗi chính tả bằng mô hình N-gram kết hợp với phương pháp ước lượng Bayes để tính xác suất N-gram và các mô hình tách từ Phương pháp này áp dụng mô hình CInsunSpell[4] của tiếng Hoa vào tiếng Việt, là một phương pháp. .. vấn đề kiểm lỗi chính tả Kiểm lỗi chính tả tiếng là một bài toán khó, nhất là kiểm lỗi chính tả cho các ngôn ngữ đơn lập như tiếng Việt, tiếng Hoa[4] Trước khi tôi thực hiện đề tài này, đã có một số công trình nghiên cứu về kiểm lỗi chính tả tiếng Việt với các hướng tiếp cận khác nhau Tuy nhiên, ngoài Vietspell và Chính Tả Cú Mèo, thì các kết quả nghiên cứu còn lại chưa đưa ra sản phẩm ứng dụng vào... cứu còn lại chưa đưa ra sản phẩm ứng dụng vào thực tế 1.2.2.1 Kiểm lỗi chính tả bằng mô hình lưới từ Nghiên cứu[3] đã trình bày mô hình lưới từ cho kiểm lỗi chính tả tiếng Việt Mô hình này hoạt động dựa trên việc tách từ mờ, sau đó đánh giá các cách tách từ khác nhau để tìm ra cách tách từ có vẻ hợp lý nhất làm câu sửa lỗi Trong đó, lưới từ thực chất là một dạng cấu trúc dữ liệu đặc biệt, giống như... tách từ Theo đánh giá của tác giả, phương pháp này giúp cải thiện độ chính xác của hệ OCR từ 90% đến 96%, hiệu suất tách từ là 93% 1.2.1.6 Đánh giá chung cho các phương pháp trên Các phương pháp kiểm lỗi dựa trên ngữ cảnh[12], lai Bayes[11] và phương pháp sàng lọc[10] đã được ứng dụng thành công cho các ngôn ngữ châu Âu như tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha[2], … Tuy nhiên, để áp dụng các mô hình. .. đó cho tiếng Việt, văn bản đầu vào cần phải được tách từ bằng một mô hình tách từ mờ Mô hình tách từ mờ không tốt sẽ làm giảm đáng kể hiệu suất chung của toàn hệ thống Cho đến nay, vẫn chưa có một mô hình tách từ mờ hoàn chỉnh cho tiếng Việt[ 2] Ngoài ra, hầu hết các phương pháp cho tiếng Anh đều đòi hỏi ngữ liệu đã được gán nhãn từ loại, trong khi cho đến nay vẫn chưa có kho ngữ liệu tiếng Việt thoã... số mô hình dùng cho tiếng Anh, mô hình 10 này cần có kho ngữ liệu đã được tách từ và gán nhãn từ loại, đó là điều chưa thể đáp ứng được Bên cạnh đó, việc dò tìm phương án sửa lỗi bằng ma trận tiếng nhầm lẫn, khi áp dụng vào tiếng Việt, sẽ phải đương đầu với một thử thách mới: bùng nổ tổ hợp, nhất là trong thực tế, các lỗi sai khi nhập liệu rất đa dạng nên tập nhầm lẫn khá lớn Do đó, việc áp dụng mô hình. .. cần một kho ngữ liệu đúng chính tả Với những đặc điểm đó, việc áp dụng CInsunSpell cho tiếng Việt là rất khả thi và thực tế đã được áp dụng trong nghiên cứu[2] và cũng đã thu được những kết quả đáng ghi nhận trong sản phẩm VCLSpell Mô hình sửa lỗi chính tả của Nagata cho tiếng Nhật[15], về mặt lý thuyết cũng có thể áp dụng ngay cho tiếng Việt mà không cần sửa đổi nhiều vì Nhật -Việt đều là các ngôn ngữ... yêu cầu này Thêm vào đó, các phương pháp như phương pháp sàng lọc[10] và Bayes[11] đòi hỏi hệ thống phải thực hiện nhiều thao tác xử lý khá phức tạp để nhận ra từ sai chính tả nên cũng khó được áp dụng vào thực tế Do đó, chúng tôi chỉ xem những mô hình của Golding[12], [11], [10] như là nguồn tài liệu tham khảo thêm mà không áp dụng Với hệ thống CInsunSpell[13] cho kiểm lỗi tiếng Hoa, các tác giả đã dùng... thực sự đầy đủ, trong kho dữ liệu tồn tại nguy cơ sai lỗi chính tả, v.v…  Do bản chất của N-gram nên nếu như từ bò sai cả 2 chữ thì khả năng đưa gợi ý chính xác là không xác nhận được 1.3 Những vấn đề còn tồn tại Tóm lại, mỗi phương án giải quyết cho vấn đề kiểm lỗi chính tả trước chúng tôi đều đã có nhiều đóng góp tích cực cho bài toán kiểm lỗi chính tả, tuy nhiên các nghiên cứu này chưa đạt được sự... Trigram ở mức tiếng để dò tìm tiếng sai chính tả Đó là cách tiếp cận rất phù hợp cho tiếng Việt vì không cần phải tách từ Bên cạnh đó, mô hình này cũng còn có những ưu điểm khác Ưu điểm đầu tiên là tính đơn giản trong cài đặt cũng như trong quá trình xử lý Ưu điểm thứ hai cũng là ưu điểm quan trọng nhất, CInsunSpell không đòi hỏi kho ngữ liệu đã được huấn luyện đã được tách từ hay gán nhãn từ loại mà . Kiểm lỗi chính tả bằng mô hình N-gram kết hợp với phương pháp ước lượng Bayes để tính xác suất N-gram và các mô hình tách từ Phương pháp này áp dụng mô hình CInsunSpell[4] của tiếng Hoa vào tiếng. HCM  ĐỀ TÀI NCKH CẤP TRƯỜNG XÂY DỰNG PHƯƠNG PHÁP KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TỪ ĐIỂN MÃ SỐ: T2010-40 THUỘC NHÓM NGÀNH. việc áp dụng mô hình này hiện nay là rất khó khăn. 1.2.2 Các nghiên cứu trong nước về vấn đề kiểm lỗi chính tả Kiểm lỗi chính tả tiếng là một bài toán khó, nhất là kiểm lỗi chính tả cho các

Xây dựng phương pháp kiểm lỗi chính tả tiếng việt sử dụng mô hình từ điển

Thông tin tài liệu

Từ khóa liên quan

Mục lục

BIA TRUOC LUAN VAN.pdf

Page 1

bia.pdf

nd.pdf

BIA SAU 210.pdf

Page 1

Tài liệu cùng người dùng

Tài liệu liên quan