phương pháp nhận dạng chữ viết tay trực tuyến liền nét

49 1.1K 7
phương pháp nhận dạng chữ viết tay trực tuyến liền nét

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 i ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Tạ Việt Cường Nghiên cứu phương pháp nhận dạng chữ viết tay trực tuyến liền nét KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Nguyễn Đức Nam Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010 i ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI  Tạ Việt Cường Nghiên cứu phương pháp nhận dạng chữ viết tay trực tuyến liền nét KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin GV hướng dẫn: PGS. TS. Bùi Thế Duy Hà Nội – 2010 LỜI CÁM ƠN Đầu tiên, em xin chân thành cám ơn các thầy cô giáo đã dạy dỗ em trong suốt thời gian, giúp em có nền tảng lí thuyết để nghiên cứu và hoàn thành khóa luận Đặc biệt, em xin gửi lời cảm ơn sâu sắc nhất đến PGS. TS. Bùi Thế Duy, người đã luôn định hướng cho em mỗi khi em gặp những vấn đề khó khăn với đề tài nghiêu cứu. Đồng thời, em xin cảm ơn mọi người trong phòng "Tương tác người máy" luôn giúp đỡ em trong suốt thời gian qua. Xin cảm ơn gia đình đã nuôi dưỡng và chăm sóc con, tạo mọi điều kiện thuận lợi để con hoàn thành khóa luận này. Hà Nội, ngày 10 tháng 5 năm 2010 Tạ Việt Cường i Mục lục 4 Bảng kí hiệu viết tắt STT Kí hiệu Từ tiếng Anh Ngữ nghĩa 1 DCT Discrete Cosine Transforms Discrete Cosine Transforms 2 DFT Discrete Fourier Transforms Biến đổi Fourier rời rạc 3 HMM Hidden Markov Model Mô hình Markov ẩn 4 PDA Personal Device Assistant Thiết bị điện tử cầm tay 5 Danh sách các hình vẽ 6 Tóm tắt nội dung Hiện nay hầu hết dữ liệu được đưa vào máy vi tính thông qua bàn phím. Nhưng trong một số trường hợp, sử dụng chữ viết tay vẫn thích hợp hơn chẳng hạn như công việc ghi chép bài vở trên lớp học. Trong hoàn cảnh đó, bài toán nhận dạng chữ viết tay được nghiên cứu nhằm làm hoàn thiện thêm cách thức giao tiếp giữa người và máy. Bài toán nhận dạng chữ viết tay đã được nghiên cứu và phát triển trong 40 năm qua, và cũng đã đạt được nhiều kết quả đáng kể. Nhưng chỉ trong mấy năm gần đây chúng ta mới phát triển được những ứng dụng nhận dạng chữ viết tay. Trong khóa luận này, tôi xin giới thiệu một phương pháp tiếp cận trong bài toán nhận dạng chữ viết tay dựa trên trích chọn đặc trưng theo biến đổi cosine rời rạc (Discrete Cosine Transforms - DCT). Sau đó, sẽ xây dựng các mô hình Markov ẩn nhận dạng các kí tự kết hợp với đặc trưng thu được từ biến đổi DCT. Cuối cùng, dựa trên xác suất thu được từ mô hình Markov ẩn sẽ được sử dụng kết với phương pháp quy hoạch động để có thể giải quyết hoàn toàn bài toán nhận dạng chữ viết tay. 7 Chương 1. Giới thiệu chung 1.1. Giới thiệu bài toán Từ lâu chúng ta đã làm quen với cách sử dụng bàn phím để "nói chuyện" với máy tính. Lí do không phải vì bàn phím là cách tốt nhất mà là vì bàn phím là cách duy nhất để máy tính có thể hiểu một cách hiệu quả, bao gồm cả yếu tố chính xác và tốc độ, điều mà chúng ta muốn nó hiểu được. Những nghiên cứu về nhận dạng chữ viết tay và nhận dạng tiếng nói lại mở ra một hướng khác trong bài toán giao tiếp người và máy. Hiện nay, các thuật toán hiệu quả cũng như các ứng dụng trên hai lĩnh vực này đang được nghiên cứu để có thể thay thế được vai trò của bàn phím trong giao tiếp người máy. Bài toán nhận dạng chữ viết tay là một trong hai vấn đề lớn của giao tiếp Người Máy có nhiều ứng dụng thực tế. Một mặt là vì con người thích sử dụng chữ viết do tính tự nhiên của nó hơn là khó bó trong khuôn khổ của bàn phím. Bên cạnh đó, đối với những thiết bị cầm tay nhỏ gọn, chẳng hạn thiết bị điện tử cầm tay cá nhân (Personal Digital Assitants - PDA), là công cụ để xử lí thông tin cá nhân, quá nhỏ bé để có một thiết kế bàn phím phù hợp thì cần thiết phải có các công cụ nhận dạng chữ viết hoặc tiếng nói để sử dụng hiệu quả. Hoặc đối với một số ngôn ngữ có quá nhiều kí tự (ví dụ như ngôn ngữ Kanji có khoảng 4000 kí tự thường được sử dụng) khiến cho việc nhập dữ liệu từ bàn phím trở thành một công việc khó khăn thì bài toán nhận dạng chữ viết tay đóng vai trong quan trọng trong việc xử lí dữ liệu. Bài toán nhận dạng chữ viết tay đã được nghiên cứu trong khoảng ba bốn thập kỉ gần đây. Những vấn đề đặt ra cần nghiên cứu rất đa dạng phụ thuộc vào cách mà dữ liệu chữ viết tay được mô tả, mức độ mà dữ liệu được chia nhỏ (ví dụ có thể ở mức độ từ hoặc là mức độ kí tự), và người sử dụng bộ nhận dạng mà thuật toán hướng đến. Ở mức độ chung nhất bài toán được tách thành nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến. Bài toán nhận dạng chữ viết tay trực tuyến có ứng dụng chủ yếu trên các thiết bị cầm tay nhỏ gọn, như PDA, vì kích thước của các thiết bị này không cho phép một thiết kế bàn phím hoàn chỉnh thuận lợi cho người sử dụng. Bên cạnh đó chúng có thể dễ dàng thu nhận dữ liệu để phục vụ cho bài toán nhận dạng chữ viết tay trực tuyến. 8 Một trong những vấn đề khó khăn nhất của nhận dạng chữ viết tay trực tuyến là bài toán phân đoạn kí tự dựa trên các thông tin có được từ dữ liệu viết tay trực tuyến. Trên cơ sở này, khóa luận được viết với mục tiêu đưa ra lời giải đầy đủ cho bài toán nhận chữ viết tay trực tuyến. Cách tiếp cận được đưa ra là giải quyết bài toán theo hai bước, bước nhận dạng từng kí tự và bước phân đoạn một từ thành các kí tự. Ở bước đầu tiên, khóa luận đưa ra phương pháp sử dụng mô hình Markov ẩn kết hợp với bước trích chọn đặc trưng để giải quyết bài toán nhận dạng từng kí tự riêng biệt. Sau đó, tôi sẽ đề xuất một thuật toán quy hoạch động sử dụng kết quả có được từ các bộ nhận dạng kí tự để tìm ra lời giải cho bước phân đoạn. Phần tiếp theo của khóa luận được trình bày thành sáu chương. Trong đó, chương hai giới thiệu tổng quát về nhận dạng chữ viết tay. Chương ba giới thiệu về mô hình để giải quyết bài toán chữ viết tay trực tuyến. Chương bốn giới thiệu về mặt lí thuyết của các thuật toán trích chọn đặc trưng DCT. Chương năm sẽ trình bày về các thuật toán học máy được áp dụng. Chương sáu đưa ra một lời giải cho bài toán phân đoạn trong nhận dạng chữ viết tay. Chương bảy sẽ thống kê các kết quả thực nghiệm trên các bộ dữ liệu có được. Chương tám trình bày những kết luận chung và đưa ra những hướng nghiên cứu tiếp theo dựa trên kết quả khóa luận đạt được. 9 Chương 2. Tổng quan về bài toán nhận dạng chữ viết tay 2.1. Giới thiệu Bài toán nhận dạng chữ viết tay là một bài toán lớn, bao gồm nhiều vấn đề. Thông thường các nghiên cứu chỉ tập trung giải quyết một hoặc một số mặt của bài toán. Trong chương này tôi xin đề cập đến các vấn đề cơ bản trong bài toán nhận dạng chữ viết tay. 2.2. Nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến Có nhiều hướng tiếp cận nghiên cứu đối với bài toán nhận dạng chữ viết tay phụ thuộc vào nhiều yếu tố như đã được đề cập đến phần trên. Nhưng ở mức độ chung nhất, bài toán nhận dạng chữ viết tay có thể được chia thành hai phần chính là: nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến. Nhận dạng chữ viết tay gián tuyến được đặt ra để nhận dạng các văn bản viết tay đã được hoàn thành. Với đặc trưng dữ liệu đầu vào là hình ảnh văn bản viết tay được quét hoặc chụp lại. Sau đó, các thuật toán sẽ được xây dựng để nhận dạng văn bản dựa trên các hình ảnh này. Các ứng dụng nhận dạng chữ viết tay gián tuyến thường không quan tâm đến tối ưu thời gian mà chỉ yêu cầu độ chính xác của kết quả. Nhận dạng chữ viết tay trực tuyến là bài toán nhận dạng song song với quá trình chữ viết được thực hiện. Với đặc trưng dữ liệu đầu vào là dãy các điểm thu nhận được trong quá trình con người thực hiện việc ghi chép dữ liệu. Nói chung, cần phải có các thiết bị chuyên dụng như bảng điện tử hoặc màn hình cảm ứng để ghi lại quá trình di chuyển của nét bút như điểm bắt đầu, điềm kết thúc, các điểm trên mặt phẳng mà nét bút đi qua. Một cách hình thức, rõ ràng là có thể xây dựng được dữ liệu của bài toán nhận dạng chữ viết tay gián tuyến từ dữ liệu trực tuyến. Nên các phương pháp của nhận dạng gián tuyến hoàn toàn có thể áp dụng vào bài toán trực tuyến. Tuy nhiên, dữ liệu trực tuyến còn cung cấp cho chúng ta các thông tin quý giá về nét bút và thứ tự các nét khi được viết ra điều mà rất khó để xác định trong dữ liệu gián tuyến. Để không bỏ sót các thông tin này, bài toán nhận dạng chữ viết tay trực tuyến sẽ phải làm việc với dữ liệu là các điểm trên mặt phẳng. Một yếu tố quan trọng khác trong xử lí trực tuyến là thời gian xử lí phải phù hợp với thời gian thực. 2.3. Phụ thuộc và không phụ thuộc người viết 10 [...]... sẽ được trình bày tập trung vào bài toán cụ thể là nhận dạng chữ viết tay trực tuyến, và không phụ thuộc người viết Phần tiếp theo, tôi sẽ đề cập đến các bước cơ bản của một hệ thống nhận dạng chữ viết tay trực tuyến 13 Chương 3 Các bước cơ bản trong nhận dạng chữ viết tay trực tuyến 3.1 Giới thiệu Về tổng quát, bài toán nhận dạng chữ viết tay trực tuyến có thể được chia thành các bước: thu thập dữ... bài toán nhận dạng chữ viết tay có liên quan hướng về phía người sử dụng Gồm có phụ thuộc người viết và không phụ thuộc người viết Trong hệ thống nhận dạng chữ viết tay phụ thuộc người viết, dữ liệu để huấn luyện và kiểm tra được lấy một người Vì chữ viết mỗi người là khá đặc trưng, chẳng hạn về kích thước chữ, về các nét lên xuống, độ nghiêng của chữ Nên điều này tránh cho thuật toán nhận dạng của... tự để tăng kết quả nhận dạng đạt được 14 Hình 3-3: Minh họa các bước của một hệ thống nhận dạng chữ viết tay trực tuyến 15 Phân đoạn Giai đoạn nhận dạng Giai đoạn huấn luyện Hình 3: 3.2 Thu thập dữ liệu P P Không giống như dữ liệu viết tay gián tuyến, chỉ cần một thao tác đơn giản là chụp ảnh hoặc quét dữ liệu có thể ghi nhận để đưa vào xử lí Thu thập dữ liệu của chữ viết tay trực tuyến phải cần các... PDA thì sử dụng các màn hình cảm ứng để ghi nhận di chuyển của bút Hình 3-4: Thiết bị CrossPad, dùng trong thu nhận dữ liệu viết tay trực tuyến 16 3.3 Tiền xử lí Sau khi nhận dữ liệu đầu vào là tiền xử lí Trong trường hợp tổng quát, bài toán nhận dạng chữ viết tay trực tuyến được thực hiện với mục đích để nhận dạng các mẫu viết tay tự do, không bắt người viết phải tuân theo một quy tắc cụ thể nào Vì... số hệ số, và trong phần lớn trường hợp các hệ số này sẽ thể hiện đặc trưng cơ bản của nét bút [19] 3.6 Phương pháp học máy để nhận dạng kí tự viết tay Bước tiếp theo trong bài toán nhận dạng chữ viết tay, là nhận dạng từng kí tự riêng biệt sau khi được tách ra Đối với bài toán nhận dạng kí tự có khá nhiều phương pháp học máy để giải quyết vấn đề này và đạt được nhiều kết quả khác nhau Tùy vào từng... tự trong cùng một từ Trong bài toán nhận dạng chữ viết tay gián tuyến, các phương pháp phân tách các dòng và các từ trên cùng một dòng có thể được tham khảo ở [17] Đối với bài toán nhận dạng chữ viết tay trực tuyến, công đoạn này được thực hiện dễ dàng hơn vì chúng ta đã có thông tin về vị trí bắt đầu và kết thúc của các nét bút, khoảng thời gian liên tiếp giữa hai nét bút Trong đa số trường hợp, việc... dựng từ bước nhận dạng các kí tự và áp dụng thuật toán Viterbi trên mô hình mới này để nhận dạng cả từ hoàn chỉnh Một cách khác là kết hợp bộ nhận dạng kí tự đã có với các xác suất của bi-gram hoặc tri-gram Tuy nhiên nhược điểm của phương pháp này là sẽ không thể nhận dạng các từ không xuất hiện trong từ điển 3.8 Kết luận Trên đây là các bước cơ bản trong bài toán nhận dạng chữ viết tay trực tuyến Trong... liệu nét bút sẽ được tập trung vào các hệ số ứng với hàm Consine có tần số thấp, phần còn lại có thể được xem như là nhiễu Chỉ cần chọn giá trị D thích hợp thì chúng ta sẽ loại bỏ được nhiễu xuất hiện trong nét bút 25 Chương 5 Nhận dạng chữ viết tay bằng mô hình Markov ẩn 5.1 Giới thiệu Bài toán nhận dạng từng kí tự viết tay riêng biệt có ý nghĩa quan trọng trong toàn bộ hệ thống nhận dạng chữ viết tay. .. thiệu phương pháp sử dụng mô hình Markov ẩn được sử dụng trong khóa luận 3.6.1 Phương pháp sử dụng mô hình markov ẩn Mô hình Markov ẩn là một phương pháp được áp dụng rất hiệu quả cho bài toán nhận dạng tiếng nói [3] Mô hình Markov ẩn sẽ dựa trên các dãy vector đặc trưng thu được từ các mẫu huấn luyện từ đó xây dựng nên mô hình xác suất mô tả phân bố của dữ liệu Trong bài nhận dạng chữ viết tay trực tuyến, ... hợp phụ thuộc người viết vì khó có thể lấy được các mẫu chữ viết đồng nhất từ một người để sử dụng cho huấn luyện 2.4 Phân đoạn chữ viết tay Trong hệ thống nhận dạng chữ viết tay hoàn chỉnh, mục đích được đặt ra là chúng ta có thể nhận dạng một trang văn bản hoàn chỉnh Rõ ràng là không có một thuật toán học máy nào đủ khả thi để sử dụng cả trang văn bản làm đầu vào cho quá trình nhận dạng Vì vậy, yêu . toán nhận dạng chữ viết tay có thể được chia thành hai phần chính là: nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến. Nhận dạng chữ viết tay gián tuyến được đặt ra để nhận. trong bài toán nhận dạng chữ viết tay. 2.2. Nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến Có nhiều hướng tiếp cận nghiên cứu đối với bài toán nhận dạng chữ viết tay phụ thuộc. được tách thành nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến. Bài toán nhận dạng chữ viết tay trực tuyến có ứng dụng chủ yếu trên các thiết bị cầm tay nhỏ gọn, như

Ngày đăng: 13/07/2014, 17:14

Từ khóa liên quan

Mục lục

  • --------

  • Tạ Việt Cường

  • --------

  • --------

  • --------

  • Chương 1. Giới thiệu chung

    • 1.1. Giới thiệu bài toán

    • Chương 2. Tổng quan về bài toán nhận dạng chữ viết tay

      • 2.1. Giới thiệu

      • 2.2. Nhận dạng chữ viết tay trực tuyến và nhận dạng chữ viết tay gián tuyến

      • 2.3. Phụ thuộc và không phụ thuộc người viết

      • 2.4. Phân đoạn chữ viết tay

      • 2.5. Các kết quả nghiên cứu hiện tại

      • 2.6. Kết luận

      • Chương 3. Các bước cơ bản trong nhận dạng chữ viết tay trực tuyến

        • 3.1. Giới thiệu

        • 3.2. Thu thập dữ liệu

        • 3.3. Tiền xử lí

          • 3.3.1. Chuẩn hóa kích thước

          • 3.3.2. Định vị lại mẫu

          • 3.3.3. Lấy lại các điểm của mẫu

          • 3.4. Phân đoạn

Tài liệu cùng người dùng

Tài liệu liên quan