Báo cáo nghiên cứu khoa học nhận dạng ký tự quang học

73 583 2
Báo cáo nghiên cứu khoa học nhận dạng ký tự quang học

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Chúng em xin gửi lời cảm ơn tới ThS Nguyễn Văn Thắng – người thầy tận tình hướng dẫn, giúp đỡ chúng em hoàn thành đề tài nghiên cứu khoa học Chúng em xin cảm ơn ThS Trần Hùng Cường, ThS Đỗ Thị Tâm - giảng viên trường Đại học Công Nghiệp Hà Nội, TS Nguyễn Đức Dũng – Phòng nhận dạng Công nghệ tri thức Viện công nghệ thông tin người thầy giúp đỡ chúng em nguồn tài liệu giải đáp khó khăn gặp phải thực đề tài Mặc dù cố gắng, song đề tài nghiên cứu nhiều thiết sót, nhóm nghiên cứu đề tài mong nhận ý kiến thầy cô để đề tài nghiên cứu hoàn thiện Em xin chân thành cảm ơn ! NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Giáo viên hướng dẫn Nguyễn Văn Thắng MỤC LỤC PHẦN MỞ ĐẦU I Lý chọn đề tài: Nhận dạng ký tự quang học - Optical Character Recognition (OCR) đề tài nghiên cứu vô hấp dẫn, có nhiều ứng dụng thực tiễn sống, đặc biệt nhận dạng ký tự quang học ứng dụng thực tiễn giúp giảm thiểu thời gian công sức cho người việc chuyển đổi ảnh scan, ảnh chụp tài liệu thành dạng văn Trên giới, số sản phẩm tiếng nhận dạng chữ Latin thương mại hoá thị trường : OMNIPAGE 8.0, 9.0 (phiên gần nhất) hãng Caere Corporation, Mỹ, RECOGNITA 5.0 Recognita Corporation of Hunggary, CURNEIFORM 3.0, Cognitive Technology Corporation, Mỹ, TexBridge Pro 96 Xerox Corporation, IMAG-IN 4.0 (Pháp), ABBYY - hãng công nghệ hàng đầu giới lĩnh vực nhận dạng ký tự quang học tiến hành nghiên cứu triển khai công nghệ nhận dạng Tiếng Việt vào tháng năm 2009 Trong nước, tiêu biểu có phần mềm nhận dạng chữ Việt in – VnDOCR phần mềm thương mại Phòng nhận dạng Công nghệ tri thức Viện công nghệ thông tin Việt Nam đoạt giải thi Giải thưởng thi sản phẩm CNTT 98, nhiều tổ chức, quan, cá nhân sử dụng Hiện tại, phiên phần mềm VnDOCR 4.0 Ngoài ra, có dự án OCR Tiếng Việt có tên VietOCR, phát triển dựa tảng mã nguồn mở tesseract-ocr Google tài trợ VietOCR có khả nhận dạng chữ Việt tốt Đây chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho nhiều định dạng ảnh Từ sản phẩm thấy vấn đề xử lý chữ in nói chung hay chữ in Tiếng việt nói riêng giải Nhưng, đề tài sinh viên chuyên ngành Công nghệ thông tin chưa nghiên cứu rộng khắp, chưa thực quan tâm tới lĩnh vực nhận dạng, lĩnh vực có ứng dụng thực tiễn đời sống II Mục đích chọn đề tài: Mục đích đề tài nghiên cứu tạo nguồn tài liệu sở lĩnh vực nhận dạng ký tự, từ có nhìn tổng quan phương thức thực hay vấn đề gặp phải toán nhận dạng ký tự, kích thích đam mê khả nghiên cứu khoa học sinh viên nhằm phát triển nhiều ứng dụng thực tiễn liên quan tới ký tự chữ in như: Nhận dạng CMTND, hộ chiếu, biển số xe III IV V Nhiệm vụ nghiên cứu: • Nghiên cứu khái niệm, vấn đề gặp phải đưa giải pháp trình xử lý ảnh ký tự, bước quan trọng trình nhận dạng • Nghiên cứu vấn đề xoay quanh phương pháp nhận dạng đánh giá cao - mạng noron Trên sở tiến hành xây dựng mạng noron phù hợp với nhận dạng ký tự • Thực cài đặt chương trình nhận dạng ký tự quang học Phương pháp nghiên cứu: • Phương pháp nghiên cứu chủ yếu tham khảo tài liệu, viết liên quan tới nhận dạng ký tự quang học • Tìm nguồn tài liệu Internet, sách báo liên quan • Nghiên cứu ngôn ngữ c# để tiến hành cài đặt chương trình nhận dạng ký tự Bố cục báo cáo Báo cáo chia thành chương: Chương 1: Tổng quan sở lý thuyết Chương giới thiệu kiến thức xử lý ảnh có liên quan lý thuyết mạng mạng noron nhân tạo Chương 2: Mô hình nhận dạng ký tự quang học Chương trình bày mô hình nhận dạng ký tự quang học tiêu biểu, bước thực trình bày chi tiết cách thức tiếp cận, vấn đề gặp phải ý tưởng thực Chương 3: Hướng phát triển đề tài kết luận Chương 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT I XỬ LÝ ẢNH VÀ CÁC KHÁI NIỆM CƠ BẢN TRONG XỬ LÝ ẢNH 1.1 Xử lý ảnh Con người thu nhận thông tin qua giác quan, thị giác đóng vai trò quan trọng Những năm trở lại với phát triển phần cứng máy tính, xử lý ảnh đồ hoạ phát triển cách mạnh mẽ có nhiều ứng dụng sống Xử lý ảnh đồ hoạ đóng vai trò quan trọng tương tác người máy Quá trình xử lý ảnh xem trình thao tác ảnh đầu vào nhằm cho kết mong muốn Kết đầu trình xử lý ảnh ảnh “tốt hơn” kết luận Ảnh XỬ LÝ ẢNH Ảnh “Tốt hơn” Kết luận Hình 1.2: Quá trình xử lý ảnh Ảnh xem tập hợp điểm ảnh điểm ảnh xem đặc trưng cường độ sáng hay dấu hiệu vị trí đối tượng không gian xem hàm n biến P(c 1, c2, , cn) Do đó, ảnh xử lý ảnh xem ảnh n chiều 1.2 Các khái niệm xử lý ảnh 1.2.1 Một số khái niệm * Ảnh điểm ảnh: Điểm ảnh xem dấu hiệu hay cường độ sáng toạ độ không gian đối tượng ảnh xem tập hợp điểm ảnh * Mức xám, màu Là số giá trị có điểm ảnh ảnh 1.2.2 Khử nhiễu : Có loại nhiễu trình thu nhận ảnh • Nhiều hệ thống: nhiễu có quy luật khử phép biến đổi • Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân → khắc phục phép lọc 1.2.3 Chỉnh mức xám: Nhằm khắc phục tính không đồng hệ thống gây Thông thường có hướng tiếp cận: • Giảm số mức xám: Thực cách nhóm mức xám gần thành bó Trường hợp có mức xám chuyển ảnh đen trắng Ứng dụng: In ảnh màu máy in đen trắng • Tăng số mức xám: Thực nội suy mức xám trung gian kỹ thuật nội suy Kỹ thuật nhằm tăng cường độ mịn cho ảnh 1.2.4 Phân tích ảnh: Là khâu quan trọng trình xử lý ảnh để tiến tới hiểu ảnh Trong phân tích ảnh việc trích chọn đặc điểm bước quan trọng Các đặc điểm đối tượng trích chọn tuỳ theo mục đích nhận dạng trình xử lý ảnh Có thể nêu số đặc điểm ảnh sau đây: Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn v.v Đặc điểm biến đổi: Các đặc điểm loại trích chọn việc thực lọc vùng (zonal filtering) Các vùng gọi “mặt nạ đặc điểm” (feature mask) thường khe hẹp với hình dạng khác (chữ nhật, tam giác, cung tròn v.v ) Đặc điểm biên đường biên: Đặc trưng cho đường biên đối tượng hữu ích việc trích trọn thuộc tính bất biến dùng nhận dạng đối tượng Các đặc điểm trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v Việc trích chọn hiệu đặc điểm giúp cho việc nhận dạng đối tượng ảnh xác, với tốc độ tính toán cao dung lượng nhớ lưu trữ giảm xuống 1.2.5 Nhận dạng Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại phân nhóm mẫu vấn đề quan trọng thị giác máy, ứng dụng nhiều ngành khoa học khác Tuy nhiên, câu hỏi đặt là: mẫu (pattern) gì? Watanabe, người đầu lĩnh vực định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu thực thể (entity), xác định cách ang (vaguely defined) gán cho tên gọi đó” Ví dụ mẫu ảnh vân tay, ảnh vật chụp, chữ viết, khuôn mặt người ký đồ tín hiệu tiếng nói Khi biết mẫu đó, để nhận dạng phân loại mẫu có thể: Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt (discriminant analyis), mẫu đầu vào định danh thành phần lớp xác định Hoặc phân loại mẫu (unsupervised classification hay clustering) mẫu gán vào lớp khác dựa tiêu chuẩn đồng dạng Các lớp thời điểm phân loại chưa biết hay chưa định danh Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây: 1o Thu nhận liệu tiền xử lý 2o Biểu diễn liệu 3o Nhận dạng, định Bốn cách tiếp cận khác lý thuyết nhận dạng là: 1o Đối sánh mẫu dựa đặc trưng trích chọn 2o Phân loại thống kê 3o Đối sánh cấu trúc 4o Phân loại dựa mạng nơ-ron nhân tạo Trong ứng dụng rõ ràng dùng có cách tiếp cận đơn lẻ để phân loại “tối ưu” cần sử dụng lúc nhiều phương pháp cách tiếp cận khác Do vậy, phương thức phân loại tổ hợp hay sử dụng nhận dạng có kết có triển vọng dựa thiết kế hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp Việc giải toán nhận dạng ứng dụng mới, nảy sinh sống không tạo thách thức thuật giải, mà đặt yêu cầu tốc độ tính toán Đặc điểm chung tất ứng dụng đặc điểm đặc trưng cần thiết thường nhiều, chuyên gia đề xuất, mà phải trích chọn dựa thủ tục phân tích liệu 1.2.6 BIẾN ĐỔI HOUGH 1.2.6.1 Biến đổi Hongh cho đường thẳng Bằng cách ta thu số điểm ảnh quan trong, vấn đề đặt cần phải kiểm tra xem điểm có đường thẳng hay không Bài toán: Cho n điểm (xi; yi) i = 1, n ngưỡng θ kiểm tra n điểm có tạo thành đường thẳng hay không? * Ý tưởng Giả sử n điểm nằm đường thẳng đường thẳng có phương trình y = ax + b Vì (xi, yi) i = 1, n thuộc đường thẳng nên y1 = ax1 + b, ∀i = 1, n ⇔ b = - xia + y1; ∀i = 1, n Như vậy, điểm (xi; yi) mặt phẳng tương ứng với số đường thẳng b = - xia + yi mặt phẳng tham số a, b n điểm (xi; yi) i = 1, n thuộc đường thẳng mặt phẳng tương ứng với n đường thẳng mặt phẳng tham số a, b giao điểm điểm giao a, b Chính hệ số xác định phương trình đường thẳng mà điểm nằm vào * Phương pháp: - Xây dựng mảng số [a, b] gán giá trị ban đầu cho tất phân tử mảng - Với (xi; yi) ∀a, b số phần tử mảng thoả mãn b = - xia + yi tăng giá trị phân tử mảng tương ứng lên - Tìm phần tử mảng có giá trị lớn giá trị lớn tìm so với số phân tử lớn ngưìng θ cho trước ta kết luận điểm nằm đường thẳng đường thẳng có phương trình y = ax + b a, b tương ứng số phần tử mảng có giá trị lớn tìm được: Ví dụ: Cho điểm (0, 1); (1, 3); (2, 5); (3, 5); (4, 9) θ = 80% Hãy kiểm tra xem điểm cho có nằm đường thẳng hay không? Hãy cho biết phương trình đường thẳng có? - Lập bảng số [a, b] gán giá trị + (0, 1): b = + (1, 3): b = -a + + (2, 5): b = -2a + + (3, 5): b = -3a + + (4, 9): b = -4a + - Tìm phần tử lớn có giá trị 4/5 = 80% - Kết luận: điểm nằm đường thẳng Phương trình: y = 2x + 1.2.6.2 Biến đổi Hough cho đường thẳng tọa độ cực y r x.cos+y.sin=r H x Hình 1.3 Đường thẳng Hough toạ độ cực Mỗi điểm (x,y) mặt phẳng biểu diễn cặp (r,ϕ) tọa độ cực Tương tự đường thẳng mặt phẳng biểu diễn cặp (r,ϕ) tọa độ cực với r khoảng cách từ gốc tọa độ tới đường thẳng ϕ góc tạo trục 0X với đường thẳng vuông góc với nó, hình 5.9 biểu diễn đường thẳng hough tọa độ Decard Ngược lại, cặp (r,ϕ) toạ độ cực tương ứng biểu diễm đường thẳng mặt phẳng Giả sử M(x,y) mộ điểm thuộc đường thẳng biểu diễn (r,ϕ), gọi H(X,Y) hình chiếu gốc toạ độ O đường thẳng ta có: X= r cosϕ Y= r.sinϕ Mặt khác, taOH.HA=0 có: Từ ta có mối liên hệ (x,y) (r,ϕ) sau: x*cosϕ+y*sinϕ= r Xét n điểm thẳng hàng tọa độ Đề có phương trình x*cosϕ0+y*sinϕ0= r0 Biến đổi Hough ánh xạ n điểm thành n đường sin tọa độ cực mà đường qua (r0,ϕ0) Giao điểm (r0,ϕ0) n đường sin xác định đường thẳng hệ tọa độ đề Như vậy, đường thẳng qua điểm (x,y) cho cặp (r,ϕ) có đường qua (x,y) có nhiêu cặp giá trị (r,ϕ) II TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO 2.1 TỔNG QUAN Mạng nơ ron nhân tạo (Artificial Neural Networks) hệ thống xây dựng dựa nguyên tắc cấu tạo não người Nó cho hướng 10 Đề tài nghiên cứu cách tổng quát cụ thể kiến thức lĩnh vực nhận dạng ký tự, xây dựng chương trình nhận dạng ký tự quang học Tuy nhiên khả thời gian hạn hẹp nên nhiều vấn đề chưa nghiên cứu kỹ lưỡng, chưa thực đạt độ sâu kiến thức đề tài muốn hướng tới Từ kết nhóm nghiên cứu, đưa số hướng phát triển đề tài để hướng đến xây dựng chương trình phù hợp với thực tiễn có tính ứng dụng cao 59 Chương 4: HƯỚNG PHÁT TRIỂN ĐỀ TÀI Chương trước mô tả hệ OCR gồm bước thực đầy đủ, chương đề xuất số hướng phát triển đề tài để xây dựng ứng dụng thực tế ứng dụng cần nghiên cứu mở rộng Một số hướng phát triển đề tài xử lý chữ in nhận dạng công văn Tiếng việt, nhận dạng biển số xe nhận dạng chữ viết tay NHẬN DẠNG CÔNG VĂN TIẾNG VIỆT Một vấn đề lớn nhận dang công văn Tiếng Việt, khối văn bản, hình ảnh, bảng biểu Trong nhiều trường hợp, độ xác trình phân tích bố cục văn làm ảnh hưởng nhiều đến độ xác hệ thống OCR 1.1 MÔ TẢ PHƯƠNG PHÁP Phương pháp tách khối mà thực hiên tóm tắt sau: Bước thứ tiến hành tách khối theo phương ngang có sử dụng số tham số xác định phần ước lượng góc nghiêng ảnh văn trình bày Bước thứ hai tiến hành tách khối theo chiếu dọc cách dựa vào khối tách theo chiếu ngang Bước tiến hành chiếu ngang lần khối xác định bước thứ hai Sau tách khối công đoạn lọc bỏ khối có kích thước không phù hợp tiến hành cho kết cuối 1.2 Tách khối theo chiều ngang Sau ảnh văn chỉnh thẳng đứng bước chỉnh nghiêng tiến hành trình duyệt theo chiều ngang văn Trên thực tế, trình tạo ảnh văn quay ảnh văn nhiễu xuất Chính điều làm ảnh hưởng tới độ xác trình tách khối Để cải thiện thuật toán, ảnh văn đầu vào lọc nhiễu, tức đoạn biểu diễn nhỏ lớn, không đặc trưng cho phân bố kí tự bị loại bỏ Qua thực nghiệm, loại bỏ TPLT có chiều rộng lớn hay nhỏ ngưỡng T = ¼ * W hay chiều cao lớn nhỏ ngưỡng T = ¼ * H Trên văn lọc nhiễu, tiến hành duyệt theo chiều từ xuống từ trái qua phải, qua dòng pixel văn ta cộng dồn số pixel đen dòng Số 60 pixel đen dòng biểu diễn thành đồ thị với trục nằm dọc chiều cao văn trục nằm ngang số pixel đen đếm dòng Đồ thị vừa tìm biểu đồ biểu diễn phân bố khối văn (xem hình 3.1) Hình 3.1: Ảnh văn gốc chỉnh thẳng dùng cho trình tách khối 61 (a) (b) Hình 3.2: Lược đồ chiếu ngang ảnh văn hình 3.1 (a) Lược đồ ban đầu (b) Lược đồ sau loại bỏ đoạn thẳng Sau thực trình chiếu lấy lược đồ, đồ thị thực để nối liền phần dấu với phần dòng văn giúp cho việc xác định điểm cắt xác Trong trình kiểm thử nhiều ảnh văn công văn hành chính, thống kê thấy ngưỡng phù hợp Một số ảnh văn có đoạn thẳng dài hay đoạn gồm nhiều kí hiệu trang trí giống nhau, đôi lúc chúng làm cho vùng thật tách rời bị dính lại với làm ảnh hưởng tới kết trình tách khối Do thực đồ án này, tiến hành lọc bỏ đoạn khỏi lược đồ chiếu ngang để tăng độ xác thuật toán 62 Đoạn thẳng làm ảnh ảnh hưởng kết tách khối Hình 3.3 : Một ví dụ việc đoạn thẳng làm ảnh hưởng tới trình tách khối văn Trong hình kết việc tách khối phải tách thành hai khối, hiên xuất đoạn thẳng khiến cho hai khối bị dính thành Sau bước trên, vào lược đồ sau ta tiến hành xác định điểm tách khối theo chiều ngang Các dòng gọi khối khoảng cách chúng nhỏ x H Như vậy, khoảng cách hai dòng lớn x H ta tìm vết cắt cho việc tách khối theo chiều ngang Kết thu sau trình tách khối theo chiều ngang tập hợp vùng tách theo chiều ngang văn Mỗi khối chứa nhiều khối khác phân bố theo chiều dọc Vì khối ngang ta tiến hành tách khối theo chiều dọc Sau hình biểu diễn kết trình tách khối theo chiều ngang 63 Hình 3.4: Ảnh văn tách khối theo chiều ngang 1.3 Tách khối theo chiều dọc Hình 3.5 : Một khối văn sau tách ngang Trên khối ngang xác định bước ta duyệt chúng theo chiều dọc Ứng với cột ta đếm số pixel đen Số lượng cột biểu diễn thành 64 đồ thị, gọi lược đồ chiếu dọc Lược đồ có trục Oy số lượng pixel đen cột trục Ox chiều rộng ảnh văn Các vết cắt xác định để tách khối Hình 3.6: Lược đồ chiếu dọc khối văn hình 3.5 Dựa vào lược đồ ta xác định điểm dùng để tách khối theo chiều dọc Các từ gọi khối khoảng cách chúng không x W Như vậy, khoảng cách vùng trũng hai khối biểu diễn lớn × W chúng tách thành hai khối theo chiều dọc Hình 3.7: Kết tách dọc khối văn hình 3.5 1.4.Tách khối theo chiều ngang lần Do cấu trúc văn không tuý khối có khối nằm hàng ngang nên có trường hợp sau tách khối, hai nhiều khối bị gộp thành (như hình 4.9(a)) Để khắc phục tình trạng trên, thông thường người ta tiến hành tách khối không tách thôi, cấu trúc văn công văn đơn giản nên đề tài tiến hành tách khối theo chiều ngang thêm lần tình trạng khắc phục 65 (a) (b) Hình 3.8: (a) Hai khối bị gộp thành (b)Kết sau tách ngang lần Sau thực việc tìm tách khối, ta tập hợp khối văn riêng biệt Tuy nhiên văn có khối nhiễu đặc thù (như kim bấm, vết mực lem…) nên chúng cần loại bỏ Theo kết thực nghiệm khối có kích thước nhỏ 5H x 5W không chấp nhận Hình 3.9: Hình 3.1 với khối tách phương pháp đề nghị 66 NHẬN DẠNG BIỂN SỐ XE 2.1.Mở đầu Ngày với phát triển xã hội, lượng xe cô lưu thông hàng ngày lớn lượng xe trông giữ hàng ngày điểm giữ xe lớn nảy sinh nhiều vấn đề Để giải vấn đề, ta cần hệ thống tự động, nhóm đề xuất xây dựng chương trình có khả nhận dạng tự động biển số xe bãi giúp quản lý tốt việc trông giữ xe Một hệ thống yêu cầu phần cứng lẫn phần mềm, phần cứng cần có camera giúp ghi hình ảnh phương tiện để gửi cho máy tính xử lý Vấn đề phức tạp nhận dạng biển số xe việc làm để xác định vùng ảnh chứa số xe Bức ảnh chụp biển số xe gặp nhiều trường hợp nhiễu biển số dính bẩn bụi, chụp ảnh bị nghiêng góc so với biển số Yêu cầu toán áp dụng thuật toán thích hợp tìm vùng chứa biển số, trích vùng biển số, cách li kí tự biển số, từ máy tính có khả xử lí nhận dạng Có thể tóm tắt yêu cầu toán theo sơ đồ sau: Hình 3.10: Các yêu cầu toán tự động nhận dạng biển số xe Từ sơ đồ ta thấy toán tự động nhận dạng biển số xe máy chia thành toán chính: trích biển số xe, tách ký tự xử lý ký tự 2.2 Các giai đoạn nhân dạng biển số xe 2.2.1.Trích biển số xe Mục đích: Từ ảnh chụp bƣớc thu nhận ảnh, áp dụng thuật toán trích vùng ảnh nhỏ chứa biển số Các phương pháp: có nhiều phương pháp khác để thực nhiệm vụ tất qui phương pháp sau đây: - Phương pháp dùng chuyển đổi Hough: dựa vào đặc trƣng cạnh biên trích được, áp dụng phương pháp xác định đường thẳng phép biến đổi Hough để phát cặp đường thẳng gần song song ghép thành ảnh biển số 67 - Phương pháp hình thái học: dựa vào đặc trưng hình thái biển số xe màu sắc, độ sáng, đối xứng… để xác định trích ảnh biển số - Phương pháp khớp mẫu: xem biển số đối tượng có khung riêng sử dụng cửa sổ dò để trích đối tượng đƣa qua mạng noron (neural network), trí tuệ nhân tạo (artificial intelligence) chẳng hạn để phân loại có phải vùng biển số hay không Nghiên cứu sử dụng kết hợp phương pháp Hình thái học Chuyển đổi Hough 2.2.2 Cách ly ký tự Mục đích: Tách thành ảnh đơn chứa kí tự từ ảnh vùng biển số thu Phương pháp: có nhiều phương pháp để thực nhiệm vụ Có thể kể tách tĩnh, lượng tử hóa vecto (vector quantization), lược đồ chiếu ngang dọc (vertical and horizontal projection), mạng noron (neural network), trí tuệ nhân tạo (AI), hình thái học (Morphology) 2.2.3 Nhận dạng ký tự Phương pháp: Phương pháp phổ biến để nhận dạng ký tự sử dụng mạng noron, tức huấn luyện cho máy tính để nhận dạng ký tự Tuy nhiên số lượng ký tự biển số không nhiều nên để đảm bảo tốc độ xử lý nghiên cứu sử dụng phương pháp Hình thái học để giải khâu ký tự có đặc điểm hình thái đặc biệt phân biệt với chẳng hạn nhƣ „0‟ có lỗ trống giữa, „8‟ có lỗ trống hay „X‟ đối xứng trục dọc ngang…Đặc biệt khâu thực sở xây dựng nhị phân tối ưu đặc điểm hình thái nên đảm bảo tính khoa học tính xác cao Từ thực tế thực hiện, nghiên cứu đưa thuật toán khâu sau: - Quan sát chọn đặc tính phân biệt ký tự để xây dựng ma trận đặc tính - Xây dựng nhị phân tối ưu từ ma trận đặc tính tập ký tự thu từ bước tách ký tự - Quan sát nhị phân kiểm tra xem số đặc tính đủ để nhận dạng chưa, thiếu (dư) phải bổ sung (bỏ đi) quay lại bước - Tiến hành nhận dạng ký tự sở nhị phân tối ưu tìm Qua tiến hành bước thuật toán trên, nghiên cứu sử dụng nhóm đặc tính để phân biệt ký tự chữ số ký tự chữ Cụ thể chữ số: số điểm cắt dọc 1/2, tục dọc, trục ngang, số lỗ tròn, vị trí lỗ tròn; chữ cái: số lỗ tròn, mở hay đóng trên, mở hay đóng dưới, trục dọc, trục ngang, số điểm cắt dọc 1/2 số điểm cắt ngang ½ 68 NHẬN DẠNG CHỮ VIẾT TAY Nhận dạng chữ viết tay vấn đề nóng bỏng nghiên cứu tính đa dạng ký tự viết tay nên việc xử lý nhận dạng chưa có mô hình tổng quát cho tất Trong đề tài này, nhóm xin đưa hướng nghiên cứu nhận dạng chữ viết tay hạn chế, chữ có dấu mũ phải tách rời nhau, vidu hình 3.11 Hình 3.11: Chữ viết tay hạn chế Điều khác biệt phương pháp sử dụng không sử dụng mạng noron cho phần nhận dạng mà sử dụng phương pháp đánh giá ưu việt nhiều so với mạng noron SVM (Support Vector Machines) phương pháp máy học tiên tiến có nhiều thành công không lĩnh vực khai phá liệu mà lĩnh vực nhận dạng Trong thập niên gần đây, SVM đánh giá phương pháp phân lớp có độ xác cao áp dụng nhiều toán nhận dạng chữ viết tay Vì đề xuất mô hình nhận dạng chữ Việt viết tay hạn chế sở phương pháp phân lớp SVM 3.1 Chuẩn hóa ảnh theo vùng liên thông Phương pháp sử dụng tương tự phương pháp mà sử dụng chương ký tự sau tách riêng tiếp tục tách nhỏ tiếp thành cách thành phần Bước 1: Xác định vùng liên thông ảnh (Hình 3.11) Hình 3.12: Chuẩn hóa ảnh (a) Ảnh gốc (b) Xác định vùngliên thông đánh thứ tự vùng liên thông Bước 2: Sắp xếp vùng liên thông theo thứ tự từ xuống (Hình 3.12b) 69 Bước 3: - Nếu ảnh có vùng liên thông: Chuẩn hóa ảnh kích thước chuẩn 16×16 (Hình 5a) Hình 3.13: Chuẩn hóa vùng liên thông - Nếu ảnh có vùng liên thông: Gọi S(i) diện tích vùng liên thông thứ i Nếu S(1)>S(2) dấu phần liên thông dấu nặng (.) cần chuẩn hóa vùng liên thông kích thước chuẩn 16×16 Ngược lại: Tách ảnh thành phần: phần chữ phần dấu Chuẩn hóa phần chữ kích thước chuẩn 16×16 phần dấu kích thước chuẩn 8×8 (Hình 3.13b) - Nếu ảnh có vùng liên thông: Nếu S(3) = Min{S(i)} dấu phần liên thông dấu nặng (.) Do cần chuẩn hóa thành phần liên thông kích thước chuẩn 8×8 thành phần liên thông kích thước chuẩn 16×16 Ngược lại: Tách ảnh thành phần từ vùng liên thông Chuẩn hóa vùng liên thông kích thước chuẩn 8×8 chuẩn hóa vùng liên thông kích thước chuẩn 16×16 (Hình 3.13c) 3.2 Phân nhóm sơ Dựa vào số thành phần liên thông ta tách ký tự tiếng Việt thành nhóm: ƒ Nhóm 1: Nhóm có vùng liên thông {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y, Ơ, Ư} ƒ Nhóm 2: Nhóm có vùng liên thông {Ă, Â, À, Ả, Ã, Á, Ạ, Ê, È, Ẻ, Ẽ, É, Ẹ, Ì, Ỉ, Ĩ, Í, Ị, Ô, Ò, Ỏ, Õ, Ó, Ọ, Ờ, Ở, Ỡ, Ớ, Ợ, Ù, Ủ, Ũ, Ú, Ụ, Ừ, Ử, Ữ, Ứ, Ự, Ỳ, Ỷ, Ỹ, Ý, Ỵ} ƒ Nhóm 3: Nhóm có vùng liên thông { Ằ, Ẳ, Ẵ, Ắ, Ặ, Ầ, Ẩ, Ẫ, Ấ, Ậ, Ề, Ể, Ễ, Ế, Ệ, Ồ, Ổ, Ỗ, Ố, Ộ} 70 3.3 Trích chọn đặc trưng Trích chọn đặc trưng phục vụ cho công việc huấn luyện nhận dạng bước quan trọng hệ thống nhận dạng phương pháp trích chọn đặc trưng wavelet Haar đề nghị sử dụng cho mô hình nhận dạng chữ viết tay tiếng Việt Hình 3.14: Quá trình trích chọn đặc trưng Dưới thuật toán trích chọn đặc trưng wavelet Haar: Procedure HaarFeature Input Ma trận vuông (A,n) cấp 2n Output Tập đặc trưng {F1, F2, ,F2nx2n } Method Khởi tạo: Queue = ∅; i = 1; - Tính Fi= Tổng điểm đen toàn ma trận (A,n); - PUSH((A,n), Queue); While Queue ≠∅ Do { - POP(Queue, (A,n)); - if (n>1) { n = n DIV 2; Chia ảnh thành phần: A1, A2, A3, A4; 71 for (j=1; i ≤ 4; j++) PUSH((Aj,n), Queue); } - Gọi S, S1, S2, S3, S4 tổng điểm đen tương ứng với khối A, A1, A2, A3, A4; - Tính Fi+1 = S1 + S2; Fi+2 = S2 + S3; Fi+3 = S4; - i = i + 3; } 2.4.Xây dựng máy phân lớp SVM Trong phần xây dựng máy phân lớp SVM, sử dụng tập đặc trưng trích chọn để huấn luyện phân lớp nhận dạng Đối với phần chữ có kích thước 16×16, có tất 256 đặc trưng Còn phần dấu với kích thước 8×8, có 64 đặc trưng trích chọn ƒ SVM1: phân lớp nhóm ký tự có vùng liên thông {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y, Ơ, Ư} ƒ SVM2: ký tự có dấu phần chữ nguyên âm, máy phân lớp nguyên âm {A, E, I, O, U, Y} ƒ SVM3: phân lớp dấu {/, \, ?, ~, ^, ∨} (sắc, huyền, hỏi, ngã, dấu ô, dấu ă) Các máy phân lớp SVM1, SVM2, SVM3 xây dựng từ SVM nhị phân 72 TÀI LIỆU THAM KHẢO [1] PGS TS Đỗ Năng Toàn, TS Phạm Việt Bình – Giáo trình xử lý ảnh – Khoa Công Nghệ Thông Tin trường đại học Thái Nguyên, tr 09-13, tr 31-39, tr82-84, tr 85106 [2] Đỗ Năng Toàn, Phạm Việt Bình - Một thuật toán cắt chữ in dính mức từ dựa vào chu tuyến, tr1-7 [3] Tạp chí khoa học công nghệ,Đại học Đà Nẵng – Số 4(27).2008 – Nhận dạng ký tự quang học mạng noron, tr1-5 [4] Trần Đức Minh – luận văn tốt nghiệp cao học – Mạng noron, thuật toán lan truyền ngược, tr 36-40 [5] Báo cáo “Hội nghị Sinh viên Nghiên cứu Khoa học” lần thứ Đại học Đà Nẵng 2008 - Tự động nhận dạng biển số đăng ký xe ảnh chụp từ camera,tr2-5 [6] Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai - trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt, tr1-7 [7] Tolga Birdal - Famous Otsu Thresholding http://www.codeproject.com/KB/graphics/OtsuSharp.aspx [8] D X Le & G Thoma - Document Skew Angle Detection Algorithm http://archive.nlm.nih.gov/pubs/doc_class/spie_asd.php [9] Martin T Hagan & Howard B Demuth & Mark H Beale - Neural Network Design [10] http://en.wikipedia.org/wiki/Neural_network - Neural network [11] Daniel Admassu - Unicode Optical Character Recognition – Codeproject.com 73 [...].. .nghiên cứu hệ thống thông tin Mạng nơ ron nhân tạo có thể thực hiện các bài toán: Tính toán gần đúng các hàm số, thực hiện các bài toán tối ưu, nhận mẫu, nhận dạng và điều khiển đối tượng hiệu quả hơn so với các phương pháp truyền thống Mạng nơ ron nhân tạo có một số lượng lớn mối liên kết của các phần tử biến đổi có liên kết song song Nó có hành vi tương tự như bộ não người với khả năng học (... tín hiệu ra.Các dạng hàm chuyển đổi thường được sử dụng có dạng như sau: + Hàm Rump (Rump Function) là hàm có biểu diễn toán học như (1.4): (1.4) Biểu diễn hình học của hàm Rump như hình vẽ 1.6.a + Hàm bước nhảy (Step Function) là hàm có biểu diễn toán học như (1.5): (1.5) Biểu diễn hình học của hàm như hình vẽ 1.6.b 14 + Hàm giới hạn cứng (Threshold Function) là hàm có biểu diễn toán học như (1.6):... và tín hiệu ra thực tế nằm trong phạm vi cho phép, kết quả nhận được ma trận trọng số với các phần tử wij đã được điều chỉnh phù hợp với đặc điểm của đối tượng hay hàm số mạng nơ ron cần học Mô hình học có giám sát được minh hoạ như hình 1.9 Hình 1.9.Mô hình học có giám sát và học củng cố - Học củng cố:(Reinforcement Learning) Là phương pháp học trong đó tín hiệu d được đưa từ bên ngoài nhưng không... pháp học có giám sát hoặc củng cố Từ hai phương pháp học trên, trọng số của nơ ron thứ i được thay đổi tuỳ theo tín hiệu ở đầu vào mà nó thu nhận và giá trị đầu ra của nó 19 Trong phương pháp học không có giám sát sự thay đổi của trọng số chỉ dựa trên cơ sở các giá trị đầu vào và đầu ra Dạng tổng quát của luật học trọng số của mạng nơ ron là cho biết gia số của véc tơ ∆wi là wi tỷ lệ với tín hiệu học. .. có dạng biểu diễn hình học là không đồng đều, có lúc có dạng phẳng (hàm không thay đổi giá trị hoặc thay đổi rất ít) hoặc có dạng phễu (giá trị của hàm thay đổi rất nhanh khi thay đổi tham số đầu vào) Nếu ta chỉ sử dụng hệ số học cố định thì có thể sẽ tốn thời gian tại các vùng phẳng Vì vậy, tư tưởng của thuật toán lan truyền ngược sử dụng hệ số học biến đổi là khi gặp vùng phẳng thì tăng hệ số học. .. đảm bảo nơ ron của cùng một lớp không liên kết với nhau, cũng hội tụ về trạng thái ổn định Nghiên cứu mạng nơ ron hồi quy có trọng số liên kết khôngđối xứng sẽ gặp nhiều phức tạp hơn so với mạng truyền thẳng và mạng hồi quy đối xứng Mạng nơ ron hồi quy có khả năng về nhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một ưu điểm khác của mạng nơ ron hồi quy là chỉ cần mạng nhỏ hơn về cấu trúc cũng có... NHÂN TẠO Là hệ phi tuyến: Mạng nơ ron có khả năng to lớn trong lĩnh vực nhận dạng và điều khiển các đối tượng phi tuyến Là hệ xử lý song song: Mạng nơ ron có cấu trúc song song, do đó có độ tính toán rất cao rất phù hợp với lĩnh vực nhận dạng và điều khiển Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ và có khả năng tự chỉnh khi số liệu đầu vào bị mất, có thể điều khiển on- line Là hệ... số điều chỉnh, với nhiều phương pháp học khác nhau có thể tính toán gần đúng ma trận W cần tìm đặc trưng cho mạng.Có ba phương pháp học: - Học có giám sát ( Supervised Learning) Là quá trình học ở mỗi thời điểm thứ i khi đưa tín hiệu x i vào mạng nơ ron, tương ứng sẽ có các đáp ứng mong muốn di của đầu ra cho trước ở thời điểm đó Hay nói cách khác, trong quá trình học có giám sát, mạng nơ ron được cung... số này tương tự như các tế bào cảm giác của mạng nơ ron sinh học Tổng trọng: (1.1) Với Vi(t) là tổng trọng của nơ ron thứ i; yj(t) là các đầu ra của nơ ron thứ jvà uk(t) là các đầu vào từ bên ngoài tương ứng với các trọng số Wij và W*ik; là hằng số gọi là ngưỡng của nơ ron thứ i Hệ động học tuyến tính SISO: Đầu vào là vi đầu ra là xi Ở dạng toán tử Laplace ta có: Xi(s)= H(s).Vi(s) (1.2) Dạng thời gian... đặc trưng khác, mạng nơ ron đã chải qua việc tự thay đổi thông số, vấn đề đó được gọi tự tổ chức (Self- Organizing) Mô hình học không có giám sát được minh hoạ như hình 1.10: Hình 1.10: Mô hình học không giám sát Cấu trúc chung của quá trình học được mô tả như hình 1.20 Hình 1.11 Sơ đồ cấu trúc chung của quá trình học Trong đó tín hiệu vào xj, j=1,2,3…,m, có thể được lấy từ đầu ra của các nơ ron khác ... ký tự quang học Phương pháp nghiên cứu: • Phương pháp nghiên cứu chủ yếu tham khảo tài liệu, viết liên quan tới nhận dạng ký tự quang học • Tìm nguồn tài liệu Internet, sách báo liên quan • Nghiên. .. Lý chọn đề tài: Nhận dạng ký tự quang học - Optical Character Recognition (OCR) đề tài nghiên cứu vô hấp dẫn, có nhiều ứng dụng thực tiễn sống, đặc biệt nhận dạng ký tự quang học ứng dụng thực... nhận dạng • Nghiên cứu vấn đề xoay quanh phương pháp nhận dạng đánh giá cao - mạng noron Trên sở tiến hành xây dựng mạng noron phù hợp với nhận dạng ký tự • Thực cài đặt chương trình nhận dạng ký

Ngày đăng: 25/01/2016, 11:22

Từ khóa liên quan

Mục lục

  • PHẦN MỞ ĐẦU

    • I. Lý do chọn đề tài:

    • II. Mục đích chọn đề tài:

    • III. Nhiệm vụ nghiên cứu:

    • IV. Phương pháp nghiên cứu:

    • V. Bố cục bài báo cáo

    • Chương 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT

    • I. XỬ LÝ ẢNH VÀ CÁC KHÁI NIỆM CƠ BẢN TRONG XỬ LÝ ẢNH

      • 1.1. Xử lý ảnh

      • 1.2. Các khái niệm cơ bản trong xử lý ảnh

      • II. TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO

        • 2.1. TỔNG QUAN

        • 2.2. CÁC TÍNH CHẤT CỦA MẠNG NƠ RON NHÂN TẠO

        • 2.3. MÔ HÌNH NƠ RON

          • 2.3.1.Mô hình nơ ron sinh học

          • 2.3.2. Mạng nơ ron nhân tạo

          • 2.3.3. Mô hình toán học mạng nơ ron truyền thẳng và mạng nơ ron hồi quy.

          • 2.4.QUÁ TRÌNH HUẤN LUYỆN MẠNG NHIỀU LỚP.

            • 2.4.1.Quá trình thực hiện.

            • 2.4.2.Qui tắc chuỗi

            • 2.4.3. Độ chính xác của thuật toán lan truyền ngược

            • 2.4.4. Một số biến thể của thuật toán lan truyền ngược

            • 2.4.5. Nhận xét

            • 2.4.6. Các thuật toán tối ưu khác

            • Chương 2: MÔ HÌNH NHẬN DẠNG KÝ TỰ QUANG HỌC

              • Một mô hình OCR tiêu biểu:

Tài liệu cùng người dùng

Tài liệu liên quan