Luận văn công nghệ thông tin nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

55 837 1
Luận văn công nghệ thông tin nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU GIẢI PHÁP VÀ XÂY DỰNG PHẦN MỀM THỬ NGHIỆM CHUYỂN CÁC DÒNG VĂN BẢN TIẾNG VIỆT TRONG HÌNH ẢNH SANG VĂN BẢN DẠNG TEXT VÕ HOÀNG MINH BIÊN HÒA,THÁNG 06/2012 MỤC LỤC Trang Chƣơng 1 - GIỚI THIỆU ĐỀ TÀI 1.1 Đặt vấn đề 1 1.2 Mô hình giải quyết bài toán 2 1.3 Mức độ phức tạp của bài toán 3 1.4 Phạm vi luận văn 4 Chƣơng 2 – PHÂN ĐOẠN ẢNH VĂN BẢN 2.1 Nhị phân hoa ảnh số 5 2.2 Thành phần liên thông 7 2.2.1 Khái niệm điểm lân cận 7 2.2.2 Thành phần liên thông 7 2.3 Phép chiếu và các profile 8 2.4 Đồ thị kề khối 10 2.5 Lọc nhiễu 16 2.6 Tách đoạn 18 2.6.1 Tách liên thông bằng kỹ thuật đệ quy 19 2.6.2 Giải thuật cải tiến 20 2.7 Xử lý nghiên 21 2.8 Tách dòng 13 2.8.1 Tách dòng dựa vào thành phần liên thông 23 2.9 Tách từ 24 2.10 Tách ký tự 25 2.11 Chuần kích thước 26 2.11.1 Lắp khoảng trống ảnh bằng phép đóng morphology 26 Chƣơng 3 - TRÍCH CHỌN ĐẶC TRƢNG VÀ NHẬN DẠNG 3.1 Trích chọn đặc trưng 28 3.1.1 Trích chọn đặc trưng theo cấu trúc 28 3.1.2 Trích chọn đặc trưng theo hướng hình học 31 3.2 Tổng quan về xây dựng và huấn luyện mạng neural 33 3.2.1 Mô hình của một neural nhân tạo 33 3.2.2 Các kiểu hoc với mạng neural 48 3.2.3 Tổng quan về các thuật toán học 37 Chƣơng 4 – XÂY DỰNG PHẦN MỀM 4.1 Sơ đồ xử lý của chương trình 40 4.2 Xây dựng chương trình 41 4.2.1 Môi trường phát triển 41 4.2.2 Sơ đồ thiết kế 41 4.2.3 Các engine xử dụng trong chương trình 42 4.2.4 Danh sách các class chính 42 Chƣơng 5 – THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 5.1 Thử nghiệm 43 5.2 Đánh giá kết quả 46 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận 47 Hướng phát triển 47 Tài liệu tham khảo 48 DANH MỤC CÁC HÌNH VẺ, SƠ ĐỒ Hình 1.1 Sơ đồ hệ nhận dạng văn bản tiếng việt 2 Hình 1.2 Ảnh hưởng của chất lượng văn bản đến kết quả nhận dạng 4 Hình 2.1 Ví dụ điểm ảnh 5 Hình 2.2 Ví dụ chuyển ảnh đa mức xám sang ảnh nhị phân 5 Hình 2.3 Ví dụ về lân cận 4 và lân cận 8 7 Hình 2.4 Ví dụ về thành phần liên thông 4 8 Hình 2.5 Ví dụ về thành phần liên thông 8 8 Hình 2.6 Profile phép chiếu ngang 9 Hình 2.7 Các Profile chiếu ngang và dọc của một ảnh văn bản 10 Hình 2.8 Đồ thị BAG 11 Hình 2.9 Hình bao liên thông 12 Hình 2.10 Quy trình tách văn bản đã được chuẩn hóa 13 Hình 2.11 Khoảng cách theo chiều ngang và theo chiều dọc 15 Hình 2.12 Một ảnh văn bản trước và sau khi được lọc nhiễu muối tiêu 16 Hình 2.13Mô hình nhiễu cộng 17 Hình 2.14 Phân tích top-down 19 Hình 2.15Gán nhãn cho thành phần liên thông 21 Hình 2.16 Đường thẳng Hough trong tọa độ cực 22 Hình 2.17 Biến đổi Hough phát hiện góc ngiêng 23 Hình 2.18 Biểu đồ phân cách của ngưỡng 24 Hình 2.19 Các vị trí chính xác, vị trí cắt nhập nhằng 25 Hình 3.1 Ảnh ban đầu và ảnh sau khi được bao 32 Hình 3.2 Mặt na Sobel theo hai hướng X và Y 32 Hình 3.3 Mô hình neural sinh học 35 Hình 4.1 Sơ đồ xử lý của chương trình 40 Hình 4.2 Sơ đồ thiết kế của chương trình 41 Hình 5.1 Ảnh văn bản đầu vào đơn cột, kiểu font: Arial, Cambria, Times New Roman, Tahoma, cỡ font: 16 cho kết quả nhận dạng chính xác 100% 43 Hình 5.2 Chương trình cho phép lựa chọn vùng ảnh cần nhận dạng 44 Hình 5.3 Chương trình nhận dạng tốt đối với các ảnh văn bản có chèn hình 44 DANH MỤC CÁC BẢNG Bảng 3.1 Các luật về đặc trưng cấu trúc 29 Bảng 4.1 Danh sách các class chính trong chương trình 42 Bảng 5.1 Thử nghiệm chương trình với font Times New Roman 45 Bảng 5.2 Thử nghiệm chương trình với font Arial 46 LỜI MỞ ĐẦU Những năm gần đây, nhu cầu số hóa tài liệu ngày càng bùng nổ. Hiện nay ở nước ta, tất cả các yêu cầu về lưu trữ tài liệu, dịch thuật tự động…đều có thể thực hiện tốt nếu có một phần mệm nhận dạng chữ in tiếng Việt hiệu quả, có độ chính xác cao và độ thực thi nhanh. Hiện tại trên thị trường đã có một số phần mềm nhận dạng chữ in tiếng Việt, tuy nhiên kết quả nhận được còn có nhiều hạn chế. Do đó việc nghiên cứu phương pháp để xây dựng một hệ nhận dạng văn bản tiếng Việt là vấn đề hết sức quan trọng và có ý nghĩa cao trong thực tiễn. Dó là lý do tôi chọn đề tài” Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text” để làm đề tài nghiên cứu khoa học, đề tài chia thành 5 chương với các nội dung sau: Chƣơng 1 – Giới thiệu đề tài: đặt vấn đề, giới thiệu những công trình liên quang, đưa ra mô hình đã giải quyết bài toán, và những khó khăn cần phải giải quyết, phạm vi của đề tài. Chuong 2 – Phân đoạn ảnh văn bản: trình bài các khái niệm cơ sở của ảnh văn bản. Nêu ra các bước tiến hành để lọc nhiểu, chình nghiên, tách lấy phần văn bản từ ảnh và phân thành các đoạn, các dòng, các ký tự. Chƣơng 3 – Trích chọn đặc trƣng và nhận dạng: trình bài thuật toán trích chọn lấy những phần tiêu biểu, đặc trưng trong một ký tự để làm đầu vào của một mô hình học máy. Trình vài cách thức dùng mạng Neural để huấn luyện nhận dạng các ký tự. Chƣơng 4 – Xây dựng phần mềm: trình bài sơ đồ xây dựng và quy trình xử lý của chương trình, liệt kê môt số class chính. Chƣơng 5 – Thử nghiệm và đánh giá kết quả: thử nghiệm chương trình trên nhiều dữ liệu khác nhau, có so sách với các chương trình khác. Luận văn đã tập trung nghiên cứu lý thuyết về bài toán nhận dạng chữ in tiếng việt và đã cài đặt chương trình với độ chính xác khá cao và tốc độ tương đối nhanh đối với các văn bản tiếng Việt trên nhiều kiểu font và cỡ font khác nhau. Trong tương lai, tôi sẽ cố gắng hoàn thiện và phát triển thêm các chức năng của chương trình để xây dựng một phiên bản có thể thực thi trên các nền tảng điện thoại di động. 1   TÀI 1.1  Ngày nay công nghệ thông tin là ngành khoa học mới nhưng tốc độ phát triển rất nhanh trên toàn thế giới. Những ứng dụng của công nghệ thông tin cũng rộng khắp trong tất cả các lỉnh vực khoa học như: giáo dục, y tế, kinh tế, văn hóa,… nó góp phần giúp đời sống con người ngày càng hiện đại giảm đi những công việc nặng nhọc trong đời sống hằng ngày. Nhận dạng và xử lý ảnh cũng là một trong những chuyên ngành của tin học có tầm ứng dụng to lớn. Có thể kể ra hàng loạt các lĩnh vực áp dụng kỹ thuật nhận dạng ảnh như: xử lý ảnh chụp vệ tinh, dự báo thời tiết, điều khiển giao thông công cộng, nhận dạng vân tay, nhận dạng mặt người,….Hiện nay các đề tài và công trình nghiên cứu về chuyển đổi văn bản tiếng việt từ hình ảnh vẫn còn hạn chế và chưa đạt được kết quả như mong muốn mặc dù đây là một hướng được nhà nước ưu tiên phát triển. Đề tài này nhằm đáp ứng các nhu cầu hiện nay về xử lý , nhận dạng ngôn ngữ tiếng Việt và tập trung nghiên cứu các phương pháp tách văn bản tiếng Việt từ hình ảnh chứa văn bản ( những tấm ảnh này có thể được thu thông qua máy scanner), từ đó xây dựng chương trình thử nghiệm. 2 1.2  Bài toán nhận dạng văn bản tiếng Việt được thực hiện qua ba giai đoạn chính: phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Được thể hiện qua sơ đồ dưới đây:   3 Đầu vào hệ thống nhận dạng của chúng ta là một hình ảnh scan từ một văn bản tiếng Việt hoặc một tập tin hình ảnh chứa văn bản tiếng Việt bất kì. Đầu ra là một văn bản đã được nhận dạng. Để xử lý được điều này hệ thống nhận dạng của chúng ta sẽ trải qua giai đoạn cụ thể như sau: 1.  Giai đoạn này có nhiệm vụ loại bỏ nhiễu nhằm nâng cao chất lượng hình ảnh đầu vào. Sau đó thực hiện việc nhị phân hóa, chỉnh nghiêng, tách đoạn, tách dòng, tách từ, tách kí tự. 2.  Đầu vào của giai đoạn này là ảnh của một kí tự, đầu ra là kí tự nhận dạng được. Thông thường trong phần này sử dụng một thuật toán máy học (dùng mạng Neural, mô hình Markov ẩn hoặc máy SVM) hoặc một bộ đối sánh mẫu. 3.  Tổng hợp các kí tự nhận dạng được và hiển thị lên giao diện người dùng. Điều chỉnh nhận dạng sai dùng từ điển hoặc mô hình ngôn ngữ. 1.3  Nếu phân chia quá trình đọc văn bản thành các tác vụ cơ bản thì các hệ nhận dạng hiện nay thực hiện các tác vụ đó khá chật vật và không phải khi nào cũng mang lại kết quả mong muốn. Nhiều hệ thống nhận dạng đã làm việc khá tốt với các trang văn bản rõ nét, nhưng xét tổng thể thì vẫn còn khoảng cách khá lớn giữa tính năng của các hệ nhận dạng và đòi hỏi thực tế. Thực tế các trang văn bản không bao giờ đạt được mức độ sạch sẽ, chuẩn mực hoàn toàn. Nhiễu bẩn hiện tại là một vấn đề lớn đối với các hệ OCR, bởi vì chỉ cần một vài chấm mực nhỏ chữ c có thể biến thành chữ o, hoặc chữ j thành chữ i Nếu tài liệu đã qua photocopy thì các nét mảnh có thể trở thành đứt đoạn, khi đó lỗi sẽ rất nhiều vì nhiều hệ OCR sẽ chuyển mỗi ô liền nét thành một chữ cái riêng. Nếu văn bản có rất sạch sẽ đi chăng nữa thì sự phong phú của các kiểu font chữ cũng là một thách thức lớn với các hệ thống nhận dạng. Các kiểu font chữ mang tính nghệ thuật ngày càng nhiều. Ngoài sự phức tạp về font chữ và nhiễu ra, các hệ OCR cũng phải giải quyết các vấn đề về kích cỡ chữ khác nhau, góc nghiêng, bố cục văn bản, hệ thống dấu thanh…Vì thế các thuật toán nhận dạng phải đủ mềm dẻo để xử lý các khía cạnh phức tạp này. Nếu không đủ mềm dẻo thì một khác biệt rất bé của kiểu chữ cũng đòi hỏi quản lý và xử lý riêng. Ngược lại, quá mềm dẻo thì lỗi có thể rất nhiều, chẳng hạn chữ b và chữ h khác nhau không nhiều có thể bị đồng nhất làm một. 4   1.4  tài:  Đề tài “Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text” tập trung vào việc trình bày một quy trình tổng quát để giải quyết bài toán nhận dạng văn bản in tiếng Việt và làm rõ phương pháp để giải quyết từng phần trong quy trình. Có sự phân tích, so sánh, đánh giá giữa các phương pháp với nhau nhằm tìm ra phương pháp tối ưu để giải quyết bài toán.  Xây dựng một chương trình nhận dạng văn bản in tiếng Việt với độ chính xác cao (khoảng 80%) với các văn bản scan có chất lượng tốt. Tốc độ nhận dạng cao (thời gian nhận dạng trung bình 3-5 giây trên mỗi trang). [...]... một hàng chính là các thành phần liên thông Như vậy các công đoạn của quy trình tách ảnh văn bản đã được chuẩn hóa ra thành các kí tự riêng lẻ có thể được thực hiện theo sơ đồ: Hình 2.10 Quy trình tách văn bản đã được chuẩn hóa Một ảnh văn bản P bao gồm các vùng văn bản X (gọi là vùng văn bản hay vùng text) và các vùng không văn bản (vùng nontext) Các vùng không văn bản bao gồm vùng ảnh I, vùng vẽ D,... V và vùng bảng T P = (X, T, I, D, R) Nhiệm vụ của thuật toán phân trang là lấy được các vùng văn bản X = {Xi}, các thước R = {Hi, Vj} và các vùng không văn bản 13  Vùng văn bản và vùng ảnh có cùng các thành phần logic, và được định nghĩa một cách phân cấp như sau: Xi = {tj} và Ij = {tj} Trong đó tj = {ck } là một dòng cơ sở các thành phần liên thông gần nhau theo chiều ngang  Vùng bảng và vùng hình. .. lớn hơn 0 thành các lớp Mỗi lớp này, trong những điều kiện lý tưởng là một dòng văn bản Nếu trang ảnh văn bản có nhiều cột thì ta cần phải tinh chỉnh các cơ chế dò và điều chính độ nghiêng Bởi vì các dòng văn bản có thể nằm trong nhiều cột, và những cột này có thể có những độ nghiêng khác nhau, mặt khác chúng có thể nằm chung với các ảnh, các biểu đồ, bản vẽ…do đó phương pháp chiếu ngang trong trường... thi Trong nhiều năm qua, các kỹ thuật trích chọn và phân trang ảnh văn bản đã được phát triển rất đa dạng và phong phú Tuy nhiên nói chung thì chúng có thể được chia thành 3 hướng tiếp cận chính: hướng top-down, hướng bottom-up và kết hợp giữa 2 hướng nói trên Trong các kỹ thuật bottom-up, các từ được nhóm từ các kí tự đơn, các dòng văn bản được nhóm từ các từ, và các cột được nhóm từ các dòng văn bản. .. quả sau cùng Hình 2.15 Gán nhãn cho thành phần liên thông 2.7 Xử lí nghiêng Ảnh văn bản đầu vào của chúng ta là ảnh scan lên rất dễ bị nghiêng, việc văn bản bị nghiêng ảnh hưởng rất nghiêm trọng đến các bước tiếp theo như: tách khối, phân tích bố cục…, ngay cả khi góc nghiêng của văn bản rất nhỏ vào khoảng 5o Do đó một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện góc nghiêng như... cho các chữ đứt nét Đề tài sử dụng phương pháp lọc nhiễu bằng cách xét các thành phần liên thông Việc lọc nhiễu dựa trên ý tưởng các đốm nhiễu không thuộc vào một thành phần liên thông của một từ hoặc một dòng Phương pháp này tỏ ra rất hữu hiệu để tách các nhiễu nằm giữa các dòng và các đoạn Chúng ta sẽ lần lượt xác định các lược đồ histogram về chiều rộng và chiều cao của tất cả các thành phần liên thông. .. hình bao trên Hình 2.9 Hình bao liên thông 12 Như vậy, một vùng các điểm đen kề nhau trên ảnh văn bản sẽ là một miền liên thông các khối tương ứng Trong trường hợp các kí tự không bị rạn nứt, đứt nét thì mỗi chữ hay dấu sẽ là một miền liên thông Nguyên tắc tạo từ và tạo dòng trong tiếng Việt là các kí tự được thể hiện liên tiếp nhau từ trái sang phải và từ trên xuống dưới, những phần tử cơ bản của một... thông trong văn bản Chiều rộng và chiều cao xuất hiện nhiều lần nhất của các thành phần liên thông, gọi là W và H, sẽ được xác định nhờ vào việc tìm ra đỉnh của những lược đồ này W và H cũng chính là chiều rộng và chiều cao đặc trưng của các kí tự trong văn bản Các thành phần liên thông có chiều cao và chiều rộng nhỏ hơn T0 × min{W, H} được xem là nhiễu Có nghĩa là đối với 17 mỗi thành phần liên thông. .. của phương pháp này là tìm tất cả các thành phần liên thông trong ảnh và sắp xếp theo thứ tự tăng dần của tung độ của điểm trên nhất Sau đó dựa vào sự tương quan giữa tung độ của điểm trên nhất, tung 23 độ của điểm dưới nhất của mỗi thành phần liên thông để gộp các thành phần này vào một dòng văn bản Ưu điểm của phương pháp này ta có thể tách được các dòng mà giữa chúng có phần giao với nhau và đường... tiên và tất yếu Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán xác định góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và được tiếp cận dưới nhiều góc độ khác nhau Công việc xoay văn bản gồm 2 giai đoạn chính là: xác định góc nghiêng và xoay lại ảnh theo góc nghiêng đã xác định được Trong đó xác định góc nghiêng là vấn đề chủ yếu cần giải . CÔNG NGHỆ THÔNG TIN  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU GIẢI PHÁP VÀ XÂY DỰNG PHẦN MỀM THỬ NGHIỆM CHUYỂN CÁC DÒNG VĂN BẢN TIẾNG VIỆT TRONG HÌNH ẢNH SANG. trọng và có ý nghĩa cao trong thực tiễn. Dó là lý do tôi chọn đề tài” Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text . tài Nghiên cứu giải pháp và xây dựng phần mềm thử nghiệm chuyển các dòng văn bản tiếng việt trong hình ảnh sang văn bản dạng text tập trung vào việc trình bày một quy trình tổng quát để giải

Ngày đăng: 07/10/2014, 10:54

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan