042_Tìm hiểu một số phương pháp phân tích trang tài liệu

2 491 1
042_Tìm hiểu một số phương pháp phân tích trang tài liệu

Đang tải... (xem toàn văn)

Thông tin tài liệu

- 8 - TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU Sinh viên: Nguyễn văn Dũng Cán bộ hướng dẫn: Mã SV: 0220056 PGS.TS: Ngô Quốc Tạo Email: dungnv1984@yahoo.com 1. Tổng quan Hầu hết tất cả tài liệu hiện nay của con người đều đã được số hóa và được lưu trữ trong máy tính. Nhưng tài liệu giấy thì vẫn và sẽ còn tồn tại vì nó vẫn không thể thiếu được trong cuộc sống hằng ngày. Việc chuyển đổi từ tài liệu điện tử sang tài liệu giấy có thể đựợc thực hiện dễ dàng bằng máy in, máy fax. Nhưng làm thế nào để chuyển từ tài liệu giấy sang tài liệu điện tử để máy tính có thể hiểu được? Câu hỏi đó đã khiến các chuyên gia trong lĩnh vực công nghệ thông tin phải đầu tư, nghiên cứu trong nhiều thập kỷ qua, và rồi hệ thống nhận dạng quang học (OCR - Optical Character Recognize system) đã ra đời và đáp ứng được phần nào nhu cầu của cuộc sống. Bên cạnh đó vẫn còn bao thách thức lớn lao cho nghành xử lý ảnh, vì xử lý ảnh chính là giai đoạn mấu chốt trong hệ thống nhận dạng quang học (OCR). Phân tích trang tài liệu (Document layout analysis) là một ứng dụng của xử lý ảnh, nó sẽ giải quyết bài toán của ta ở trên, tức là làm thế nào để có thể chuyển đổi từ tài liệu giấy thành tài liệ u điện tử. Tài liệu giấy sau khi được scan bằng máy scaner thành một file ảnh, công việc của phân tích trang tài liệu sẽ phân tích file ảnh đó để nhận biết nội dung của tài liệu đó là gì. Tức là sau khi phân tích thì chúng ta thực sự có được một tài liệu điện tử mà cả con người và máy tính đều có thể hiểu được. 2. Cấu trúc của trang tài liệu Cấu trúc của một trang tài liệu bao gồm hai phần: + Cấu trúc vật lý (hay cấu trúc hình học). + Cấu trúc logic. 2.1 Cấu trúc vật lý Một trang tài liệu được hợp thành từ nhiều khối, nhiều đoạn. Mỗi khối này là tập hợp của các thành phần có các thuộc tính giống nhau như: font chữ, kích thuớc, màu,.v v. Và mỗi khối đều mang một ý nghĩa riêng. Cấu trúc vật lý là thể hiện được thông tin của các khối và mối quan hệ giữa chúng trong trang tài liệu. Hình dướ i đây sẽ minh họa cấu trúc vật lý của một trang tài liệu: (Hình 1:Hình minh họa cấu trúc vật lý của trang tài liệu) 2.2 Cấu trúc logic Cấu trúc logic nói lên ý nghĩa của các thành phần đó trong trang tài liệu ấy, tức là mỗi khối, mỗi thành phần trong trang tài liệu sẽ nói lên điều gì. Một trang tài liệu có thể được tạo bởi rất nhiều đoạn, nhiều thành phần khác nhau, mỗi thành phần đó đều nói lên một ý nghĩa nào đó cho người đọc. Thông thường một trang tài liệu có thể có các phần sau: phần đầu (header), phần cuối (footer), phần tiêu đề trang (title), phần tóm tắt trang (abstract), các đoạn trong thân trang (paragraph), .v v. 3. Các phương pháp phân tích 1H 2B 10H 11B 3B 4H 18H 5H 1 2 B 14B 1 6 B 15 6B 8B 7B 9B 1 3 B 17B - 9 - Dựa vào mô hình phân tích, người ta chia các phương pháp phân tích trang tài liệu thành ba loại: + Mô hình phân tích từ trên xuống (Top- down). Mô hình phân tích từ trên xuống (top-down) là mô hình được tiến hành phân tích bắt đầu từ toàn bộ trang tài liệu, sau đó sẽ phân tích trang tài liệu đó thành các vùng nhỏ hơn, các vùng nhỏ hơn này lại được phân tích thành các vùng nhỏ hơn nữa, thủ tục tách cứ được lặp đi, lặp lại nhiều lần cho đến khi thỏa mãn các tiêu chuẩn đề ra của bài toán. + Mô hình phân tích từ dưới lên (Bottom-up). Mô hình phân tích từ dưới lên là mô hình được tiến hành phân tích từ một hay một nhóm các pixel liền nhau, sau đó lại nhóm các pixel nhỏ liền nhau đó thành một khối lớn hơn (có thể là ký tự), rồi lại nhóm các khối pixel này lại thành một khối lớn hơn nữa, và cứ tiếp tục như vậy cho đến khi phân tích được toàn bộ trang tài liệu. + Mô hình phân tích lai (Kết hợp hai phương pháp Top-down và Bottom-up). Mô hình phân tích lai (hybrid) là mô hình kết hợp cả hai mô hình top-down và bottom-up, nó tận dụng các ưu điểm và khắc phục các khuyết điểm của cả hai mô hình trên. Nổi bật là hai ưu điểm: không yêu cầu thông tin về ảnh, và giảm được thời gian tính toán. 4. Các phương pháp và kỹ thuật tiền xử lý Mục đích của việc tiền xử lý này là làm sạch tài liệu, để việc phân tích được chính xác và hiệu quả hơn. Có thể kể đến một số vi ệc như: lọc nhiễu (Noise Cleaning), dò và xử lý độ nghiêng của trang tài liệu (Skew Detecting and Processing). 4.1. Lọc nhiễu. Nhiễu ảnh thường xuất hiện khi scan ảnh, photo ảnh hay do ảnh lâu ngày bị nhạt đi. Nhiễu thường gặp trong các ảnh nhị phân, chúng có thể là các đốm đen, nhỏ, phân bố ngẫu nhiên trên nền trắng hoặc những đốm trắng phân bố ngẫu nhiên trên nền đen. Trước khi tiến hành phân tích trang tài liệu thì ph ải tiến hành công việc loại bỏ nhiễu, đây là bước hết sức quan trọng. Có thể loại bỏ nhiễu bằng cách xử lý sau khi ảnh đã được nhị phân hóa hoặc sử dụng một số kỹ thuật như: kỹ thuật hình thái (morphological methods)…. 4.2 Xử lý độ nghiêng của trang tài liệu. Một trang tài liệu chuẩn là trang tài liệu có góc nghiêng bằng không, tức là các dòng văn bản theo hướng ngang hay hướng dọc đều song song với các cạnh của trang tài liệu, tuy nhiên, trong quá trình scan hoặc copy mà độ nghiêng của trang tài liệu khác không và dẫn tới hiện tượng văn bản trong trang tài liệu bị nghiêng so với lề của trang. Dò và xử lý độ nghiêng của tài liệu là tìm các dòng bị nghiêng và xử lý chúng sao cho thẳng hàng. Có một số phương pháp dò và xử lý độ nghiêng của văn bản, + Phương pháp dựa trên phép chiếu nghiêng (Projection Profiles). + Phương pháp dựa vào phép biến đổi Hough (Hough Transform). + Phương pháp láng giềng gần nhất (Nearest -Neighbor Methods). + Phương pháp dựa vào sự tương quan chéo (Cross Correlation). + Một số phương pháp khác thì dựa vào sự phân tích gradient (Gradient Analysis), dựa vào phân bố Fourier, .v v. 5. Tài liệu tham khảo [1]. R. Cattoni, T. Coianiz, S. Messelodi, C. M. Modena. Geometric Layout Analysis Techniques for Document Image Understanding. January 1998, tr.1- 68. [2]. Roberto Bedola, Davide Bordo, Franc Vojtech. Report of Document Analysis Group. 2001, tr 1-13. [3]. Boulos Waked. Page Segmentation and Identification for Document Image Analysis. September 2001, tr. 28-37. [4]. Zhixin Shi and Venu Govindaraju. Multi-scale Techniques for Document Page Segmentation. Tr.1-5. [5]. Miroslav Halas. Document classification. Tr.1-8. … . hình phân tích, người ta chia các phương pháp phân tích trang tài liệu thành ba loại: + Mô hình phân tích từ trên xuống (Top- down). Mô hình phân tích. từ tài liệu giấy thành tài liệ u điện tử. Tài liệu giấy sau khi được scan bằng máy scaner thành một file ảnh, công việc của phân tích trang tài liệu sẽ phân

Ngày đăng: 06/10/2013, 19:20

Hình ảnh liên quan

+ Cấu trúc vật lý (hay cấu trúc hình học). + Cấu trúc logic.  - 042_Tìm hiểu một số phương pháp phân tích trang tài liệu

u.

trúc vật lý (hay cấu trúc hình học). + Cấu trúc logic. Xem tại trang 1 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan