NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

25 368 0
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM  VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU Cấu trúc đề tài luận văn Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu Trình bày giới thiệu, thách thức đối với hệ thống hệ truy vấn thông tin từ hình ảnh tài liệu, khái quát về xử lý ảnh. Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu Trình bày các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu Chương 3: Các phương pháp so sánh hình ảnh từ Trình bày các phương pháp so sánh hình ảnh từ dựa trên hình ảnh tài liệu. Chương 4: Chương trình thử nghiệm tìm kiếm văn bản trong hình ảnh tài liệu trên cơ sở lý thuyết đã xây dựng.

- 1 - HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG LẠI QUỐC ANH NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 - 2 - Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS. TS. Ngô Quốc Tạo Phản biện 1: ……………………………………………………………… Phản biện 2: ……………………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tạ i Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông - 3 - MỞ ĐẦU Hiện nay công nghệ hiện đại đã giúp giảm tải quá trình xử lý, lưu trữ, truyền tải hình ảnh tài liệu hiệu quả. Các công ty thường phát triển hướng đến văn phòng không cầ n giấy tờ, một số lượng lớn các tài liệu in được số hoá và lưu trữ như hình ảnh trong cơ sở dữ liệu. Sự phổ biến, tầm quan trọng của hình ảnh tài liệu như nguồn thông tin gốc. Hàng triệu tài liệu kỹ thuật số được truyền tải liên tục từ điểm này đến điểm khác trên Internet. Định dạng phổ biến của các tài liệu kỹ thuậ t số là văn bả n, trong đó các ký tự được mã hoá và máy có thể hiểu được. Mặt khác, để thực hiện cho hàng tỷ tài liệu truyền thống và di sản sẵn có dễ dàng tiếp cận trên Internet, chúng được quét và chuyển đổi sang kỹ thuật số hoá hình ảnh bằng cách sử dụng thiết bị số hóa. Mặc dù công nghệ xử lý hình ảnh tài liệu DIP có thể được sử dụng để tự động chuyển đổi hình ảnh kỹ thuật số của các tài liệu này về định dạng văn bản mà máy có thể đọc được, bằng cách sử dụng công nghệ Nhận dạng ký tự quang học OCR, thường không phải là một cách hiệu quả và thiết thực để xử lý một số lượng lớn các tài liệu giấy. Một lý do là các kỹ thuật phân tích cấu trúc trang trong xử lý văn bản với các bố trí phức tạp chưa được hoàn thiện đầy đủ. Một lý do khác là khả năng nhận dạng của công nghệ OCR vẫn kém, đặc biệt là với hình ảnh tài liệu có chất lượng kém (giấy in kém chất lượng, trang in sau bị hằn lên trang trước, tài liệu photo kém, mực in kém, chữ mất nét, in chữ bị dính, ). Nhận dạng xong và sửa chữ a kết quả OCR thường là không thể tránh khỏi trong hầu hết các hệ thống DIP. Kết quả, lưu trữ tài liệu ở định dạng hình ảnh truyền thống và di sản sẵn có trở thành giải pháp thay thế trong nhiều trường hợp. Ngày nay, chúng ta có thể tìm thấy trên Internet và rất nhiều các tài - 4 - liệu kỹ thuật số trong định dạng ảnh, bao gồm cả giấy tờ tạp chí, hội nghị, luận án sinh viên, sổ tay, Hơn nữa, nhiều thư viện kỹ thuật số và các cổng web như MEDLINE, ACM, IEEE, lưu giữ hình ảnh tài liệu quét mà không có đ ịnh dạng văn bản tương đương. Yêu cầu đặt ra cho người sử dụng là làm sao có thể tìm kiếm thông tin lưu trữ trên theo nội dung một cách hiệu quả ? Trên cơ sở đó em chọn đề tài "Nghiên cứu tìm kiếm văn bản trong hình ảnh tài liệu". Cấu trúc đề tài luận văn Chương 1: Tổng quan về tìm kiếm văn bản trong hình ảnh tài liệu - Trình bày giới thiệu, thách thức đối với hệ thống hệ truy vấn thông tin từ hình ả nh tài liệu, khái quát về xử lý ảnh. Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu - Trình bày các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu Chương 3: Các phươ ng pháp so sánh hình ảnh từ - Trình bày các phương pháp so sánh hình ảnh từ dựa trên hình ảnh tài liệu. Chương 4: Chương trình thử nghiệm tìm kiếm vă n bản trong hình ảnh tài liệu trên cơ sở lý thuyết đã xây dựng. - 5 - CHƯƠNG 1 - TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU 1.1. Giới thiệu ! Hình 1.1: Sơ đồ khối hệ thống duyệt từ khoá cho hình ảnh tài liệu. 1.2. So sánh và truy vấn từ các tài liệu thu thập Nhiều thư viện kỹ thuật số hiện nay, hình ảnh tài liệu được dùng phổ biến như là một nguồn thông tin. Do đó khi truy cập vào Máy quét ảnh, máy ảnh, Tài liệu, Văn bản, Fax, Hình ảnh Tài liệu, Văn bản, Fax, Tiền xử lý ảnh Trích chọn các thành phần kết nố i Trích chọn đặc trưng Sử dụng các phương pháp so sánh hình ảnh từ Đưa ra kết quả Người sử dụng Đưa ra từ khoá Gắn cho hình ảnh từ Trích chọn đặc trưng - 6 - các nộ i dung của cơ sở dữ liệu hình ảnh tài liệu là quan trọng và là thách thức trong bài toán xử lý hình ảnh tài liệu. Hai hướng chính là truy vấn không nhận dạng và truy vấn dựa trên nhận dạng. Truy vấn dựa trên OCR sẽ rất kém nếu như dữ liệu hình ảnh ký tự quét vào lỗi lớn hơn 5%. Nhưng với phần lớn các tài liệu cũ, photocopy nhiều lần, bản Fax kém chất lượng thì hầu như không OCR được. Quá trình xử lý sẽ hướng đến truy vấn không OCR. Như vậy tuỳ theo mức độ hình ảnh tài liệu khác nhau, chữ viết tay, bản in ấn, báo chí, thì lựa chọn hướng truy vấn phù hợp. Phương pháp N-Gram xây dựng lược đồ lập chỉ mục hình ảnh tài liệu dựa trên lược đồ hàm băm nội dung chính yếu. Đặ c trưng ảnh cụ thể là, mật độ chiề u dọc (VTD), mật đ ộ chiều ngang (HTD), được trích chọn. Một vector n-gram được xây dựng cho mỗi tài liệu dựa trên các đặc trưng này. Văn bản tương tự giữa các tài liệu sau đó được đo bằng cách tính toán điểm của các vector tài liệu. Phương pháp đối sánh đặc trưng không chính xác, so sánh các chuỗi đ ể lập chỉ mục liên quan đến rất nhiều bài toán về ký tự và là nhân tố chính trong truy vấn hình ảnh tài liệu. Hình ảnh từ được biểu diễn bởi một chuỗimẫu, kỹ thuật so sánh một phần hình ảnh từ để đánh giá một hình ảnh từ liên quan đến hình ảnhtừ khác như thế nào và quyết định liệu một từ có là một phần của từ khác. Phương pháp xoắn thời gian động DTW sử dụng cho đối sánh và truy vấn đối với hình ảnh tài liệu chữ viết tay. Thuật toán tìm từ dựa trên DTW cho lập chỉ mục và truy vấn các tài liệu trực tuyến. Đối sánh hình ảnh từ chữ viết tay sử dụng các đặc trưng mã hoá nhị - 7 - phân gradient. Rút trích các đặc trưng nhị phân, độ đo tương tự dựa trên sự tương quan đ ư ợc sử dụng cho các hình ảnh đối sánh từ. Những khó khăn của việc đối sánh các ảnh từ của tài liệu in ấn như sau: - Ngôn ngữ: Mỗi ngôn ngữ có các quy ước riêng, phụ thuộc vào các biến đổi hình thái của từ được tạo ra. - Chấ t lư ợng in ấn: Tài liệu in ấn thường có chất lượng kém. Mẫu in thực tế, từ thường bị mất nét, hay nét dầy thì từ dính nhau, hay có các nhiễu dính xung quanh từ, 1.3. Những thách thức cho truy vấn thông tin từ hình ảnh tài liệu chữ in Hầu hết các sách in, tài liệu, tờ báo, lưu trữ tại các thư viện số hoá đều có chất lượng kém, nhiều dạng in ấn, mẫu từ khác nhau. Lập chỉ mục và truy vấn hình ảnh tài liệu có những thách thức lớn trong các tình huống này. 1.3.1. Mô hình chất lượng trong tài liệu chữ in Một số lỗi thường xuất hiện trong tài liệu in ấn như: mực in tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in bị đậm hằn lên trang trước, nguyên nhân do chất lượng kém của giấy và mực in. Mô hình chất lượng tài liệu dễ dàng cho chúng ta kiểm tra sự thực hiện của lược đồ đối sánh. 1.3.2. Ngôn ngữ Các ngôn ngữ khác nhau có những quy tắc ngôn ngữ riêng cho sự hình thành từ. Trên cơ sở các quy tắc, từ với nghĩa tươ ng tự có thể xuất hiện các hình thức khác nhau trong văn bản. Ngôn ngữ - 8 - tiếng Anh đượ c đánh giá cao bởi sử dụng tiền tố, hậu tố cho mẫu từ và diễn đạt mối quan hệ ngữ pháp. 1.4. Một số khái niệm cơ sở xử lý ảnh 1.4.1. Ảnh số ! Trong thực tế ảnh liên lục về không gian và độ sáng. Để xử lý được bằng máy tính thì ảnh phải được số hóa. Số hóa ảnh là sự biến đổi gần đúng một ảnh liên tục thành tập điểm phù hợp với ảnh thật về vị trí và độ sáng.! 1.4.2. Ảnh biểu diễn theo mô hình Raster Đây là mô hình biểu diễn ảnh thông dụng nhất hiện nay. Ảnh được biểu diễn dưới dạng ma trận các điểm ảnh. 1.4.3. Ảnh biểu diễn theo mô hình Vector Trong mô hình Vector người ta sử dụng hướng giữa các Vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu. 1.4.4. Độ phân giải của ảnh Độ phân giải là số lượng điểm ảnh (pixel) dùng để tập hợ p thành hình ảnh. Số lượng điểm ảnh càng nhiều và càng nhỏ thì độ nét và chi tiết ảnh sẽ càng cao. 1.4.5. Mức xám của ảnh Kết quả của sự mã hoá tương ứng một cường độ sáng của mỗi điểm ảnh với một giá trị số - kết quả của quá trình lượng hoá. 1.5. Một số kỹ thuật nâng cao chất lượng ảnh 1.5.1. Lọc nhiễu - 9 - 1.5.1.1. Các loại nhiễu Các tín hiệu nhiễu thường được chia thành các loại chính như sau: Nhiễu do thiết bị thu nhận ảnh là loại nhiễu gây ra do giới hạn nhiễu xạ và quang sai của thấu kính, nhiễu do bộ phận cảm quang, ảnh mờ nhòe do ống kính, nhiễu do rung động thiết bị trong quá trình thu nhận. Nhiễu ngẫu nhiên độc lập là các loại nhiễu gây ra do ảnh hưởng của môi trường xung quanh, do ảnh hưởng của khí quyển. Nhiễu do vật quan sát. Đây là nhiễu gây ra do bề mặt của bản thân vật có độ nhám gồ ghề. Chính nhiễu này gây hiện tượng tán xạ của các tia đơn sắc và sinh ra hiện tượng nhiễu lốm đốt. 1.5.1.2. Lọc nhiễu lốm đốm: Mô hình quan sát có nhiễu lốm đốm như sau: w N [m,n]= z[m,n] +η N [m,n] (1.1) Trong công thức 1.5 thì η N [m,n] là nhiễu trắng dừ ng. Với N≥2 thì ηN[m,n] có thể mô tả gắn với nhiễu ngẫu nhiên Gauusian với mật độ phổ được định nghĩa như sau: S ηN (ξ1, ξ2)= σ2 = π ! /6! !!!!N = 1 1/N!!!!!!!!N > 1 (1.2) 1.5.2. Hiệu chỉnh góc nghiêng trang văn bản Trong quá trình thu thập, ảnh có thể bị nghiêng do đó cần phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và xoay ảnh trở lại như ảnh gốc. - 10 - 1.5.2.1. Phương pháp dựa trên biến đổi Hough Biến đổi Hough là phép biến đổi điểm ảnh từ hệ tọa độ x-y sang hệ tọa độ ρ-θ do đó rất hữu ích cho việc dò tìm đường thẳng trong ảnh vì thế rất thích hợp cho việc xác định góc nghiêng của ảnh có chứa các thành phần là các dòng văn bản. 1.5.2.2. Phương pháp láng giềng gần nhất Phương pháp này dựa trên một nhận xét rằng trong một trang văn bản, khoảng cách giữa các kí tự trong một từ và giữa các kí tự của từ trên cùng một dòng là nhỏ hơn khoảng cách giữa hai dòng văn bản, vì thế đối với mỗi kí tự, láng giềng gần nhất của nó sẽ là các kí tự liền kề trên cùng một dòng văn bản. 1.5.2.3. Phương pháp sử dụng chiếu nghiêng Dựa vào hình chiếu ngang/dọc của ảnh để tìm góc nghiêng. 1.6. Kết luận Chương này đưa ra các khái niệm tổng quan về hệ thống truy vấn từ dựa trên hình ảnh tài liệu. Giới thiệu sơ qua một số các phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (N- Gram, đối sánh đặc trưng chuỗi không chính xác, DTW).Các khái niệm cơ sở xử lý ảnh. Các khái niệm về nâng cao chất lượng ảnh như xoá nhiễu, hiệu chỉnh độ nghiêng của ảnh. ! [...]... luận Trong chương này đã giới thiệu các đặc trưng được trích chọn trong hình ảnh tài liệu như: cấu hình từ, mô tả moment bất biến thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, mô tả chuỗi đặc trưng cho hình ảnh từ - 16 - CHƯƠNG 3 - CÁC PHƯƠNG PHÁP SO SÁNH HÌNH ẢNH TỪ Việc tìm kiếm tài liệu được thực hiện bằng một thuật toán so sánh hình ảnh truy vấn với tất cả các hình ảnh có trong. .. - 24 4.5 Kết luận Trong quá trình nghiên cứu và thực hiện luận văn, tôi nhận thấy đã đạt được một số kết quả chính sau: + Nắm bắt được các bước chính trong một hệ thống tìm kiếm văn bản trong hình ảnh tài liệu, hiểu được các khái niệm cơ bản trong xử lý ảnh Thấy được vai trò quan trọng của xử lý ảnh đối với một hệ tìm kiếm, đó là bước tiền xử lý nhằm nâng cao chất lượng của ảnh + Tìm hiểu được một... ảnh Đưa ra từ khoá Rút trích các thành phần kết nối Gắn cho hình ảnh từ Trích chọn đặc trưng Trích chọn đặc trưng Cơ sở dữ liệu Đưa ra kết quả Sử dụng các phương pháp so sánh hình ảnh từ - 22 4.3 Giao diện chương trình Hình 4 1.Giao diện chương trình với phần cửa sổ nhập từ cần truy vấn Hình 4 2.Hiển thị kết quả các hình ảnh chứa từ cầm tìm kiếm - 23 -   Hình 4 3.Hiển thị từ tìm kiếm trong hình ảnh. .. vectơ tài liệu của hình ảnh m và n, j là số chiều của mỗi vectơ tài liệu và Xi=xi1xi2 xiJ Như vậy văn bản tương tự trên ảnh tương ứng với các đối tượng ký tự Một n-gram sẽ là n đối tượng ký tự liên tiếp được xác định dựa trên các trích chọn đặc trưng mô tả ban đầu 3.3 Phương pháp đối sánh đặc trưng không chính xác Hai vấn đề trong truy xuất hình ảnh tài liệu: tìm kiếm và đo độ tương tự giữa các tài liệu. .. thuật toán xử lý ảnh hay được dùng trong bước tiền xử lý ảnh, căn chỉnh độ nghiêng của trang văn bản, xoá nhiễu Trên cở sở hiểu biết đó có thể vận dụng được vào các bài toán khác + Tìm hiểu và tổng quát hoá các phương pháp trích chọn đặc trưng hình ảnh tài liệu, cũng như nắm được các phương pháp so sánh hình ảnh từ tương ứng Từ đó đưa ra được các giải pháp cho bài toán đặt ra trong luận văn + Đã áp dụng... ảnh là 100 bức ảnh tham khảo từ trang http://orpheus.ee.duth.gr/irs2_5/ Sau đó, những bức ảnh này được tiền xử lý và đẩy vào cở sỡ dữ liệu - Cở sở dữ liệu sử dụng là Microsoft SQL Server 2008 - Chương trình được thử nghiệm trên máy PC, tốc độ 3,4GHz, bộ nhớ RAM 1,0 GB - 21 4.2 Sơ đồ chức năng Tài liệu, Văn bản, Fax, Máy quét ảnh, máy ảnh, Interrnet Dữ liệu hình ảnh tài liệu, Văn bản, Fax, Người...- 11 - CHƯƠNG 2 - CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU Trích chọn đặc trưng là bài toán thu thập thông tin từ dữ liệu thô, phù hợp nhất cho một ứng dụng nhất định Trích chọn đặc trưng là trích chọn những thông tin hữu ích từ hình ảnh tài liệu Bộ nhớ được giảm tải chỉ cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở nên nhanh hơn và truy tìm tài liệu hiệu quả hơn Khi một... trích chọn sẽ được lưu trong cơ sở dữ liệu để sử dụng cho công việc sau này Số lượng thông tin hữu ích mà một máy tính lấy ra từ hình ảnh là yếu tố rất quan trọng quyết định tính thông minh, cũng như hiệu quả của hệ thống truy tìm hình ảnh Nhiều đặc trưng khác nhau đã được sử dụng trong xử lý ảnh và nhận dạng mẫu (đại diện hình ảnh tài liệu) Thử nghiệm với các đặc trưng: cấu hình từ, mô tả moment bất... dụng thành công các kiến thức tìm hiểu được vào cài đặt thử nghiệm chương trình tìm kiếm văn bản trong hình ảnh tài liệu Kết quả của chương trình đạt được là tốt và có thể áp dụng vào thực tế Đây là bài toán khó, hiện nay chưa có giải pháp nào khác - 25 được đưa gia để giải quyết bài toán này Đó là đóng góp lớn nhất của luận văn Tuy nhiên, do thời gian làm luận văn hạn chế, trong khi khối lượng công việc... đặc trưng của hình ảnh từ 2.1 Cấu hình từ Cung cấp biểu diễn thô của hình ảnh từ đối sánh Phép chiếu, chuyển vị, trên và thấp hơn của cấu hình là các đặc trưng được xem xét biểu diễn cho các hình ảnh từ 2.2 Mô tả moment bất biến thống kê Các đặc trưng dựa vào moment được tính toán để phân tích hình dạng của hình ảnh từ, mỗi yêu cầu của moment có các thông tin khác nhau cho cùng một hình ảnh - 12 2.3 . LẠI QUỐC ANH NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 -. in thực tế, từ thường bị mất nét, hay nét dầy thì từ dính nhau, hay có các nhiễu dính xung quanh từ, 1.3. Những thách thức cho truy vấn thông tin từ hình ảnh tài liệu chữ in Hầu hết các. nghĩa tươ ng tự có thể xuất hiện các hình thức khác nhau trong văn bản. Ngôn ngữ - 8 - tiếng Anh đượ c đánh giá cao bởi sử dụng tiền tố, hậu tố cho mẫu từ và diễn đạt mối quan hệ ngữ pháp.

Ngày đăng: 22/10/2014, 21:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan