nghiên cứu nhận dạng số và chữ số viết tay tiếng việt trên bảng điểm thi sử dụng mạng noron nhân tạo

12 1.3K 9
nghiên cứu nhận dạng số và chữ số viết tay tiếng việt trên bảng điểm thi sử dụng mạng noron nhân tạo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I Mở đầu: Lý chọn đề tài Công nghệ thông tin là một những ngành then chốt quá trình công nghiệp hóa hiện đại hóa đất nước Việc triển khai nghiên cứu các công trình khoa học và đưa vào thực tế ứng dụng góp phần giải phóng sức lao động người, tiết kiệm thời gian, nâng cao hiệu suất công việc là một việc làm hết sức có ý nghĩa giai đoạn này Bài toán nhận dạng chữ viết tay xuất hiện cách khá lâu và thu hút nhiều sự quan tâm, nghiên cứu các nhà khoa học Đã xuất hiện nhiều ứng dụng thương mại thực hiện nhận dạng chữ tùy theo yêu cầu cụ thể, có thể kể một số sản phẩm tiêu biểu như: OmniPage, FineReader Ở Việt Nam, việc nghiên cứu xây dựng các hệ nhận dạng chữ tiếng Việt bắt đầu rất sớm Hiện tại lĩnh vực nhận dạng chữ in có một số sản phẩm thương mại với chất lượng tốt VnDOCR Viện Công Nghệ Thông Tin, ImageScan CadPro Ngoài còn có một số đề tài nghiên cứu khoa học nhận dạng số và chữ viết tay thực hiện bởi nhiều nhóm tác giả, với nhiều mục đích ứng dụng khác mà ta có thể kể tên một số nhóm tiêu biểu nhóm nghiên cứu : Huỳnh Hữu Lộc, Lưu Quốc Hải, Nguyễn Thanh Bình và Đinh Đức Anh Vũ, Khoa Khoa Học và Kỹ Thuật Máy Tính, Đại học Bách Khoa Tp.HCM, nhóm nghiên cứu : Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai với đề tài : “Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay Tiếng Việt”, hoặc đề tài “Nhận dạng phiếu trả lời trắc nghiệm và có nhận dạng chữ số viết tay dựa mạng Noron “ nhóm tác giả : Trầm Quốc Thuận, Châu Kiến tài, trường Đại học Mở TpHCM… Ngày nay, giáo dục đào tạo ở nước ta ngày càng phát triển, lượng học sinh- sinh viên ở các trường ngày càng gia tăng, và danh sách thí sinh dự thi các kì thi tăng lên theo đó Do vậy, điểm sau đợt thi nếu nhập thủ công vào sở dữ liệu thì không đảm bảo tính chính xác, mất rất nhiều nhân công, thời gian Hiện nay, có một số trường nghiên cứu, triển khai hệ thống nhận dạng điểm số một cách tự động bảng điểm thi và đạt một số kết quả khả quan Ví dụ trường Đại học Mở TpHCM, Đại Học Kinh Tế, Cao Đẳng Bách Việt, Đại học Tôn Đức Thắng… Với phương pháp thực hiện dựa việc nhận dạng các ô số tô và các số viết tay Hình : Phiếu điểm mẫu nhận dạng bằng cách tô ô số và nhận dạng số viết tay Tuy nhiên với các ô số tô thì đòi hỏi nhiều thời gian cho việc tô ô số, tiến trình nhận dạng bị ảnh hưởng mặt thời gian việc phải quét qua hết các ô số Còn nếu chỉ nhận dạng số viết tay chưa đủ, người viết có thể viết nhầm quá trình chấm điểm Thêm nữa là hệ thống cũ chưa đáp ứng đầy đủ trường hợp điểm số là lẻ Với những lý nêu ra, ta thấy cần thiết nghiên cứu kết hợp việc nhận dạng số và chữ số viết tay mà không cần dùng phương pháp tô các ô số, áp dụng cho việc nhận dạng bảng điểm thi đó có thêm nhận dạng điểm số lẻ Giải quyết vấn đề đem lại các lợi ích sau đưa vào ứng dụng thực tế: - Giảm lượng nhân công nhập điểm - Độ chính xác cao - Tiết kiệm thời gian, công sức - Do có phần thống kê nên giúp người quản trị hệ thống dễ dàng giám sát tiến trình nhập điểm, giúp đưa cách giải quyết phù hợp có sai sót xảy Từ hiện trạng và những đặc điểm nêu trên, xin đề xuất hướng nghiên cứu luận văn là: Nghiên cứu nhận dạng số chữ số viết tay Tiếng Việt bảng điểm thi sử dụng mạng Noron nhân tạo Mục đích nghiên cứu (các kết quả cần đạt được) Tìm hiểu và nghiên cứu các sở lý thuyết, các kỹ thuật tảng để giải quyết bài toán nhận dạng tổng quát Đề xuất áp dụng mạng Nơron nhân tạo thực hiện các thuật toán xử lý ảnh và nhận dạng số và chữ số viết tay Tiếng Việt Cải tiến và đề xuất các thuật toán mới quá trình nghiên cứu Xây dựng hệ thống nhận dạng số và chữ số viết tay Tiếng Việt bảng điểm thi dựa vào mạng Neuron nhân tạo Hệ thống thiết kế để hỗ trợ việc nhận dạng số và chữ số viết tay bảng điểm thi qua mạng quản lý dữ liệu sinh viên Đối tượng phạm vi nghiên cứu Luận văn tập trung nghiên cứu và ứng dụng mạng Noron nhân tạo để xây dựng một ứng dụng nhận dạng số và chữ viết tay theo qui định bảng điểm thi mẫu Các qui định bảng điểm thi mẫu bao gồm: chữ viết tay phải rõ ràng, ảnh bảng điểm thi scan phải ngắn, đảm bảo độ sáng ảnh… Việc nhận dạng chữ viết tay ở tiến hành cụ thể tương ứng với các số từ đến 10 viết tay, đó có nhận dạng các số lẽ :1.5, 2.5, 3.5… và các chữ số tương ứng : một, một năm, hai, hai năm… Phương pháp nghiên cứu Để đạt mục tiêu đề ra, quan tâm đến việc nghiên cứu lý thuyết điểm ảnh, các thuật toán rút trích, xử lý điểm ảnh, mạng Neuron và các phương pháp nhận dạng chữ viết hiện Đồng thời đề xuất một số giải pháp cải tiến phương pháp sử dụng Hình : Bảng điểm thi mẫu 4.1 Cơ sở dữ liệu: - Cơ sở dữ liệu bao gồm các mẫu từ và số lấy từ bộ mẫu có sẵn MNIST Trong quá trình tiến hành nhận dạng, nếu mẫu này là mới thì chương trình học và lưu trữ vào sở dữ liệu mẫu - Bên cạnh đó bao gồm việc thiết kế sở dữ liệu cho hệ thống quản lý điểm thi sinh viên 4.2 Dự kiến bước thực để nhận dạng chữ viết tay đề tài này: Thu nhận hình ảnh Tiền xử lý ảnh Xác định tọa độ vùng cần nhận dạng Phân tích ảnh để tìm từ Mạng Neuron nhận dạng từ Cơ sở dữ liệu quản lý SV Cơ sở dữ liệu mẫu Hậu xử lý dữ liệu Hình : Sơ đồ tổng quát quá trình nhận dạng số và chữ viết tay Tiếng Việt bảng điểm 4.2.1 Thu nhận hình ảnh Bảng điểm sau chấm điểm đưa vào máy scanner để thu nhận ảnh sau đó tiến hành nhận dạng Bảng điểm nhận dạng phải theo dạng mẫu qui định 4.2.2 Tiền xử lý ảnh Giai đoạn tiền xử lý văn bản là giai đoạn quan trọng, quá trình này ảnh hưởng trực tiếp đến độ chính xác quá trình nhận dạng, nhiên nó làm tăng thời gian chung cả hệ thống Giai đoạn này bao gồm việc lọc nhiễu, làm xám ảnh, nhị phân hóa ảnh… Kỹ thuật sử dụng cho giai đoạn này bao gồm ứng dụng lược đồ mức xám Histogram và phương pháp nhị phân hóa Ostu 4.2.3 Xác định tọa độ vùng cần nhận dạng Bước này thực hiện nhất cho lần đầu chạy chương trình để ta tìm tọa độ dòng và cột ở những nơi cần nhận dạng bảng điểm mẫu Việc xác định tọa độ dựa các điểm nhận dạng gốc bảng điểm Hình : Tọa đợ vị trí các điểm cần nhận dạng theo hàng Hình : Tọa đợ vị trí các điểm nhận dạng theo cột Hình : Xác định tọa đợ nhận dạng 4.2.4 Phân tích ảnh để tìm từ Ảnh sau xác định tọa độ các vùng cần nhận dạng, ta tiến hành quá trình phân tích ảnh để tìm từ bao gồm các bước sau: - Xác định vùng chuỗi từ và số cần nhận dạng - Tách chuỗi từ, chuỗi số khỏi ảnh - Tách các từ, các số khỏi chuỗi từ, chuỗi số Dựa vào các điểm tọa độ nhận dạng kết hợp với giải thuật dò tìm các biên vùng ảnh để tiến hành xác định vùng ảnh cần xử lý cho bước tiếp theo Hình 7: Xác định loại bỏ đường biên của ảnh nhận dạng Hình 8: Tách từ khỏi chuỗi từ Thuật toán sử dụng để tách từ khỏi văn bản dựa lược đồ chiếu dọc (Vertical projection Histogram) kết hợp đặc tính biên độ độ sáng các pixel 4.2.5 Mạng Neuron-mờ nhận dạng từ Luận văn thực hiện nghiên cứu mạng truyền thẳng feed-forward bao gồm nhiều lớp các đơn vị xử lý phi tuyến (non-linear processing unit) MLP (MultiLayer Perceptron) thuật toán lan truyền ngược để tiến hành nhận dạng các từ đưa vào từ ảnh Điểm ảnh Điểm ảnh Điểm ảnh hoặc Điểm ảnh Lớp đầu Lớp đầu vào Lớp ẩn Hình : Mô hình mạng Noron nhận dạng số và chữ số viết tay Tiếng việt Lớp đầu vào gồm các neural nhận giá trị nhị phân(0,1) các thành phần véctơ tương ứng dữ liệu véc tơ hóa từ ma trận điểm ảnh kí tự phương pháp chia lưới Lớp ẩn gồm các neural, số neural này quyết định từ những kết quả tối ưu và giá trị lỗi sở quá trình huấn luyện Lớp đầu gồm các neural đưa giá trị nhị phân(0,1) tương ứng với các từ mẫu sở dữ liệu mẫu 4.2.6 Hậu xử lý dữ liệu Sau quá trình nhận dạng từ đưa kết quả ta tiến hành so khớp điểm số và điểm chữ cho phù hợp Cuối là thao tác ghi nhận điểm số vào bảng điểm lưu máy tính II Nội dung: Luận văn hướng đến quá trình thu nhận đối chiếu giá trị ảnh phiếu điểm thi,qua đó thực hiện việc thực hiện nhận dạng chữ viết tay tiếng Việt với những cải tiến mới hiệu quả Dự kiến luận văn bao gồm các chương sau: Chương 1: TỔNG QUAN Dự kiến trình bày một số nội dung sau:  Dẫn nhập, giới thiệu lý chọn đề tài  Mục đích và phương pháp nghiên cứu đề tài  Những đóng góp đề tài  Bố cục luận văn Chương 2: CƠ SỞ LÝ THUYẾT Dự kiến trình bày một số nội dung sau:  Giới thiệu tổng quan điểm ảnh  Giới thiệu mạng Neuron nhân tạo  Giới thiệu tình hình nghiên cứu và ngoài nước  Trình bày chi tiết các thuật toán, giải thuật quá trình nhận diện số và chữ số viết tay Tiếng Việt bảng điểm thi Chương 3: THỰC NGHIỆM Dự kiến trình bày một số nội dung sau:  Giới thiệu ứng dụng, phần mềm và phần cứng quá trình thực nghiệm  Kết quả các bước tiến hành thực nghiệm  Xây dựng ứng dụng nhận dạng số và chữ viết tay Tiếng Việt cho bảng điểm thi  So sánh với kết quả các nghiên cứu trước đó  Kết luận rút từ kết quả thực nghiệm Chương 4: KẾT LUẬN Dự kiến trình bày một số nội dung sau:  Kết quả đạt luận văn  Đề xuất kiến nghị III Kết luận: Để tài giới thiệu tuần tự nhận dạng số và chữ số viết tay Tiếng Việt Xây dựng ứng dụng thực hiện việc nhận dạng Tiến hành thực nghiệm mẫu bảng điểm thi cụ thể Đã trình bày các giải thuật tương ứng để thực hiện quá trình nhận dạng Trong đó có nhiều cải tiến tốt so với các công trình nghiên cứu trước đó Đóng góp thêm một phương pháp mới khoa học nhận dạng IV Danh mục tài liệu tham khảo: [1] Nguyễn Quang Hoan Xử lý ảnh Học viện công nghệ bưu chính viễn thông, 2006 [2] Lương Mạnh Bá, Nguyễn Thanh Thuỷ Nhập môn xử lý ảnh số Nhà xuất bản Khoa học và Kỹ thuật, 2006 [3] Nhập môn Trí Tuệ Nhân tạo,Học viện công nghệ Bưu chính Viễn Thông, 2007 [4] Nguyễn Đình Thúc Trí tuệ nhân tạo, mạng nơron phương pháp và ứng dụng Nhà xuất bản Giáo Dục - 2000 [5] Ngô Quốc Tạo, Phạm Văn Hùng Xây dựng tham số cho mạng nơron lan truyền ngược Kỷ yếu hội thảo Quốc gia, Thái Nguyên 8-2003 [6] Ngô Quốc Tạo Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế trực tuyến Đề tài nghiên cứu sở mã số CS04.09 Viện CNTT, 2004 [7] Lê Hoài Bắc, Lê Hoàng Thái Neuron Network & Genetic Algorithm in Application to Handwritten Character Recognition, Tạp chí Tin học và Điều khiển học, Tập 17, số 4, 2001 [8] Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt [9] Hệ mờ, Mạng Neuron và Ứng dụng Nhà xuất bản khoa học kỹ thuật, 2001 [10] Lê Xuân Trường, Trầm Quốc Thuận, Châu Kiến tài Nhận dạng phiếu trả lời trắc nghiệm và có nhận dạng chữ số viết tay dựa mạng Noron 10 [11] William K.Pratt, “Digital Image Processing”, John Wiley & Sons 2001 [12] CHRISTOPHER M BISHOP(1995), Neural Networks for Pattern Recognition.pdf, CLARENDON PRESS • OXFORD, UK [13] Robert Full´er The Perception Learning Rule – Tutorial Institute for Advanced Management Systems Research Department of Information Technologies, 4-2010 [14] N K Kasabov, J S Kim, A R Gray, M J Watts FuNN - A Fuzzy Neural Network Architecture for Adaptive Learning and Knowledge Acquisition Department of Information Science University of Otago, P.O.Box 56, Dunedin, New Zealand Abo Akademi University [15] Arnold F Shapiro The Merging of Neural Network, Fuzzy logic, and Genetic Algorithm SoA 2002 Spring Meeting [16] Chin-Teng Lin, Chang-Mao Yeh, Jen-Feng Chung, Sheng-Fu Liang and Her-Chang Pu Support-Vector-Based Fuzzy Neural Networks [17] Puyin Liu, Hongxing Li Fuzzy Neural Network theory and application Series in Machine Perception and Artificial Intelligence – Vol.59 World Scientific Publishing Co Pte Ltd, 2004 V Dự kiến kế hoạch thực hiện: STT Nội dung Thời gian thực hiện Nghiên cứu lý thuy ết 7/10/2011 - 15/1/2011 Thực hiện đề tài 19/1/2012 -20/04/2012 Viết báo cáo – hiệu chỉnh 21/04/2012 - 30/05/2012 11 Ý KIẾN CỦA GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) TS Lê Xuân Trường NGƯỜI LẬP ĐỀ CƯƠNG (Ký ghi rõ họ tên) Nguyễn Phú Lợi XÁC NHẬN CỦA TRƯỞNG TIỂU BAN CHẤM ĐỀ CƯƠNG (Ký ghi rõ họ tên) 12 ... trạng và những đặc điểm nêu trên, xin đề xuất hướng nghiên cứu luận văn là: Nghiên cứu nhận dạng số chữ số viết tay Tiếng Việt bảng điểm thi sử dụng mạng Noron nhân tạo Mục đích nghiên. .. các từ đưa vào từ ảnh Điểm ảnh Điểm ảnh Điểm ảnh hoặc Điểm ảnh Lớp đầu Lớp đầu vào Lớp ẩn Hình : Mô hình mạng Noron nhận dạng số và chữ số viết tay Tiếng việt Lớp đầu vào gồm... tượng phạm vi nghiên cứu Luận văn tập trung nghiên cứu và ứng dụng mạng Noron nhân tạo để xây dựng một ứng dụng nhận dạng số và chữ viết tay theo qui định bảng điểm thi mẫu Các

Ngày đăng: 20/08/2014, 23:46

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan