LUẬN VĂN:MẠNG NEURAL RBF VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY pdf

58 905 4
LUẬN VĂN:MẠNG NEURAL RBF VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Tiến Mười MẠNG NEURAL RBF VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Tiến Mười MẠNG NEURAL RBF VÀ ỨNG DỤNG NHẬN DẠNG CHỮ VIẾT TAY KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: PGS.TS Hồng Xn Huấn HÀ NỘI - 2009 LỜI CẢM ƠN Tôi muốn bày tỏ cảm ơn sâu sắc tới thầy Hồng Xn Huấn, thuộc mơn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN Trong thời gian thực khóa luận, thầy nhiệt tình hướng dẫn giúp đỡ tơi nhiều Ngồi thời gian tìm hiểu cung cấp tài liệu, thầy vướng mắc qua trình làm, giúp đỡ khắc phục để đạt hiệu cao Thầy tận tình giúp đỡ tơi có chỗ làm việc yên tĩnh suốt trình làm khóa luận Tơi muốn bày tỏ cảm ơn tới các thầy, môn, thầy, cô khoa, trường tạo điều kiện tốt giúp đỡ cho tơi hồn thành khóa luận TÓM TẮT NỘI DUNG Mặc dù nghiên cứu từ lâu, đến toán nội suy xấp xỉ hàm nhiều biến cịn có cơng cụ tốn học để giải Mạng Neural nhân tạo phương pháp hay để giải toán nội suy, xấp xỉ hàm nhiều biến Năm 1987 M.J.D Powell đưa cách tiếp cận để giải toán nội suy hàm nhiều biến sử dụng kỹ thuật hàm sở bán kính (Radial Basis Function RBF), năm 1988 D.S Bromhead D Lowe đề xuất kiến trúc mạng Neural RBF trở công cụ hữu hiệu để giải toán nội suy xấp xỉ hàm nhiều biến(xem [11]) Nội dung khóa luận trình bày khảo cứu mạng Neural RBF để giải tốn nội suy, xấp xỉ hàm nhiều biến sau ứng dụng sở lý thuyết để xây dựng phần mềm nhận dạng chữ số viết tay MỤC LỤC MỞ ĐẦU Chương BÀI TOÁN NỘI SUY, XẤP XỈ HÀM SỐ VÀ MẠNG NEURAL RBF 1.1 PHÁT BIỂU BÀI TOÁN NỘI SUY VÀ XẤP XỈ HÀM SỐ 1.1.1 Bài toán nội suy 1.1.1.1 Nội suy hàm biến số 1.1.1.2 Bài toán nội suy hàm nhiều biến 1.1.2 Bài toán xấp xỉ 1.1.3 Các phương pháp giải toán nội suy xấp xỉ hàm số 1.2 MẠNG NEURAL NHÂN TẠO 1.2.1 Giới thiệu mạng Neural nhân tạo 1.2.1.1 Mạng Neural sinh học 1.2.1.2 Mạng Neural nhân tạo 1.3 MẠNG NEURAL RBF 1.3.1 Giới thiệu mạng Neural RBF 1.3.1.1 Bài toán nội suy nhiều biến kỹ thuật hàm sở bán kính 1.3.1.2 Kiến trúc mạng Neural RBF 10 1.3.1.3 Ứng dụng mạng Neural RBF 10 1.4 CÁC PHƯƠNG PHÁP HUẤN LUYỆN MẠNG NEURAL RBF 11 1.4.1 Phương pháp huấn luyện pha 11 1.4.2 Phương pháp huấn luyện hai pha 12 1.4.3 Phương pháp huấn luyện pha HDH 13 1.4.4 Phương pháp huấn luyện ba pha đầy đủ 16 1.5 KẾT QUẢ THỰC NGHIỆM 16 1.5.1 Kết 16 1.5.2 Nhận xét 19 Chương NHẬN DẠNG CHỮ VIẾT TAY 20 2.1 NHẬN DẠNG MẪU 20 2.1.1 Nhận dạng mẫu 20 2.1.1.1 Mẫu ? 20 2.1.1.2 Nhận dạng mẫu ? 20 2.1.1.3 Lịch sử lĩnh vực nhận dạng mẫu 21 2.1.1.4 Ứng dụng nhận dạng mẫu 21 2.1.1.5 Các toán nhận dạng mẫu 22 2.1.1.6 Các bước xử lý hệ thống nhận dạng mẫu 22 2.2 BÀI TOÁN NHẬN DẠNG CHỮ VIẾT TAY 24 2.2.1 Tình hình chung nhận dạng chữ viết tay 24 2.2.2 Giới thiệu toán nhận dạng chữ viết tay 24 2.2.3 Hướng giải cho toán nhận dạng ký tự viết tay 24 2.3 CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHỮ VIẾT TAY 25 2.2.1 Phương pháp trích chọn đặc trưng kết hợp biến đổi DCT thuật tốn phân tích thành phần PCA 25 2.2.1.1 Thuật toán PCA 26 2.2.1.2 Phương pháp trích chọn đặc trưng kết phép biến đổi DCT thuật toán PCA 27 2.2.2 Phương pháp trích đặc trưng sử dụng Momen Legendre 28 2.2.2.1 Momen Momen Legendre 28 2.2.2.2 Phương pháp trích chọn đặc trưng chữ viết tay Momen Legendre30 2.2.3 Phương pháp sử dụng mạng Neural nhân chập(Convolution neural network) 32 2.2.3.1 Khái niệm sở 32 2.2.3.2 Phương pháp trích đặc trưng sử dụng mạng Neural nhân chập 33 2.4 THỰC NGHIỆM 34 2.4.1 Kết 35 2.4.2 Nhận xét 35 Chương CÁC PHƯƠNG PHÁP CẢI THIỆN HIỆU SUẤT CỦA MẠNG NEURAL RBF 36 3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL RBF 36 3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL RBF 36 3.1.1 Tăng tập liệu huấn luyện 36 3.1.1.1 Tăng tập liệu phép biến đổi hình học 36 3.1.2 Phương pháp học tập hợp 37 3.1.2.1 Phương pháp học tập hợp cải tiến 38 3.1.3 Phương pháp tăng tốc độ nhận dạng 39 3.1.3.1 Phương pháp nhận dạng ba lớp 40 3.2 THỰC NGHIỆM 41 Chương GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY VÀ TỔNG KẾT 42 4.1 GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY 42 4.1.1 Chương trình nhận dạng chữ viết tay 42 4.1.1.1 Giới thiệu chương trình 42 4.2 TỔNG KẾT VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 43 4.2.1 Tổng kết 43 4.2.1.1 Những công việc làm 43 4.2.2.2 Hướng phát triển đề tài 44 TÀI LIỆU THAM KHẢO 45 BẢNG DANH MỤC CÁC HÌNH MINH HỌA Hình 1: Minh họa toán nội suy hàm biến Hình 2: Minh họa Neuron thần kinh sinh học Hình 3: Cấu tạo Neural nhân tạo Hình 4: Đồ thị hàm ngưỡng Hình 5: Đồ thị hàm tuyến tính Hình 7: Đồ thị hàm Hình 8: Đồ thị hàm Gauss .7 Hình 9: Kiến trúc mạng Neural truyền tới Hình 10: Minh họa ảnh hưởng hàm bán kính Hình 11: Kiến trúc mạng RBF 10 Hình 12: Quá trình hội tụ đến giá trị cực tiểu thuật tốn Gradient .12 Hình 13: Thuật toán HDH huấn luyện mạng RBF 15 Hình 14: Các bước xử lý hệ thống nhận dạng mẫu .22 Hình 15 : Các bước giải toán nhận dạng chữ viết tay .25 Hình 16: Ảnh hưởng vector riêng, giá trị riêng lên tập liệu 26 Hình 17 : Các bước thực thuật toán PCA 27 Hình 18: Các bước trích chọn đặc trưng biến DCT kết hợp PCA 27 Hình 19: Biến đổi DCT cách lấy liệu theo đường zigzag .28 Hình 21: Các bước thực phương pháp trích chọn đặc trưng sử dung momen Legendre .32 Hình 22: Thao tác nhân chập 33 Hình 23: Quá trình trích chọn đặc trưng sử dụng mạng Neural nhân chập .34 Hình 24: Minh họa trình lấy đặc trưng mạng Neuron nhân chập 34 Hình 21: Ma trận vector cho phép biến đổi Elastic 37 Hình 22: Ví dụ phép biến đổi Elastic 37 Hình 23: Kiến trúc phương pháp học tập hợp cải tiến .39 Hình 24: Kiến trúc nhận dạng ba lớp 40 Hình 25: Biểu đồ so sánh độ xác nhận dạng thời gian huấn luyện phương pháp huấn luyện khác 41 Hình 26: Giao diện chương trình 43 Hình27: Bảng thơng báo kết nhận dạng 43 BẢNG DANH MỤC TỪ VIẾT TẮT Ký hiệu Nghĩa tiếng Anh Nghĩa tiếng Việt ANN Artificial neural network Mạng nơ-ron nhân tạo DCT Discrete cosin transform Biến đổi cosin rời rạc IDE MLP PCA Integrated Development Environment Multi layer perceptron Principal component analysis PDA Personal Digital Assistant RBF Radial Basis Function SVM Support Vector Machine Môi trường thiết kế hợp Mạng nơ-ron truyền thẳng nhiều tầng Phân tích thành phần Thiết bị hỗ trợ cá nhân(thường ám máy tính cầm tay) Hàm sở bán kính Máy vec-tơ hỗ trợ MỞ ĐẦU Bài toán nội suy xấp xỉ hàm số biết đến từ lâu có ứng dụng nhiều lĩnh vực khoa học kỹ thuật đời sống Ngày toán nội suy xấp xỉ hàm nhiều biến trở thành vấn đề thời để giải tốn ứng dụng (ví dụ nhận dạng mẫu) nhiều buộc người phải giải toán nội suy, xấp xỉ hàm nhiều biến Trong toán học toán nội suy, xấp xỉ hàm biến giải đầy đủ nhiều phương pháp khác Tuy nhiên toán nội suy, xấp xỉ hàm nhiều biến cơng cụ tốn học cịn hạn chế Khái niệm mạng “Neural nhân tạo” xuất đầu kỷ 20 thời kỳ người tìm cách để chế tạo máy có khả suy nghĩ, tư người Trải qua thời gian dài phát triển nghiên cứu sở lý thuyết thực nghiệm mạng Neural nhân tạo đạt kết khả quan Nhờ khả tính tốn mạnh máy tính, mạng Neural nhân tạo ngày công cụ tốt để giải toán nội suy xấp xỉ hàm nhiều biến Vì mạng Neural nhân tạo sử dụng nhiều lĩnh vực tính tốn, nhận dạng mẫu lĩnh vực khoa học quan trọng khác (xem [11]-chapter 4) Là loại mạng Neural nhân tạo, mạng Neural RBF công cụ hiệu để giải toán nội suy xấp xỉ hàm nhiều biến với điểm mạnh hẳn loại mạng Neural khác chỗ có thời gian huấn luyện nhanh Bài toán nhận dạng chữ viết tay tốn quen thuộc có ứng dụng lớn thực tế từ lâu thu hút nhiều người nghiên cứu Mặc dù đạt kết cao toán nhận dạng chữ viết tay (mạng Neural nhân chập đạt độ xác 99.61% liệu MNIST [8]) song ngày người ta tiếp tục nghiên cứu phương pháp nhận dạng tốt hướng đến dùng cho thiết bị di động, toán thời gian thực Từ nhận xét trên, với lòng đam mê muốn nghiên cứu, học hỏi kiến trúc mạng Neural nhân tạo (cụ thể mạng Neural RBF) qua ứng dụng để viết phần mềm nhận dạng chữ viết tay, bảo giúp đỡ tận tình thầy giáo Chương 2: Nhận dạng chữ viết tay Chú ý để tính nhanh Pn(x) ta sử dụng công thức truy hồi sau (xem [7,15]): P0 ( x)  1; P ( x )  x; Pn ( x)   2n  1 xPn1 ( x )  ( n  1) Pn 2 ( x)  / n   Bước 3: Chuyển ma trận Legendre thành vector đặc trưng Thực chất bước ta thực viết giá trị điểm ma trận Legendre thành hàng (hay vector) ta xem vector đặc trưng ảnh đầu vào Hình 21: Các bước thực phương pháp trích chọn đặc trưng sử dung momen Legendre 2.2.3 Phương pháp sử dụng mạng Neural nhân chập (Convolution neural network) Phương pháp trích chọn đặc trưng sử dụng mạng neural nhân chập (chi tiết xem [8, 16]) đề xuất bới LeCun Bengio vào năm 1995 Đây phương pháp trích chọn đặc trưng cho độ xác nhận dạng cao (đạt độ xác đến 99.6% với liệu MNIST) Trước sâu vào chi tiết thuật toán xin giới thiệu khái niệm sở là: thao tác nhân chập xử lý ảnh (convolution operator) 2.2.3.1 Khái niệm sở 1) Thao tác nhân chập Nhân chập khái niệm quen thuộc xử lý số tín hiệu (xem [23]), lĩnh vực xử lý ảnh thao tác nhân chập dùng để biến đổi ảnh thành dạng mong muốn đấy: làm cạnh (detect edge), mượt ảnh (smoothing), làm sắc nét(sharpening) Trong thao tác nhân chập người ta sử dụng mặt nạ nhân chập (convolution mask)- ma trận vng chiều có kích thước số lẻ(thơng thường 3x3 5x5) tác động nhân chập vào tất điểm ảnh gốc Thao tác nhân chập lên điểm ảnh gốc thực sau: 32 Chương 2: Nhận dạng chữ viết tay +Bước 1: Đầu tiên tâm mặt nạ nhân chập đặt trùng vào điểm cần tính nhân chập +Bước 2: Thực nhân giá trị mặt nạ nhân chập với giá trị độ sáng điểm ảnh tương ứng +Bước 3: Cộng tổng giá trị tính bước kết lưu vào vị trí nhân chập ảnh gốc Hình 22: Thao tác nhân chập (nguồn http://micro.magnet.fsu.edu/) 2.2.3.2 Phương pháp trích đặc trưng sử dụng mạng Neural nhân chập Tư tưởng phương pháp biến ảnh từ độ phân giải cao ảnh có độ phân giải thấp lại mang nhiều thơng tin cho q trình nhận dạng (bằng phép nhân chập thu nhỏ ảnh) Phương pháp đạt hiệu cao cho việc trích đặc trưng chữ viết tay nhờ thao tác nhân chập làm bật lên đường nét, hình dạng, giao điểm ký tự viết tay Hơn đặc trưng bị thay đổi phép dịch ảnh phép biến dạng bóp méo ảnh (distortion) 1) Kiến trúc mạng Ta giả thiết ảnh đầu vào có kích thước 29x29, kiến trúc mạng để lấy đặc trưng: +Bước 1: Đầu tiên ta sử dụng mặt nạ nhân chập khác kích thước 5x5 thực thao tác nhân chập lên ảnh gốc, sau nhân chập ta thực phép thu nhỏ ảnh lần Vì q trình nhân chập khơng tác động lên điểm biên nên sau phép nhân chập thu nhỏ kích thước ảnh (n-3)/2 (n kích thước ảnh ban đầu) +Bước 2: Với ảnh lớp thứ ta dùng 10 mặt nạ nhân chập khác kích thước 5x5 thực nhân chập thu nhỏ ảnh lần, ta 50 ảnh lớp thứ 33 Chương 2: Nhận dạng chữ viết tay +Bước 3: với ảnh lớp thứ ta lại dùng mặt nạ nhân chập khác kích thước 5x5 thực nhân chập ta thu 100 ảnh kích thước 1x1 Ta xem 100 đặc trưng ảnh gốc ban đầu Input 29x29 5x13x13 50x5x5 Convolution+ Subsampling 100x1x1 Convolution+ Subsampling Convolution Hình 23: Q trình trích chọn đặc trưng sử dụng mạng Neural nhân chập Input Lớp Lớp Đặc trưng Hình 24: Minh họa trình lấy đặc trưng mạng Neuron nhân chập 2) Huấn luyện mạng Quá trình huấn luyện mạng Neural nhân chập trình xác định hệ số mặt nạ nhân chập Để làm điều người ta xem kiến trúc hình 23 mạng Neural tuyến tính truyền thẳng nhiều tầng sau thêm phân lớp tuyến tính vào sau, người ta huấn luyện mạng phương pháp lan truyền ngược (chi tiết xem thêm [8,16]) 2.4 THỰC NGHIỆM 34 Chương 2: Nhận dạng chữ viết tay 2.4.1 Kết Dưới xin giới thiệu giới thiệu kết thực nghiệm so sánh hiệu suất phương pháp trích chọn đặc trưng chữ viết nêu Ở sử dụng liệu MNIST để thực huấn luyện kiểm tra Bộ liệu gồm 60000 liệu huấn luyện, 10000 liệu kiểm tra, liệu ảnh kích thước 28x28 ký tự chữ số Arap Tôi sử dụng phân lớp mạng Neural RBF với phương pháp huấn luyện là: phương pháp huấn luyện 2-pha HDH, 1-pha+giả nghịch đảo, 2pha + giả nghịch đảo Cấu hình máy tiến hành thực nghiệm: HĐH Windows XP Professional, CPU Intel Core Duo E6300 1.86GHz, RAM 2G Dưới bảng kết thực nghiệm: Phương pháp trích Phương pháp chọn đặc trưng luyện mạng huấn Thời gian Số lần nhận Độ huấn luyện dạng sai xác(%) mạng(phút) liệu kiểm tra DCT+PCA pha HDH 15.59 834 91.66% Legendre pha HDH 8.94 818 91.82% Convolution pha HDH 10.73 82 99.18% DCT+PCA pha+giả nghịch đảo 15.56 1633 83.67% Legendre pha+giả nghịch đảo 12.45 1713 82.87% Convolution pha+giả nghịch đảo 11.34 96 99.14% DCT+PCA pha+giả nghịch đảo 25.00 354 96.46% Legendre pha+giả nghịch đảo 15.51 500 95% Convolution pha+giả nghịch đảo 17.70 72 99.28% Bảng 2: Kết so sánh hiệu suất phương pháp trích chọn đặc trưng 2.4.2 Nhận xét Từ bảng số liệu ta thấy ta thấy ưu điểm vượt trội phương pháp trích đặc trưng sử dụng mạng Neural nhân chập(Convolution), ta thấy phương pháp huấn luyện mạng cho kết nhận dạng xác 99.1% Phương pháp huấn luyện mạng HDH có thời gian huấn luyện mạng nhanh có độ xác nhận dạng phương pháp huấn luyện mạng pha + giả nghịch đảo Chú ý thời gian huấn luyện không tính thời gian trích chọn giá trị đặc trưng 35 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF CHƯƠNG CÁC PHƯƠNG PHÁP CẢI THIỆN HIỆU SUẤT CỦA MẠNG NEURAL RBF Nội dung chương gồm có: 3.1 3.2 Các phương pháp cải thiệu hiệu suất mạng Neural RBF Thực nghiệm 3.1 CÁC PHƯƠNG PHÁP CẢI THIỆU HIỆU SUẤT CỦA MẠNG NEURAL RBF Dưới nội dung số phương pháp nhằm cải thiện hiệu suất mạng Neural RBF vấn đề nhận dạng chữ viết tay Cải thiện hiệu suất có nghĩa để tăng chất lượng nhận dạng làm giảm thời gian huấn luyện mạng chi phí cài đặt mạng 3.1.1 Tăng tập liệu huấn luyện Ta thấy tốn phân lớp liệu huấn luyện đóng vai trị quan trọng, ảnh hưởng trực tiếp đến chất lượng phân lớp, tập liệu huấn luyện lớn chất lượng phân lớp cao Tuy nhiên để tạo tập liệu tốt nhiều chi phí đa phần việc tạo tập liệu huấn luyện phải làm thủ cơng Vì có cách làm tăng số lượng liệu cho tập liệu huấn luyện làm cho kết nhận dạng tốt chi phí giảm đáng kể Việc tăng số lượng tập liệu phải đảm bảo chất lượng tính tự nhiên vốn có nó, việc trích chọn đặc trưng việc tăng số lượng tập liệu huấn luyện khơng có cách tổng qt đủ tốt, phải tùy vào toán cụ thể Dưới giới thiệu phương pháp tăng tập liệu huấn luyện cho toán nhận dạng chữ viết tay biến phép biến đổi hình học 3.1.1.1 Tăng tập liệu phép biến đổi hình học 36 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF a) Biến đổi Elastic Phép biến đổi ảnh thực người ta dùng ma trận mặt nạ dạng vector với ý nghĩa điểm ảnh gốc trùng với điểm gốc vector bị dịch chuyển đến điểm vector tương ứng Hình 21: Ma trận vector cho phép biến đổi Elastic Hình 22: Ví dụ phép biến đổi Elastic Hình 22 ví dụ phép biến đổi elastic, ta thấy từ ảnh gốc bên trái sau phép biến đổi elastic ta thêm ảnh khác cho liệu đầu vào, trực quan ta thấy liệu đảm bảo chất lượng Ngoài phép biến đổi Elastic người ta dùng kết hợp phép biến đổi affine như: dịch ảnh, xoay ảnh, hay phóng to thu nhỏ… liệu Tuy nhiên phép biến đổi Elastic thơng dụng tốn nhận dạng chữ viết tay liệu sinh đảm bảo chất lượng việc cài đặt thuật toán thời gian chạy nhanh 3.1.2 Phương pháp học tập hợp Học tập hợp phương pháp học mà hàm mục tiêu học cách huấn luyện số học độc lập sau kết hợp chúng lại với Có thể mơ hình tốn học cơng thức sau: h  F ( h1 , h2 , , hn ) h coi phương pháp học tập hợp, h1 , h2 , , hn học độc lập, F cách kết hợp Như với phương pháp học tập hợp phải giải vấn đề: +Thứ nhất: để tạo học độc lập, độc lập có nghĩa học phải có phương pháp huấn luyện khác nhau, hay phải có liệu huấn luyện khác +Thứ hai: để kết hợp hiệu học 37 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF Vấn đề thứ hai thường giải cách kết hợp tuyến tính học lại với n tức là: h   wi hi trọng số wi nhận giá trị lớn hi i 1 đánh giá tin cậy học khác, ngược lại với học hi không đáng tin cậy ta cho trọng số wi tương ứng có giá trị nhỏ Để giải vấn đề thứ có nhiều phương pháp để tiếp cận, xin giới thiệu phương pháp thường hay dùng phương pháp: bagging boosting +Bagging(Bootstrap aggregating) Có thể tóm tắt phương pháp sau: Giả sử ta có liệu huấn luyện D gồm có n liệu, phương pháp bagging sinh M liệu huấn luyện Di  D có số lượng n '  n , học hi huấn luyện liệu Di tương ứng Sau M học kết hợp cách sau: h   wi hi với wi  i 1 ; i  M M +Boosting Tư tưởng thuật tốn sau: Giả sử ta có liệu huấn luyện D, ta đánh trọng số cho liệu tập liệu huấn luyện, trọng số gán Tại bước thứ t thuật toán, ta chọn liệu Dt  D cho liệu liệu Dt liệu đánh trọng số cao nhất, sau ta huấn luyện học ht liệu Dt Sau huấn luyện xong ta dùng học ht để thẩm định lại tập liệu D liệu bị phân lớp sai ta tăng trọng số lên 1, liệu phân lớp ta giảm trọng số Lặp lại T lần ta T học độc lập, ta gán trọng số học theo số lượng mà phân lớp 3.1.2.1 Phương pháp học tập hợp cải tiến Phương pháp lấy tư tưởng phương pháp học tập hợp nêu trên, khác kết đầu cuối khơng phải tổ hợp tuyến tính học mà đầu học lại huấn luyện lần cho kết cao (nghĩa ta tổ hợp phi tuyến tính học với nhau, thơng qua mạng Neural RBF) Dưới kiến trúc tổng thể phương pháp học tập hợp cải tiến để giải cho nhận dạng chữ số viết tay: 38 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF DCT+ PCA RBF RBF OUTPUT INPUT LEGE NDRE RBF SUB SAM RBF PLIN G Hình 23: Kiến trúc phương pháp học tập hợp cải tiến Ở sử dụng phương pháp trích chọn đặc trưng đơn giản có tốc độ tính tốn nhanh (PCA, LEGENDRE, SUBSAMPLING-thu nhỏ ảnh) để tạo học khác Sau huấn luyện chúng qua mạng neural RBF lại tổng hợp đầu mạng Neural huấn luyện chúng lại lần mạng Neural RBF Phương pháp tận dụng tối đa ưu điểm mạng Neural RBF thời gian huấn luyện mạng nhanh, để có mạng có chất lượng tốt phương pháp mạng Neural nhân chập phải nhiều chí nhiều ngày huấn luyện mạng để trích chọn giá trị đặc trưng với phương pháp 1h để huấn luyện mạng trích đặc trưng cho liệu MNIST 3.1.3 Phương pháp tăng tốc độ nhận dạng Ở phương pháp nêu đề cấp đến vấn đề làm tăng độ xác nhận dạng làm làm giảm thời gian huấn luyện mà chưa đề cập đến vấn đề làm giảm thời gian nhận dạng mạng Đây vấn đề then chốt ứng dụng, thực trình huấn luyện thơng thường chạy nhiều lần so với trình thực nhận dạng (quá trình đưa liệu đầu vào mạng tính tốn) Thời gian nhận dạng = thời gian trích chọn đặc trưng + thời gian tính tốn mạng, việc tăng hiệu suất nhận dạng thông qua việc tinh chỉnh q trình trích chọn đặc trưng làm cho thời gian trích chọn đặc trưng tăng lên đồng nghĩa với thời gian nhận dạng tăng Nói tóm lại việc làm tăng hiệu suất nhận dạng tăng tốc độ huấn luyện mạng dẫn đến việc làm tăng thời gian nhận dạng Dưới xin giới thiệu phương pháp hay để vừa nâng cao tốc độ nhận dạng lại không giảm độ xác nhận phương pháp Bộ phân nhận dạng ba lớp (chi tiết [13]) 39 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF 3.1.3.1 Phương pháp nhận dạng ba lớp Có thể tóm tắt phương pháp sau: người ta tạo ba phân lớp có đặc điểm sau: +Bộ phân lớp thứ sử dụng phương pháp trích chọn đặc trưng đơn giản lấy đặc trưng sử dụng mạng Neural có kiến trúc đơn giản để thực nhận dạng tất nhiên phân lớp có tốc độ nhận dạng nhanh lại có hiệu suất nhận dạng +Bộ phân lớp thứ ta lấy nhiều đặc trưng phân lớp đồng thời kiến trúc mạng Neural nhận dạng phức tạp phân lớp thứ phân lớp có tốc độ nhận dạng chậm bù lại lại có hiệu suất nhận dạng tốt thứ +Bộ phân lớp thứ ta kết hợp cách trích chọn đặc trưng tốt phân lớp có kiến trúc phức tạp để đảm bảo hiệu suất nhận dạng cao tất nhiên có thời gian nhận dạng chậm Sau xây dựng ba phân lớp trình nhận dạng xử lý sau: liệu đầu vào đưa vào phân lớp thứ sau thực nhận dạng kết nhận dạng khơng bị nghi ngờ sai ta chọn kết nhận dạng cuối cùng, khơng ta lại đưa liệu đầu vào cho phân lớp thứ xử lý Sau xử lý phân lớp thứ kết nhận tốt ta xác nhận kết nhận dạng cịn khơng ta lại chuyển liệu đầu vào cho phân lớp cuối Tất nhiên với phương pháp ta phải có thuật tốn tốt để xác định độ nhập nhằng kết nhận dạng Bộ nhận phân lớp thứ Nhập nhằng? yes Bộ nhận phân lớp thứ Nhập nhằng? Bộ nhận yes phân lớp thứ INPUT no no OUTPUT Hình 24: Kiến trúc nhận dạng ba lớp 40 Chương 3: Các phương pháp cải thiện hiệu suất mạng Neural RBF Ta thấy với kiến trúc phần lớn trình xử nhận dạng rơi vào phân lớp thứ (vì dựa vào kết thực nghiệm cho dù phân lớp tồi dễ dàng để đạt độ xác nhận dạng > 70%) Xác xuất để việc nhận dạng xử lý nhận dạng thứ thấp thấp nhận dạng thứ ba Hiển nhiên ta thấy kiến trúc có thời gian nhận dạng nhanh nhiều so với cách sử dụng phân lớp thứ có độ xác tốt nhiều so với cách sử dụng phân lớp thứ (xem chi tiết [13]) 3.2 THỰC NGHIỆM Biều đồ so sánh hiệu suất phương pháp học tập hợp cải tiến so với phương pháp thông thường Ở sử dụng liệu MNIST cho trình huấn luyện kiểm tra 99.3 100 1200 97.75 98 1020 1000 96 95 94.5 95 800 94 92 92 91 600 90 90 400 88 1,2,3,4 Subsambling PCA 6.Legedre 7.Học tập hợp cải tiến Mạng Neural nhân chập 200 86 84 8 18 13 63 8 Hình 25: Biểu đồ so sánh độ xác nhận dạng thời gian huấn luyện phương pháp huấn luyện khác Ta thấy phương pháp mạng Neural nhân chập cho độ xác nhận dạng tốt nhất, song thời gian huấn luyện mạng lớn Phương pháp học tập hợp cải tiến cho kết nhận dạng cao thời gian huấn luyện thấp nhiều lần so với phương pháp mang Neural nhân chập 41 Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay tổng kết CHƯƠNG GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY VÀ TỔNG KẾT Nội dung chương gồm có: 4.1 Giới thiệu chương trình nhận dạng chữ viết tay 4.2 Tổng kết phương hướng phát triển đề tài 4.1 GIỚI THIỆU CHƯƠNG TRÌNH NHẬN DẠNG CHỮ SỐ VIẾT TAY Dưới xin giới thiệu chương trình ứng dụng nhận dạng chữ viết tay mà tơi viết Chương trình phần thực nghiệm tất phần lý thuyết mà nêu xun suốt tồn nội dụng khóa luận mà tơi trình bày 4.1.1 Chương trình nhận dạng chữ viết tay 4.1.1.1 Giới thiệu chương trình 1) Tính chương trình Chương trình có khả nhận dạng chữ số viết tay người dùng nhập file ảnh ký tự để thực nhận dạng Để nhận dạng chương trình cho phép người dùng tùy chọn phương pháp trích, tùy chọn phương pháp huấn luyện mạng RBF Sau thực nhận dạng chương trình trả cho người dùng biểu đồ thể xác suất ảnh người dùng nhập vào số 2) Môi trường cơng cụ phát triển Chương trình viết hồn tồn ngơn ngữ C++, giao diện sử dụng IDE Microsoft Visio Studio 2008 để thiết kế, chương trình cịn sử dụng số thư viện Matlab để tính tốn ma trận 3) Hướng dẫn sử dụng chương trình Để chương trình chạy tốt, ta phải cài đặt thư viện Matlab vào máy thêm thư mục bin Matlab vào biến môi trường PATH hệ điều hành Người dùng 42 Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay tổng kết nhập ảnh với định dạng *.jpg, *.bmp, * gif, *.png vào chương trình sau thực nhận dạng chữ số, sau chương trình thực xong đưa biểu đồ đánh giá xác suất ảnh số dưa kết nhận dạng mạng Neural Ngoài người dùng chọn chế độ để huấn luyện mạng Neural với phương pháp trích chọn đặc phương pháp huấn luyện khác Sau giao diện chương trình: Hình 26: Giao diện chương trình Hình27: Bảng thơng báo kết nhận dạng 4.2 TỔNG KẾT VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 4.2.1 Tổng kết Đến tơi hồn thành khóa luận tốt nghiệp với đề tài “Mạng Neural RBF Ứng dụng nhận dạng chữ viết tay” Với mục tiêu kết hợp nghiên cứu lý thuyết mạng Neural RBF đơi với việc tìm hiểu tốn nhận dạng chữ viết tay để thực tạo chương trình ứng dụng nhận dạng chữ viết tay 4.2.1.1 Những công việc làm 43 Chương 4: Giới thiệu chương trình nhận dạng chữ số viết tay tổng kết +Tìm hiểu kiến trúc mạng Neural RBF, hiểu phương pháp huấn luyện mạng RBF, nhờ tiến hành cài đặt thành công mạng Neural RBF với thuật toán huấn luyện khác (xem chương 1) +Tìm hiểu tốn nhận dạng chữ viết tay, hiểu bước để xử lý toán nhận dạng chữ viết tay Tìm hiểu tiến hành cài đặt phương pháp trích chọn đặc trưng chữ viết tay là: phương pháp kết hợp biến đổi DCT thuật toán PCA, phương pháp sử dụng momen Legendre, phương pháp sử dụng mạng Neural nhân chập (xem chương 3) +Tìm hiểu phương pháp để tăng hiệu suất cho mạng Neural RBF áp dụng cho toán nhận dạng chữ viết tay Đề xuất phương pháp học tập hợp cải tiến cho hiệu suất nhận dạng 98% với liệu MNIST có thời gian huấn luyện mạng nhanh +Xây dựng phần mềm nhận dạng chữ số viết tay 4.2.2.2 Hướng phát triển đề tài Do thời gian nghiên cứu có hạn nên đề tài khóa luận chưa thể sát vào vấn đề đưa Nếu phát triển thêm nghiên cứu kỹ mạng neural RBF, nghiên cứu cách huấn luyện khác kiến trúc mạng RBF cải tiến làm cho việc huấn luyện nhanh hiệu suất nhận dạng tốt Bài toán nhận dạng chữ viết tay nghiên cứu từ lâu đến ngày tiếp tục phát triển, đặc biệt toán nhận dạng văn tiếng việt, nhận dạng form Do chưa thể đầu tư thời gian nhiều cho việc giải toán nhận dạng chữ viết tay, nên chắn tơi cịn mắc thiếu sót nhiều phần Nếu phát triển tiếp phần nhận dạng chữ viết tay nghiên cứu kỹ phương pháp trích chọn đặc trưng chữ viết kỹ thuật làm tăng tốc độ nhận dạng mạng (trong khóa luận tơi chưa dành thời gian nhiều để giải vấn đề tăng tốc độ nhận dạng mạng) Ở phần ứng dụng dừng lại dừng lại việc viết phần mềm nhận dạng chữ số viết tay, ứng dụng khơng thực có ý nghĩa thực tiễn Nếu tiếp tục nghiên cứu phát triển thêm tơi phát triển ứng dụng hướng đến việc nhận dạng ký tự tiếng việt, phát triển ứng dụng thời gian thực Tóm lại hướng phát triển tơi cho đề tài khóa luận kết hợp việc nghiên cứu sát phần lý thuyết mạng Neural RBF việc đưa cách giải hợp lý cho toán nhận dạng chữ viết tay tiếng việt sử dụng mạng Neural RBF 44 TÀI LIỆU THAM KHẢO [1] Hồng Xn Huấn, Giáo trình phương pháp số, NXB Đại học quốc gia [2] Hà Nội, 2004 Hoang Xuan Huan, Dang Thi Thu Hien and Huu Tue Huynh, A Novel [4] Efficient Algorithm for Training Interpolation Radial Basis Function Networks, Signal Processing 87 ,2708 – 2717, 2007 F Schwenker, H.A Kestler, Gu Ènther Palm, Three learning phases for [5] radial-basis-function networks, Neural Networks 14 (2001) 439±458 C.G Looney, Pattern Recognition Using Neural Network, Theory and algorithm for engineers and scientist, Oxford University press, 1997 [6] N.B Karayiannis, Member, IEEE, and Glenn Weiqun Mi Growing Radial Basis Neural Networks: MergingSupervised and Unsupervised Learning with Network Growth Techniques IEEE transactions on neural networks, vol 8, no 6, November 1997 [7] M Vatkin, M Selinger the system of handwritten characters recognition on the basis of legendre moments and neural network, The International Workshop on Discrete-Event System Design, DESDes’01, June 27÷29, 2001; Przytok near Zielona Gora, Poland [8] P.Y Simard, Dave Steinkraus, John C Platt, Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, Microsoft Research, One Microsoft Way, Redmond WA 98052 [9] S.Theodoridis, K.Koutroumbas Pattern recognition Second edition, 2ed., Elsevier, 2003 [10] J Shlens, A Tutorial on Principal Component Analysis, April 22, 2009 [11] T.M Mitchell, Machine learning, McGraw-Hill, 1997 [12] D.S Broomhead and D Lowe Multivariable functional interpolation and adaptive networks Complex Systems, vol 2, 321-355, 1988 [13] D Gorgevik, D Cakmakov An Efficient Three-Stage Classifier for Handwritten Digit Recognition Proceedings of the 17th International Conference on Pattern Recognition (ICPR’04) [14] R H Bartels, J C Beatty and B A Barsky, An introduction to Splines for use in computer graphics & geometrics modeling, Morgan Kaufmann Publishers, 1987 [15] K.M Hosny, New Set of Rotationally Legendre Moment Invariants, International Journal of Electrical and Electronics Engineering 2:3 2007 [16] D Bouchain, Character Recognition Using Convolutional Neural Networks, 2006 [17] R Esposito, Ensemble Learning [18] Wikipedia®, k-means clustering, http://en.wikipedia.org/wiki/Kmeans_clustering [19] Wikipedia®, Principal component analysis, http://en.wikipedia.org/wiki/Principal_components_analysis [20] Wikipedia®, Discrete cosine transform, http://en.wikipedia.org/wiki/Discrete_cosine_transform [21] Wikipedia®, Image moments, http://en.wikipedia.org/wiki/Image_moments [22] Wikipedia®, Eigenvalue, eigenvector and eigenspace, http://en.wikipedia.org/wiki/Eigenvalue,_eigenvector_and_eigenspace [23] Wikipedia®,Convolution http://en.wikipedia.org/wiki/Convolution ... 2: Nhận dạng chữ viết tay 2.2 BÀI TOÁN NHẬN DẠNG CHỮ VIẾT TAY 2.2.1 Tình hình chung nhận dạng chữ viết tay Bài toán nhận dạng chữ viết tay ứng dụng nhiều thực : tích hợp vào hệ thống nhận dạng. .. toán nhận dạng chữ viết tay Nhận dạng chữ viết tay thực qua hai hình thức nhận dạng online nhận dạng offline Nhận dạng online có nghĩa máy tính nhận dạng chữ viết lên hình viết Đối với hệ nhận dạng. .. trình nhận dạng chữ viết tay thơng qua hình vẽ : Dữ liệu đầu vào (dạng ảnh) Trích chọn đặc trưng chữ viết Nhận dạng Đưa kết nhận dạng Hình 15 : Các bước giải toán nhận dạng chữ viết tay Đầu vào

Ngày đăng: 28/06/2014, 00:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan