NGHIÊN CỨU VÀ XÂY DỰNG MẠNG NEURAL TỐI ƯU CHO KỸ THUẬT NHẬN DẠNG VĂN BẢN TIẾNG VIỆT

45 605 4
NGHIÊN CỨU VÀ XÂY DỰNG MẠNG NEURAL TỐI ƯU CHO KỸ THUẬT NHẬN DẠNG VĂN BẢN TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN THUYẾT MINH ĐỀ TÀI NCKH CẤP TRƯỜNG ĐỀ TÀI NGHIÊN CỨU VÀ XÂY DỰNG MẠNG NEURAL TỐI ƯU CHO KỸ THUẬT NHẬN DẠNG VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài: TH.S TRẦN ĐÌNH VƯƠNG Thành viên tham gia: TH.S NGUYỄN HẠNH PHÚC TH.S LÊ THẾ ANH Hải Phòng, tháng 5/2015 Thuyết minh đề tài NCKH MỤC LỤC MỤC LỤC MỤC LỤC MỞ ĐẦU Chương I: TÌM HIỂU MẠNG NEURAL 1.1 Khái niệm mạng Neural 1.1.1 Neural sinh học 1.1.2 Neural nhân tạo 1.2 Mạng Neural nhân tạo 1.3 Đặc trưng mạng neural 1.3.1 Tính phi tuyến 1.3.2 Tính chất tương ứng đầu vào đầu 1.3.3 Tính chất thích nghi 10 1.3.4 Tính chất đưa lời giải có chứng 10 1.3.5 Tính chất chấp nhận sai xót 10 1.3.6 Khả cài đặt VLSI (Very Large Scale Intergrated) 10 1.3.7 Tính chất đồng dạng phân tích thiết kế 10 Chương II PHÂN LOẠI VÀ KIẾN TRÚC MẠNG NEURAL NHÂN TẠO 12 2.1 Phân loại mạng Neural nhân tạo 12 2.1.1 Phân loại theo kiểu liên kết neural 12 2.1.2 Một số loại mạng Neural 12 2.1.2.1 Mạng dẫn tiến 12 2.1.2.2 Mạng quy hồi .14 2.2 Kiến trúc mạng Neural 15 Chương III LÝ THUYẾT VỀ HUẤN LUYỆN MẠNG NEURAL 17 3.1 Phương pháp học 17 3.1.1 Học có giám sát 17 3.1.2 Học không giám sát 17 3.1.3 Học tăng cường 17 3.2 Thuật toán học 18 3.2.1 Thuật toán học mạng Neural lớp 18 Thuyết minh đề tài NCKH MỤC LỤC 3.2.2 Thuật toán học mạng Neural nhiều lớp 19 3.3 Thu thập liệu cho mạng Neural 23 3.4 Biểu diễn tri thức cho mạng Neural 24 Chương IV THIẾT KẾ VÀ HUẤN LUYỆN MẠNG NEURAL NHÂN TẠO 27 4.1 Thiết kế mạng Neural nhân tạo 27 4.2 Lược đồ huấn luyện mạng 28 4.3 Thuật toán huấn luyện mạng Neural nhân tạo – Backpropagation 29 Chương V KẾT QUẢ HUẤN LUYỆN 31 5.1 Thu thập liệu cho việc huấn luyện mạng Neural 31 5.2 Xây dựng mạng huấn luyện 40 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 Thuyết minh đề tài NCKH MỞ ĐẦU MỞ ĐẦU Từ lâu nhà khoa học nhận thấy ưu điểm óc người tìm cách bắt chước để thực máy tính, tạo cho có khả học tập, nhận dạng phân loại Vì nhà khoa học nghiên cứu sáng tạo mạng Neural nhân tạo Nó thực ý nhanh chóng trở thành hướng nghiên cứu đầy triển vọng đặc biệt lĩnh vực nhận dạng Và toán nhận dạng ký tự toán lớp toán nhận dạng, xử lý ảnh Hiện giới, sản phẩm nhận dạng ký tự triển khai tương đối rộng rãi Tuy nhiên sản phẩm nhận dạng ký tự tiếng Anh, nhận dạng ký tự tiếng Việt có người Việt Nam phát triển Ở nước ta vài năm gần có số sản phẩm nhận dạng tiếng việt triển khai thị trường Nhưng sản phẩm bán thị trường dạng đóng kín nên việc để phát triển thành phần mềm tự động cập nhật ảnh điều Vì nên chọn đề tài “Nghiên cứu xây dựng mạng Neural tối ưu cho kỹ thuật nhận dạng văn tiếng việt” Hệ thống chữ Tiếng Việt xây dựng dựa chữ Latinh có thêm chữ ghép dấu phụ Do việc nhận dạng gặp khó khăn so với chữ Latinh thông thường cần phải có thuật toán xử lý đem lại độ xác cao Trong khuôn khổ, thời lượng luận văn, đưa chương trình mô mạng Neural nhận dạng 29 chữ Tiếng Việt từ A đến Y 10 chữ số từ đến Thuyết minh đề tài NCKH Chương I: TÌM HIỂU MẠNG NEURAL Chương I: TÌM HIỂU MẠNG NEURAL 1.1 Khái niệm mạng Neural 1.1.1 Neural sinh học Một neural cấu gồm thành phần sau: Dendrite, Soma, Synapse, Axon hình 1.1 Hình 1.1: Mô hình neural sinh học Soma thân neural Các dendrites dây mảnh, dài, gắn liền với soma, chúng truyền liệu (dưới dạng xung điện thế) đến cho soma xử lý Bên soma liệu tổng hợp lại, xem gần tổng hợp phép lấy tổng tất liệu mà neural nhận Một loại dây dẫn tín hiệu khác gắn với soma axon Khác với dendrites, axons có khả phát xung điện thế, chúng dây dẫn tín hiệu từ neural nơi khác Chỉ điện soma vượt giá trị ngưỡng axon phát xung điện thế, không trạng thái nghỉ Axon nối với dendrites neural khác thông qua mối nối đặc biệt gọi synapse Khi điện synapse tăng lên xung phát từ axon synapse nhả số chất hoá học (neurotransmitters); chất mở "cửa" dendrites ions truyền qua Chính dòng ions làm thay đổi điện dendrites, tạo xung liệu lan truyền tới neural khác Thuyết minh đề tài NCKH Chương I: TÌM HIỂU MẠNG NEURAL Có thể tóm tắt hoạt động neural sau: neural lấy tổng tất điện vào mà nhận được, phát xung điện tổng lớn ngưỡng Các neural nối với synapses Synapse gọi mạch cho phép truyền dẫn dễ dàng tín hiệu qua neural khác Ngược lại, synapse yếu truyền dẫn tín hiệu khó khăn Các synapses đóng vai trò quan trọng học tập Khi học tập hoạt động synapses tăng cường, tạo nên nhiều liên kết mạnh neural Có thể nói người học giỏi có nhiều synapses synapses mạnh mẽ, hay nói cách khác, liên kết neural nhiều, nhạy bén 1.1.2 Neural nhân tạo Neural nhân tạo đơn vị tính toán có nhiều đầu vào đầu ra, đầu vào đến từ liên kết Đặc trưng neural hàm kích hoạt phi tuyến chuyển đổi tổ hợp tuyến tính tất tín hiệu đầu vào thành tín hiệu đầu Hàm kích hoạt đảm bảo tính chất phi tuyến cho tính toán mạng neural Hình 1.2: Mô hình neural nhân tạo Một neural cầu tạo gồm thành phần : liên kết neural, cộng , hàm kích hoạt Liên kết neural thành phần mạng neural nhận tạo để liên kết neural, nối đầu neural lớp với đầu vào neural lớp khác Đặc trưng thành phần liên kết trọng số mà tín hiệu qua Thuyết minh đề tài NCKH Chương I: TÌM HIỂU MẠNG NEURAL nhân với trọng số Các trọng số liên kết tham số tự mạng neuron, thay đổi nhằm thích nghi với môi trường xung quanh Bộ cộng dùng để tính tổng tín hiệu đầu vào neural, nhân với trọng số liên kết tương ứng phép toán mô tả tạo nên hợp tuyến tính Hàm kích hoạt hay gọi hàm kích hoạt phi tuyến, chuyển đổi tổ hợp tuyến tính tất tín hiệu đầu vào thành tín hiệu đầu Hàm kích hoạt đảm bảo tính chất phi tuyến cho tính toán mạng neural Nó xem hàm giới hạn, giới hạn phạm vi biên độ cho phép tín hiệu đầu khoảng giá trị hữu hạn Mô hình neural hình 2.2 bao gồm hệ số điều chỉnh b tác động từ bên Hệ số điều chỉnh b có tác dụng tăng lên giảm đầu vào thực hàm kích hoạt, tùy theo dương hay âm Bảng 1.1 : Một số hàm kích hoạt mạng neural: Tên hàm Công thức hardlim a a = với n hardlims a -1 a = với n với n < 0 với n < 0 purelin a=n Satlin a = với n < a = n với n a = với n > satlins a = -1 a = n với với n < n a = với n > tansig a en  en  e n Thuyết minh đề tài NCKH poslin Chương I: TÌM HIỂU MẠNG NEURAL a a = n với n compet với n < 0 a = với neural có n lớn a = với neural lại logsig a 1  e n 1.2 Mạng Neural nhân tạo Là hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay gọi neural) tựa neural thần kinh não người, hoạt động song song nối với liên kết neural Mỗi liên kết kèm theo trọng số đó, đặc trưng cho tính kích hoạt ức chế neural Có thể xem trọng số phương tiện để lưu trữ thông tin dài hạn mạng neural nhiệm vụ trình huấn luyện mạng cập nhật trọng số có thêm thông tin mẫu học Hay nói cách khác, trọng số điều chỉnh cho dáng điệu vào mạng mô hoàn toàn phù hợp với môi trường xem xét Mô hình mạng neural Hình 1.3: Sơ đồ đơn giản mạng neural nhân tạo Thuyết minh đề tài NCKH Chương I: TÌM HIỂU MẠNG NEURAL Mô hình mạng neural gồm lớp: lớp nhập (input), lớp ẩn(hidden) lớp xuất (output) Mỗi nút lớp nhập nhận giá trị biến độc lập chuyển vào mạng Dữ liệu từ tất nút lớp nhập tích hợp – ta gọi tổng trọng số – chuyển kết cho nút lớp ẩn Gọi “ẩn” nút lớp liên lạc với nút lớp nhập lớp xuất, có người thiết kế mạng biết lớp (người sử dụng lớp này) Các nút lớp xuất nhận tín hiệu tổng trọng hóa từ nút lớp ẩn Mỗi nút lớp xuất tương ứng với biến phụ thuộc 1.3 Đặc trưng mạng neural 1.3.1 Tính phi tuyến Một neural tính toán cách tuyến tính hay phi tuyến Một mạng neural, cấu thành kết nối neural phi tuyến tự có tính phi tuyến Hơn nữa, điều đặc biệt tính phi tuyến phân tán toàn mạng Tính phi tuyến thuộc tính quan trọng, chế vật lý sinh tín hiệu đầu vào (ví dụ tín hiệu tiếng nói) vốn phi tuyến 1.3.2 Tính chất tương ứng đầu vào đầu Mặc dù khái niệm “học” hay “huấn luyện” chưa bàn đến để hiểu mối quan hệ đầu vào-đầu mạng neural, đề cập sơ qua khái niệm Một mô hình học phổ biến gọi học với người dạy hay học có giám sát liên quan đến việc thay đổi trọng số liên kết mạng neural việc áp dụng tập hợp mẫu tích luỹ hay ví dụ tích luỹ Mỗi ví dụ bao gồm tín hiệu đầu vào đầu mong muốn tương ứng Mạng neural nhận ví dụ lấy cách ngẫu nhiên từ tập hợp nói đầu vào nó, trọng số liên kết mạng biến đổi cho cực tiểu hoá sai khác đầu mong muốn đầu thực mạng theo tiêu chuẩn thống kê thích hợp Sự tích luỹ mạng lặp lại với nhiều ví dụ tập hợp mạng đạt tới trạng thái ổn định mà thay đổi đáng kể trọng số liên kết Các ví dụ tích luỹ áp dụng trước áp dụng lại thời gian Thuyết minh đề tài NCKH Chương I: TÌM HIỂU MẠNG NEURAL phiên tích luỹ theo thứ tự khác Như mạng neural học từ ví dụ cách xây dựng nên tương ứng đầu vào-đầu cho vấn đề cần giải 1.3.3 Tính chất thích nghi Các mạng neural có khả mặc định biến đổi trọng số liên kết tuỳ theo thay đổi môi trường xung quanh Đặc biệt, mạng neural tích luỹ để hoạt động môi trường xác định tích luỹ lại cách dễ dàng có thay đổi nhỏ điều kiện môi trường hoạt động 1.3.4 Tính chất đưa lời giải có chứng Trong ngữ cảnh phân loại mẫu, mạng neural thiết kế để đưa thông tin không mẫu phân loại, mà tin cậy định thực Thông tin sử dụng để loại bỏ mẫu mơ hồ hay nhập nhằng 1.3.5 Tính chất chấp nhận sai xót Một mạng neural, cài đặt dạng phần cứng, vốn có khả chấp nhận lỗi, hay khả tính toán thô, với ý nghĩa tính thoái hoá có điều kiện hoạt động bất lợi Ví dụ, neural hay liên kết kết nối bị hỏng, việc nhận dạng lại mẫu lưu trữ suy giảm chất lượng 1.3.6 Khả cài đặt VLSI (Very Large Scale Intergrated) Bản chất song song đồ sộ mạng neural làm cho nhanh tính toán số công việc Đặc tính tạo cho mạng neural khả phù hợp cho việc cài đặt sử dụng kỹ thuật Very-large-scale-intergrated (VLSI) Kỹ thuật cho phép xây dựng mạch cứng tính toán song song quy mô lớn Chính mà ưu điểm bật VLSI mang lại phương tiện hữu hiệu để xử lý hành vi có độ phức tạp cao 1.3.7 Tính chất đồng dạng phân tích thiết kế Về bản, mạng neural có tính chất chung xử lý thông tin Chúng ta nêu điều với ý nghĩa cho tất lĩnh vực có liên quan tới việc ứng dụng mạng neural Đặc tính thể số điểm sau: 10 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Chương V KẾT QUẢ HUẤN LUYỆN 5.1 Thu thập liệu cho việc huấn luyện mạng Neural Dưới số định dạng mẫu việc thu thập mẫu viết tay: Hình 5.1 Mẫu viết Abhinav Hình 5.2 Mẫu viết Abhishek 31 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.3 Mẫu viết Amit Hình 5.4 Mẫu viết Amit 32 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.5 Mẫu viết Anubhav Hình 5.6 Mẫu viết Barun Hình 5.7 Mẫu viết Kapala_Ma'am1 33 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.8 Mẫu viết Kapala_Ma'am2 Hình 5.9 Mẫu viết KimAnh Hình 5.10 Mẫu viết Linh 34 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.11 Mẫu viết Manish Hình 5.12 Mẫu viết Mayank Hình 5.13 Mẫu viết Nargdra 35 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.14 Mẫu viết Naveen Hình 5.15 Mẫu viết Ram Manghar Hình 5.16 Mẫu viết Sapneswar 36 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.17 Mẫu viết Sunil Hình 5.18 Mẫu viết Sunita_Maam Hình 5.19 Mẫu viết Sunita_Maam 37 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.20 Mẫu viết Swati Hình 5.21 Mẫu viết Tung Hình 5.22 Mẫu viết Tushar_Sir1 38 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.23 Mẫu viết Tushar_Sir2 Hình 5.24 Mẫu viết Vineet Hình 5.25 Mẫu viết Vishal 39 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN Hình 5.26 Mẫu viết Vuong 5.2 Xây dựng mạng huấn luyện Sau thu thập mẫu, ta xây dựng mạng noron huấn luyện mạng dựa mẫu thu thập Việc huấn luyện mạng thiết kế thành module riêng chương trình cho phép người dùng tạo kiểu mạng noron theo kiến trúc khác Hình 5.27 Form cho phép người dùng tạo vào huấn luyện mạng Dưới kết việc huấn luyện mạng với vài tham số khác nhau: 40 Thuyết minh đề tài NCKH No Số mẫu Noron Chương V KẾT QUẢ HUẤN LUYỆN Hàm Activation Hàm Lớp huấn lớp ẩn ẩn luyện Lớp Mome ntum Const ant Lỗi chấp nhận Hoà Hệ số Só vòng- n học (times) thàn h 130 10 logsig logsig traingdx 0.95 0.1 0.01 4-(1s) No 130 20 logsig Logsig Traingdx 0.95 0.1 0.01 2-(1s) No 130 30 logsig Logsig Traingdx 0.95 0.1 0.01 2-(1s) No 130 10 tansig Logsig Traingdx 0.95 0.1 0.01 6-(1s) No 130 20 tansig Logsig Traingdx 0.95 0.1 0.01 9-(1s) No 130 30 tansig Logsig Traingdx 0.95 0.1 0.01 6-(1s) No 130 10 logsig Logsig Trainscg 0.95 0.1 0.01 683-(20s) No 130 20 logsig Logsig Trainscg 0.95 0.1 0.75 420-(17s) No 130 20 logsig Logsig Trainscg 0.95 0.1 0.01 278-(10s) No 10 130 20 logsig Logsig Trainrp 0.95 0.1 0.01 648- (19s) No 11 130 20 logsig Logsig Trainscg 0.95 0.1 0.01 301-(15s) No 12 130 100 logsig Logsig Trainscg 0.95 0.1 0.01 176-(35s) Yes 13 130 200 logsig Logsig Trainscg 0.95 0.1 0.01 234-(90s) Yes 14 130 500 logsig Logsig Trainscg 0.95 0.1 0.01 248-(235s) Yes 15 130 100 logsig Logsig Trainscg 0.95 0.001 0.01 264-(45s) Yes 16 130 100 logsig Logsig Trainscg 0.75 0.1 0.71 283-(55s) Yes 17 130 1000 logsig Logsig Trainscg 0.85 0.001 0.05 310-(635s) Yes 18 130 50 tansig tansig Trainscg 0.45 0.1 0.05 5931- No (600s) 19 130 90 logsig logsig Traingdx 0.75 0.01 0.75 1-(1s) No 20 130 90 logsig logsig Trainscg 0.75 0.01 0.75 221-(41s) Yes 21 130 150 logsig logsig Trainscg 0.75 0.01 0.75 220-(65s) Yes 22 130 150 logsig logsig Trainscg 0.75 0.0001 0.75 316-(92s) Yes 23 130 70 logsig logsig Trainscg 0.55 0.01 0.95 197-(28s) Yes 24 130 70 logsig logsig Trainscg 0.95 0.01 0.95 201-(33s) Yes 25 130 70 logsig logsig Trainscg 0.05 0.01 0.95 195-(27s) Yes 26 130 70 logsig logsig Trainscg 0.55 0.01 0.25 184-(29s) Yes 41 Thuyết minh đề tài NCKH Chương V KẾT QUẢ HUẤN LUYỆN 27 130 70 logsig logsig Trainscg 0.55 0.01 0.45 268-(39s) Yes 28 130 70 logsig logsig Trainscg 0.55 0.01 0.75 224-(32s) Yes 29 130 100 logsig logsig Trainscg 0.55 0.01 0.75 284-(58s) Yes 30 130 100 logsig logsig Trainscg 0.55 0.01 0.65 284-(57s) Yes Dựa vào số kết bảng trên, trình huấn luyện mạng ta nên sử dụng hàm logsig cho nút tầng khác sử dụng hàm Traingscg việc huấn luyện mạng dễ dàng thành công 42 Thuyết minh đề tài NCKH KẾT LUẬN KẾT LUẬN Dựa vào kết huấn luyện mạng nêu trên, có rút số kết luận sau: Huấn luyện mạng neural có thành công hay không phụ thuộc nhiều vào giá trị khởi tạo ban đầu Nếu lựa chọn giá trị tối ưu việc huấn luyện nhanh đạt kết Chất lượng trình huấn luyện phụ thuộc nhiều vào chất lượng tập mẫu Nếu tập mẫu nhiều, đầy đủ, chất lượng nhận tri thức mạng cao, nhiên thời gian huấn luyện lâu Thời gian huấn luyện phụ thuộc nhiều vào lựa chọn tham số đầu vào nút ẩn, nút ra, nút vào 43 Thuyết minh đề tài NCKH TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn, “Ứng dụng mạng nơron nhân tạo hệ thống xử lý biểu mẫu tự động”, Kỷ yếu hội nghị kỷ niệm 25 năm thành lập Viện Công nghệ Thông tin, 2001, tr 560-567 [2] Bùi Minh Trí, “Quy hoạch toán học”, Nhà xuất Khoa học kỹ thuật, Hà nội, 2006 [3] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học Điều khiển học, Tập 17, số 4, 2001, tr 57-65 [4] Nguyễn Thị Thanh Tân, Ngô Quốc Tạo, “Một cấu trúc mạng nơ ron thích hợp cho việc nhận dạng chữ số viết tay”, Kỷ yếu hội thảo FAIR03, NXB KH&KT Hà Nội, 2004, tr 200-210 [5] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học Điều khiển học, Tập 22, số 2, 2006, tr 141-154 [6] Nguyễn Thị Thanh Tân, Lương Chi Mai, “Phương pháp nhận dạng từ viết tay dựa mô hình mạng nơ ron kết hợp với thống kê từ vựng”, Tạp chí Tin học Điều khiển học, Tập 22, số 2, 2006, tr 141-154 Tiếng Anh [7] J Platt, N Cristianini and J Shawe-Taylor, “Large Margin DAGs for Multiclass Classification”, In Advances in Neural Information Processing Systems, volume 2, pp 547-553, 2000 [8] Nguyen, D.D., Ho, T.B., A Bottom-up Method for Simplifying Support Vector Solutions, IEEE Transactions on Neural Networks, Vol.17, No 3, 2006, pp 792796 [9] Sergios Theodoridis and Konstantinos Koutroumbas, “Pattern Recognition”, Academic Press, 2006 44 Thuyết minh đề tài NCKH TÀI LIỆU THAM KHẢO [10] Robert A Dunne, “A Statistical Approach to Neural Networks for Pattern”, N Y.: John Wiley & Sons, 2007 [11] S W Lee, Y J Kim, “Multiresolutional Recognition of Handwritten Numerals with Wavelet Transform and Multilayer Cluster Neural Network”, in Proc 3rd Int Conf Document Analysis and Recognition, pp.1010-1014, Montreal, Canada, 1995 45

Ngày đăng: 20/07/2016, 01:31

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan