Giáo trình nhận dạng và xử lý ảnh

GIÁO TRÌNH NHẬN DẠNG VÀ XỬ LÝ ẢNH Biên soạn: TS Hồng Văn Dũng Tháng năm 2018 Lời nói đầu Cùng với phát triển nhanh chóng khoa học cơng nghệ, kỹ thuật dựa trí tuệ nhân tạo thị giác máy tính ứng dụng hệ thống thông minh đạt kết vượt bậc, có nhiều triển vọng Cuộc cách mạng cơng nghiệp lần thứ (Industry 4.0) diễn phạm vi toàn cầu, đặc biệt nước có khoa học kỹ thuật phát triển… Industry 4.0 tập trung vào sản xuất dịch vụ thông minh chủ yếu dựa hệ thống tương tác thực ảo, hệ thống thông minh dần thay người Nền tảng hệ thống thông minh nói bắt nguồn từ lĩnh vực trí tuệ nhân tạo thị giác máy Trong đó, thị giác máy giác quan máy quan trọng giúp cho q trình thu nhận tín hiệu, xử lý, phân tích nhằm đưa tri thức phục vụ hệ thống định Trong thời gian qua, kỹ thuật lĩnh vực thị giác máy tính, mà cụ thể xử lý ảnh nhận dạng nhiều nhà khoa học, tập đoàn công nghệ trọng nghiên cứu, phát triển, làm thay đổi hướng tiếp cận truyền thống ví dụ kỹ thuật học sâu Vì thế, kiến thức xử lý ảnh, nhận dạng mẫu, trí tuệ nhân tạo, học máy trở thành môn học quan trọng sinh viên chuyên ngành liên quan đến khoa học máy tính, cơng nghệ thơng tin, tự động hóa trường đại học Việt Nam Tuy nhiên, tài liệu tiếng Việt cho sinh viên người quan tâm lại có giới hạn cập nhật cơng nghệ, kỹ thuật Giáo trình Nhận dạng xử lý ảnh nhằm cung cấp kiến thức kỹ thuật xử lý hình ảnh giới thiệu số phương pháp trí tuệ nhân tạo áp dụng phân tích hình ảnh nhận dạng mẫu Kỹ thuật học sâu hướng tiếp cận nhiều nhà khoa học nghiên cứu công ty công nghệ quan tâm khả ứng dụng cao thực tế trình bày tài liệu Nội dung giáo trình gồm chương trình bày kiến thức nhập mơn xử lý ảnh, phương pháp nâng cao phân tích, nhận dạng mẫu, kỹ thuật học sâu như: phép biến đổi, điều chỉnh nâng cao chất lượng ảnh; biến đổi ảnh màu, ảnh đa mức xám, toán tử tích chập, lọc ảnh phép biến đổi khơng gian ảnh, biến đổi hình thái học ứng dụng phân tích vùng ảnh, trích biên đối tượng; phương pháp phân đoạn ảnh theo phân ngưỡng thủ công, phân ngưỡng tự động; phương pháp phân tích ảnh phân đoạn ảnh thuật toán phân cụm k-means, Meanshift, Watershed, trích chọn đặc trưng kỹ thuật trích chọn cạnh, điểm (keypoint) mơ tả vùng đặc trưng vùng ảnh Giáo trình giới thiệu số phương pháp trích chọn đặc trưng nâng cao SIFT, SUFT, HOG, Haar-like feature; phương pháp so khớp đặc trưng ảnh phục vụ phát đối tượng tương đồng nhận dạng mẫu với kỹ thuật lọc loại trừ nhiễu so khớp ảnh Phần cuối trình bày kỹ thuật nhận dạng mẫu phân loại đối tượng từ cách tiếp cận truyền thống định, rừng ngẫu nhiên, boosting, máy phân loại hỗ trợ vector SVM, mạng neural nhân tạo đến kỹ thuật học sâu, mạng neural tích chập mạng LeNet, AlexNet, ZFNet, GooLeNet, VGGNet, R-CNN kiến trúc mạng mô tả ngữ nghĩa ảnh Tài liệu biên soạn dựa kinh nghiệm tích lũy qua q trình nghiên cứu giảng dạy tác giả liên quan đến lĩnh vực thị giác máy tính, trí tuệ nhân tạo hệ thống thơng minh Hy vọng, giáo trình tài liệu hữu ích phục vụ học tập, tham khảo cho sinh viên ngành liên quan đến khoa học máy tính, cơng nghệ thơng tin, độc giả quan tâm đến lĩnh vực nhận dạng xử lý ảnh ứng dụng trí tuệ nhân tạo nhận dạng mẫu Tác giả xin chân thành cảm ơn ý kiến đóng góp, hỗ trợ đồng nghiệp đặc biệt quan tâm Lãnh đạo Trường Đại học Quảng Bình trình biên soạn tài liệu Trong trình biên soạn, giáo trình chắn khơng thể tránh khỏi thiếu sót Tác giả mong nhận ý kiến đóng góp quý thầy cô, nhà nghiên cứu, sinh viên độc giả để tác giả điều chỉnh hợp lý, kịp thời Góp ý xin gửi về: Hồng Văn Dũng Trường Đại học Quảng Bình 312 Lý Thường Kiệt, TP Đồng Hới, Quảng Bình Email: zunghv@gmail.com Người biên soạn: Hồng Văn Dũng MỤC LỤC CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH 1 1.1 Tổng quan xử lý ảnh 1 1.1.1 Các khái niệm ảnh số, điểm ảnh 1 1.1.2 Các thành phần hệ thống xử lý ảnh 3 1.1.3 Các ứng dụng 4 1.2 Hệ màu loại ảnh 4 1.2.1 Các hệ màu thông dụng 4 1.2.2 Một số loại ảnh thông dụng 7 1.3 Cấu trúc liệu ảnh 9 1.3.1 Cấu trúc ảnh vector 9 1.3.2 Cấu trúc ảnh raster 10 1.4 Một số định dạng ảnh phổ biến 10 1.4.1 Định dạng ảnh TIFF 11 1.4.2 Định dạng ảnh GIF 11 1.4.3 Định dạng hình ảnh JPG 12 1.4.4 Định dạng ảnh BMP 12 1.4.5 Định dạng ảnh PNG 13 1.4.6 So sánh chuẩn định dạng 13 Câu hỏi tập 13 CHƯƠNG 2. BIẾN ĐỔI XỬ LÝ ẢNH 15 2.1 Khái niệm 15 2.2 Các phép biến đổi điểm ảnh 16 2.2.1 Lược đồ ảnh 16 2.2.2 Điều chỉnh mức sáng 16 2.2.3 Điều chỉnh độ tương phản 17 2.2.4 Cân lược đồ ảnh 18 2.2.5 Biến đổi ảnh màu đa mức xám 20 2.3 Các phương pháp xử lý ảnh thông dụng 22 2.3.1 Phương pháp tích chập 22 2.3.2 Các kỹ thuật lọc thông dụng 23 2.4 Các phép biển đổi toàn cục 28 2.4.1 Biến đổi cosin rời rạc 28 2.4.2 Biến đổi Fourier rời rạc 31 2.5 Biến đổi hình thái học 34 2.5.1 Phần tử cấu trúc 34 2.5.2 Phép co ảnh – Erosion 35 i 2.5.3 Phép giãn ảnh – Dilation 36 2.5.4 Phép mở ảnh – Openning 36 2.5.5 Phép đóng ảnh- Closing 37 2.5.6 Phép biến đổi "Hit or miss" 37 2.5.7 Ứng dụng kỹ thuật hình thái học 39 Câu hỏi tập 43 CHƯƠNG 3. PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH 46 3.1 Tổng quan phân đoạn ảnh 46 3.2 Phân đoạn ngưỡng 47 3.2.1 Phân ngưỡng thủ công 48 3.2.2 Phân đoạn ngưỡng tự động 48 3.2.3 Phân đoạn kỹ thuật Otsu 53 3.3 Phân đoạn k-means 55 3.4 Kỹ thuật phân đoạn MeanShift 58 3.5 Phân đoạn kỹ thuật Watershed 59 3.6 Phân đoạn phân cấp 62 Câu hỏi tập 63 CHƯƠNG 4. TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN 65 4.1 Các khái niệm 65 4.1.1 Đặc trưng trích chọn đặc trưng ảnh 65 4.1.2 Đặc trưng mức thấp 66 4.1.3 Đặc trưng mức cao 67 4.2 Kỹ thuật trích chọn đặc trưng cạnh 67 4.2.1 Trích chọn biên tốn tử Sobel 68 4.2.2 Trích chọn biên toán tử Prewitt 69 4.2.3 Trích chọn biên tốn tử Robert 70 4.2.4 Trích chọn biên phương pháp Canny 70 4.3 Kỹ thuật trích chọn đặc trưng điểm 72 4.3.1 Trích xuất điểm góc 72 4.3.2 Trích xuất đặc trưng đốm 77 Câu hỏi tập 80 CHƯƠNG 5. ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH 83 5.1 Giới thiệu chung 83 5.2 Mô tả đặc trưng SIFT 83 5.2.1 Đặc trưng SIFT 83 5.2.2 Quá trình xử lý SIFT 84 5.3 Mô tả đặc trưng SURF 89 ii 5.3.1 Giới thiệu đặc trưng SURF 89 5.3.2 Phát keypoint 90 5.3.3 Mô tả đặc trưng SURF 92 5.4 Mô tả đặc trưng Haar 94 5.4.1 Đặc trưng Haar 94 5.4.2 Trích xuất đặc trưng Haar 94 5.4.3 Mở rộng đặc trưng Haar 95 5.5 Mô tả đặc trưng HOG 97 5.5.1 Đặc trưng HOG 97 5.5.2 Quá trình trích rút đặc trưng HOG 98 5.5.3 Các biến thể biểu diễn đặc trưng HOG 101 5.6 So khớp ảnh 102 5.6.1 Giới thiệu so khớp ảnh 102 5.6.2 Thuật toán Brute- Force 103 5.6.3 So khớp ảnh dùng mô tả SIFT 103 5.6.4 So khớp ảnh dùng mô tả SURF 104 5.6.5 So khớp dựa vào điểm góc Harris 105 5.7 Kỹ thuật lọc nhiễu so khớp ảnh 106 5.7.1 Lọc theo bình phương tối thiểu 106 5.7.2 Phương pháp đồng thuận ngẫu nhiên 107 5.8 Ví dụ áp dụng nhận dạng 110 Câu hỏi tập 112 CHƯƠNG 6. KỸ THUẬT NHẬN DẠNG 114 6.1 Giới thiệu chung 114 6.2 Cây định 115 6.2.1 Khái niệm 115 6.2.2 Thuật toán ID3 xây dựng định 115 6.2.3 Thuật toán C4.5 xây dựng định 118 6.2.4 Rừng ngẫu nhiên 119 6.3 Kỹ thuật Boosting 120 6.4 Máy phân loại vector hỗ trợ 122 6.4.1 Giới thiệu 122 6.4.2 Phân loại tuyến tính 123 6.4.3 Phân loại tuyến tính lề mềm 125 6.4.4 Hàm nhân 126 6.4.5 Tuyến tính hóa phân loại phi tuyến 127 6.5 Mạng neural nhân tạo 128 iii 6.6 Kỹ thuật trượt window nhận dạng 131 6.6.1 Vấn đề trượt window 131 6.6.2 Gom mẫu nhận dạng chồng lấp 132 6.6.3 Huấn luyện mơ hình 133 6.6.4 Nhận dạng đối tượng ảnh 134 Câu hỏi tập 135 CHƯƠNG 7. KỸ THUẬT HỌC SÂU 137 7.1 Tổng quan học sâu 137 7.2 Mạng neural sâu 139 7.3 Mạng neural tích chập 140 7.3.1 Lớp tích chập 141 7.3.2 Lớp pooling 142 7.3.3 Lớp hiệu chỉnh 144 7.3.4 Lớp chuẩn hóa 145 7.3.5 Lớp kết nối đầy đủ: 145 7.3.6 Lớp Dropout: 146 7.3.7 Lớp đầu 146 7.3.8 Tạo mạng học sâu với Matlab 147 7.4 Một số kiến trúc mạng tích chập học sâu 150 7.4.1 Mạng LeNet 150 7.4.2 Mạng AlexNet 151 7.4.3 Mạng ZFNet 153 7.4.4 Mạng GoogLeNet 154 7.4.5 Mạng VGGNet 156 7.4.6 Mạng R-CNN 157 7.5 Mô tả ngữ nghĩa ảnh với học sâu 159 7.5.1 Bộ mô tả ảnh 159 7.5.2 Mơ hình suy diễn mối liên kết 160 7.5.3 Mơ hình sinh diễn tả ảnh 161 Câu hỏi tập 161 Tài liệu tham khảo 163 iv CHƯƠNG 1.NHẬP MÔN XỬ LÝ ẢNH Chương giới thiệu kiến thức nhập môn xử lý ảnh như: Những khái niệm liên quan đến ảnh kỹ thuật số, thành phần hệ thống xử lý ảnh, loại hệ màu bản, loại ảnh thông dụng, cấu trúc liệu ảnh kiểu định dạng phổ biến ảnh số 1.1 Tổng quan xử lý ảnh 1.1.1 Các khái niệm ảnh số, điểm ảnh 1.1.1.1 Ảnh số Ảnh số (digital image) xem biểu diễn liệu rời rạc thể thông tin không gian cường độ màu) Ảnh số gồm tập hợp hữu hạn phần tử biểu diễn giá trị số Ảnh số biểu diễn dạng ma trận hai chiều, phần tử ảnh số gọi điểm ảnh (pixel)[1] Tùy thuộc vào độ phân giải cố định hay biến đổi mà điểm ảnh biểu diễn dạng vector dạng bitmap Ảnh số xác định theo mảng hai chiều biểu diễn cường độ sáng điểm ảnh với giá trị cố định, xác định theo hàm hai chiều f(x, y), x y tọa độ không gian độ lớn (amplitude) hàm f gọi độ sáng (intensity) hay độ xám (gray level) ảnh điểm Ảnh rời rạc hai chiều, I(m,n) biểu diễn thông tin thu từ cảm biến chuỗi vị trí cố định (m = 1, 2, , M; n= 1, 2, , N) tọa độ Cartesian hai chiều biến đổi từ tín hiệu liên tục khơng gian chiều thơng qua q trình xử lý tần số liên tục sang miền rời rạc 1.1.1.2 Điểm ảnh Thuật ngữ điểm ảnh dịch từ thuật ngữ gốc pixel (viết tắt cụm từ picture element) nghĩa phần tử ảnh[1] Phần tử ảnh xác định theo toạ độ (x, y) tương ứng với số thứ tự cột hàng ảnh Giá trị phần tử ảnh xác định giá trị cường độ mức xám màu định Kích thước khoảng cách điểm ảnh biểu diễn thích hợp cho mắt người cảm nhận liên tục không gian mức xám (màu) ảnh số gần với hình ảnh khơng gian thật Số điểm ảnh diện tích biểu diễn xác định độ phân giải ảnh số Ảnh có độ phân giải cao thể rõ nét đặc điểm hình ảnh, làm cho hình ảnh trở nên gần với thực tế thực sắc nét hơn, 1.1.1.3 Các dạng ảnh Nội dung thơng tin điểm ảnh xem xét nhiều khía cạnh khác tùy thuộc vào dạng ảnh Ví dụ ảnh màu (colour image), ảnh đa mức xám (grey image), ảnh nhị phân (binary image), ảnh hồng ngoại (infrared image), – Ảnh màu: Ảnh màu thường ảnh chứa thông tin đối tượng biểu diễn dạng màu sắc mà mắt thường quan sát Mỗi điểm ảnh có cấu trúc gồm nhiều kênh màu khác nhau, thơng thường máy tính, biểu diễn ba lớp màu RGB, gồm màu đỏ (red), xanh (green) xanh lam (blue) – Ảnh đa mức xám: Ảnh đa mức xám thường biểu diễn thông tin liên quan đến cường độ đa mức xám đối tượng không gian mà màu sắc thực - Ảnh nhị phân: Ảnh biểu diễn đối tượng hai mức 1, thường dùng để biểu diễn, phân biệt xuất đối tượng ảnh - Ảnh hồng ngoại: Biểu diễn trực quan quang phổ, liên quan đến phổ điện từ Ảnh hồng ngoại cung cấp thông tin ảnh dựa phản xạ ánh sáng hồng ngoại xạ hồng ngoại mà đối tượng khung nhìn phát Dựa vào khả thu nhận phản xạ xạ hồng ngoại mà loại camera hồng ngoại thu hình ảnh điều kiện khơng có ánh sáng nhìn thấy ánh sáng 1.1.1.4 Mức xám Giá trị mức xám kết ánh xạ giá trị độ sáng điểm ảnh màu không gian thực với giá trị số nguyên dương thể mức độ sáng tối điểm ảnh Các thang giá trị mức xám thường dùng 2, 16, 32, 64, 128, 256 Ảnh đa mức xám thường dùng 256, mức xám thường xác định khoảng [0, 255] tuỳ thuộc vào giá trị mà điểm ảnh biểu diễn 1.1.1.5 Độ phân giải ảnh Kính thước lưới pixel hai chiều với kích thước liệu lưu trữ cho pixel xác định độ phân giải không gian chất lượng màu ảnh[1] Xét mặt khơng gian độ phân giải số cột số hàng ảnh xác định số lượng pixel sử dụng để biểu diễn hình ảnh thu từ giới thực Như vậy, độ phân giải không gian (spatial resolution) ảnh mật độ pixel xác định ảnh số Một số độ phân giải thông thường sử dụng thiết bị hiển thị lĩnh vực xử lý ảnh 640× 480, 800 × 600, 1024 × 768 (HD), 192 × 1080 (full HD), 3840 × 2160 (UHD),… Độ phân giải bit liên quan đến chất lượng ảnh, định nghĩa số lượng giá trị khác biểu diễn cường độ sáng màu sắc Ví dụ ảnh nhị phân biểu diễn hai trạng thái giá trị khác (đen trắng) pixel loại dùng bit, ảnh đa mức xám dùng 8bit cho pixel, biểu diễn 256 giá trị khác từ màu đen (giá trị 0) đến trắng (giá trị 255), ảnh màu RGB dùng 24 bit biểu diễn 16 triệu màu (224=16.777.216) Độ phân giải bit ảnh không thiết phải tương ứng với độ phân giải hệ thống ảnh Thông thường máy ảnh đại ngày tự động điều chỉnh để đáp ứng tối đa tối thiểu trường ảnh thu nhận phạm vi chia tự động thành số lượng phù hợp bit, ví dụ chia thành N mức Trong trường hợp vậy, độ phân giải bit ảnh thường thấp độ xác thiết bị 1.1.2 Các thành phần hệ thống xử lý ảnh Một hệ thống xử lý ảnh thường bao gồm thành phần thiết bị phần cứng (máy ảnh) để chụp hình lưu trữ liệu, công cụ phần mềm phục vụ xử lý giải yêu cầu chức hệ thống đề Trong lĩnh vực khoa học máy tính, hệ thống xử lý ảnh đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy (computer vision), trình biến đổi từ ảnh ban đầu thu nhận từ thiết bị sang không gian cho làm bật đặc tính liệu, thuận lợi cho q trình xử lý thơng tin nâng cao độ xác[2] Một hệ thống xử lý ảnh thường gồm số thành phần sau: Thu Tiền Trích chọn Phân loại, nhận nhận xử lý đặc trưng dạng mẫu Ra Biểu diễn định tri thức Hình 1.1 Sơ đồ tổng quát hệ thống xử lý ảnh Thu nhận ảnh việc hình ảnh giới thực thu nhận chuyển qua tín hiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số thiết bị thu hình ảnh khác Tiền xử lý bước xử lý ảnh đầu vào nhằm khử nhiễu, làm bật số tính chất ảnh nhằm nâng cao chất lượng bước xử lý sau Trích chọn đặc trưng trình biến đổi liệu ảnh đầu vào thành tập đặc trưng Các đặc trưng thường có đặc tính phân biệt cao mẫu đầu vào giúp cho việc phân biệt mẫu liệu ảnh dễ dàng nhằm nâng cao chất lượng phân loại mẫu so với xử lý liệu thô giá trị pixel ảnh Việc trích chọn đặc trưng làm giảm kích thước thể thơng tin ảnh liệu đặc trưng ảnh có tính phân biệt cao Phân loại, nhận dạng mẫu trình xử lý liệu kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu nhóm có số tính chất chung Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy, bao gồm học có giám sát học khơng có giám sát Biểu diễn tri thức bước thể mức cao biểu diễn liệu, mẫu liệu sau phân loại, nhận dạng biểu diễn dạng tri thức giúp hệ thống có khả “hiểu biết” ngữ nghĩa theo kiểu ứng dụng khác hệ thống trí tuệ nhân tạo hệ thống thơng minh Hiện nay, có nhiều cơng cụ gói phần mềm tích hợp mơ hình mạng tích chập AlexNet Trong phần mềm ngơn ngữ lập trình Matlab, mơ hình Pretrained AlexNet tích hợp vào cơng cụ Neural Network từ năm 2017 với kiến trúc 25 lớp bảng minh họa sau TT Kiểu lớp Image Input Convolution ReLU Cross Channel Normalization Max Pooling Convolution ReLU Cross Channel Normalization Max Pooling 10 Convolution 11 ReLU 12 Convolution 13 ReLU 14 Convolution 15 16 17 18 19 20 21 22 23 24 25 ReLU Max Pooling Fully Connected ReLU Dropout Fully Connected ReLU Dropout Fully Connected Softmax Classification Mô tả Ảnh đầu vào kích thước chuẩn hóa 227x227x3 96 lọc tích chập kích thước 11×11×3, bước trượt với stride [4 4] padding [0 0] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Chuẩn hóa cross channel với kênh/phần Lớp max pooling sử dụng kích thước 3x3, bước trượt stride [2 2] padding [0 0] 256 lọc tích chập kích thước 5×5×48, bước trượt với stride [1 1] padding [2 2] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Chuẩn hóa cross channel với kênh/phần 3x3 max pooling with stride [2 2] and padding [0 0] 384 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 384 lọc tích chập kích thước 3×3×192, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×192, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 3x3 max pooling with stride [2 2] and padding [0 0] Lớp kết nối đầy đủ với 4096 nút đầu Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Sử dụng dropout 50% Lớp kết nối đầy đủ với 4096 nút đầu Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Sử dụng dropout 50% Lớp kết nối đầy đủ với 1000 nút đầu Sử dụng lọc softmax Phân loại với đầu 1.000 lớp Bảng 7.1 Bảng mô tả kiến trúc 25 lớp mạng AlexNet Matlab26 Một số đặc điểm mơ hình AlexNet sau: - Mơ hình pretrain AlexNet huấn luyện tập liệu lớn ImageNet[66] Tập liệu lớn gồm 15 triệu ảnh tạo nhãn (annotation) với tổng cộng 22 nghìn lớp đối tượng khác 26 https://www.mathworks.com/help/nnet/ref/alexnet.html 152 - Sử dụng lớp ReLU (rectified linear unit) thay cho hàm phi tuyến nhằm giảm làm thời gian huấn luyện Kết cho thấy dùng kiểu lớp ReLU nhanh nhiều lần so với hàm truyền thống khác (hàm lượng giác hyperbolic), sigmoid - Sử dụng kỹ thuật tăng cường liệu (data augmentation) nhằm làm gia tăng liệu huấn luyện từ liệu gốc phép biến đổi hình học phép quay, tịnh tiến, trích xuất vùng con, co giãn làm méo ảnh - Thực nhiều lớp dropout nhằm giải vấn đề khớp (overfitting) tập liệu huấn luyện - Huấn luyện mơ hình sử dụng phương pháp giảm gradient ngẫu nhiên (stochastic gradient descent) với giá trị đặc biệt cho thông số động lượng (momentum) trọng số phân rã (weight decay) nhằm tìm cực trị theo đạo hàm bậc - Thành công AlexNet bước tiên phong, tạo tiền đề cho phát triển vượt bậc kỹ thuật trí tuệ nhân tạo Sự thành cơng AlexNet phần nhờ vào kỹ thuật xử lý song song GPU, mơ hình pretrain AlexNet huấn luyện GPU GTX 580 với thời gian từ đến ngày 7.4.3 Mạng ZFNet Sau thành công vang dội AlexNet, nhóm nghiên cứu Zeiler Fergus [67] tiếp tục nghiên cứu đề xuất mơ hình kiến trúc mạng CNN với tên gọi ZFNet (ZF viết tắt Zeiler Fergus) Về nhóm tác giả ZFNet phát triển dựa tảng mạng AlexNet, đặc biệt tinh chỉnh siêu tham số kích thước nhân tích chập (convolutional kernel size), bước trượt (stride),… Hình 7.14 Kiến trúc lớp mơ hình FZNet [67] Một số đặc điểm mơ hình kiến trúc FZNet: - Kiến trúc mạng FZNet tương đồng với mạng AlexNet, ngoại trừ số thay đổi nhỏ Mạng ZFNet sử dụng mặt nạ phép tích chập với kích thước 7×7 giảm khoảng cách bước trượt mặt nạ (stride), AlexNet sử dụng kích thước mặt nạ 11×11 Việc sử dụng mặt nạ tích chập nhỏ giúp trì thơng tin chi tiết pixel gốc tốt có tốc độ xử lý nhanh - Mơ hình pretrain mạng ZFNet sử dụng khoảng 1,3 triệu ảnh để huấn luyện, AlexNet dùng 15 triệu ảnh 153 - Mạng ZFNet dùng nhiều lớp ẩn để giải tốn độ xác Số lượng lọc tăng đáng kể so với kiến trúcAlexNet trước giúp cải thiện chất lượng biểu diễn đặc trưng liệu nhằm nâng cao độ xác - Sử dụng ReLU cho hàm kích hoạt với hàm lỗi (error function) dựa hàm crossentropy loss trình huấn luyện sử dụng phương pháp dốc gradient (gradient descent) ngẫu nhiên 7.4.4 Mạng GoogLeNet Nhóm nghiên cứu Szegedy công ty Google thực số thay đổi nhằm giảm thiểu số lượng tham số AlexNet từ 60 triệu xuống triệu Trong đó, GoogLeNet[68] sử dụng lớp Pooling trung bình (average pooling) trước lớp kết nối đầy đủ FC-Layer giúp tăng độ xác top-1 lên khoảng 0,6%[68] Tuy nhiên, việc sử dụng lớp dropout cần thiết sau loại bỏ nhiều lớp kết nối đầy đủ Mơ hình huấn luyện với triệu ảnh có khả phân loại 1.000 lớp đối tượng khác Kết quả, mơ hình huấn luyện pretrain thể đặc trưng cấp cao với nguồn liệu ảnh chứa lượng lớn lớp đối tượng Lớp đối tượng chi tiết mà mạng nhận dạng bàn phím, chuột máy tính, nhiều loại bút viết, động vật, đồ vật, Mơ hình GoogLeNet đánh giá mạng neural học sâu tốt năm 2014 Về số khía cạnh, có khả phân lớp, nhận dạng đối tượng tốt người Hình 7.15 Một dạng cụ thể kiến trúc mạng GoogLeNet[67] 154 Trong mạng GoogLeNet, người ta đề cập đến khái niệm mới- Inception Inception nhìn qua xem mạng con, CNN thưa với cấu trúc chuẩn hóa, thể hình minh họa Inception có số neural hoạt động hiệu xác định thông qua kích thước đặc biệt lọc convolution Các lọc convolution sử dụng nhiều mức tỷ lệ kích thước khác 5×5, 3×3 1×1 Inception GoogLeNet sử dụng 192 kênh đầu vào Nó có 128 lọc với kích thước 3×3 32 lọc với kích thước 5×5 Thứ tự tính tốn lọc 5×5 25×32×192, tăng lên sâu vào mạng độ rộng số lượng lọc 5×5 tăng lên Để tránh việc tăng trưởng này, module Inception sử dụng tích chập 1×1 trước sử dụng lọc lớn nhằm giảm số chiều kênh đầu vào trước đưa vào thực tích chập Vì module Inception đầu tiên, đầu vào cho module dạng tích chập 1×1 với 16 lọc trước thực tích chập 5×5 Điều làm giảm phép tính tốn xuống 16×192 + 25×32×16 Tất thay đổi cho phép mạng có độ sâu rộng Hình 7.16 Module Inception[67] Một số điểm kiến trúc GoogLeNet thể sau: - Kiến trúc sử dụng Inception với 100 lớp, độ sâu mạng tăng đáng kể so với kiến trúc mạng trước vài chục lớp - Mạng không sử dụng lớp nhiều lớn FC GoogLeNet sử dụng lớp average pooling để chuyển từ kích thước 7×7×1024 kích thước 1×1×1024 Lớp giúp giảm đáng kể số lượng tham số mạng Về tổng thể, kiến trúc GoogLeNet sử dụng 12 lần tham số so với kiến trúc AlexNet - Hiện Google tiếp tục phát triển kiến trúc này, chủ yếu tập trung vào việc cải thiện phát triển Inception qua phiên bản, với phiên InceptionV7 Bên cạnh đó, Google phát triển Framework Tensorflow27 với ngơn ngữ lập trình chủ yếu Python C/C++ Tensorflow có cộng đồng phát triển ứng dụng rộng phát triển nhanh chóng 27 https://www.tensorflow.org/ 155 Hình 7.17 Mạng neural học sâu đơn giản gồm inception 7.4.5 Mạng VGGNet Mạng VGGNet nghiên cứu đề xuất Simonyan Zisserman[69] Tại thời điểm năm 2015, VGGNet xem mạng tốt Một đặc điểm mạng sử dụng lọc tích chập 3×3 lọc pooling 2×2, thống kích thước từ lớp đầu đến lớp cuối mạng TT Kiểu lớp Image Input Convolution ReLU Convolution ReLU Max Pooling Convolution ReLU Convolution 10 11 ReLU Max Pooling 12 Convolution 13 14 ReLU Convolution 15 16 ReLU Convolution 17 18 ReLU Max Pooling Mô tả Ảnh đầu vào kích thước chuẩn hóa 224x224x3 64 lọc tích chập kích thước 3×3×3, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 64 lọc tích chập kích thước 3×3×64, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt stride [2 2] padding [0 0] 128 lọc tích chập kích thước 3×3×64 , bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 128 lọc tích chập kích thước 3×3×128, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] 256 lọc tích chập kích thước 3×3×128, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với 156 19 Convolution 20 21 ReLU Convolution 22 23 ReLU Convolution 24 25 ReLU Max Pooling 26 Convolution 27 28 ReLU Convolution 29 30 ReLU Convolution 31 32 ReLU Max Pooling 33 34 35 36 37 38 39 40 41 Fully Connected ReLU Dropout Fully Connected ReLU Dropout Fully Connected Softmax Output stride [2 2] padding [0 0] 512 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] Lớp kết nối đầy đủ với đầu 4096 Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 50% dropout Lớp kết nối đầy đủ với đầu 4096 Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 50% dropout Lớp kết nối đầy đủ với đầu 1000 Sử dụng lọc softmax Phân loại với đầu 1.000 lớp Bảng 7.2 Bảng mô tả kiến trúc 41 lớp mạng VGGNet 7.4.6 Mạng R-CNN Mạng R-CNN (Regions proposal convolutional neural netwwork) lần đầu tiền giới thiệu năm 2013 Girshick cộng [70] Một số nhà nghiên cứu cho đời R-CNN có tác động mạnh mẽ thuật toán, kiến trúc mạng trước mơ hình kiến trúc Chỉ thời gian ngắn có nghìn báo khoa học trích dẫn tới Mục đích R-CNN giải vấn đề nhận dạng đối tượng ảnh Quá trình xử lý chia thành phần chính: Bước đề xuất vùng (region proposal) bước phân loại (classification) Bước đề xuất vùng sử dụng thuật toán tìm kiếm chọn lọc (selective search) để tìm kiếm vùng chứa đối tượng ứng viên (bounding boxes) Việc tìm kiếm chọn lọc thực chức tạo khoảng 2.000 vùng khác mà có xác suất cao chứa đối tượng Sau đó, đưa đề xuất vùng chuẩn hóa lại theo kích thước chuẩn để đưa vào 157 huấn luyện phân lớp Việc huấn luyện phân loại thực sở sử dụng mạng xNet, VGG16 để tính tốn trích xuất vector đặc trưng cho vùng Vector sau sử dụng đầu vào tập SVM tuyến tính huấn luyện cho lớp đầu phân loại Các vector đưa vào bounding box để xác định tọa độ xác vị trí vùng R-CNN đạt độ xác cao, nhiên hạn chế tốc độ huấn luyện tốc độ nhận dạng chưa đáp ứng theo thời gian yêu cầu ứng dụng thời gian thực Hình 7.18 Luồng xử lý R-CNN [70] Sau R-CNN số nhóm quan tâm, nghiên cứu mở rộng phát triển thành phiên Fast R-CNN [61] đề xuất năm 2015 Faster R-CNN phát triển hoàn chỉnh vào năm 2017[71] Fast R-CNN thực cải tiến mơ hình R-CNN để giải vấn đề sau: Bước huấn luyện thực nhiều công đoạn từ ConvNet đến SVM để hồi quy bounding box Bước tốn nhiều chi phí thời gian làm cho hệ thống huấn luyện chậm (trên 53 giây cho ảnh) Fast R-CNN có khả cải tiến tốc độ xử lý cách chia tính tốn lớp tích chập vùng đề xuất khác (các region proposal), trao đổi thứ tự vùng đề xuất khác thực thi mạng tích chập Trong mơ hình Fast R-CNN, trước tiên ảnh đưa vào lớp ConvNet, đặc trưng vùng đề xuất thu từ ánh xạ đặc trưng lớp cuối ConvNet Bước cuối mơ hình sử dụng lớp kết nối đầy đủ, hồi quy phân lớp Hình 7.19 Luồng xử lý Fast R-CNN [61] Faster R-CNN phát triển cải tiến nhằm giải vấn đề độ phức tạp huấn luyện mà hai phương pháp R-CNN Fast R-CNN gặp phải Tác giả Ren cộng [71] đề xuất mạng Region proposal (RPN) vào sau lớp tích chập sau Mạng có khả tập trung vào tập đặc trưng tích chập sau để từ tính tốn vùng đề xuất Tiếp theo, kỹ thuật (pipeline) R-CNN (bao gồm lớp pooling, FC, phân lớp/hồi quy) sử dụng cho trình huấn luyện 158 Hình 7.20 Luồng xử lý Faster R-CNN [71] Kỹ thuật Faster R-CNN có khả nhận dạng đối tượng cụ thể với vị trí ảnh có độ xác cao Phương pháp xem bước nhảy vọt kỹ thuật xử lý tri thức lĩnh vực thị giác máy tính Ngày nay, kỹ thuật Faster R-CNN trở thành giải pháp tiêu chuẩn nhận dạng đối tượng 7.5 Mô tả ngữ nghĩa ảnh với học sâu 7.5.1 Bộ mô tả ảnh Trong lĩnh vực nhận dạng xử lý hình ảnh, nhiệm vụ phát hiện, nhận dạng, định vị đối tượng ảnh gặp nhiều thách thức độ phức tạp tính tốn độ xác Những năm gần đây, với đời kỹ thuật học sâu hỗ trợ đắc lực hệ thống tính tốn song song GPU, tốn nhận dạng đối tượng qua hình ảnh tiến tới cột mốc với độ xác cao, số lượng loại đối tượng phân loại tăng lên nhiều lần thời gian xử lý cải thiện cách đáng kể Tuy nhiên, nhận dạng đối tượng độc lập ảnh giải vấn đề có đối tượng ảnh cụ thể định danh cho biết tên đối tượng lớp đối tượng Với mục tiêu kết hợp đối tượng có ảnh để suy diễn ngữ nghĩa ảnh gì, Karpathy Li [72] nghiên cứu đề xuất giải pháp gọi mơ tả ảnh Ví dụ đầu ngữ nghĩa ảnh thực từ mơ hình mơ tả ngữ nghĩa ảnh sau: Hình 7.21 Kết mơ tả ngữ nghĩa ảnh [72] 159 Trong phương pháp này, tác giả Karpathy Li kết hợp mạng tích chập học sâu mơ hình mạng BRNN (bidirectional Recurrent Neural Networks) để tạo ngôn ngữ mô tả cho vùng đối tượng ảnh Ý tưởng tạo nên thay đổi lớn lĩnh vực xử lý ảnh, kỹ thuật học sâu xử lý ngơn ngữ tự nhiên đạt kết khả quan Với mạng CNN truyền thống, liệu huấn luyện cần phải có nhãn đơn nhất, rõ ràng liên quan đến ảnh Ngược lại, kỹ thuật sinh mô tả ảnh, tập liệu huấn luyện sử dụng nhãn tập câu mô tả liên quan ảnh, gọi nhãn yếu Trong phân đoạn (các cụm từ) câu mô tả đối tượng tương ứng vùng ảnh Dựa tập liệu huấn luyện, DNN tiến hành suy diễn mối liên kết tiềm ẩn phân đoạn câu vùng đối tượng ảnh mà cần mơ tả Một mạng neural khác nhận ảnh đầu vào tạo mô tả dạng văn Như vậy, có hai thành phần xếp liên kết hình ảnh văn vản, sinh mơ tả Quá trình thể sau: Cơ sở liệu ảnh câu mô tả tương ứng Suy luận tương ứng với đối tượng ảnh Mô hình sinh mơ tả Hình 7.22 Mơ tả cơng đoạn mơ hình [72] 7.5.2 Mơ hình suy diễn mối liên kết Mục tiêu mơ hình tạo kết nối tiềm ẩn hình ảnh (visual) văn mô tả (textual) Tức cần tạo mối liên kết thành phần đối tượng ảnh với cụm từ keyword/phrase đoạn văn mơ tả ảnh Đầu vào mơ hình ảnh đoạn văn mô tả ảnh tương ứng với đầu giá trị thể mức độ liên kết chúng Đầu tiên ảnh đưa vào mạng R-CNN để phát đối tượng riêng lẻ Mơ hình R-CNN huấn luyện tập liệu ImageNet[66] Sẽ lựa chọn tối đa 19 vùng đối tượng có hệ số tỷ lệ nhận dạng cao với ảnh gốc biểu diễn không gian 500 chiều, nghĩa đặc trưng đối tượng biểu diễn không gian 500 chiều Như vậy, kết bước 20 vectors 500 chiều thể thông tin cho ảnh (1 ảnh gốc 19 vùng đối tượng đó) Bước thơng tin văn mơ tả Văn phân tích đưa từ (cụm từ) vào không gian đa mơ hình Việc xử lý thực cách sử dụng mạng BRNN Từ mức cao nhất, phục vụ việc minh họa thơng tin ngữ cảnh từ (cụm từ) văn đưa vào Tiếp theo, từ thông tin biểu diễn đối tượng ảnh thông tin thể ngữ nghĩa từ văn mô tả, hai thông tin 160 biểu diễn không gian, độ tương tự phần tử tương ứng chúng tính phép tốn tích (inner product) 7.5.3 Mơ hình sinh diễn tả ảnh Mơ hình trích xuất liên kết tiềm ẩn có mục tiêu tạo sở liệu dựa vào vùng đối tượng (thực R-CNN) văn tương ứng (thực BRNN) Mơ hình sinh diễn tả thực huấn luyện sở liệu tạo để tạo mô tả cho ảnh Mơ hình nhận vào ảnh thực mạng CNN Lớp softmax loại bỏ đầu lớp kết nối đầy đủ FC trở thành đầu vào cho RNN (Recurrent Neural Network) khác Nghĩa lớp softmax không sử dụng để phân loại mà kết lớp kết nối đầy đủ lại đưa vào mạng RNN khác Chức hình thành phân phối xác suất từ khác câu với đối tượng hình ảnh Mơ tả ngữ nghĩa hình ảnh ý tưởng thú vị, phương pháp tiếp cận theo hướng sử dụng mơ hình trí tuệ nhân tạo khác RNN CNN, để tạo mơ hình ứng dụng hữu ích cách kết hợp kỹ thuật thị giác máy tính với phương pháp xử lý ngôn ngữ tự nhiên Trong diễn tả ngữ nghĩa ảnh, kết thực nghiệm cho thấy cách tiếp cận đạt kết tốt, tiến vượt bậc, mở ý tưởng việc tạo máy tính mơ hình thơng minh để giải nhiệm vụ cần kết hợp nhiều lĩnh vực khác biểu diễn xử lý tri thức Câu hỏi tập So sánh kỹ thuật mạng neural học sâu mạng neural truyền thống (mạng nông) Những yếu tố tạo nên thành cơng mạng neural học sâu? Mạng neural học sâu gồm loại lớp (layer) nào? Hãy cho biết chức loại lớp Sử dụng mơ hình mạng LeNet huấn luyện (pretrain model), viết chương trình nhận dạng để trích ký tự từ ảnh chụp đoạn văn Tạo liệu ảnh gồm 10 loại đối tượng khác nhau, loại đối tượng có 1.000 mẫu (mỗi mẫu ảnh chứa hình ảnh đối tượng cụ thể) Viết chương trình sử dụng hàm Matlab (C/C++ Python) để sử dụng mơ hình pretrain AlexNet28 để nhận dạng phân loại ảnh mẫu nhóm, nhóm ảnh chứa loại đối tượng Lưu ý, mẫu ảnh nên chuẩn hóa kích thước ảnh đầu vào tương ứng với mơ hình AlexNet Viết chương trình sử dụng hàm Matlab (C/C++ Python) để sử dụng mô hình pretrain R-CNN, Fast R-CNN, Faster R-CNN để nhận dạng phân Các mơ hình pretrain matlab: 28 https://www.mathworks.com/help/nnet/ref/alexnet.html 161 loại ảnh mẫu câu 7.4 vào nhóm, nhóm ảnh chứa loại đối tượng So sánh độ xác mơ hình pretrain Viết chương trình sử dụng module học sâu theo kiến trúc ZFNet, GoogLeNet29, VGGNet, VGG30 mơ hình pretrain tương ứng để phân loại ảnh câu 7.4 So sánh độ xác mơ hình pretrain Viết chương trình sử dụng module học sâu theo kiến trúc ResNet mơ hình pretrain tương ứng 50 layers31 101 layers32 để phân loại ảnh câu 7.4 So sánh độ xác mơ hình pretrain Viết chương trình sử dụng mơ hình pretrain kiến trúc mạng báo [72] để mô tả ảnh chụp ngoại cảnh, ảnh chụp nhà Đánh giá độ xác kiến trúc mạng 29 https://www.mathworks.com/help/nnet/ref/googlenet.html https://www.mathworks.com/help/nnet/ref/vgg16.html 31 https://www.mathworks.com/help/nnet/ref/resnet50.html 32 https://www.mathworks.com/help/nnet/ref/resnet101.html 30 162 Tài liệu tham khảo Solomon, C., Breckon, T.: Fundamentals of Digital Image Processing: A practical approach with examples in Matlab John Wiley & Sons,2011 Thủy, L.M.B.N.T (ed.): Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật, 2006 Smith, A.R., Color gamut transform pairs, ACM Siggraph Computer Graphics, Vol 12, pp 12-19, 1978 Toàn, Đ.N (ed.): Xử lý ảnh, Học viện bưu viên thơng, 2006 Haines, R.F., Chuang, S.L., The effects of video compression on acceptability of images for monitoring life sciences experiments, Vol pp 1992 Sobel, I.: An Isotropic 3 Image Gradient Operator,2014 Khayam, S.A., The discrete cosine transform (DCT): theory and application, Michigan State University, Vol 114, pp 2003 Gupta, M., Garg, A.K., Analysis of image compression algorithm using DCT, International Journal of Engineering Research and Applications (IJERA), Vol 2, pp 515-521, 2012 Kale, K.: Advances in Computer Vision and Information Technology IK International Pvt Ltd,2008 10 Jain, R., Kasturi, R., Schunck, B.G.: Machine vision McGraw-Hill, Inc.,1995 11 Efford, N.: Chapter 11: Morphological image processing in textbook: Digital image processing: a practical introduction using java Addison-Wesley Longman Publishing Co., Inc.,2000 12 Shapiro, L.G., Stockman, G.C.: Computer Vision', 1st edn pp 159-166, New Jersey, Prentice Hall, 1992 13 Szeliski, R.: Computer vision: algorithms and applications Springer Science & Business Media,2010 14 Otsu, N., A threshold selection method from gray-level histograms, IEEE transactions on systems, man, and cybernetics, Vol 9, pp 62-66, 1979 15 Fukunaga, K., Hostetler, L., The estimation of the gradient of a density function, with applications in pattern recognition, IEEE Transactions on information theory, Vol 21, pp 32-40, 1975 16 Tao, W., Jin, H., Zhang, Y., Color image segmentation based on mean shift and normalized cuts, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), Vol 37, pp 1382-1389, 2007 17 Elnemr, H.A., Zayed, N.M., Fakhreldein, M.A., Feature extraction techniques: fundamental concepts and survey, Handbook of Research on Emerging Perspectives in Intelligent Pattern Recognition, Analysis, and Image Processing, Vol pp 264, 2015 18 Nixon, M.S., Aguado, A.S.: Feature extraction & image processing for computer vision Academic Press,2012 19 Bourdev, L.: Poselets and their applications in high-level computer vision University of California, Berkeley,2011 20 Canny, J., A Computational Approach to Edge Detection, IEEE Trans Pattern Anal Mach Intell., Vol 8, pp 679-698, 1986 21 Harris, C., Stephens, M.: A combined corner and edge detector In: Alvey vision conference, pp 10.5244, Manchester, UK, 1988 163 22 Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir, T., Van Gool, L., A comparison of affine region detectors, International journal of computer vision, Vol 65, pp 43-72, 2005 23 Förstner, W., Gülch, E.: A fast operator for detection and precise location of distinct points, corners and centres of circular features In: Proc ISPRS intercommission conference on fast processing of photogrammetric data, pp 281-305, 1987 24 Xu, X.: Blob Detection with the Determinant of the Hessian In: Chinese Conference on Pattern Recognition, pp 72-80, Springer, 2014 25 Lowe, D.G., Distinctive image features from scale-invariant keypoints, International journal of computer vision, Vol 60, pp 91-110, 2004 26 Lindeberg, T., Feature detection with automatic scale selection, International journal of computer vision, Vol 30, pp 79-116, 1998 27 Lindeberg, T., Image matching using generalized scale-space interest points, Journal of Mathematical Imaging and Vision, Vol 52, pp 3-36, 2015 28 Bay, H., Tuytelaars, T., Van Gool, L.: Surf: Speeded up robust features In: European conference on computer vision, pp 404-417, Springer, 2006 29 Lowe, D.G.: Object recognition from local scale-invariant features In: Computer vision, 1999 The proceedings of the seventh IEEE international conference on, pp 1150-1157, Ieee, 1999 30 Brown, M., Lowe, D.G.: Invariant features from interest point groups In: BMVC, 2002 31 Viola, P., Jones, M.: Rapid object detection using a boosted cascade of simple features In: Computer Vision and Pattern Recognition, 2001 CVPR 2001 Proceedings of the 2001 IEEE Computer Society Conference on, pp I-I, IEEE, 2001 32 Lienhart, R., Maydt, J.: An extended set of haar-like features for rapid object detection In: Image Processing 2002 Proceedings 2002 International Conference on, pp I-I, IEEE, 2002 33 Hoang, V.-D., Jo, K.-H., Joint components based pedestrian detection in crowded scenes using extended feature descriptors, Neurocomputing, Vol 188, pp 139-150, 2016 34 Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection In: Computer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE Computer Society Conference on, pp 886-893, IEEE, 2005 35 Muja, M., Lowe, D.G., Fast approximate nearest neighbors with automatic algorithm configuration, VISAPP (1), Vol 2, pp 2, 2009 36 Fischler, M.A., Bolles, R.C.: Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Readings in computer vision, pp 726-740, Elsevier, 1987 37 Tan, P.-N.: Introduction to data mining Pearson Education India,2006 38 Barros, R.C., de Carvalho, A.C., Freitas, A.A.: Automatic design of decisiontree induction algorithms Springer,2015 39 Quinlan, J.R., Induction of decision trees, Machine learning, Vol 1, pp 81-106, 1986 40 Quinlan, J.R., Discovering rules by induction from large collections of examples, Expert systems in the micro electronics age, Vol pp 1979 41 Salzberg, S.L., C4.5: Programs for machine learning by j ross quinlan morgan kaufmann publishers, inc., 1993, Machine Learning, Vol 16, pp 235-240, 1994 164 42 Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y., Top 10 algorithms in data mining, Knowledge and information systems, Vol 14, pp 1-37, 2008 43 Quinlan, J.R., Improved use of continuous attributes in C4 5, Journal of artificial intelligence research, Vol 4, pp 77-90, 1996 44 Ho, T.K., The random subspace method for constructing decision forests, IEEE transactions on pattern analysis and machine intelligence, Vol 20, pp 832-844, 1998 45 Freund, Y., Schapire, R., Abe, N., A short introduction to boosting, JournalJapanese Society For Artificial Intelligence, Vol 14, pp 1612, 1999 46 Cortes, C., Vapnik, V., Support-vector networks, Machine learning, Vol 20, pp 273-297, 1995 47 Weston, J., Watkins, C.: Multi-class support vector machines Citeseer, 1998 48 Chang, C.-C., Lin, C.-J., LIBSVM: a library for support vector machines, ACM transactions on intelligent systems and technology (TIST), Vol 2, pp 27, 2011 49 Shiffman, D.: The Nature of Code: Simulating Natural Systems with Processing Daniel Shiffman,2012 50 Rosenblatt, F.: The perceptron, a perceiving and recognizing automaton Project Para Cornell Aeronautical Laboratory,1957 51 Hoang, V.-D., Le, M.-H., Jo, K.-H., Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection, Neurocomputing, Vol 135, pp 357-366, 2014 52 LeCun, Y., Bengio, Y., Hinton, G., Deep learning, nature, Vol 521, pp 436, 2015 53 Dechter, R.: Learning while searching in constraint-satisfaction problems University of California, Computer Science Department, Cognitive Systems Laboratory,1986 54 LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D., Backpropagation applied to handwritten zip code recognition, Neural computation, Vol 1, pp 541-551, 1989 55 LeCun, Y., LeNet-5, convolutional neural networks, URL: http://yann lecun com/exdb/lenet, Vol pp 20, 2015 56 Kataoka, H., Iwata, K., Satoh, Y., Feature evaluation of deep convolutional neural networks for object recognition and detection, arXiv preprint arXiv:1509.07627, Vol pp 2015 57 Hoang, V.-D., Le, M.-H., Tran, T.T., Pham, V.-H.: Improving Traffic Signs Recognition Based Region Proposal and Deep Neural Networks In: Asian Conference on Intelligent Information and Database Systems, pp 604-613, Springer, 2018 58 Graham, B., Fractional max-pooling, arXiv preprint arXiv:1412.6071, Vol pp 2014 59 Springenberg, J.T., Dosovitskiy, A., Brox, T., Riedmiller, M., Striving for simplicity: The all convolutional net, arXiv preprint arXiv:1412.6806, Vol pp 2014 60 deepsense.io, https://blog.deepsense.ai/region-of-interest-pooling-explained/ 61 Girshick, R., Fast r-cnn, arXiv preprint arXiv:1504.08083, Vol pp 2015 62 Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R., Dropout: A simple way to prevent neural networks from overfitting, The Journal of Machine Learning Research, Vol 15, pp 1929-1958, 2014 63 Bishop, C., Bishop cm: Pattern recognition and machine learning springer, Journal of Electronic Imaging, Vol 16, pp 140-155, 2006 165 64 LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, Vol 86, pp 2278-2324, 1998 65 Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks In: Advances in neural information processing systems, pp 1097-1105, 2012 66 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Imagenet large scale visual recognition challenge, International Journal of Computer Vision, Vol 115, pp 211-252, 2015 67 Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks In: European conference on computer vision, pp 818-833, Springer, 2014 68 Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions Cvpr, 2015 69 Simonyan, K., Zisserman, A., Very deep convolutional networks for large-scale image recognition, arXiv preprint arXiv:1409.1556, Vol pp 2014 70 Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 580-587, 2014 71 Ren, S., He, K., Girshick, R., Sun, J., Faster R-CNN: towards real-time object detection with region proposal networks, IEEE transactions on pattern analysis and machine intelligence, Vol 39, pp 1137-1149, 2017 72 Karpathy, A., Fei-Fei, L.: Deep visual-semantic alignments for generating image descriptions In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3128-3137, 2015 166