Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

39 1.3K 6
Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TRẦN THANH TUẤN NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI TRONG VIDEO SỬ DỤNG DEEP LEARNING LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH –NĂM 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TRẦN THANH TUẤN NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI TRONG VIDEO SỬ DỤNG DEEP LEARNING Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI XUÂN LỘC THÀNH PHỐ HỒ CHÍ MINH –NĂM 2017 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi dưới sự hướng dẫn của TS.Bùi Xuân Lộc Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Nội dung của luận văn có tham khảo sử du ̣ng một số thông tin, tài liệu từ ng̀ n sách, ta ̣p chí đươ ̣c liệt kê danh mu ̣c tài liệu tham khảo Tp Hồ Chí Minh, ngày 31 tháng 05 năm 2017 Học viên thực luận văn Trần Thanh Tuấn ii LỜI CÁM ƠN Tôi xin gửi lời cảm ơn chân thành đến Thầy TS Bùi Xuân Lộc, người tận tình hướng dẫn, hỗ trợ giúp đỡ tơi nhiều nghiên cứu luận văn Thầy đưa định hướng, nhận xét góp ý quý giá để luận văn hồn thành tốt Kính gửi lời cảm ơn đến quý Thầy, Cô giảng viên tận tình giảng dạy truyền đạt kiến thức chun mơn cần thiết q trình tơi học tập Học viện Cơng nghệ Bưu Viễn thơng – Cơ sở II, Thành phố Hồ Chí Minh Xin gửi lời cảm ơn sâu sắc đến Ban giám đốc Học viện Bưu Viễn thơng, Cán Phòng Đào tạo trường nhiệt tình giúp đỡ tạo điều kiện thuận lợi để tơi có mơi trường học tập tốt hồn tất khóa học Xin gửi lời biết ơn vơ hạn đến gia đình không ngừng quan tâm, động viên, ủng hộ mặt tinh thần lẫn vật chất suốt thời gian tham gia khóa học thực luận văn Cảm ơn anh chị lớp Cao học Hệ thống thơng tin khóa 2015 - 2017 giúp đỡ đồng hành năm tháng học tập nhà trường Tp Hồ Chí Minh, ngày 31 tháng 05 năm 2017 Học viên thực luận văn Trần Thanh Tuấn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH CÁC HÌNH VẼ vii MỞ ĐẦU .1 CHƯƠNG - TỔNG QUAN VỀ DEEP LEARNING VÀ BÀI TOÁN NHẬN DIỆN HÀNH ĐỘNG TRONG THỊ GIÁC MÁY TÍNH 1.1 Tổng quan Deep Learning .3 1.1.1 Deep Learning gì? 1.1.2 Mạng nơron nhân tạo 1.1.3 Một số ứng dụng Deep Learning 1.2 Bài toán nhận diện hành động thị giác máy tính 1.2.1 Tổng quan thị giác máy tính 1.2.2 Nhận diện hành động người 1.3 Mục đích nghiên cứu 1.4 Đối tượng phạm vi nghiên cứu 1.5 Phương pháp nghiên cứu CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 10 2.1 Giới thiệu Convolutional Neural Network 10 2.1.1 Tổng quan 10 2.1.2 Kiến trúc CNN 10 iv 2.1.3 Lan truyền ngược 11 2.2 Vấn đề Overfitting Underfitting 12 2.2.1 Overfitting Underfitting .12 2.2.2 Cách giải 15 2.3 Các giải thuật Optimization .15 2.3.1 Các giải thuật .15 2.3.2 Các giải thuật dựa vào chiến lược lựa chọn Learning Rate 17 2.3.3 Lựa chọn giải thuật Optimization nào? 18 2.4 Thuật toán CNN nhận diện hành động .18 2.4.1 Thuật toán 18 2.4.2 Kiến trúc CNN xem xét nghiên cứu .20 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 21 3.1 Giới thiệu TensorFlow .21 3.2 Thông tin liệu 21 3.3 Mô tả phương pháp thực nghiệm .22 3.3.1 Môi trường thực nghiệm 22 3.3.2 Tiền xử lý video 22 3.3.3 Quá trình huấn luyện mơ hình CNN .23 3.4 Kết thực nghiệm 25 3.5 Nhận xét đánh giá 26 KẾT LUẬN VÀ KIẾN NGHỊ 28 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 30 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt AI Tiếng Anh Tiếng Việt Artificial Intelligence Trí tuệ nhân tạo CNN Convolution Neural Network Mạng nơron tích chập CPU Central Processing Unit Bộ xử lý trung tâm GPU Graphics Processing Unit Bộ xử lý đồ họa API Application Programming Interface Giao diện lập trình ứng dụng GD Gradient Descent SGD Stochastic Gradient Descent ANN Atificial Neural Network Mạng nơron nhân tạo SVM Support Vector Machine Máy véc-tơ hỗ trợ HOG Histogram of Oriented Gradients HOF Histogram of Oriented Optical Flow vi DANH SÁCH BẢNG Bảng 3.1: Số lượng Frame tập liệu liệu KTH .23 Bảng 3.2: Kết thực nghiệm .25 vii DANH SÁCH CÁC HÌNH VẼ Hình 1.1: Minh họa mạng nơron nhân tạo Hình 1.2: Phân cấp phương pháp nhận dạng hành vi người [1] Hình 2.1: Lớp CNN .11 Hình 2.2: Ví dụ Underfitting .13 Hình 2.3: Ví dụ Fit 13 Hình 2.4: Ví dụ Overfitting .14 Hình 2.5: Kiến trúc CNN nhận diện hành động người 19 Hình 2.6: Quá trình chập tổng hợp cực đại 19 Hình 2.7: Kiến trúc CNN xem xét nghiên cứu 20 Hình 3.1: Bộ liệu KTH .22 Hình 3.2: Mơ tả chi tiết liệu KTH 23 Hình 3.3: Mơ hình mạng CNN Tensorboard 24 Hình 3.4: Biểu đồ kết thực nghiệm 26 Hình 3.5: Confusion Matrix lần kiểm tra tốt 26 MỞ ĐẦU Ngày nay, dữ liệu video dễ dàng đươ ̣c ta ̣o bởi các thiế t bi ̣ như: điện thoa ̣i di động, máy tiń h xách tay, máy ảnh kỹ thuật số , hệ thống camera quan sát (CCTV)…bên ca ̣nh đó các trang web chia sẻ video không ngừng tăng trưởng số lượng lẫn chất lượng Bài toán nhận diện hành động người video đóng góp một phầ n tự động hóa khai thác tài nguyên dữ liệu nhiề u thông tin này Các ứng dụng liên quan đến toán nhận diện hành động như: - An ninh và các hệ thố ng giám sát truyề n thố ng gồ m ma ̣ng lưới các camera và đươ ̣c giám sát bởi người Với sự tăng lên của camera cũng như các hệ thố ng này đươ ̣c triể n khai nhiề u điạ điể m, dẫn đế n vấ n đề hiệu quả và độ chiń h xác của người giám sát phải bao quát hế t toàn bộ hệ thố ng Nhiệm vu ̣ của thi ̣ giác máy tiń h là tìm giải pháp có thể thay thế hoặc hỗ trơ ̣ người giám sát Tự động nhận các bấ t thường từ các hệ thố ng giám sát là vấ n đề thu hút khá nhiề u nghiên cứu Một ứng du ̣ng liên quan nữa, đó là tìm kiế m đoa ̣n video hành động “quan tâm” từ cơ sở dữ liệu video lớn đươ ̣c lưu trữ bởi các hệ thố ng giám sát - Tương tác giữa người và máy vẫn còn nhiề u thách thức, những dấ u hiệu thi ̣ giác là phương thức quan tro ̣ng nhấ t giao tiế p phi ngôn ngữ Khai thác hiệu quả phương thức giao tiế p này: Thông qua cử chỉ, hành động, hoa ̣t động hứa he ̣n ta ̣o thế hệ máy tính tương tác xác và tự nhiên hơn với người Một ứng du ̣ng điể n hin ̀ h liñ h vực này là “ngôi nhà thông minh”, phản ứng thông minh với cử chỉ, hành động của người sử du ̣ng Tuy nhiên những ứng du ̣ng này vẫn chưa đủ - hoàn chin̉ h và vẫn thu hút nhiề u nghiên cứu Bên ca ̣nh đó nhận diện hành động người video còn đươ ̣c ứng du ̣ng tóm tắ t, truy vấ n video, phân tić h thể thao 16 để tìm giá trị điểm cực trị Cách làm tính tốn xác đạo hàm bậc Thực tế cách sử dụng hàm hợp lý (likelihood), lấy đạo hàm để có cơng thức tường minh tham số sử dụng thuật toán Cực đại hoá kỳ vọng (Expectation Maximization) Tuy nhiên việc lấy đạo hàm giải phương trình khơng phải lúc thực được, cần sử dụng phương pháp tối ưu Phương pháp hay sử dụng Machine Learning Gradient Descent Gradient descent từ vị trí tại, ta theo chiều giảm đạo hàm bậc giảm Khi ta điểm tối ưu cục Công thức cập nhật cho Gradient Descent là: 2.3.1.2 Stochastic Gradient Descent Nhận thấy C trung bình cộng, thông thường tập huấn luyện i.i.d (independently and identically distributed) nên bước ta cập nhật tham số với mẫu tập huấn luyện: với z mẫu tập huấn luyện, ngữ cảnh online liệu huấn luyện đưa đến mẫu (có thể vơ hạn), ta khơng có trọn vẹn tập huấn luyện từ đầu Một cách để hiểu SGD hướng cập nhật cho tham số biến ngẫu nhiên mà kì vọng hướng cập nhật tính Gradient Descent Mặc dù có thêm yếu tố ngẫu nhiên kết SGD tương tự với Gradient descent SGD thông thường nhanh Gradient Descent cập nhật tham số nhiều hẳn Điều đặc biệt ta có tập huấn luyện lớn khơng có tồn tập huấn luyện từ đầu Thực tế Machine Learning, người ta dùng GD hàm chi phí khơng thể viết dạng trung bình 17 2.3.1.3 Momentum Ý tưởng phương pháp momentum tính tốn mức độ thay đổi tham số bước dựa vào bước trước Như bước tham số thay đổi cách “thích nghi” với lần lặp trước Cụ thể với siêu tham số điều khiển mức độ ảnh hưởng gradient vào mức giảm bước 2.3.2 Các giải thuật dựa vào chiến lược lựa chọn Learning Rate 2.3.2.1 AdaGrad Giải thuật AdaGrad tự điều chỉnh tỷ lệ học tập tất tham số mơ hình cách chia tỷ lệ nghịch với bậc hai tổng tất giá trị bình phương q khứ chúng Các thơng số có phần nhỏ dẫn đến mát có tỷ lệ học giảm nhanh tương ứng, tham số với dẫn xuất phần nhỏ có tỷ lệ học tập tương đối thấp 2.3.2.2 RMSPro Thuật toán RMSProp phát triển từ thuật toán AdaGrad để thực tốt cách thay đổi tích lũy gradient thành trung bình di chuyển trọng số theo cấp số nhân AdaGrad thiết kế để hội tụ nhanh chóng áp dụng cho chức lồi Khi áp dụng cho chức không lồi để đào tạo mạng nơron, quỹ đạo học tập qua nhiều cấu trúc khác cuối đến khu vực mà khu vực lồi cục AdaGrad thu hẹp tỷ lệ học tập theo toàn lịch sử gradient bình phương làm cho tỷ lệ học nhỏ trước đến cấu trúc lồi RMSProp sử dụng mức trung bình phân hủy theo cấp số nhân để loại bỏ lịch sử khỏi khứ mức để hội tụ nhanh chóng sau tìm thấy khu vực lồi, thể ví dụ thuật toán AdaGrad khởi tạo khu vực 18 2.3.2.3 Adam Adam giải thuật tối ưu hóa tỷ lệ học tập thích ứng Tên “Adam” viết tắt cụm từ “adaptive moments” Trong giải thuật Adam, mô-men kết hợp trực tiếp ước tính mơ-men (với trọng số mũ) gradient Adam bao gồm sửa đổi bias ước lượng hai mô-men (thời điểm xung lượng) mô-men thứ hai để giải thích cho khởi tạo chúng nguồn gốc Adam thường coi mạnh mẽ lựa chọn siêu tham số, tỷ lệ học tập cần phải thay đổi từ đề xuất mặc định 2.3.3 Lựa chọn giải thuật Optimization nào? Hiện tại, giải thuật Optimization hóa phổ biến tích cực sử dụng bao gồm SGD, SGD với momentum, RMSProp, RMSProp với momentum, AdaDelta Adam Sự lựa chọn giải thuật để sử dụng, dường phụ thuộc phần lớn vào quen thuộc người dùng với giải thuật (để dễ dàng điều chỉnh siêu số) 2.4 Thuật toán CNN nhận diện hành động 2.4.1 Thuật toán Một CNN, gồm nhiều giai đoạn huấn luyện xếp chồng lên nhau, sử dụng để trích xuất đặc trưng phân cấp 19 Hình 2.5: Kiến trúc CNN nhận diện hành động người Chập hình ảnh đầu vào với lọc huấn luyện khác bias bổ sung, nhiều đồ đặc trưng tạo lớp C1 Mỗi đồ đặc trưng S2 thu thao tác tổng hợp đồ đặc trưng tương ứng lớp C1 Chập tổng hợp cực đại lớp C3 S4 giống lớp C1 S2 Trong bước nhận diện cuối cùng, đặc trưng thu sau tổng hợp cực đại lớp S4 mã hóa thành vector chiều Hình 2.6: Q trình chập tổng hợp cực đại Quá trình chập: sử dụng lọc huấn luyện 𝑓𝑥 = 1+𝑒 −x để chập ảnh đầu vào, sau thêm bias 𝑏𝑥 , tạo thành lớp xoắn 𝐶𝑥 Quá trình tổng hợp cực đại: lấy pixel lớn pixel lân cận, sau tính trọng số 𝑊𝑥+1 thêm bias 𝑏𝑥+1 , sau truyền hàm kích hoạt xích ma, tạo thành đồ đặc trưng có kích thước giảm lần 20 2.4.2 Kiến trúc CNN xem xét nghiên cứu Mô hình mạng sử dụng luận văn mơ tả Hình 2.4 gồm có lớp Convolution có 64 filter với kích thước 5x5, xen kẽ lớp Convolution lớp Max-pool với filter có kích thước 2x2 Tiếp sau lớp Fully-connected với kích thước 256 128 Cuối cùng, tập phân loại softmax cho phân bố xác suất nhãn đầu Nhãn có xác suất cao chọn làm dự đốn cuối Hình 2.7: Kiến trúc CNN xem xét nghiên cứu Kết luận chương Chương trình bày thuật tốn CNN, kỹ thuật Optimization Regularization Deep Learning Đồng thời nêu kiến trúc mạng CNN xem xét nghiên cứu luận văn 21 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu TensorFlow TensorFlow [9] thư viện phần mềm mở cho tính tốn số, sử dụng biểu đồ luồng liệu Các nút đồ thị biểu diễn cho hoạt động toán học, cạnh đồ thị biểu diễn cho mảng liệu đa chiều (tensors) trao đổi chúng Kiến trúc linh hoạt cho phép triển khai tính tốn nhiều CPU GPU máy tính để bàn, máy chủ, thiết bị di động với API đơn TensorFlow ban đầu phát triển nhà nghiên cứu kỹ làm việc nhóm Google Brain cho nghiên cứu máy học deep neural network TensorFlow có API với số ngơn ngữ lập trình cho xây dựng thực thi đồ thị TensorFlow Python API hoàn thiện dễ sử dụng nhất, API C++ có vài ưu điểm hiệu việc thực thi đồ thị, hỗ trợ triển khai thiết bị nhỏ Android 3.2 Thông tin liệu Nghiên cứu sử dụng liệu KTH với thông tin: - Gồm có: 600 video trắng đen ghi camera tĩnh (192 huấn luyện, 192 validation, 216 kiểm tra) - Độ phân giải: 160x120 - hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) - 25 người, cảnh - Link: http://www.nada.kth.se/cvap/actions 22 Hình 3.1: Bộ liệu KTH 3.3 Mô tả phương pháp thực nghiệm 3.3.1 Môi trường thực nghiệm - Ngôn ngữ Python 3.5.2 - Thư viện TensorFlow 1.1.0 - CPU Intel Core i5 2.86 GHz, Ram 8GB 1600 MHz DDR3 - Hệ điều hành: MacOS Sierra 3.3.2 Tiền xử lý video - Sử dụng thư viện ffmpeg để tách video thành frame - Phân chia frame thành tập: huấn luyện, kiểm thử validation theo mô tả tập tin 00sequences.txt liệu KHT 23 Hình 3.2: Mô tả chi tiết liệu KTH Kết sau phân chia thành tập liệu huấn luyện Bảng 3.1: Số lượng Frame tập liệu liệu KTH Tập liệu Số lượng Frame Huấn luyện 74.966 Kiểm tra 79.481 Validation 73.125 3.3.3 Q trình huấn luyện mơ hình CNN Q trình huấn luyện liệu theo mơ hình CNN xem xét phần 2.2.2 theo giải thuật sau: 24 Giải thuật Optimization - For i = to So_Lan_Lap: o Trộn tập liệu huấn luyện cách ngẫu nhiên o For j = to So_Frame_Tap_Huan_Luyen / N:  Lấy N frame đưa vào mơ hình để huấn luyện  Cứ 100 frame hết tập huấn luyện tính độ xác mơ hình theo frame huấn luyện o Tính độ xác mơ hình theo tập liệu kiểm tra sau lần lặp Hình 3.3: Mơ hình mạng CNN Tensorboard 25 3.4 Kết thực nghiệm Vì mơi trường thực nghiệm với phần cứng giới hạn tốc độ xử lý nhớ nên trình huấn luyện mơ hình CNN nghiên cứu với tham số: - Số lần lặp để huấn luyện mơ hình: So_Lan_Lap = 10 - Số frame bộ: N = 64 Bảng 3.2: Kết thực nghiệm Lần Thời gian huấn Độ Thời gian kiểm Độ xác lặp luyện xác huấn tra kiểm tra luyện (trung bình) 15 phút 42 giây 72.9% 32 phút 33 giây 46.6% 02 phút 33 giây 81.4% 34 phút 41giây 50.9% 3 00 phút 13 giây 85.6% 36 phút 00 giây 53.0% 02 phút 33 giây 83.3% 31 phút 27 giây 53.5% 55 phút 54 giây 87.3% 37 phút 39 giây 52.8% 04 phút 34 giây 89.4% 34 phút 44 giây 52.9% 08 phút 55 giây 88.6% 31 phút 49 giây 52.0% 03 phút 56 giây 89.5% 33 phút 00 giây 54.1% 09 phút 58 giây 90.9% 35 phút 52 giây 53.6% 10 24 phút 01 giây 90.9% 33 phút 39 giây 52.4% 26 Độ xác Biểu đồ kết thực nghiệm 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% Huấn luyện Lần lặp 10 Kểm tra Hình 3.4: Biểu đồ kết thực nghiệm Hình 3.5: Confusion Matrix lần kiểm tra tốt 3.5 Nhận xét đánh giá Dựa vào kết thực nghiệm tập liệu huấn luyện kiểm tra liệu mậu đưa độ xác mơ hình mạng CNN xem xét 27 nghiên cứu Bảng 3.2 biểu đồ Hình 3.4 Hình 3.5 với thang đo từ  100% - Về độ xác huấn luyện mơ hình với tập liệu tốt, độ xác tăng dần sau nhiều lần huấn luyện - Về độ xác kiểm tra với tập liệu kiểm tra đạt mức độ trung bình (trong khoảng 50%), khơng có thay đổi nhiều lần kiểm tra - Về hành động liệu KTH dự đốn qua lần kiểm tra hành động “boxing”, “handclapping”, “handwaving” dự đốn xác, hành động “jogging”, “runing”, “walking” có kết dự đốn xác khơng cao Tóm lại qua kết thực nghiệm, mơ hình CNN xem xét với tham số kích thước, số lượng lọc với liệu mẫu chưa thích hợp Tình trạng độ xác việc huấn luyện cao có xu hướng tăng; độ xác việc kiểm tra mức trung bình khơng có xu hướng biến đổi nhiều hay nói cách khác overfit Trong trình thực nghiệm, để tránh tình trạng overfit cần thêm lớp lớp dropout sử dụng kỹ thuật Regularization vào mơ hình Kết luận chương Chương trình bày kết chạy thực nghiệm thuật toán xem xét luận văn liệu KTH Đồng thời rút số nhận xét đánh giá kết thực nghiệm 28 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt Luận văn nghiên cứu thực nghiệm giải thuật Deep Learning với kiến trúc mạng CNN nhận dạng hành động người video liệu KTH gồm có 06 hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) Đồng thời, đề xuất cách cải tiến tham số giải thuật để tăng tốc độ tính tốn dự đốn kết cách xác Dựa việc nghiên cứu sở lý thuyết công nghệ liên quan, đề tài xây dựng mơ hình mạng CNN, cho kết đáp ứng mục tiêu đề Bộ liệu huấn luyện đóng vai trò quan trọng việc xây dựng mơ hình để dự đốn kết đầu Với liệu lớn, bao gồm nhiều hành động áp dụng vào xây dựng hệ thống thực tế Những vấn đề tồn Một số vấn đề ảnh hưởng đến q trình huấn luyện dự đốn kết quả: - Tập liệu nghiên cứu ảnh đen trắng, đơn vật thể hành động nên việc áp dụng vào thực tế với cho kết không cao - Xử lý video sử dụng Deep Learning để huấn luyện sâu, cần có thiết bị có phần cứng có khả xử lý tính tốn cao để áp dụng cho lượng liệu khổng lồ Hướng phát triển luận văn Nghiên cứu tiếp giải pháp thu thập liệu đủ để triển khai vào ứng dụng thực tế, nhằm cung cấp công cụ hữu ích việc quản lý hệ thống camera giám sát, phân tích video 29 Vấn đề gia tăng độ xác giải việc kết hợp thuật toán lĩnh vực xử lý ảnh HOG, HOF… để trích xuất đặc trưng từ video để đưa vào huấn luyện mạng CNN trình bày đề tài 30 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Aggarwal, J., Ryoo, M., (2011), “Human activity analysis: A survey”, ACM Computing Surveys 43, [2] Candamo, J., Shreve, M., Goldgof, D.B., Sapper, D.B., Kasturi, R., (2010), “Understanding transit scenes : a survey on human behaviorrecognition algorithms”, IEEE Transactions on Intelligent Transportation Systems 11, 206 [3] Chaudhary, A., Raheja, J.L., Das, K., Raheja, S., (2011), “A survey on hand gesture recognition in context of soft computing, in: Meghanathan, N., Kaushik, B.K., Nagamalai, D (Eds.)”, Advanced Computing Springer, Berlin, pp 46 [4] Ji, S., Xu, W., Yang, M., & Yu, K (2013), “3D convolutional neural networks for human action recognition”, IEEE transactions on pattern analysis and machine intelligence, 35(1), pp 221-231 [5] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L (2014), “Large-scale video classification with convolutional neural networks”, InProceedings of the IEEE conference on Computer Vision and Pattern Recognition, pp 1725-1732 [6] Poppe, R., (2010), “A survey on vision-based human action recognition”, Image and Vision Computing 28, 976 [7] Turaga, P., Chellappa, R., Subrahmanian, V.S., Udrea, O., (2008),“Machine recognition of human activities: a survey”, IEEE Transactions on Circuits and Systems for Video Technology 18, 1473 [8] Weinland, D., Ronfard, R., Boyer, E., (2011), “A survey of vision-based methods for action representation, segmentation and recognition”, Computer Vision and Image Understanding 115, 224 [9] https://www.tensorflow.org/, truy cập ngày 10/05/2017 ... pháp nhận dạng hành vi người [1] 1.3 Mục đích nghiên cứu Luận văn nhận diện hành động người video sử dụng Deep Learning sở đề xuất cải tiến thuật toán Deep Learning nhận diện hành động người. .. toán CNN Deep Learning để nhận diện hành động người video Luận văn tiến hành chạy thực nghiệm liệu KTH đưa nhận xét việc nhận diện hành động người video sử dụng Deep Learning 1.5 Phương pháp nghiên... tính, nhận diện hành động người Deep Learning Đồng thời nêu rõ mục tiêu, đối tượng, phạm vi phương pháp nghiên cứu luận văn 10 CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI

Ngày đăng: 07/11/2017, 13:47

Hình ảnh liên quan

Hình 1.1: Minh họa mạng nơron nhân tạo - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 1.1.

Minh họa mạng nơron nhân tạo Xem tại trang 13 của tài liệu.
Hình 1.2: Phân cấp các phương pháp nhận dạng hành vi của con người [1] - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 1.2.

Phân cấp các phương pháp nhận dạng hành vi của con người [1] Xem tại trang 17 của tài liệu.
Hình 2.1: Lớp đầu tiên của một CNN - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 2.1.

Lớp đầu tiên của một CNN Xem tại trang 20 của tài liệu.
Hình 2.2: Ví dụ Underfitting - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 2.2.

Ví dụ Underfitting Xem tại trang 22 của tài liệu.
Để phát triển lên mô hình tốt hơn, ta thử thêm vào một số thành phần đa thức, chẳng hạn đưa hàm số từ tuyến tính lên bậc cao hơn thì h(x)  sẽ có dạng như  sau:  - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

ph.

át triển lên mô hình tốt hơn, ta thử thêm vào một số thành phần đa thức, chẳng hạn đưa hàm số từ tuyến tính lên bậc cao hơn thì h(x) sẽ có dạng như sau: Xem tại trang 22 của tài liệu.
Hình 2.4: Ví dụ Overfitting - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 2.4.

Ví dụ Overfitting Xem tại trang 23 của tài liệu.
Hình 2.5: Kiến trúc của CNN trong nhận diện hành động con người - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 2.5.

Kiến trúc của CNN trong nhận diện hành động con người Xem tại trang 28 của tài liệu.
Chập hình ảnh đầu vào với các bộ lọc huấn luyện khác nhau và các bias bổ sung, nhiều bản đồ đặc trưng được tạo trong lớp C1 - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

h.

ập hình ảnh đầu vào với các bộ lọc huấn luyện khác nhau và các bias bổ sung, nhiều bản đồ đặc trưng được tạo trong lớp C1 Xem tại trang 28 của tài liệu.
Mô hình mạng được sử dụng trong luận văn được mô tả như Hình 2.4 gồm có 2 lớp Convolution đều có 64 filter với kích thước 5x5, xen kẽ 2 lớp Convolution  là 2 lớp Max-pool với filter có kích thước 2x2 - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

h.

ình mạng được sử dụng trong luận văn được mô tả như Hình 2.4 gồm có 2 lớp Convolution đều có 64 filter với kích thước 5x5, xen kẽ 2 lớp Convolution là 2 lớp Max-pool với filter có kích thước 2x2 Xem tại trang 29 của tài liệu.
Hình 3.1: Bộ dữ liệu KTH - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 3.1.

Bộ dữ liệu KTH Xem tại trang 31 của tài liệu.
Hình 3.2: Mô tả chi tiết bộ dữ liệu KTH - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 3.2.

Mô tả chi tiết bộ dữ liệu KTH Xem tại trang 32 của tài liệu.
Bảng 3.1: Số lượng Frame trong các tập dữ liệu của bộ dữ liệu KTH Tập dữ liệu Số lượng Frame  - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Bảng 3.1.

Số lượng Frame trong các tập dữ liệu của bộ dữ liệu KTH Tập dữ liệu Số lượng Frame Xem tại trang 32 của tài liệu.
 Lấy từng bộ N frame đưa vào mô hình để huấn luyện  Cứ mỗi 100 bộ frame hoặc hết tập huấn luyện thì tính độ  chính xác của mô hình theo bộ frame huấn luyện hiện tại - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

y.

từng bộ N frame đưa vào mô hình để huấn luyện  Cứ mỗi 100 bộ frame hoặc hết tập huấn luyện thì tính độ chính xác của mô hình theo bộ frame huấn luyện hiện tại Xem tại trang 33 của tài liệu.
- Số lần lặp để huấn luyện mô hình: So_Lan_Lap = 10 - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

l.

ần lặp để huấn luyện mô hình: So_Lan_Lap = 10 Xem tại trang 34 của tài liệu.
Hình 3.4: Biểu đồ kết quả thực nghiệm - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 3.4.

Biểu đồ kết quả thực nghiệm Xem tại trang 35 của tài liệu.
Hình 3.5: Confusion Matrix của lần kiểm tra tốt nhất - Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (LV thạc sĩ)

Hình 3.5.

Confusion Matrix của lần kiểm tra tốt nhất Xem tại trang 35 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan