Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video tt

1 PHẦN MỞ ĐẦU Tính cấp thiết luận án Ngày với phát triển mạnh mẽ thiết bị thu nhận hình ảnh kỹ thuật số dẫn đến bùng nổ liệu đa phương tiện Tận dụng nguồn liệu đa phương tiện sẵn có với nội dung hấp dẫn thu hút khối lượng lớn người xem phim ảnh, video truyền hình, thể thao, … đối tượng quảng cáo tích hợp, chèn trực tiếp vào nội dung video Đây phương pháp phổ biến nhanh đưa thông tin quảng bá sản phẩm, nhãn hiệu, thương hiệu, (gọi tắt đối tượng quảng cáo) đến đơng đảo khách hàng, người tiêu dùng Q trình chèn đối tượng quảng cáo hay thay đối tượng quảng cáo có video đối tượng quảng cáo khác nhằm tận dụng video sẵn có phần lớn thực theo phương pháp thủ công Tuy nhiên với bùng nổ số lượng video có sẵn trực tuyến ngoại tuyến làm cho việc phân tích, xử lý tất nội dung video theo cách thủ công tốn không khả thi Điều thúc đẩy luận án nghiên cứu kỹ thuật hỗ trợ trình hậu xử lý video tự động áp dụng lĩnh vực thương mại phân tích nội dung quảng cáo video hay tích hợp, thay đối tượng quảng cáo vào video sẵn có nội dung Mục tiêu luận án Mục tiêu luận án tập trung nghiên cứu, cải tiến kỹ thuật xử lý vấn đề quan trọng toán hậu xử lý, hiểu video ứng dụng cho toán phát thay đối tượng quảng cáo video nhằm đạt hiệu cao hai phương diện tốc độ độ xác Các vấn đề xử lý gồm: phát đối tượng quảng cáo video gồm dị tìm nhận dạng hình dáng đối tượng video; thay đối tượng video gồm phân vùng, trích chọn phần hiển thị đối tượng; hồn thiện video sau thay đối tượng tìm thấy video đối tượng lựa chọn Đối tượng, phạm vi nghiên cứu luận án Đối tượng nghiên cứu luận án mơ hình dị tìm đối tượng video Các kỹ thuật lập mục tập vector đặc trưng khổng lồ với số chiều lớn, kỹ thuật tìm kiếm lân cận xấp xỉ gần (ANN) ứng dụng nhận dạng hình dạng đối tượng Các mơ hình phân vùng đối tượng, hồn thiện, tái tạo video sau loại bỏ thay đối tượng Phạm vi nghiên cứu luận án tập trung vào đoạn video thể thao, quảng cáo, phim ảnh phân thành chuỗi frame liên tiếp Đối tượng quảng cáo đối tượng hình ảnh tĩnh, hai chiều Các thể đối tượng có kích thước khơng q nhỏ, giới hạn khoảng từ 20px đến 400px chiều Phương pháp nội dung nghiên cứu Phương pháp luận nghiên cứu luận án kết hợp nghiên cứu lý thuyết thực nghiệm, gồm có: phân tích, so sánh, tổng hợp đánh giá kết dựa thực nghiệm Nội dung nghiên cứu luận án tập trung cải tiến mơ hình dị tìm đối tượng video dựa mạng tích chập học sâu (DCNN) Cải tiến kỹ thuật lập mục dựa phép lượng tử hóa tích đề (PQ), kỹ thuật tìm kiếm, đối sánh mẫu áp dụng cho toán nhận dạng hình dạng đối tượng Cải tiến kỹ thuật phân vùng thực thể đối tượng, hoàn thiện vùng trống/vùng bị phá hủy video dựa DCNN Các đóng góp luận án (i) Cải tiến hiệu thực thi mơ hình dị tìm đối tượng video theo hướng tiếp cận dựa DCNN (ii) Cải tiến kỹ thuật lập mục vector đặc trưng lượng tử hoá tích đề theo cụm vector (PSVQ), nâng cao chất lượng mã hóa tập liệu vector có số chiều lớn (iii) Cải tiến mơ hình inpainting ảnh RBPconv áp dụng cho tốn hồn thiện tái tạo vùng trống sinh video sau thay đối tượng CHƯƠNG TỔNG QUAN VỀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO 1.1 Dị tìm đối tượng Với phương pháp truyền thống, giải thuật dị tìm đối tượng chia thành hai giai đoạn độc lập: trích chọn đặc trưng thô mô tả, biểu diễn đặc trưng Trong đó, trích trọn đặc trưng thơ tiến trình dị tìm điểm có tính bất biến cao với số phép biến đổi hình học Do trọng đến phép hình thái nên nhược điểm mơ hình đặc trưng xác định theo chủ quan cho tất lớp đối tượng, khơng có tính phổ qt cao Bên cạnh giải thuật có độ phức tạp, chi phí tính tốn lớn Với phương pháp dị tìm đối tượng dựa DCNN Tất bước rời rạc trước chuyển qua lớp mạng nơron Dựa DCNN, mơ hình dị tìm đối tượng phân thành hai loại: mơ hình dị tìm đối tượng hai trạng thái trạng thái Trong mơ hình hai trạng thái, đề xuất vùng đối tượng xác định Tiếp theo mạng DCNN sử dụng để trích xuất đặc trưng từ đề xuất vùng, cuối tiến hành phân lớp/hồi quy để xác định lớp bao đóng chứa đối tượng Ưu điểm phương pháp độ xác tương đối cao, nhiên tốc độ xử lý tương đối chậm với cho ảnh Khắc phục nhược điểm mơ hình hai trạng thái, mơ hình trạng thái khơng sử dụng đề xuất vùng đối tượng mà dựa mạng DCNN ánh xạ trực tiếp điểm ảnh tới tọa độ vùng bao đóng xác suất phân lớp nghiên cứu Các mơ hình tiêu biểu nhóm YOLO, SSD đạt thành cơng mặt thời gian thực thi việc phát đối tượng, nhiên nhược điểm dựa vào đặc trưng mức cao nên độ xác chưa cao 1.2 Nhận dạng hình dạng đối tượng Để nhận dạng hình dạng đối tượng dựa vector đặc trưng trích chọn q trình dị tìm đối tượng nhiều kỹ thuật lập mục cho tập liệu với số chiều lớn nhiên cứu Các kỹ thuật hiệu gồm: kỹ thuật hàm băm, dựa phân cụm, dựa phân hoạch không gian, dựa lượng tử hóa tích đề Trong số kỹ thuật này, phương pháp tìm kiếm dựa lượng tử hóa tích đề tập liệu vector số chiều lớn cho kết tối ưu Vì vậy, kỹ thuật luận án nghiên cứu chi tiết, cải tiến, phát triển cho toán đối sánh tìm hình dạng đối tượng từ tập hình dạng cho trước dựa vector đặc trưng Với kích thước tập liệu đối sánh lên đến hàng triệu ghi vector có số chiều lớn (hàng nghìn chiều), thời gian đối sánh vấn đề quan trọng cần phải giải cho ứng dụng xử lý video cần theo thời gian thực Để tối ưu hóa thời gian đối sánh mẫu, tập vector đặc trưng lập mục, mã hố kỹ thuật PQ nhằm giảm kích thước khơng gian lưu trữ Sau đó, phương pháp tìm kiếm ANN nhanh khơng gian mã hóa để tìm đối tượng xấp xỉ gần 1.3 Thay thế, hoàn thiện video Sau đối tượng video phát hiện, vùng hiển thị đối tượng cần trích chọn loại bỏ khỏi video Tương tự, vùng đối tượng thay trích trọn từ ảnh đích để chèn vào vùng nguồn vừa bị loại bỏ video Tiến trình hiệu chỉnh video làm xuất vùng bị phá hủy chồng lấp khơng đầy đủ cần hồn thiện trình hậu xử lý Video inpainting kỹ thuật thích hợp để tái tạo hồn thiện vùng Để đạt mục tiêu khôi phục ảnh bị phá hủy xấp xỉ ảnh nguyên có nhiều nghiên cứu video inpainting, chủ yếu phát triển theo hai hướng tiếp cận: dựa lấy mẫu, dựa CNN Với tiếp cận dựa lấy mẫu, phần ảnh bị khôi phục theo cách gia tăng vùng hoàn thiện từ mép vào tâm vùng cách tìm kiếm mẫu thích hợp ghép chúng với Nhược điểm lớn chúng giải trường hợp phần bị mát khơng thể tìm thấy từ liệu Các nghiên cứu sử dụng CNN để hoàn thiện vùng trống thường sử dụng kiến trúc mạng encoder-decoder học đặc trưng ngữ cảnh ảnh từ hồn thiện ảnh Ảnh thu thường có tính chân thực cao cách tiếp cận lấy mẫu Kết luận chương Trong chương này, mơ hình dị tìm đối tượng, kỹ thuật nhận dạng hình thể đối tượng video dựa tập liệu vector đặc trưng, mơ hình hoàn thiện vùng bị phá hủy video trình bày tổng quan Thơng qua đánh giá ưu điểm, hạn chế nghiên cứu trước đó, luận án xác định hướng nghiên cứu phù hợp cho toán phát thay đối tượng video CHƯƠNG PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO Nội dung chương tập trung giới thiệu mơ hình dị tìm đối đượng cải tiến theo thời gian thực với độ xác cao Tốc độ dị tìm (>30 frame giây) yếu tố then chốt việc lựa chọn mơ hình Vì vậy, luận án tập trung nghiên cứu cải tiến mơ hình YOLO cho phù hợp với đối tượng quảng cáo nhằm gia tăng độ xác trì tốc độ theo thời gian thực Sau kỹ thuật PSVQ cải tiến kết hợp với phân cụm thứ bậc để tìm đối tượng có hình dạng tương đồng từ tập đối tượng có sẵn dựa tập vector đặc trưng trích chọn 2.1 Dị tìm đối tượng video 2.1.1 Một số cải tiến mơ hình YOLO-Adv 2.1.1.1 Cải tiến hàm loss Để giảm ảnh hưởng kích thước, độ nghiêng đối tượng lên mơ hình, phương pháp tính tốn hàm mát thơng tin theo chiều rộng chiều dài bounding box cải tiến Các độ đo kích thước tương đối sử dụng thay cho độ đo tuyệt đối hàm loss mạng YOLO nguyên (thành phần đánh dấu *) Hàm loss cải tiến định nghĩa theo công thức sau: ∑ = ∑ + +∑ + +∑ ∑ ∑ ( ∑ ) +( − ) + ( ∑ ) ) (*) ∈ − ( ( ) − ̂ ( )) Cụ thể, hàm loss mới, độ đo dụng thay cho − − ∑ ∑ ( − , sử ℎ − ℎ Tác dụng cải tiến làm gia tăng độ xác dị tìm bounding box, làm giảm ảnh hưởng kích thước, độ nghiêng đối tượng frame chúng bị thay đổi Đồng thời làm gia tăng tốc độ hội tụ pha huấn luyện 2.1.1.2 Cải tiến kiến trúc mạng Với mạng DCNN, đặc trưng cục xuất tầng thấp Để sử dụng đặc trưng cục này, chiến lược hợp đặc trưng đa tầng sử dụng bên kiến trúc mạng Darknet-53 Với chiến lược này, kết đồ đặc trưng ảnh qua khối Residual 8x256 tiếp tục nhân chập với mặt nạ 3x3x256 1x1x64, sau toán tử ReShape/2 sử dụng để tái cấu trúc lại đồ đặc trưng với mục đích làm làm cho đồ đặc trưng tầng giống với cấu trúc đồ đặc trưng tầng sau Cuối cùng, đặc trưng mức khác hợp với mục đích làm giàu đặc trưng cục 2.1.2 Ước lượng, đánh giá mô hình dị tìm đối tượng cải tiến 2.1.2.1 Dữ liệu kiểm thử môi trường cài đặt Để huấn luyện kiểm thử mơ hình YOLO-Adv, liệu flickrlogos-47 sử dụng Quá trình phát đối tượng video thực nghiệm máy chủ GPU GPU sử dụng Nvidia Tesla K80, nhớ video 24GB, điều hành Ubuntu 14 với nhớ 64GB Hình 2.1 Giá trị hàm loss trung bình huấn luyện 2.1.2.2 Kết thực nghiệm Ước lượng pha huấn luyện Biểu đồ hình 2.1 biễu diễn đồ thị giá trị hàm loss trung bình mơ hình YOLO-Adv, YOLO-Loss YOLOv3 ngun Trong YOLO-Loss mơ hình cải tiến hàm loss, YOLO-Adv mơ hình cải tiến đồng thời hàm loss kiến trúc mạng Cả ba mơ hình huấn luyện tập liệu flickrlogos-47 Kết cho ta thấy giá trị hàm loss trung bình mơ hình có khuynh hướng giảm nhanh 5000 vòng lặp đầu tiên, cuối hướng ổn định giá trị nhỏ sau khoảng 15000 vịng lặp Tuy nhiên, mơ hình YOLO-Adv có độ lỗi trung bình giảm nhanh thời điểm bắt đầu đạt giá trị nhỏ ba mơ hình theo sau hai mơ hình YOLO-Loss YOLOv3 Điều chứng tỏ hàm loss kiến trúc mạng cải tiến làm cho mô hình có tính ổn định cao, bị tác động kích thước độ nghiêng đối tượng quảng cáo, thích hợp cho tập liệu huấn luyện chọn (a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv Hình 2.2 Biểu đồ giá trị IoU huấn luyện Kết so sánh hệ số IoU thể độ xác việc định vị bounding box minh họa hình 2.2 Hệ số IoU trung bình ba mơ hình có khuynh hướng tăng giữ ổn định khoảng [0.7 - 1.0] Điều chứng tỏ mơ hình cho độ xác cao xác định vị trí bounding box Tuy nhiên giá trị IoU mơ hình YOLO-Adv có khuynh hướng tăng nhanh nhất, độ huấn luyện nhanh ba mơ hình Bên cạnh giá trị IoU YOLO-Adv giữ giá trị ổn định mức cao nhất, đồng nghĩa với độ xác phát đối tượng cao 10 Ước lượng pha kiểm thử Độ xác phân lớp mơ hình YOLO-Adv so sánh với mơ hình YOLOv3 YOLO-Loss tập liệu huấn luyện Flickrlogos-47 với ngưỡng  = 0.5, sử dụng độ đo ước lượng mAP So sánh kết dị tìm đối tượng độ đo mAP cho thấy YOLO-Adv cho độ xác cao phát hiện, với mAP đạt 80.2 (bảng 2.1) so với mô hình YOLO-Loss, YOLOv3 đạt tương ứng 77.4 74.0 Ngồi với tốc độ xử lý trung bình đạt 0.028s cho frame, mơ hình YOLO-Logo đạt tốc độ xử lý theo thời gian thực với khoảng 35 frame xử lý giây Bảng 2.1 Hiệu thực thi tập liệu Flickrlogos-47 Mơ hình YOLOv3 YOLO-Loss YOLO-Adv mAP 74.0 77.4 80.2 s/Img 0.038 0.032 0.028 2.2 Nhận dạng hình dạng đối tượng Nhiệm vụ pha nhận dạng hình dạng đối tượng xác định xác hình dạng đối tượng tìm thấy pha trước Để thực tác vụ này, luận án sử tập liệu lớn vector đặc trưng hình dạng đối tượng trích chọn mơ hình YOLO-Adv Tập liệu lập mục, mã hoá trình nhận dạng thực cách đối sánh vector đặc trưng đối tượng truy vấn với vector tập liệu 12 2.2.2 Tìm kiếm ANN dựa phân cụm thứ bậc Quá trình tìm kiếm ANN thực dựa phân cụm thứ bậc hoàn chỉnh kết hợp tập liệu mã hoá phương pháp lượng tử PSVQ bao gồm pha: offline – pha chuẩn bị liệu, tạo tìm kiếm tìm kiếm online – pha duyệt Trong pha offline, tập ℒ (kích thước m x _K) tập codebook X xây dựng theo phương pháp PSVQ Mỗi mã lượng tử ℒ hình thành từ trình lượng tử điểm liệu cookbook { ∗ ∈ dựa } Tập codebook ℒ lưu trữ phục vụ cho việc tra cứu để tính khoảng cách vector truy vấn r điểm liệu X Với (∗) ( )= ủ Song song với trình hình thành tập liệu tra cứu ℒ, tập liệu vector đặc trưng ban đầu dùng để tạo phân cụm thứ bậc hoàn chỉnh nhằm biểu diễn tất điểm liệu không gian ban đầu Tiến trình tạo bắt đầu tạo nút gốc tương ứng với toàn tập liệu Tiếp theo, giải thuật phân cụm (Kmeans) áp dụng để phân cụm liệu nút thành K cụm con, cụm gọi nút biểu diễn đại diện tâm cụm (codeword) Tiến trình lặp lại đệ quy lực lượng cụm đủ nhỏ, coi nút Pha online trình tìm kiếm vector xấp xỉ tập liệu vector đặc trưng so với vector truy vấn r khơng gian R(D) Bản chất q trình tìm kiếm trình duyệt phân cụm thứ bậc tạo trước Xuất phát từ nút gốc, nút mà có khoảng cách từ r đến bé chọn duyệt Quá trình duyệt lặp đệ quy đến tìm nút thích hợp 13 2.2.3 Ước lượng đánh giá 2.2.3.1 Ước lượng, đánh giá kỹ thuật PSVQ Tập liệu cấu hình phần cứng Dữ liệu sử dụng trình thực nghiệm gồm tập liệu có số chiều lớn ANN_GIST1M, VGG Giải thuật cài đặt môi trường C/C++ thực nghiệm tiến hành máy tính cấu hình phần cứng chuẩn gồm: RAM 16GB, chip Intel Core (Dual-Core) i7 2.1 GHz, cài hệ điều hành Windows (a) 1M 960D ANN_GIST (b) 500K 4096D VGG Hình 2.3 Chất lượng mã hóa PSVQ Ước lượng, đánh giá chất lượng mã hóa Chất lượng mã hóa PSVQ với tham số h=2,4,8 so sánh với phương pháp dựa cách tiếp cận PQ sử dụng chế tối ưu hóa lượng tử PQ chuẩn ck-means Kết so sánh minh họa biểu đồ hình 2.3 cho thấy mơ hình đề xuất với h=8 thực thi tốt so với phương pháp lại hai tập liệu kiểm thử GIST VGG Kết chứng tỏ tương quan liệu xem xét tối đa tất không gian 14 2.2.3.2 Ước lượng, đánh giá tốc độ tìm kiếm ANN Để chứng minh tính hiệu thuật tốn pha tìm kiếm hình dạng đối tượng, luận án tiến hành số thực nghiệm tập liệu chuẩn khác để tìm tham số tối ưu dùng để xây dựng lượng tử Kết nhận d=48, k=256 tập ANN_GIST với vector 960 chiều d=64, k=128 tập VGG gồm vector 4096 chiều (a) 1M 960D ANN_GIST (b) 500K 4096D VGG Hình 2.4 Tốc độ tìm kiếm ANN tập đặc trưng Ước lượng giải thuật tìm kiếm Hiệu tìm kiếm phương pháp đề xuất so sánh với nhiều phương pháp khác lớp tốn tìm kiếm ANN gồm: Randomized KD-trees, Randomized K-medoids, K-means tree, POC-trees EPQ Khi xem xét tốc độ tìm kiếm với độ xác đạt 80% tập liệu GIST (hình 2.4.a) kết hiển thị biểu đồ cho thấy tốc độ tìm kiếm phương pháp đề xuất trội so phương pháp cịn lại Trung bình, phương pháp đề xuất nhanh khoảng lần so với phương pháp EPQ có tốc độ nhanh thứ 15 nhanh khoảng lần so với phương pháp tìm kiếm thư viện FLANN (FLANN-RC-8trees) Đặc biệt, với độ xác tìm kiếm 90%, phương pháp đề xuất cho tốc độ tìm kiếm trội so với phương pháp khác Kết tương tự thực nghiệm tập liệu có số chiều liệu cực lớn VGG gồm vector đặc trưng 4096 chiều (hình 2.4.b), tốc độ tìm kiếm phương pháp đề xuất cho kết vượt trội, nhanh khoảng 1.3 đến 2.0 lần so với kỹ thuật EPQ kỹ thuật tốt so kỹ thuật lại gấp nhiều lần so với kỹ thuật thư viện FLANN flann-kmeans-1tree Kết luận chương Trong chương này, vấn đề phát đối tượng video giải mô hình YOLO-Adv cải tiến kỹ thuật PSVQ cải tiến Ưu điểm mơ hình YOLO-Adv trì tốc độ tính tốn đáp ứng theo thời gian thực độ xác gia tăng, phù hợp với tập liệu đối tượng quảng cáo Kỹ thuật PSVQ cải tiến dùng để lập mục tập liệu đặc trưng Tiến trình nhận dạng hình dạng đối tượng truy vấn thực dựa phân cụm thứ bậc tập liệu lập mục, mã hoá kỹ thuật PSVQ Các kết thực nghiệm cho thấy vượt trội hiệu thực thi mơ hình đề xuất so với mơ hình khác lĩnh vực tìm kiếm ANN 16 CHƯƠNG THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO 3.1 Phân vùng theo thực thể đối tượng Phân vùng đối tượng tiến trình xác định xác vùng hiển thị đối tượng ảnh Phân vùng đối tượng thông thường chia thành hai loại: phân vùng ngữ nghĩa phân vùng thực thể Phương pháp phân vùng ngữ nghĩa có nhược điểm thể lớp đối tượng cạnh chúng gộp vào vùng Vì vậy, luận án sử dụng kỹ thuật phân vùng thực thể để xác định vùng đối tượng 3.1.1 Các kỹ thuật phân vùng thực thể Trước mạng CNN đời, có nhiều kỹ thuật phân vùng ảnh phát triển sử dụng rộng rãi Các giải thuật truyền thống kể đến như: phân ngưỡng, phân cụm, histogram, dị tìm biên Tuy nhiên sử dụng giải thuật cứng nhắc yêu cầu có can thiệp người dùng nên hiệu Các kỹ thuật phân vùng dựa CNN bao gồm hai giai đoạn: xác định vùng tiềm (RoI) chứa đối tượng, sau tiến hành phân vùng RoI Một số kỹ thuật điển hình FRM, Mask-RCNN cho độ xác cao tốc độ chưa đạt mong muốn Trong mơ hình YOLACT có tốc độ đáp ứng thời gian thực độ xác thấp Tuy nhiên với đối tượng cần phân vùng Mask R-CNN đạt tốc độ chấp nhận Chính vậy, nghiên cứu Mask R-CNN sử dụng phân vùng đối tượng luận án kế thừa để tìm vùng hiển thị đối tượng 17 3.1.2 Mơ hình phân vùng thực thể Luận án kế thừa mơ hình phân vùng thực thể đề xuất Laradji để đánh dấu, trích chọn vùng hiển thị đối tượng ảnh Chi tiết mơ hình thể hình 3.1 Mơ hình bao gồm hai phân nhánh: Nhánh phát sinh mặt nạ đánh dấu vùng đối tượng (gọi tắt mặt nạ vùng) nhánh phân vùng thực thể Mỗi phân nhánh sử dụng kiến trúc mạng tích chập học sâu khác cho nhánh PSL FCN Cực trị cục Bản đồ kích hoạt Mask R-CNN Loss Kết qủa dự đốn Mạt nạ vùng Hình 3.1 Mơ hình huấn luyện mạng phân vùng ảnh Nhánh phát sinh mặt nạ vùng Quá trình phát sinh mặt nạ vùng thực qua số bước, trước hết mơ hình PRM áp dụng để phát sinh điểm trọng tâm vùng phần bật thực thể Với phương pháp PRM, FCN đưa đồ kích hoạt lớp (CAM) xác định định hệ số tin cậy phân lớp vị trí ảnh, sau phân lớp dựa CAM, kết thu chuyển qua lớp kích hoạt cực đại (PSL) cho kết tọa độ vị trí trọng tâm đối tượng Dựa vào vị trí này, mặt nạ vùng tạo 18 Nhánh phân vùng thực thể Trong nhánh phân vùng thực thể, mạng Mask R-CNN sử dụng Quá trình huấn luyện tiến trình huấn luyện tham số dựa tập ảnh huấn luyện mặt nạ vùng sinh từ nhánh tạo mặt nạ vùng để tối thiểu hàm lỗi: ℒ( , , ) = ℒ +ℒ 3.1.3 Kết thực nghiệm mơ hình phân vùng thực thể Phương pháp luận án sử dụng so sánh với số phương pháp phân vùng phổ biến khác dựa mạng huấn luyện đầy đủ sử dụng độ đo xác trung bình mAP So với Mask RCNN phương pháp đề xuất có hiệu thực thi tốt theo hai cách tạo mặt nạ dùng huấn luyện, sử dụng mức bounding box mức ảnh để tạo nhãn ảnh huấn luyện (bảng 3.1) Bảng 3.1 So sánh kết mơ hình sử dụng với phương pháp khác theo phương pháp sinh mặt nạ huấn luyện Mask R-CNN DeepMask PRM DeepMask Mơ hình sử dụng Mặt nạ huấn luyện Mức điểm ảnh Mức điểm ảnh Mức ảnh Mức hộp bao Mức ảnh mAP 51.4 41.7 26.8 8.1 41.7 Hình 3.4 thể hiệu thực thi mơ hình luận án lựa chọn dùng để phân đoạn với kích thước đối tượng khác với số lượng đối tượng khác Kết cho thấy độ xác mơ hình Mask R-CNN huấn luyện mặt nạ sinh dựa mức điểm ảnh cao chút so với mô hình kế thừa 19 Với tốn mà đối tượng cần khoanh vùng độ xác đạt tương đối cao, mAP đạt 65 Hình 3.4 Phân tích hiệu thực thi phân lớp tập liệu PASCAL VOC 2012 3.2 Mô hình hồn thiện video 3.2.1 Kiến trúc mơ hình V-RBPconv Mơ hình cải tiến V-RBPconv (Hình 3.5) sử dụng để hồn thiện, tái tạo vùng bị mát thơng tin bao gồm sinh ảnh phân biệt ảnh Bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng tối đa thông tin từ frame lân cận để xử lý các vùng bị phá huỷ với hình dạng kích thước khơng q lớn Bộ phân biệt ảnh tái tạo ảnh gốc theo thời gian Temporal PatchGAN tập trung vào việc phát đặc trưng khác biệt mặt không gian, thời gian để hiệu chỉnh nâng cao chất lượng video đầu Input (a) Output video Mặt nạ Ground truth (b) Loss Hình 3.5 Kiến trúc mơ hình video inpainting V-RBPconv 20 3.2.2 Mơ hình kiến trúc mạng RBPconv Mơ hình đề xuất cho sinh ảnh G để tạo video inpainting thô dựa kiến trúc mạng RBPconv với tảng mơ hình kiến trúc U-net cải tiến chi tiết minh họa hình 3.6 Trong mơ hình tầng nhân chập ngun U-net thay khối residual cải tiến Trong cải tiến tầng nhân chập theo sau chuẩn hóa batch hàm kích hoạt Hàm kích hoạt ReLU sử dụng cho tầng encoder LeakyReLU với alpha=0.2 sử dụng tầng decoder Bên cạnh đó, tất tầng nhân chập thay nhân chập phần Zero padding với kích thước sử dụng để làm cho tất đồ đặc trưng có kích thước Hình 3.6 Kiến trúc mơ hình RBPconv 3.2.3 Hàm loss Hàm loss dùng để huấn luyện mô hình định nghĩa: = Trong ℒ quan, ℒ ℒ + ℒ + ℒ hàm loss cấu trúc, ℒ + ℒ hàm loss trực hàm loss hình dáng, ℒ hàm loss đo khác biệt ảnh thực ảnh tái tạo 21 3.2.4 Ước lượng, đánh giá mơ hình hồn thiện video Thiết lập môi trường thực nghiệm Tập mặt nạ huấn luyện Các mặt nạ huấn luyện chia vào nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt nạ hình đường vẽ Tuy nhiên phạm vi, đặc trưng tốn nghiên cứu nhóm mặt nạ hình chữ nhật khơng dùng để kiểm thử mà tập trung vào nhóm hình điểm hình đường vẽ, đặc biệt nhóm mặt nạ hình đường vẽ kiểm nghiệm nhiều phù hợp với toán thay logo video Tập liệu kiểm thử Luận án sử dụng liệu thực nghiệm Bộ liệu Places2 dùng để so sánh kết thực nghiệm mơ hình RBPConv với kết thực nghiệm nghiên cứu gần Để so sánh kết thực nghiệm mơ hình V-RBPconv, tập liệu FVI (Free-form video inpainting) lựa chọn Mơi trường thực nghiệm Tiến trình huấn luyện thực máy chủ Nvidia Tesla V100 GPU (16GB) Mơ hình đề xuất tối ưu hóa sử dụng giải thuật Adam với tỷ lệ học 0.0002, kích thước batch 16 Các kết so sánh định lượng Chất lượng hình ảnh thu sau inpainting đánh giá định lượng thông qua số đo Để so sánh định lượng mơ hình inpainting ảnh đề xuất RBPConv với mơ hình khác cho lớp tốn inpainting ảnh, luận án sử dụng độ đo chất lượng ảnh SSIM PSNR Mơ hình RBPConv so sánh định lượng dựa số đo PSNR SSIM với mơ hình inpainting ảnh phát triển 22 trước gồm CA(Contextual Attention), PConv (Partial Convolution Unet) EC (EdgeConnect) Các giá trị cụ thể thể bảng 3.2 với PSNR mơ hình đề xuất đạt ngưỡng 25.29 cho thấy ảnh tái tạo có tính chân thực cao Cả hai số đo cho thấy mơ hình RBPcov cho chất lượng cao phương pháp khác Bảng 3.2 Kết định tính tập liệu Places2 mơ hình: CA, PConv and EC, RBPConv CA PConv* EC RBPConv PSNR 21.34 24.54 24.65 25.29 SSIM 0.806 0.775 0.857 0.868 Để ước lượng chất lượng video tái tạo phương diện quán thời gian, độ đo Frechet Inception Distance (FID) sử dụng Các mơ hình thử nghiệm tập kiểm thử FVI với mặt nạ có kích thước không lớn tối đa 50% so với đối tượng Kết thể bảng 3.3 cho thấy số FID cho hai loại mặt nạ hình đường kẻ hình điểm thấp so với mơ hình cịn lại, chí so với kỹ thuật EC Chứng tỏ mơ hình đề xuất trì tốt tính kết cấu thời gian, video tái tạo có tính chân thực cao gần với video gốc Bảng 3.3 Kết định tính tập liệu FVI với mơ hình: EC, CombCN, 3Dgated V- RBPConv Dạng mặt EC CombCN 3DGated V-RBPConv Đường vẽ 1.033 0.766 0.609 0.598 Điểm 1.083 1.091 0.905 0.886 nạ FID 23 Tóm tắt chương Trong chương này, mơ hình phân vùng thực thể đối tượng dùng cho bước trích chọn đánh dấu đối tượng dựa mạng Mask R-CNN trình bày Mặc dù độ xác thời gian phân vùng đáp ứng kỳ vọng thấp so với mạng phân vùng Mask R-CNN Tuy nhiên, với ưu điểm tiết kiệm chi phí thời gian nhiều để tạo tập liệu mặt nạ vùng huấn luyện nên giải thuật luận án kế thừa sử dụng Tiếp theo mơ hình V-RBPconv dựa mơ hình inpainting ảnh cải tiến RBPconv sử dụng cho tốn hồn thiện vùng trống sinh sau loại bỏ hay thay đối tượng video Các thực nghiệm chứng minh mức độ hiệu mơ hình cải tiến so với mơ hình khác lĩnh vực inpainting KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận án trình bày mơ hình cải tiến áp dụng cho toán thay đối tượng video Luận án đạt số kết định, cụ thể sau: - Cải tiến hiệu thực thi mơ hình dị tìm đối tượng video dựa mạng YOLO Mơ hình đề xuất có tính tổng qt, độ xác cao, ảnh đầu vào không cần qua bước tiền xử lý, đáp ứng thời gian thực áp dụng cho video - Cải tiến độ xác, gia tăng tốc độ thực thi cho kỹ thuật nhận dạng hình dạng đối tượng dựa phương pháp lập mục vector đặc trưng Tập liệu hình dạng đối tượng trích trọn đặc trưng, lập mục kỹ thuật PSVQ cải tiến Quá trình tìm kiếm ANN dựa phân cụm thứ bậc sử dụng 24 tập liệu mục, mã hoá PSVQ để tìm hình dạng tương đồng với đối tượng truy vấn - Mơ hình video inpainting cải tiến cho tốc độ độ cao, bảo tồn tính kết cấu khơng gian thời gian hồn thiện, tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng kích thước khơng q lớn Tuy nhiên, luận án số hạn chế: - Chưa xây dựng liệu đặc trưng xun xuốt cho tốn phát hồn thiện video - Vấn đề ảnh hưởng yếu tố liên quan đến cấu thành video để phân đoạn video, trích chọn frame tính quán thời gian nhận dạng hình dạng đối tượng chưa xem xét; - Chưa đề xuất mơ hình đầu cuối cho toán phát thay đối tượng video Từ hạn chế trên, hướng nghiên cứu luận án là: (1) Phát triển liệu ảnh, video huấn luyện cho pha dị tìm, nhận dạng, phân vùng đối tượng (2) Nghiên cứu tác động yếu tố cấu thành video, định dạng video đến trình thay hồn thiện video (3) Nghiên cứu mơ hình DCNN đầu cuối để đồng thời phát hiện, nhận dạng phân vùng đối tượng video 25 26 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ [CT1] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Tồn, Phạm Thu Hà, Trần Văn Huy (2019), “Cải tiến kiên trúc mạng Yolo cho toán nhận dạng logo” TNU Journal of Science and Technology, vol 200, no 07, pp 199-205 [CT2] The-Anh Pham, Van-Hao Le, Dinh-Nghiep Le (2018), “A review of feature indexing methods for fast approximate nearest neighbor search” 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 372 – 377 [CT3] Van-Hao Le, The-Anh Pham, Dinh-Nghiep Le (2019), “Hierarchical product quantization for effective feature indexing” ICT, 26th International Conference on Telecommunications, pp 386 – 390 [CT4] The-Anh Pham, Dinh-Nghiep Le, Thi-Lan-Phuong Nguyen (2019), “Product sub-vector quatization for feature indexing” Jounal of Computer Science and Cybernetics, vol 35, no 11, pp 69-83 [CT5] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Tồn, Hồng Văn Thi (2019), “Hồn thiện vùng phá hủy hình dạng ảnh sử dụng kiến trúc mạng thặng dư nhân chập phần” TNU Journal of Science and Technology, vol.208, no.15, pp.19-26 [CT6] Dinh-Nghiep Le, Van-Thi Hoang, Van-Hao Le, TheAnh Pham (2020), “A study on parameter tuning for optimal indexing on large scale datasets” Journal of Science and Technology on Information and Communications ... gồm: phát đối tượng quảng cáo video gồm dị tìm nhận dạng hình dáng đối tượng video; thay đối tượng video gồm phân vùng, trích chọn phần hiển thị đối tượng; hoàn thiện video sau thay đối tượng tìm... video sau thay đối tượng tìm thấy video đối tượng lựa chọn Đối tượng, phạm vi nghiên cứu luận án Đối tượng nghiên cứu luận án mơ hình dị tìm đối tượng video Các kỹ thuật lập mục tập vector đặc trưng... lớn, kỹ thuật tìm kiếm lân cận xấp xỉ gần (ANN) ứng dụng nhận dạng hình dạng đối tượng Các mơ hình phân vùng đối tượng, hoàn thiện, tái tạo video sau loại bỏ thay đối tượng Phạm vi nghiên cứu

Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video tt

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan