NGHIÊN cứu các PHƯƠNG PHÁP PHÂN lớp đối TƯỢNG TRÊN ẢNH dựa TRÊN MULTIPLE INSTANCE LEARNING

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÙI LÊ THUẬN NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP ĐỐI TƯỢNG TRÊN ẢNH DỰA TRÊN MULTIPLE INSTANCE LEARNING KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số : 60480101 TP HỒ CHÍ MINH - 2016 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÙI LÊ THUẬN NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP ĐỐI TƯỢNG TRÊN ẢNH DỰA TRÊN MULTIPLE INSTANCE LEARNING KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số : 60480101 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGƠ ĐỨC THÀNH TP HỒ CHÍ MINH - 2016 Lời cảm ơn LỜI CẢM ƠN Tôi xin chân thành cảm ơn TS Ngô Đức Thành, thầy tận tình hƣớng dẫn, giúp đỡ đóng góp ý kiến cho tơi suốt q trình thực khóa luận Tơi xin chân thành cảm ơn thầy, khoa Khoa học máy tính – Trƣờng Đại học Cơng nghệ thơng tin tận tình giảng dạy, truyền đạt cho kiến thức quý báu q trình học tập Tơi xin chân thành cảm ơn thầy, bạn Phịng thí nghiệm Truyền thông Đa phƣơng tiện – Trƣờng Đại học Công nghệ thông tin hỗ trợ, tạo điều kiện thuận lợi nhƣ đóng góp ý kiến thiết thực giúp tơi hồn thành tốt khóa luận Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, ngƣời thân yêu bên cạnh động viên suốt q trình học tập thực khóa luận Học viên Bùi Lê Thuận i Lời cam đoan LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu độc lập thân Các số liệu, kết trình bày luận văn trung thực Những tƣ liệu đƣợc sử dụng luận văn có nguồn gốc trích dẫn rõ ràng, đầy đủ Tác giả Bùi Lê Thuận ii Mục lục MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU .7 CHƢƠNG TỔNG QUAN .9 1.1 Phân lớp đối tƣợng ảnh 1.1.1 Khái niệm 1.1.2 Quá trình phân lớp 10 1.1.3 Ứng dụng hệ thống phân lớp ảnh 10 1.2 Mơ hình máy học 11 1.2.1 Phƣơng pháp học có giám sát đầy đủ .11 1.2.2 Phƣơng pháp học có giám sát yếu 12 CHƢƠNG CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 14 2.1 Các phƣơng pháp biểu diễn ảnh mơ hình phân lớp 14 2.1.1 Tình hình nghiên cứu .14 2.1.2 Mơ hình “Bag of Words” .15 2.2 Các thuật toán phân lớp dựa MIL 16 2.2.1 Tình hình nghiên cứu .16 2.2.2 Lựa chọn hƣớng tiếp cận 18 CHƢƠNG MULTIPLE INSTANCE LEARNING 20 3.1 Giới thiệu .20 3.2 Công thức tổng quát MIL 20 3.3 Support Vector Machine 20 3.3.1 Định nghĩa 20 3.3.2 Các mơ hình phân lớp SVM 22 Mục lục 3.3.3 Kernel Trick 25 3.3.4 Bài toán đối ngẫu 26 3.3.5 Đánh giá 28 3.4 Các thuật toán tiêu biểu 29 3.4.1 Thuật toán mi-SVM .29 3.4.2 Thuật toán MI-SVM .31 3.4.3 Thuật toán spatial-MI-SVM 35 3.5 Các thuật toán đề xuất 40 3.5.1 Thuật toán top-MI-SVM 40 3.5.2 Thuật toán top-spatial-MI-SVM 45 CHƢƠNG THỰC NGHIỆM 49 4.1 Môi trƣờng thực nghiệm 49 4.1.1 Bộ liệu ảnh Caltech 101 49 4.1.2 Công cụ 49 4.2 Xây dựng liệu 49 4.2.1 Phân tách liệu huấn luyện kiểm thử .49 4.2.2 Xây dựng “bag” “instance” 50 4.2.3 Biểu diễn ảnh 52 4.2.4 Điều chỉnh liệu vector 53 4.3 Xây dựng mơ hình phân lớp 55 4.3.1 Tham số thuật toán 55 4.3.2 Các bƣớc thực thi 55 4.4 Kết 56 4.4.1 Tổng quát 56 4.4.2 Chi tiết 58 4.4.3 Nhận xét 60 CHƢƠNG KẾT LUẬN .61 TÀI LIỆU THAM KHẢO .62 Danh mục chữ viết tắt DANH MỤC CÁC CHỮ VIẾT TẮT STT Ký hiệu viết tắt Cụm từ DD EM-DD IS-MIL MIL MILES MILL MIPSIR RBF Multiple Instance Learning Multiple-Instance Learning via Embedded instance Selection Multiple Instance Learning Library Pairwise-Similarity-based Instance Reduction for Multiple-Instance learning Radial Basis Function SVM Support Vector Machine 10 SIFT Scale Invariant Feature Transform 11 VLFeat Diverse Density Diverse Density with Expectation Maximisation Instance Selection for MIL Vision Lab Features Library Danh mục hình vẽ DANH MỤC CÁC HÌNH VẼ Hình 1.1 Nhận diện xuất đối tƣợng thuộc phân lớp xác định ảnh Hình 1.2 Mơ hình tổng quan hệ thống phân lớp đối tƣợng ảnh 10 Hình 1.3 Phân biệt phƣơng pháp học có giám sát đầy đủ (A) MIL (B) với khác việc gán nhãn cho liệu huấn luyện 12 Hình 2.1 Quá trình xây dựng codebook mơ hình Bag of Words 15 Hình 2.2 Sơ đồ lựa chọn hƣớng tiếp cận để giải toán phân lớp đối tƣợng ảnh thuật tốn trình bày khóa luận 19 Hình 3.1 Siêu phẳng thực phân chia tập liệu thành lớp không gian chiều 21 Hình 3.2 Tập liệu bị nhiễu thực phân lớp .23 Hình 3.3 Ánh xạ tập liệu bất khả phân tách tuyến tính từ khơng gian chiều sang không gian chiều .24 Hình 3.4 Phân biệt trƣờng hợp thực duyệt qua tất “bag” dƣơng thuật toán mi-SVM .30 Hình 3.5 Lựa chọn “instance” có giá trị hàm phân lớp lớn làm đại diện cho “bag” dƣơng 34 Hình 3.6 Phân vùng A phân vùng B đƣợc xem trùng lắp với 37 Hình 3.7 Sự khác việc lựa chọn “instance” “bag” dƣơng thuật toán mi-SVM, MI-SVM, spatial-MI-SVM 39 Hình 3.8 Phân biệt trƣờng hợp thực duyệt qua tất “bag” dƣơng thuật toán top-MI-SVM với M .44 Hình 4.1 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển .50 Hình 4.2 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển .51 Hình 4.3 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển .51 Danh mục hình vẽ Hình 4.4 Minh họa tham số thuật toán DSIFT vlfeat 52 Hình 4.5 Tổng hợp kết thuật toán thực nghiệm nhóm liệu có tham số “num words” 100 56 Hình 4.6 Kết trung bình nhóm liệu có tham số “num words” 100 thuật toán thực nghiệm 57 Hình 4.7 Tổng hợp kết thuật toán thực nghiệm nhóm liệu có tham số “num words” 500 57 Hình 4.8 Kết trung bình nhóm liệu có tham số “num words” 500 thuật toán thực nghiệm 58 Danh mục bảng DANH MỤC CÁC BẢNG Bảng 4.1 Tổng số liệu vector thực nghiệm 54 Bảng 4.2 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 58 Bảng 4.3 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 58 Bảng 4.4 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 59 Bảng 4.5 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 59 Bảng 4.6 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 59 Bảng 4.7 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = 59 Chƣơng Thực nghiệm nhóm chứa 30 ảnh với 15 ảnh “BACKGROUND_Google” 15 ảnh nhóm - Bộ kiểm thử : xây dựng việc ghép nhóm tƣơng tự nhƣ huấn luyện Việc thực nghiệm tiến hành xây dựng phân lớp nhị phân (binary classification) 101 nhóm liệu huấn luyện kiểm tra 101 nhóm liệu kiểm thử 4.2.2 Xây dựng “bag” “instance” Mỗi ảnh đƣợc xem “bag” vùng đƣợc lấy từ ảnh đƣợc xem “instance” thuộc “bag”  Bƣớc 1: Xây dựng “bag” Để đồng ảnh đồng thời giảm chi phí tính tốn, ta thực việc thay đổi tỉ lệ độ phân giải ảnh có kích thƣớc W H với W chiều rộng H chiều dài, W > 300 ta thực việc thu nhỏ độ phân giải thành 300 H’ = H H’, (300/W) Các ảnh có W ≤ 300 đƣợc giữ ngun kích thƣớc Sau đó, ảnh đƣợc chuyển dạng ảnh xám (gray picture) Mỗi ảnh xám nhƣ xem “bag”  Bƣớc : Xây dựng “instance” cho “bag” Với bag thu đƣợc, ta xây dựng “instance” cho “bag” dựa việc tổng hợp lần xây dựng “instance” “bag” tƣơng ứng : 10 11 12 13 14 15 16 17 18 19 20 10 11 12 … 19 20 Hình 4.1 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển 50 Chƣơng Thực nghiệm - Lần 1, “instance” có chiều dài chiều rộng 2/3 “bag” bƣớc dịch chuyển để tạo thành “instance” 1/20 theo hai chiều 10 11 12 13 14 15 16 17 18 19 20 10 11 12 13 14 15 16 17 18 19 20 Hình 4.2 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển - Lần 2, “instance” có chiều dài chiều rộng 4/5 “bag” bƣớc dịch chuyển để tạo thành “instance” 1/20 theo hai chiều 10 10 Hình 4.3 “Bag” tồn khung hình “instance” thu thập lần phần màu xám, khung có nét chấm gạch “instance” dịch chuyển - Lần 3, “instance” có chiều dài chiều rộng 1/2 “bag” 51 Chƣơng Thực nghiệm bƣớc dịch chuyển để tạo thành “instance” 1/10 theo hai chiều 4.2.3 Biểu diễn ảnh Sử dụng mơ hình “Bag of Words” để tính tần suất xuất “code word” “instance”, “instance” đƣợc biểu diễn dƣới dạng tập hợp vector tần suất “code word” Quá trình gồm bƣớc :  Bƣớc : Xây dựng “code book” Do “code book” cần mang tính tổng quát nên liệu sử dụng không phân biệt tập huấn luyện tập kiểm thử, toàn ảnh tập huấn luyện kiểm thử đƣợc sử dụng để xây dựng “code book” Mỗi ảnh lúc đƣợc xem “bag”, phân vùng ảnh tƣơng đƣơng với “instance” Các “bag” lần lƣợt đƣợc rút trích đặc trƣng dựa phƣơng pháp DSIFT Tất đặc trƣng rút trích đƣợc tổng hợp lại chọn ngẫu nhiên 4/5 số lƣợng để thực việc gom nhóm dựa thuật tốn K-Mean với số lƣợng nhóm (code word) lần lƣợt 100, 500 Việc sử dụng đặc trƣng DSIFT phụ thuộc vào tham số “bounding box”, “bin size”, “step” “magnif” với hình mơ tả nhƣ sau : Hình 4.4 Minh họa tham số thuật toán DSIFT vlfeat Nguồn : Vision Lab Features Library [17] Các tham số quan trọng hàm DSIFT gồm : - “bounding box”: kích thƣớc vùng ảnh thực việc tìm kiếm điểm đặc trƣng 52 Chƣơng Thực nghiệm - “step” : khoảng điểm đặc trƣng Trong thuật toán DSIFT, việc xác định điểm đặc trƣng theo dạng lƣới, điểm phần giao đƣờng thẳng lƣới có khoảng cách “step” điểm ảnh (pixel) - “bin size” : thể kích thƣớc khơng gian dùng để mơ tả đặc trƣng cho điểm ảnh (pixel) đƣợc xác định - “magnif” : Tham số khơng có hình minh họa 4.4 tham số đƣợc sử dụng để tính độ trơn ảnh DSIFT vlfeat khơng dùng không gian tỉ lệ Gaussian (Gaussian scale space) ảnh nên ta thực làm trơn ảnh với tỉ lệ đƣợc ƣớc lƣợng trƣớc theo công thức Tỉ lệ làm trơn ảnh = √ bin size magnif / 0.25 (4.1)  Bƣớc : Xây dựng tần suất “code word” cho “instance” Mỗi “instance” đƣợc rút trích đặc trƣng dựa DSIFT đem so sánh với đặc trƣng đƣợc gom nhóm “code book” để tính tỉ lệ “code word” tƣơng ứng Ví dụ: “instance” I sau rút trích đƣợc 250 đặc trƣng đem so sánh với “code book” gồm 100 “code word” lần lƣợt đặc trƣng 250 đặc trƣng “instance” I đƣợc so sánh xem giống “code word” Từ đó, 250 đặc trƣng đƣợc biểu diễn lại thành vector 100 chiều, giá trị chiều thứ n vector cho biết từ (code word) vị trí n “code book” xuất tỉ lệ “instance” mà vector đại diện Nhƣ vậy, “bag” gồm nhiều “instance”, “instance” đƣợc biểu diễn vector tần suất dựa “code book” tƣơng ứng Nói cách khác, ảnh đƣợc biểu diễn tập hợp vector tần suất “code word” Bộ liệu ảnh huấn luyện kiểm thử tổng hợp đƣợc phần phân tách liệu (4.2.1) đƣợc chuyển đổi thành liệu vector 4.2.4 Điều chỉnh liệu vector Khóa luận lựa chọn giá trị thích hợp để xây dựng liệu vector khác dựa tham số sau : - Số lƣợng từ “code book” (num words) : kích thƣớc vector tần xuất, gồm giá trị 100 500 53 Chƣơng Thực nghiệm - “seed” : số nguyên dƣơng định việc chọn ngẫu nhiên ảnh tập liệu Caltech-101, “seed” có giá trị giống tập ảnh đƣợc chọn hoàn toàn giống Giá trị lần lƣợt 1, 2, 3, - “bin size” : lựa chọn giá trị khác làm cho khơng gian rút trích đặc trƣng điểm khác với giá trị 4, Các tham số cịn lại khơng thay đổi suốt q trình thử nghiệm : - “bounding box”: chọn toàn ảnh ban đầu làm vùng tìm kiếm điểm đặc trƣng - “step” : cố định giá trị 8, nghĩa điểm đặc trƣng khoảng “pixel” - “magnif” : đƣợc thiết lập 3, tƣơng đƣơng giá trị mặc định hàm SIFT “vlfeat” Bảng 4.1 Tổng số liệu vector thực nghiệm Bộ liệu Nhóm liệu “Num words” “Bin Size” “Seed” 1.1 100 1.2 500 2.1 100 4 2.2 500 3.1 100 3.2 500 4.3 100 4 4.4 500 4 5.1 100 10 5.2 500 11 6.1 100 12 6.2 500 Trong phần thực nghiệm có tất 12 liệu vector khác đƣợc chia thành nhóm (bảng 4.1) theo tiêu chí : - Mỗi nhóm có tập ảnh lựa chọn ngẫu nhiên liệu Caltech-101 có giá trị “seed”, nhƣ giống kích thƣớc vùng khơng gian rút trích điểm đặc trƣng - Các liệu vector nhóm khác giá trị “num words”, số chiều vector tần suất đại diện cho “instance” 54 Chƣơng Thực nghiệm 4.3 Xây dựng mơ hình phân lớp 4.3.1 Tham số thuật tốn Chúng ta lần lƣợt xây dựng mơ hình phân lớp đối tƣợng ảnh dựa vào thuật toán mi-SVM, MI-SVM, spatial-MI-SVM, top-MI-SVM top-spatial-MISVM với liệu đầu vào liệu vector  Các tham số mơ hình phân lớp : - “Kernel” : lựa chọn hàm “kernel” cho thuật toán, gồm loại tuyến tính, polynomial, RBF sigmoid Trong phạm vi thực nghiệm này, “kernel” RBF đƣợc lựa chọn cho tất thuật tốn “kernel” có tính tổng qt cao, số lƣợng tham số nhƣng đảm bảo mức độ xác phân lớp [19] - “Gamma” (kí hiệu ) : tham số hàm “kernel” RBF với Các giá trị đƣợc sử dụng 20, 2-2, 2-4, 2-6, 2-8 - “Cost Factor” : giá trị tham số dùng để cân độ rộng biên (margin) xác định siêu phẳng phân lớp với giá trị 20, 22, 24, 26 - M : tham số thuật toán top-MI-SVM top-spatial-MI-SVM để xác định số lƣợng “instance” có giá trị fi lớn đƣợc lựa chọn Trong thực nghiệm này, M có giá trị cố định 10 - T : giá trị T mức độ trùng lắp tối thiểu phân vùng ảnh để xem xét việc lựa chọn “instance” thuật toán spatial-MI-SVM topspatial-MI-SVM T có giá trị cố định 0.5 tiến hành thực nghiệm Tham số “gamma” có giá trị tham số “cost factor” có giá trị Vậy ứng với thuật tốn có 20 cặp giá trị “gamma” “factor” để thực xây dựng mơ hình phân lớp kiểm thử 4.3.2 Các bước thực thi Q trình thực thi thuật tốn MIL liệu vector gồm bƣớc sau : Bƣớc : Chọn thuật toán để thực xây dựng mơ hình phân lớp liệu vector đƣợc xây dựng (4.2.4) Bộ liệu gồm phần huấn luyện kiểm thử 101 đối tƣợng đƣợc quy định Caltech-101 Bƣớc : Xây dựng hàm phân lớp liệu huấn luyện vector với tham số “gamma” “cost factor”, ta thu đƣợc 101 mơ hình phân lớp nhị phân 55 Chƣơng Thực nghiệm Bƣớc : Áp dụng mô hình phân lớp nhị phân vào liệu kiểm thử, thu đƣợc 101 kết tỉ lệ xác phân lớp ứng với đối tƣợng Bƣớc : Tính tỉ lệ trung bình 101 kết trả bƣớc Bƣớc : Lặp lại bƣớc với tham số “gamma” “cost factor” khác hết cặp tổ hợp Bƣớc : Chọn tỉ lệ trung bình lớn để làm giá trị đại điện cho tỉ lệ xác mơ hình phân lớp dựa thuật toán liệu vector chọn bƣớc 4.4 Kết 4.4.1 Tổng quát  Kết thuật toán thực thi nhóm liệu có tham số “num word” 100 : 0.8 Tỉ lệ xác 0.6 mi-SVM MI-SVM 0.4 spatial-MI-SVM top-MI-SVM 0.2 top-spatial-MI-SVM 0.0 Nhóm Nhóm Nhóm Nhóm Nhóm Nhóm liệu 1.1 liệu 2.1 liệu 3.1 liệu 4.1 liệu 5.1 liệu 6.1 Hình 4.5 Tổng hợp kết thuật toán thực nghiệm nhóm liệu có tham số “num words” 100 56 Chƣơng Thực nghiệm Tỉ lệ xác 0.8 0.686744 0.717437 0.744279 0.751760 0.751485 0.6 0.4 0.2 0.0 Hình 4.6 Kết trung bình nhóm liệu có tham số “num words” 100 thuật toán thực nghiệm  Kết thuật toán thực thi nhóm liệu có tham số “num word” 500 : Tỉ lệ xác 0.8 0.6 mi-SVM MI-SVM 0.4 spatial-MI-SVM top-MI-SVM 0.2 top-spatial-MI-SVM 0.0 Nhóm Nhóm Nhóm Nhóm Nhóm Nhóm liệu 1.2 liệu 2.2 liệu 3.2 liệu 4.2 liệu 5.2 liệu 6.2 Hình 4.7 Tổng hợp kết thuật toán thực nghiệm nhóm liệu có tham số “num words” 500 57 Chƣơng Thực nghiệm Tỉ lệ xác 0.8 0.727393 0.682838 0.754346 0.766337 0.766337 0.6 0.4 0.2 0.0 Hình 4.8 Kết trung bình nhóm liệu có tham số “num words” 500 thuật toán thực nghiệm 4.4.2 Chi tiết Kết thuật toán thực thi nhóm liệu lần lƣợt đƣợc trình bày chi tiết bảng sau : Bảng 4.2 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.704950 0.696040 MI-SVM 0.732343 0.720132 spatial-MI-SVM 0.766997 0.771947 top-MI-SVM 0.768977 0.773267 top-spatial-MI-SVM 0.775908 0.780858 Bảng 4.3 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.672277 0.671287 MI-SVM 0.698350 0.708581 spatial-MI-SVM 0.720792 0.736304 top-MI-SVM 0.730693 0.752805 top-spatial-MI-SVM 0.731353 0.748185 58 Chƣơng Thực nghiệm Bảng 4.4 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.717492 0.710231 MI-SVM 0.761716 0.764356 spatial-MI-SVM 0.769637 0.793069 top-MI-SVM 0.787459 0.812871 top-spatial-MI-SVM 0.795050 0.817162 Bảng 4.5 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.659736 0.674587 MI-SVM 0.684819 0.724752 spatial-MI-SVM 0.722112 0.745875 top-MI-SVM 0.726403 0.749505 top-spatial-MI-SVM 0.718152 0.752145 Bảng 4.6 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.696700 0.687129 MI-SVM 0.732013 0.731023 spatial-MI-SVM 0.761716 0.750165 top-MI-SVM 0.767987 0.756766 top-spatial-MI-SVM 0.756766 0.754125 Bảng 4.7 Tỉ lệ xác mơ hình phân lớp liệu vector nhóm với “seed” = “bin size” = Thuật toán 100 words 500 words mi-SVM 0.669307 0.657756 MI-SVM 0.695380 0.715512 spatial-MI-SVM 0.724422 0.728713 top-MI-SVM 0.729043 0.752805 top-spatial-MI-SVM 0.731683 0.745545 59 Chƣơng Thực nghiệm 4.4.3 Nhận xét Thuật toán mi-SVM có độ xác thấp thuật toán đƣợc đƣa vào thực nghiệm Việc xem tất “instance” “bag” dƣơng thuộc bờ dƣơng siêu phẳng “instance” có khả chứa đối tƣợng cần phân lớp làm tăng tỉ lệ nhiễu không gian liệu thực tìm kiếm siêu phẳng phân chia tối ƣu dẫn đến tỉ lệ xác mơ hình phân lớp khơng cao Thuật tốn MI-SVM có độ xác cao thuật tốn MI-SVM cho thấy ƣu điểm thuật toán giảm tỉ lệ nhiễu xuống cách chọn “instance” “bag” dƣơng có khả chứa đối tƣợng, nhiên điều làm giảm không gian liệu huấn luyện xuống mức thấp gây ảnh hƣởng tới độ xác thuật tốn Thuật tốn spatial-MI-SVM có kết tốt so với thuật toán mi-SVM MI-SVM, khẳng định việc tận dụng yếu tố mặt không gian “instance” cải thiện đƣợc mức độ xác mơ hình phân lớp Thuật tốn xem số “instance” thỏa mức độ trùng lắp có khả chứa đối tƣợng khắc phục nhƣợc điểm thuật toán mi-SVM MI-SVM Thuật toán top-MI-SVM cho kết tốt thuật toán thử nghiệm Mặc dù chọn số “instance” làm đại diện cho “bag” dƣơng nhƣ thuật toán spatial-MI-SVM, nhƣng việc lựa chọn “instance” dựa vào giá trị hàm phân lớp làm giảm tỉ lệ “instance” thực không chứa đối tƣợng không gian liệu huấn luyện mà thuật tốn spatial-MI-SVM có khả gặp phải Thuật tốn top-spatial-MI-SVM cho kết thực thi trung bình theo nhóm liệu có tham số “num words” cao so với thuật toán mi-SVM, MI-SVM spatial-MI-SVM Điều cho thấy việc kết hợp tính chất thuật toán spatial-MI-SVM top-MI-SVM làm giảm “instance” gây nhiễu thực lựa chọn “instance” so với thuật toán spatial-MI-SVM, nhiên mức độ xác thực phân lớp chƣa thể vƣợt qua đƣợc thuật toán top-MISVM 60 Chƣơng Kết luận CHƢƠNG KẾT LUẬN Khóa luận trình bày tổng quan toán phân lớp đối tƣợng ảnh phƣơng pháp học có giám sát yếu mà tiêu biểu phƣơng pháp MIL, đồng thời sâu vào nghiên cứu, phân tích, đánh giá thuật toán tiêu biểu phƣơng pháp MIL mi-SVM, MI-SVM spatial-MI-SVM Tuy nhiên, thuật toán spatial-MI-SVM sử dụng khơng gian ảnh nên khó mở rộng sang dạng toán phân lớp mà đối tƣợng dạng khác nhƣ tồn khả bị nhiễu lựa chọn “instance”, khóa luận đề xuất thuật toán cải tiến top-MI-SVM để khắc phục hai nhƣợc điểm Bên cạnh đó, khóa luận thực kết hợp thuật toán spatial-MI-SVM top-MISVM để xây dựng thuật toán top-spatial-MI-SVM với mong muốn làm giảm độ nhiễu việc lựa chọn “instance” dựa mối quan hệ trùng lắp mặt khơng gian Tất thuật tốn đƣợc thực nghiệm để kiểm chứng lại mức độ xác với kết thu đƣợc hoàn toàn phù hợp với lý thuyết tìm hiểu Do hạn chế mặt thời gian nên khóa luận thực nghiệm liệu Caltech-101 cho việc so sánh thuật toán nên kết đánh giá thuật tốn chƣa mang tính tổng qt cao Trong thời gian tới, tiến hành thực nghiệm liệu ảnh khác nhƣ Caltech-256 [20], LabelMe [21] Pascal VOC [22] để có kết tổng quát tối ƣu 61 Tài liệu tham khảo TÀI LIỆU THAM KHẢO Tiếng Anh Andrews, Stuart, Ioannis Tsochantaridis, and Thomas Hofmann (2002), “Support vector machines for multiple-instance learning”, Advances in neural information processing systems, pp.561-568 Thanh Duc Ngo, Duy-Dinh Le, and Shin’ichi Satoh (2011), "Improving image categorization by using multiple instance learning with spatial relation", Image Analysis and Processing – ICIAP 2011, pp.108-117 L Fei-Fei, R Fergus and P Perona (2004), “Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories”, IEEE CVPR 2004, Workshop on Generative-Model Based Vision Farhadi, Ali, et al (2009), "Describing objects by their attributes", Computer Vision and Pattern Recognition – CVPR, 2009 IEEE Conference on, pp.17781785 Parikh, Devi, and Kristen Grauman (2011), "Relative attributes", Computer Vision (ICCV), 2011 IEEE International Conference on, pp 503-510 Galleguillos, Carolina, and Serge Belongie (2010), "Context based object categorization: A critical survey", Computer Vision and Image Understanding, Vol.114(6), pp.712-722 S Lazebnik, A Torralba, L Fei-Fei, D Lowe and C Szurka (2012), http://cs.nyu.edu/~fergus/teaching/vision_2012/9_BoW.pdf Yuan, Liming, Jiafeng Liu, Xianglong Tang, Daming Shi, and Lu Zhao (2014), "Pairwise-similarity-based instance reduction for efficient instance selection in multiple-instance learning", International Journal of Machine Learning and Cybernetics, Vol.6(1), pp.83-93 Thanh Duc Ngo, Duy-Dinh Le, and Shin’ichi Satoh (2011), "Boosting global scene classification accuracy by discriminative region localization", Image Processing (ICIP), 2011 18th IEEE International Conference on, pp.105362 Tài liệu tham khảo 1056 10 Akbas, Emre, Bernard Ghanem, and Narendra Ahuja (2011), "MIS-Boost: Multiple instance selection boosting", arXiv preprint arXiv:1109.2388 11 Maron, Oded, and Tomás Lozano-Pérez (1998), "A framework for multipleinstance learning", Advances in neural information processing systems, pp.570576 12 Zhang, Qi, and Sally A Goldman (2001), "EM-DD: An improved multipleinstance learning technique", Advances in neural information processing systems, pp.1073-1080 13 Dietterich, Thomas G., Richard H Lathrop, and Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles", Artificial intelligence, 89(1), pp.31-71 14 Fu, Zhouyu, and Antonio Robles-Kelly (2009), “An Instance Selection Approach to Multiple Instance Learning”, IEEE Conference on Computer Vision and Pattern Recognition, pp.911–918 15 Chen, Yixin, Jinbo Bi, and James Z Wang (2006), "MILES: Multiple-instance learning via embedded instance selection", Pattern Analysis and Machine Intelligence, IEEE Transactions on 28(12), pp.1931-1947 16 Lenz, Benjamin (2015), Smart Feature Selection to enable Advanced Virtual Metrology, Doctoral dissertation, Universität Tübingen 17 Vedaldi, Andrea, and Brian Fulkerson (2010), “VLFeat: An open and portable library of computer vision algorithms”, Proceedings of the 18th ACM international conference on Multimedia, pp.1469-1472 18 Jun Yang, MILL: A Multiple Instance Learning Library (26.Nov.2008), http://www.cs.cmu.edu/~juny/MILL 19 Hsu, Chih-Wei, Chih-Chung Chang, and Chih-Jen Lin (2003), "A practical guide to support vector classification", Department of Computer Science National Taiwan University, Taipei 106, Taiwan, p.1-16 20 Griffin, Gregory, Alex Holub, and Pietro Perona (2007), "Caltech-256 object category dataset”, California Institute of Technology 21 Russell, Bryan C., Antonio Torralba, Kevin P Murphy, and William T 63 Tài liệu tham khảo Freeman (2008), "LabelMe: a database and web-based tool for image annotation", International Journal of Computer Vision 77, no.1-3, pp.57-173 22 Everingham, Mark, SM Ali Eslami, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman (2015), "The pascal visual object classes challenge: A retrospective", International Journal of Computer Vision 111, no.1, pp.98-136 64 ... thuộc phân lớp xác định ảnh Nhƣ vậy, nhiệm vụ toán phân lớp đối tƣợng ảnh cần xây dựng mơ hình phân lớp để có ảnh vào mơ hình phân lớp cho biết ảnh thuộc lớp đối tƣợng Phân lớp đối tƣợng ảnh có... đơn hai lớp nhƣ toán phân lớp nhị phân Về chất, toán phân lớp nhị phân trƣờng hợp riêng toán phân lớp đa lớp - Phân lớp đa trị ảnh tập huấn luyện nhƣ ảnh sau đƣợc phân lớp thuộc vào từ hai lớp trở... HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  BÙI LÊ THUẬN NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÂN LỚP ĐỐI TƯỢNG TRÊN ẢNH DỰA TRÊN MULTIPLE INSTANCE LEARNING KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số

NGHIÊN cứu các PHƯƠNG PHÁP PHÂN lớp đối TƯỢNG TRÊN ẢNH dựa TRÊN MULTIPLE INSTANCE LEARNING

Thông tin tài liệu

Từ khóa liên quan

Mục lục

BaoCaoKhoaLuan_Bia_CH1301062

BaoCaoKhoaLuan_ND_CH1301062

Tài liệu cùng người dùng

Tài liệu liên quan