Kết hợp đa đặc trưng trong mô hình crfs cho bài toán phân đoạn ảnh theo đối tượng

61 377 0
Kết hợp đa đặc trưng trong mô hình crfs cho bài toán phân đoạn ảnh theo đối tượng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN PHẠM TRỌNG NGHĨA KẾT HỢP ĐA ĐẶC TRƯNG TRONG MÔ HÌNH CRFs CHO BÀI TOÁN PHÂN ĐOẠN ẢNH THEO ĐỐI TƯỢNG NGÀNH: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC PGS. T.S LÊ HOÀI BẮC Thành phố Hồ Chí Minh - 2010 II LỜI CÁM ƠN Trƣớc tiên và hơn hết, tôi xin gởi lời cảm ơn chân thành đến ngƣời hƣớng dẫn luận văn này, thầy Lê Hoài Bắc. Thầy là ngƣời trực tiếp hƣớng dẫn, gợi ý đề tài và tận tình dẫn dắt cho tôi trong suốt thời gian thực hiện đề tài. Nếu không có sự chỉ bảo nhiệt tình và sự theo dõi sát sao, chắc chắn tôi không thể hoàn thành luận văn này. Tôi cũng xin gởi lời cảm ơn sâu sắc đến anh Võ Đình Phong, ngƣời đã luôn theo sát tôi trong quá trình làm luận văn. Những gợi ý, chỉ dẫn và phản biện của anh vô cùng quý giá giúp tôi hoàn thành luận văn. Tôi cũng xin cảm ơn các anh chị và bạn bè trong khoa công nghệ thông tin đã luôn giúp đỡ, trao đổi và thảo luận, cung cấp cho tôi nhiều thông tin và kiến thức hữu ích. Tôi cũng xin gởi lời cảm ơn quý thầy, cô trong khoa Công nghệ thông tin, Trƣờng Đại Học Khoa Học Tự Nhiên TP.HCM, những ngƣời đã dày công dạy dỗ, truyền cho tôi rất nhiều tri thức cùng với những kinh nghiệm quý báu suốt những năm theo học tại trƣờng. Và quan trọng nhất, con xin cảm ơn ba mẹ, những ngƣời vẫn luôn dành cho con những tình cảm yêu thƣơng nhất, ba mẹ đã hỗ trợ con trong suốt thời gian học tập, đã động viên con mỗi khi khó khăn, giúp con có thêm tự tin thực hiện tốt công việc của mình. Xin chân thành cảm ơn! III MỤC LỤC LỜI CÁM ƠN II MỤC LỤC III DANH MỤC HÌNH ẢNH V Danh sách các bảng VIII TÓM TẮT LUẬN VĂN IX Danh mục chữ viết tắt: XI Chƣơng 1: MỞ ĐẦU 1 1.1. Giới thiệu lĩnh vực và ý nghĩa của đề tài 1 1.1.1. Dẫn nhập 1 1.1.2. Lĩnh vực nghiên cứu của đề tài 3 1.1.3. Ý nghĩa lý luận và thực tiễn: 4 1.2. Các kết quả nghiên cứu liên quan 6 1.3. Phƣơng pháp giải quyết đề xuất. 8 1.4. Cấu trúc luận văn 10 Chƣơng 2: TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN VÀ CỰC TIỂU HOÁ NĂNG LƢỢNG BẰNG GRAPH-CUT 13 2.1. Trƣờng ngẫu nhiên có điều kiện 13 2.2. Cực tiểu hoá năng lƣợng 15 2.2.1. Tổng quan về cực tiểu hoá năng lƣợng 15 2.2.2. Cực tiểu hoá năng lƣợng bằng phƣơng pháp graph cut. 16 Chƣơng 3: Mô hình CRFs cho bài toán phân đoạn ảnh theo đối tƣợng. 24 3.1. Thế năng vân-bố cục 26 3.1.1. Texton hoá ảnh 27 IV 3.1.2. Bộ lọc vân-bố cục 30 3.1.3. Thuật toán Joint Boosting 33 3.2. Thế năng màu sắc 36 3.3. Thế năng vị trí: 38 3.4. Mô hình CRF mức cao: 39 3.4.1. Phân đoạn ảnh không giám sát 39 3.4.2. Thế năng mức cao: 41 Chƣơng 4: Kết quả thực nghiệm 43 4.1. Bộ dữ liệu 43 4.2. Độ đo 44 4.3. Bố trí thí nghiệm 44 4.4. Kết quả 45 4.4.1. Thí nghiệm với các kích thƣớc từ điển khác nhau 45 4.4.2. Thí nghiệm với các mức độ kết hợp đặc trƣng trong mô hình CRF đôi 46 4.4.3. Thí nghiệm kết hợp với kết quả phân đoạn ảnh không giám sát trong mô hình CRFs mức cao 48 Chƣơng 5: Kết luận và hƣớng phát triển 52 5.1. Kết luận 52 5.2. Hƣớng phát triển 53 Tài liệu tham khảo 54 XI Danh mục chữ viết tắt: CRF Conditional Random Fields GMM Gaussian Mixture Models V DANH MỤC HÌNH ẢNH Hình 1-1. Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5]) 1 Hình 1-2 – Ví dụ về bài toán nhận dạng đối tƣợng. Sử dụng thuật toán trong [28] 2 Hình 1-3. Ví dụ về bài toán phân đoạn ảnh theo đối tƣợng. Hàng trên là ảnh đầu vào. Hàng dƣới là các ảnh kết quả với các màu sắc biểu diễn các đối tƣợng khác nhau. 3 Hình 1-4. Chƣơng trình cắt dán ảnh tự động [4] 4 Hình 1-5. Chƣơng trình tổng hợp thông tin ngữ nghĩa. 5 Hình 1-6. Chƣơng trình biên tập ảnh. Bên trái: sau khi có kết quả phân đoạn ảnh, ngƣời dùng chọn ngƣời, thực đơn ngữ cảnh xuất hiện, xác định đây là vùng ngƣời. Bên phải: kết quả khi ngƣời dùng nhấn nút xoá. Vùng ảnh chứa ngƣời bị xoá [15] 5 Hình 1-7. Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong luận văn 10 Hình 2-1: Ví dụ về mô hình CRF đôi định nghĩa trên các biến ngẫu nhiên , Mô hình bao gồm các thế năng đơn phân cho từng biến  và các thế năng liên kết giữa các biến kề nhau  trong đó . Đồ thị factor thể hiện các biến liên quan trong từng thành phần. 14 Hình 2-2. Ví dụ về đồ thị (a) và đƣờng cắt (b). Các cạnh nối giữa hai đỉnh đầu cuối với các pixel (màu đỏ và xanh) thể hiện thế năng đơn phân. Các cạnh nối giữa các pixel (màu vàng) thể hiện thế năng liên kết. Một đƣờng cắt sẽ chia tập các pixel ra làm 2 phần, tƣơng ứng với việc gán nhãn nhị phân. 17 Hình 2-3. Ví dụ đơn giản về phân đoạn ảnh 2D cho ảnh 3x3. Trọng số của các cạnh thể hiện bằng độ dày của cạnh đó trong hình. Đầu tiên ảnh (a) sẽ đƣợc chuyển thành đồ thị tƣơng ứng (b), việc tìm ra đƣờng cắt tối thiểu (c) tƣơng ứng với sự phân đoạn ảnh tốt nhất (d). [38] 18 Hình 2-4. Ví dụ về bƣớc di chuyển. (a) Nhãn ban đầu. (b) “bƣớc di chuyển đơn” sẽ thay đổi nhãn của một pixel (đánh dấu tròn). (c) “hoán đổi alpha-beta” thay đổi một VI số pixel có nhãn alpha thành beta và ngƣợc lại (d) “mở rộng alpha” thay đổi nhãn của một số pixel thành alpha. 20 Hình 2-5. Ví dụ về đồ thị  cho ảnh 1 chiều. Tập hợp các pixel trong ảnh là P = {p,q,r,s}, trong đó {q,r}có cùng nhãn, p có nhãn khác {q,r}, còn s có nhãn là  khác cả 3 đỉnh trên. Hai đỉnh phụ trợ là  và  đƣợc thêm vào để nối hai pixel láng giềng khác nhãn 22 Hình 3-1. Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong luận văn 24 Hình 3-2. Quá trình texton hoá ảnh. Ảnh đầu vào đƣợc tích chập với một dãy các filter. Kết quả trả về tại tất cảc pixel trong tất cả ảnh huấn luyện đƣợc gom nhóm để xây dựng bộ từ điển texton. Cuối cùng từng pixel đƣợc gán một chỉ số texton tƣơng ứng với nhóm gần nhất trong từ điển texton. 28 Hình 3-3. Minh hoạ filter bank 17 chiều 29 Hình 3-4. Hình minh hoạ 17 filter response khi áp filter bank lên ảnh. Ảnh trái trên là ảnh gốc. 30 Hình 3-5. Phân tách bản đồ texton ra thành nhiều kênh. Bản đồ texton gồm K texton đƣợc phân chia ra thành K kênh. Ảnh integral đƣợc xây dựng cho từng kênh cho phép tính toán bộ lọc vân-bố cục với thời gian hằng số. 31 Hình 3-6. Tính toán kết quả trả về và nắm bắt thông tin ngữ cảnh [15] 31 Hình 3-7. Nắm bắt thông tin bố cục. 32 Hình 3-8. Minh hoạ các tính thế năng màu sắc 37 Hình 3-9. Minh họa về thế năng vị trí. Màu trắng biểu hiện tần số xuất hiện cao. Hình trên cho biết một số thông tin nhƣ cây và bầu trời thƣờng nằm phía trên ảnh, đƣờng nằm ở dƣới ảnh. Cỏ ít xuất hiện gần trung tâm mà xuất hiện nhiều ở phía dƣới, ngƣợc lại, mặt thƣờng xuất hiện ở trung tâm ảnh. 38 Hình 3-10. So sánh kết quả của ba thuật toán phân đoạn ảnh. (b) thuật toán dựa trên đồ thị [23] , (c) thuật toán superpixel [21] (d) thuật toán mean-shift [5] 40 Hình 3-11. Minh hoạ hai cách tính thế năng mức cao. Hình (a) ứng với công thức 4.26. Hình (b) ứng với công thức 4.27. 42 VII Hình 4-1. Bộ dữ liệu MSRC. Cột a-d là một số ảnh trong bộ dữ liệu. Cột e là ảnh đã gán nhãn sẵn của các ảnh trong cột d. 44 Hình 4-2. Kết quả thí nghiệm hiệu năng của đặc trƣng vân – bố cục với các kích thƣớc từ điển texton khác nhau. 45 Hình 4-3. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng đặc trƣng vân-bố cục, kết quả dùng thế năng đơn phân, ảnh kết quả dùng mô hình CRF đôi, ảnh groundtruth. 47 Hình 4-4. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải: ảnh đầu vào, ảnh kết quả dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh groundtruth. 48 Hình 4-5. Minh họa kết quả phân đoạn ảnh khi áp dụng hai thuật toán superpixel và meanshift lên ảnh đầu vào và ảnh kết quả của mô hình CRFs mức cao. Lần lƣợt từ trái qua phải: ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean- shift, kết quả phân đoạn ảnh kết quả dùng mean-shift. 49 Hình 4-6. Confusion matrix thể hiện kết quả của mô hình CRFs mức cao (mean- shift) 51 Hình 4-7. Một số hình ảnh trong tập MSRC về đối tƣợng “bird”. 51 VIII Danh sách các bảng Bảng 2-1.Trọng số các cạnh trong đồ thị mở rộng alpha. 23 Bảng 2-2. Trọng số các cạnh trong đồ thị mở rộng alpha. 23 Bảng 4-1. Hiệu năng chung của việc kết hợp các loại đặc trƣng khác nhau trong trong mô hình CRFs đôi 46 Bảng 4-2. Hiệu năng cụ thể của từng lớp với các loại đặc trƣng khác nhau trong mô hình CRFs đôi. 47 Bảng 4-3. So sánh hiệu năng của mô hình CRFs đôi với hai mô hình CRFs mức cao sử dụng superpixel và meanshift 48 1 Chƣơng 1: MỞ ĐẦU 1.1. Giới thiệu lĩnh vực và ý nghĩa của đề tài 1.1.1. Dẫn nhập Bài toán phân đoạn ảnh (image segmentation) và nhận dạng đối tượng (object recognition) đều là những vấn đề kinh điển trong thị giác máy tính và nhận đƣợc sự quan tâm của cộng đồng nghiên cứu ngay từ những ngày đầu. Tuy nhiên, nhiều tác giả xem xét hai vấn đề này nhƣ hai vấn đề riêng biệt nhau. Mãi đến những năm gần đây, các nhà nghiên cứu mới tập trung vào việc kết hợp hai bài toán này. Các nghiên cứu thuần về phân đoạn ảnh tập trung vào việc phân chia một bức ảnh thành các vùng không giao nhau. Các pixel thuộc cùng một vùng sẽ có một số tính chất tƣơng tự nhau về diện mạo nhƣ: màu sắc, độ sáng, và vân. Việc phân đoạn ảnh này chỉ thể hiện các vùng khác nhau có diện mạo khác nhau, không chứa thông tin ngữ nghĩa gì về các vùng này. Dạng phân đoạn ảnh này còn đƣợc gọi là phân đoạn ảnh không giám sát. Hình 1-1. Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5]) [...]... các đối tƣợng có trong hình, nhƣng lại không chính xác đến từng pixel nhƣ trong bài toán phân đoạn ảnh mà chủ yếu xác định đối tƣợng bằng một khung hình chữ nhật Do đó, nhu cầu kết hợp hai bài toán này nhằm tận dụng ƣu điểm của cả hai là rất cần thiết Bài toán kết hợp hai vấn đề trên gọi là bài toán phân đoạn ảnh theo đối tượng (object segmentation) Cụ thể hơn, cho trƣớc một bức ảnh, thuật toán phân đoạn. .. và thực tiễn: Bài toán phân đoạn ảnh theo đối tƣợng là một bƣớc phát triển tiếp theo của bài toán phân đoạn ảnh và bài toán nhận dạng đối tƣợng Mặt khác bài toán này còn là một thành phần quan trọng của một bài toán lớn hơn: hiểu nội dung ảnh Vấn đề truy vấn ảnh theo nội dung cũng đƣợc hƣởng lợi từ kết quả này Ví dụ: ngƣời dùng có thể truy vấn nhƣ sau: “Tìm tất cả các bức ảnh có con ngựa đang uống nƣớc”... năng phân đoạn Mô hình chung của hệ thống đƣợc tóm tắt qua hình 1-7 Các chƣơng còn lại, đặc biệt là chƣơng 3, sẽ giải thích rõ hơn các thành phần trong mô hình này 9 Hình 1-7 Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong luận văn 1.4 Cấu trúc luận văn Luận văn gồm 5 chƣơng: Chƣơng 1 MỞ ĐẦU: Trong chƣơng mở đầu này, luận văn đã giới thiệu tổng quan về bài toán phân đoạn ảnh theo đối. .. hàm nhƣ sau [24]: (3.5) Mô hình CRFs bên trên đƣợc gọi là mô hình CRFs đôi (pairwise CRFs) hay mô hình CRFs truyền thống đƣợc tính dựa trên từng pixel và các pixel láng giềng Trong phần 3.4, luận văn sẽ trình bày mô hình CRFs mức cao là sự kết hợp của mô hình CRFs đôi với thế năng mức cao Thế năng này đƣợc tính dựa trên các phân đoạn ảnh có đƣợc từ các thuật toán phân đoạn ảnh không giám sát 3.1 Thế... hai bài toán truyền thống: phân đoạn ảnh và nhận dạng đối tƣợng Tiếp theo luận văn đã trình bày những thách thức, khó khăn trong bài toán phân đoạn ảnh theo đối tƣợng, những thách thức này chủ yếu là do sự đa dạng về màu sắc, hình dạng, và ngoại cảnh của các đối tƣợng Luận văn cũng giới thiệu đƣợc các hƣớng nguyên cứu có liên quan Từ đó đề xuất một mô hình phù hợp để giải quyết bài toán Mặt khác trong. .. đối tượng tập trung vào việc xác định xem trong bức ảnh cho trƣớc có những đối tƣợng nào bằng cách đặt các ô hình chữ nhật xung quanh đối tƣợng cần nhận dạng Hình 1-2 – Ví dụ về bài toán nhận dạng đối tƣợng Sử dụng thuật toán trong [28] Bài toán phân đoạn ảnh chỉ quan tâm đến việc phân chia ảnh thành các vùng khác nhau mà không quan tâm đến ngữ nghĩa của từng vùng Trong khi đó, bài toán nhận dạng đối. .. JoinBoost [29] - Đặc trưng màu sắc: mô hình hoá phân bố màu sắc của các đối tƣợng Đặc trƣng này đƣợc tính bằng mô hình hỗn hợp Gaussian (Gaussian Mixture model – GMM) - Đặc trưng vị trí: mô hình hoá vị trí tƣơng đối của các đối tƣợng trong ảnh Tuy nhiên, phƣơng pháp trên chỉ tập trung vào rút trích đặc trƣng trên từng pixel mà bỏ qua nguồn thông tin dồi dào từng các thuật toán phân đoạn ảnh không giám... cạnh trong đồ thị mở rộng alpha Nhƣ vậy, chƣơng vừa qua đã trình bày một số cơ sở lý thuyết về mô hình CRFs và phƣơng pháp cực tiểu hoá năng lƣợng bằng phƣơng pháp graph-cut mà cụ thể hơn là thuật toán mở rộng alpha Chƣơng tiếp theo sẽ trình bày cụ thể việc lựa chọn các thế đơn phân, thế liên kết trong bài toán phân đoạn ảnh theo đối tƣợng mà luận văn sử dụng 23 Chƣơng 3: Mô hình CRFs cho bài toán phân. .. toán phân đoạn ảnh theo đối tƣợng Chƣơng trƣớc đã trình bày một số cơ sở lý thuyết về mô hình CRFs và phƣơng pháp cực tiểu hoá năng lƣợng dùng graph-cut Phần tiếp theo trong chƣơng này sẽ trình bày cụ thể các thế năng sử dụng trong luận văn Mô hình chung của hệ thống có thể đƣợc tóm tắt qua hình 3-1 Hình 3-1 Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong luận văn Một bức ảnh có thể... phải: kết quả khi ngƣời dùng nhấn nút xoá Vùng ảnh chứa ngƣời bị xoá [15] 5 1.2 Các kết quả nghiên cứu liên quan Nhƣ vậy, trong phần đầu của chƣơng, luận văn đã giới thiệu sơ lƣợc về bài toán phân đoạn ảnh theo đối tƣợng Phần tiếp theo của luận văn sẽ trình bày một số kế quả nghiên cứu có liên quan đến bài toán mà luận văn đang giải quyết Cả hai bài toán nhận dạng đối tƣợng và phân đoạn ảnh đều là bài toán . dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh. toán kết hợp hai vấn đề trên gọi là bài toán phân đoạn ảnh theo đối tượng (object segmentation). Cụ thể hơn, cho trƣớc một bức ảnh, thuật toán phân đoạn ảnh theo đối tƣợng sẽ tự động phân. ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean- shift, kết quả phân đoạn ảnh kết quả dùng

Ngày đăng: 09/10/2014, 20:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan