Tóm tắt luận văn thạc sĩ SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ

24 335 0
Tóm tắt luận văn thạc sĩ SINH câu MIÊU tả CHO HÌNH ẢNH sử DỤNG mô HÌNH NGÔN NGỮ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -š›*š› - ĐÀO BẢO LINH SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG MƠ HÌNH NGÔN NGỮ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -š›*š› - ĐÀO BẢO LINH SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG MƠ HÌNH NGƠN NGỮ Ngành: Cơng Nghệ Thông Tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ ANH CƯỜNG Hà Nội - 2015 LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn PGS TS Lê Anh Cường (University of Enginerring and Technology) người trực tiếp hướng dẫn tạo điều kiện tốt để tơi hồn thành luận văn Tôi xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute of Informatics), người hướng dẫn tạo điều kiện cho q trình nghiên cứu đề tài bên Nhật Bản Tơi xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Công Nghệ, người trực tiếp giảng dạy, hướng dẫn tạo điều kiện cho tơi q trình học tập thực hành trường Cuối cùng, xin gửi lời cảm ơn tới tất bạn học gia đình ủng hộ, giúp đỡ tơi suốt q trình thực luận văn Hà Nội, ngày tháng năm 2015 Học viên Đào Bảo Linh MỤC LỤC Danh mục từ viết tắt: Ký hiệu viết tắt Viết đầy đủ SVM support vector machine Máy hỗ NLP Natural Language Processing Xử lý n CNN Convolutional Neural Network-CNN Mạng n OWs Other words Các từ k BFS Best-first search Tìm kiế Thuật ngữ sử dụng: Tiếng Anh Tiế Breadth-first search Tìm kiếm theo chiều Depth-first search Tìm kiếm theo chiều Graph-based segmentation Phân đoạn ảnh dựa tr Bag-of-words Tập từ rời rạc nha Dataset Tập liệu Computer vision Thị giác máy Text Description Văn miêu tả Corpus Tập văn MỞ ĐẦU Ngày phát triển internet phát triển nhanh chóng, việc chia sẻ liệu đa phương tiện hình ảnh đoạn phim website trở nên phổ biến, kéo theo vấn đề số liệu không đặt tiêu đề hay thiếu miêu tả, gây khó khăn cho việc tìm kiếm khai thác thơng tin internet, từ định nghiên cứu phát triển đề tài “Sinh câu miêu tả cho hình ảnh sử dụng mơ hình ngôn ngữ” Đề tài tập trung vấn đề sinh câu miêu tả cho hình ảnh Đề tài tạo tiền đề cho việc phát triển hệ thống tự động miêu tả video, hệ thống trợ lý miêu tả lại môi trường xung quanh cho người mù, hay hỗ trợ việc tiếp thu tri thức môi trường Robot Trong luận văn trình bày kiến thức liên quan tới tốn đồng cài đặt đánh giá hiệu phương pháp mà sử dụng để sinh câu cho ảnh, cuối định hướng nghiên cứu tương lai dựa sở luận văn Chương MƠ TẢ BÀI TỐN 1.1 Ý nghĩa Nhận dạng đối tượng ảnh toán quen thuộc với hầu hết người làm nghiên cứu lĩnh vực khoa học máy tính nói chung, hay thị giác máy nói riêng, có nhiều phương pháp với mục đích khác đề xuất nhằm nhận dạng khuân mặt, nhận dạng vị trí, nhận dạng đối tượng Việc sinh câu miêu tả cho hình ảnh quy tốn tìm câu có xác suất lớn Trong điều kiện cụ thể, có đầu vào nhiều từ 1.2 Nghiên cứu liên quan Nghiên cứu sinh câu từ ảnh lần vào năm 2010 Bức ảnh đầu vào áp dụng kỹ thuật Image Parsing để phân đoạn thành đối tượng [1], đối tượng tiếp tục phân chia thành nhiều thành phần, sau từ biểu diễn ngữ nghĩa (semantic representation) sinh câu phải bảo đảm xác mặt ngữ pháp Một nghiên cứu khác công bố, thơng qua mơ hình ngữ pháp thực nghiệm (experimental grammar model) để hình thành câu, với đầu vào keyphrases, keyphrases giả định nhận sau phân tích nội dung ảnh [2] 10 Chương PHƯƠNG PHÁP 2.1 Tập văn Để tạo mơ hình ngơn ngữ cần sử dụng tập văn mẫu huấn luyện Cùng với từ điển, tập văn tài nguyên ngôn ngữ vô cần thiết cho NLP Từ điển tập hợp tri thức ngôn ngữ, cách sử dụng ý nghĩa từ, ngược lại, tập văn liệu cách sử dụng, cách viết từ thực tế 2.1.1 Các loại tập văn • • • Tập văn thô (raw tập văn bản) tập văn gắn nhãn (tagged tập văn bản) Parallel Tập văn 2.1.2 Cấu trúc tập văn Như trình bày trên, có hướng thiết kế tập văn : quan tâm tính tốn đến cân tập văn bản, tập trung vào số lượng mà không quan tâm đến cân Tuỳ theo hướng xây dựng mà tập văn có cấu trúc q trình xây dựng khác 11 2.1.3 Chú thích (annotation) Chú thích q trình sửa đổi nội dung gốc (tagging ) hay loại bỏ nội dung thêm vào (tag) Vế thứ có nghĩa ta loại bỏ thích, ta thu lại nội dung gốc ban đầu Nói cách khác, q trình thích khơng làm nội dung gốc 2.1.4 Sử dụng tập văn Tập văn sử dụng thống kê ngơn ngữ học, để quan sát phân tích tượng ngôn ngữ Từ khoảng năm 1990, với phát triển vượt bậc tốc độ máy tính, hàng loạt tập văn làm tự động hay bán tự động đời, điều làm tăng kích thước tập văn độ xác thống kê 2.2 Mơ hình ngơn ngữ 2.2.1 Khái qt Mơ hình ngơn ngữ phân bố xác suất tập văn bản, cho biết xác suất câu, cụm từ thuộc ngơn ngữ Mơ hình ngơn ngữ tốt đánh giá câu ngữ pháp, trôi chảy từ có thứ tự ngẫu nhiên Thí dụ: P(“It is raining heavily”) > P(“Raining heavily it is”) 12 2.2.2 Tầm quan trọng mơ hình ngơn ngữ N-gram Mơ hình ngơn ngữ quan trọng việc phát từ bị nhiễu Trong nhận dạng giọng nói, với đầu vào tín hiệu âm có nhiễu, độ nhập nhằng, tương đồng cao 2.2.3 Mơ hình ngơn ngữ N-gram Nếu áp dụng xấp xỉ Markov, xác suất xuất từ (w) coi phụ thuộc vào n từ đứng liền trước (ww…w) khơng phải phụ thuộc vào tồn dãy từ đứng trước (ww…w) Như vậy, công thức tính xác suất văn tính lại theo cơng thức: P(ww…w) = P(w) P(w|w) P(w|ww) … P(w| ww …w) P(w|ww…w) (2.1.1) 2.3 Thuật tốn tìm kiếm Trong tốn xét, coi từ nút đồ thị khoảng cách (chi phí) nút giá trị xác suất đưa tốn tìm đường tốt 2.3.1 Thuật tốn tìm kiếm theo chiều rộng Giải thuật tìm kiếm lời giải theo chiều rộng cài đặt cụ thể giải thuật chung tìm kiếm lời giải, có sử dụng 13 cấu trúc liệu kiểu hàng đợi (queue) để lưu giữ trạng thái nút tìm kiếm Các nút sinh trình thực thi giải thuật cập nhật vào hàng đợi theo nguyên tắc nút đưa vào hàng đợi trước lấy trước trình mở rộng 2.3.2 Thuật tốn tìm kiếm theo chiều sâu Tư tưởng thuật tốn: Giả sử xét đồ thị G(V,E) Từ đỉnh u_V thời ta thăm tới đỉnh kề v u trình lặp lại đỉnh v 2.3.3 Thuật tốn tìm kiếm theo lựa chọn tốt nhất(Best-first search) Như biết tìm kiếm theo chiều sâu khơng cần quan tâm đến việc mở rộng nhánh, tránh tiêu tốn tài ngun hệ thống cách khơng cần thiết có bị sa vào nhánh mà khơng thể tìm lời giải tìm kiếm theo chiều sâu Thuật tốn tìm kiếm theo lựa chọn tốt giúp giải vấn đề Trong thời điểm vừa khai thác hướng theo chiều sâu quan sát hướng khác để sẵn sàng triển khai phát hướng khác tiềm 14 Chương MƠ HÌNH BÀI TỐN 3.1 Tổng quan mơ hình Như giới thiệu phần đầu tiên, toán cần giải Sinh câu miêu tả cho hình ảnh, tốn chia làm bước bước phát đối tượng ảnh sử dụng kỹ thuật thị giác máy, bước thứ sinh câu miêu tả cho đối tượng nhận dạng trước đó, bước phần xử lý ngôn ngữ tự nhiên 3.2 Phát đối tượng Hệ thống nhận dạng đối tượng bao gồm có mô-đun Đầu tiên tạo “đề cử vùng phân loại độc lập” (categoryindependent region proposals), đề cử cho phép tìm tập ứng viên sử dụng cho hệ thống nhận dạng Mô-đun thứ Một mạng neural nhân chập (Convolutional Neural Network-CNN) có nhiệm vụ trích xuất vector đặc trưng có chiều dài cố định (Fixed-length feature vector) cho phân vùng Mô-đun thứ tập lớp máy vector hỗ trợ (Support Vector Machine - SVM) tuyến tính riêng biệt 15 3.2.1 Đề cử vùng Đối tượng nằm vị trí ảnh có kích thước khác nhau, với cách thức thông thường với cửa sổ cố định để quét toàn ảnh theo mạng lưới chi phí cho lần thực q lớn [8] • Tìm kiếm tồn diện Sử dụng cửa sổ có kích thước định qt tồn hình ảnh, sau lựa chọn vị trí khả thi • Phân đoạn ảnh Phương pháp phân đoạn ảnh sử dụng phương pháp phân đoạn ảnh dựa đồ thị (Graph-based segmentation) • Tìm kiếm chọn lựa theo kỹ thuật nhóm cụm thứ bậc Chúng ta lựa chọn sử dụng thuật tốn nhóm cụm thứ bậc hướng hội tụ cho tìm kiếm chọn lựa, phương pháp phân đoạn ảnh phổ biến Từ phân vùng khởi tạo nhỏ nhóm dần vùng nhỏ lại tất vùng nhóm lại thành nhóm 3.2.2 Trích chọn đặc trưng Q trình trích chọn đặc trưng thực phân vùng đề cử, với vector đặc trưng 4096 chiều sử 16 dụng caffe, deep learning framework trung tâm nghiên cứu thuộc trường đại học Berkeley 3.3 Sinh câu miêu tả cho đối tượng Mục đích giai đoạn sinh câu miêu tả cho đối tượng từ kết đầu q trình phát đối tượng, tập nhãn bao gồm danh từ, có thêm động từ, người ta gọi theo cách khác bag-of-words, tới từ ngữ rời rạc thế, phải tìm câu trả lời có xác suất cao Để tính xác suất cặp từ tập văn áp dụng công thức xác suất có điều kiện: ( Tương đương với: (3.2-2) (3.2-6) 17 Nhưng cài đặt tính tốn khơng nên để giá trị dạng xác suất mà lấy logarith số hai vế, câu dài dễ dẫn đến tượng underflow, lý khác biết phép tính tổng nhanh phép tính tích Cơng thức (2.3-6) tương đương với: (3.2-7) Sinh câu miêu tả cho hình ảnh áp dụng thuật tốn tìm kiếm theo lựa chọn tối ưu, thuật toán yêu cầu hàm đánh giá, tính tốn chi phí nút tìm kiếm, tốn tìm kiếm đường tốt sử dụng tổng giá trị quãng đường qua để xác định qng đường ngắn tốn này, xác suất đạt giá trị lớn tương đương với giá trị logarith số chúng lớn nhất, suy hàm đánh giá cho thuật toán sinh câu sau: H(s) 18 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường cài đặt Hệ thống cài đặt Amazon server: Cấu hình CPU Intel(R) Xeon(R) CPU E5-2670 @ 2.60GHz Môi trường Linux AMI release 2015.03 HDD 493 GB RAM 15 GB Công cụ hỗ trợ cài đặt: Cơng cụ Ngơn ngữ lập trình Python 3.2 Công cụ phát triển Ipython notebook Framework Caffe 19 Cơng cụ tạo mơ hình ngơn ngữ SRILM 4.2 Quá trình thử nghiệm 4.2.1 Nhận dạng đối tượng Chúng tơi sử dụng mơ hình nhận dạng R-CNN cho ImageNet Đối tượng nhận dạng dựa đầu mục huấn luyện ban đầu, đầu nhận nhãn điểm số tương ứng 4.2.2 Tập văn huấn luyện Tập văn sử dụng luận văn trích từ tập liệu Microsoft COCO, chứa 123.000 hình ảnh, hình ảnh thích miêu tả tiếng anh cách thủ công 4.2.3 Kết hệ thống sinh câu miêu tả 20 KẾT LUẬN Luận văn thực hồn chỉnh “sinh câu cho hình ảnh sử dụng mơ hình ngơn ngữ” Tuy nhiên, hạn chế quy mô thời gian tập trung vào sinh câu miêu tả, phần lại nhận dạng đối tượng cài đặt dựa nghiên cứu nhóm nghiên cứu thị giác máy Berkerley Trong q trình thực nghiệm chúng tơi nhận thấy nhiệm vụ phát đối tượng, nhận diện hành vi mối liên hệ đối tượng ảnh giảm thời gian xử lý, tăng chất lượng kết đầu Nghiên cứu tập trung ngôn ngữ Tiếng Anh, tương lai phát triển hệ thống ngôn ngữ Tiếng Việt cải tiến đáp ứng cho sinh câu miêu tả cho đoạn phim ngắn 21 Tài liệu sử dụng Tiếng Anh [1] B Z Yao, X Yang, L Lin, M W Lee, and S.-C Zhu I2T: Image Parsing to Text Description Proceedings of the IEEE, 98(8):1485–1508, 2010 [2] Ushiku, Y., Harada, T., Kuniyoshi, Y.: Efficient Image Annotation for Automatic Sentence Generation In: ACM MM, 2012 [3] Hao Fang∗ Saurabh Gupta∗ Forrest Iandola∗ Rupesh K Srivastava∗ Li Deng Piotr Dollár† Jianfeng Gao.: From Captions to Visual Concepts and Back Microsoft Research, 2015 [6] Stuart J Russell and Peter Norvig Artificial Intelligence: A Modern Approach 3rd Edition Prentice Hall, Upper Saddle River, New Jersey, 2009 [7] I Endres and D Hoiem Category independent object proposals In ECCV, 2010 [8] J Uijlings, K van de Sande, T Gevers, and A Smeulders Selective search for object recognition IJCV, 2013 22 [9] Ross Girshick et al Rich feature hierarchies for accurate object detection and semantic segmentation CVPR14 [10] H Harzallah, F Jurie, and C Schmid Combining efficient object localization and image classification In ICCV, 2009 [11] P Arbela ́ ez, M Maire, C Fowlkes, and J Malik Contour detection and hierarchical image segmentation TPAMI, 2011 [12] P F Felzenszwalb and D P Huttenlocher Efficient Graph Based Image Segmentation IJCV, 59:167– 181, 2004 [13] Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi Understanding images with natural sentences ACM Multimedia, page 679-682 ACM, (2011) Tiếng Việt [4] Phạm Thọ Hoàn, Phạm Thị Anh Lê: Giáo trình trí tuệ nhân tạo, Khoa Công nghệ thông tin, trường Đại học Sư Phạm Hà Nội: 10-31 ,2011 [5] Đinh Mạnh Tường: Giáo trình trí tuệ nhân tạo: NXB Khoa học Kỹ thuật, 16-41, 2002 23 Website: [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-lyngon-ngu-tu-nhien/mo-hinh-ngon-ngu [15] https://en.wikipedia.org/wiki/Computer_vision 24 ... 123.000 hình ảnh, hình ảnh thích miêu tả tiếng anh cách thủ công 4.2.3 Kết hệ thống sinh câu miêu tả 20 KẾT LUẬN Luận văn thực hoàn chỉnh ? ?sinh câu cho hình ảnh sử dụng mơ hình ngơn ngữ? ?? Tuy... thước tập văn độ xác thống kê 2.2 Mơ hình ngơn ngữ 2.2.1 Khái qt Mơ hình ngôn ngữ phân bố xác suất tập văn bản, cho biết xác suất câu, cụm từ thuộc ngôn ngữ Mơ hình ngơn ngữ tốt đánh giá câu ngữ pháp,... -š›*š› - ĐÀO BẢO LINH SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG MƠ HÌNH NGƠN NGỮ Ngành: Cơng Nghệ Thơng Tin Chun ngành: Kỹ Thuật Phần Mềm Mã số: 60.48.01.03 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Ngày đăng: 29/01/2016, 20:46

Từ khóa liên quan

Mục lục

  • 1.1. Ý nghĩa

  • 1.2. Nghiên cứu liên quan

  • 2.1. Tập văn bản

    • 2.1.1. Các loại tập văn bản

    • 2.1.2. Cấu trúc của tập văn bản

    • 2.1.3. Chú thích (annotation)

    • 2.1.4. Sử dụng tập văn bản

    • 2.2. Mô hình ngôn ngữ

      • 2.2.1. Khái quát

      • 2.2.2. Tầm quan trọng của mô hình ngôn ngữ N-gram.

      • 2.2.3. Mô hình ngôn ngữ N-gram

      • 2.3. Thuật toán tìm kiếm

        • 2.3.1. Thuật toán tìm kiếm theo chiều rộng

        • 2.3.2. Thuật toán tìm kiếm theo chiều sâu

        • 2.3.3. Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search)

        • 3.1. Tổng quan mô hình

        • 3.2. Phát hiện đối tượng

          • 3.2.1. Đề cử vùng

          • Tìm kiếm toàn diện

          • Phân đoạn ảnh

          • Tìm kiếm chọn lựa theo kỹ thuật nhóm cụm thứ bậc.

            • 3.2.2. Trích chọn đặc trưng

            • 3.3. Sinh câu miêu tả cho đối tượng

            • 4.1. Môi trường cài đặt

            • 4.2. Quá trình thử nghiệm

              • 4.2.1. Nhận dạng đối tượng

Tài liệu cùng người dùng

Tài liệu liên quan