nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung

59 29 0
nghiên cứu xây dựng hệ thống tìm kiếm video dựa trên nội dung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS – Nguyễn Trí Thành Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt Luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Những điều trình bày nội dung Luận văn, cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn quy cách Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, 05/2016 Lê Văn Hào MỤC LỤC LỜI CAM ĐOAN MỤC LỤC BẢNG CHỮ CÁI VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU 10 1.1 Giới thiệu cơng cụ tìm kiếm 10 1.2 Lịch sử phát triển cơng cụ tìm kiếm 10 1.3 Kiến trúc cơng cụ tìm kiếm 11 1.3.1 Quá trình đánh mục 11 1.3.2 Quá trình truy vấn 13 1.4 Cơng cụ tìm kiếm video mạng internet 13 1.5 Tổng quan đề tài vấn đề cần giải 14 1.5.1 Tổng quan đề tài 14 1.5.2 Các vấn đề cần giải 14 1.6 Ý nghĩa khoa học thực tiễn đề tài nghiên cứu 14 1.6.1 Ý nghĩa khoa học 14 1.6.2 Ý nghĩa thực tiễn 15 1.7 Kết luận 15 CHƯƠNG 2: BÀI TỐN TÌM KIẾM VIDEO BÀI GIẢNG 16 DỰA TRÊN NỘI DUNG 16 2.1 Phát biểu toán 16 2.2 Các nghiên cứu tìm kiếm video dựa nội dung 17 2.3 Hướng nghiên cứu tác giả 18 2.4 Bài toán phân đoạn video thành ảnh 19 2.4.1 Khái niệm 19 2.4.2 Phương pháp tiếp cận 19 2.5 Bài toán trích xuất văn 20 2.5.1 Bài toán nhận dạng kí tự quang học 20 2.5.2 Bài toán xử lý trùng lặp văn 22 2.5.3 Bài tốn sửa lỗi tả văn 26 2.6 Bài tốn đánh mục tìm kiếm 29 2.6.1 Khái niệm 29 2.6.2 Phương pháp tiếp cận 29 2.6.3 Kiến trúc Elasticsearch 30 2.7 Kết luận 32 CHƯƠNG 3: KĨ THUẬT ĐỂ GIẢI QUYẾT CÁC BÀI TOÁN TRONG KHUÔN KHỔ LUẬN VĂN 33 3.1 Bài toán phân đoạn video thành định dạnh ảnh 33 3.1.1 Phát biểu toán 33 3.1.2 Giải pháp thực 33 3.2 Bài toán trích xuất văn 34 3.2.1 Bài tốn nhận dạng kí tự quang học bằng cơng cụ Tesseract-OCR 34 3.2.2 Bài toán xử lý trùng lặp văn bằng kĩ thuật Shingling 37 3.2.3 Bài tốn sửa lỗi tả văn tiếng Việt 40 3.3 Bài toán đánh mục tìm kiếm 45 3.3.1 Phát biểu toán 45 3.3.2 Lập mục tìm kiếm bằng Elasticsearch 46 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN 50 4.1 Công cụ, môi trường thực nghiệm 50 4.2 Kết thực nghiệm, đánh giá 51 4.3 Kết luận 54 4.3.1 Kết đạt 54 4.3.2 Định hướng phát triển 55 TÀI LIỆU THAM KHẢO 56 BẢNG CHỮ CÁI VIẾT TẮT STT Từ viết tắt ASR FPS FTP GNU OCR PDF NDD TIFF UTF-8 Ý nghĩa Automatic Speech Recognition – Nhận dạng tiếng nói tự động Frame Per Second – Số khung hình giây File Transfer Protocol – Giao thức truyền tệp tin General Public License – Giấy phép công cộng Optical Character Recognition – Nhận dạng kí tự quang học Portable Document Format – Định dạng tài liệu di động Near Duplicate Detection – Phát gần trùng lặp Tagged Image File Format – Định dạng tệp tin máy tính để lưu trữ hình ảnh Unicode Transformation Format - Định dạng chuyển đổi Unicode DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Kết Bigram tập liệu 44 Bảng 4.1 Thông số phần cứng 50 Bảng 4.2 Danh sách công cụ phần mềm 50 Bảng 4.3 Kết thực trích xuất khung hình từ video 51 Bảng 4.4 Kết thực Tesseract-OCR tập khung hình thu .52 Bảng 4.5 Kết thực NDD với kĩ thuật Shingling .52 Bảng 4.6 Kết trình phát lỗi chính tả dùng Aspell kết hợp Bi-gram 53 Bảng 4.7 Kết trình sửa lỗi chính tả 54 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Q trình đánh mục 12 Hình 2.1 Kiến trúc tổng quan hệ thống tìm kiếm video dựa nội dung 17 Hình 2.2 Kiến trúc hệ thống tìm kiếm video tác giả đề xuất 18 Hình 2.3 Sử dụng FFMpeg để chuyển đổi video thành ảnh 20 Hình 2.4 Kiến trúc Tesseract – OCR 22 Hình 2.5 Văn gốc 23 Hình 2.6 Văn trùng lặp văn hình 2.5 24 Hình 2.7 Văn gần trùng lặp văn hình 2.5 24 Hình 2.8 [15] Độ chính xác độ hồi tưởng độ đo tương tự cho phương pháp fuzzy-fingerprinting (FF), localitysensitive hashing (LSH), supershingling (SSh), shingling (Sh), and hashed breakpoint chunking (HBC) 26 Hình 2.9 Kĩ thuật phát lỗi tả dựa vào tra cứu từ điển 27 Hình 2.10 Kĩ thuật phát lỗi tả dựa vào phân tích N-gram 28 Hình 2.11 Thứ hạng 17 cơng cụ tìm kiếm Nguồn http://db-engines.com 30 Hình 2.12 Kiến trúc cluster-node-shard Elasticsearch 31 Hình 3.1 Mơ tả q trình biến đổi video nguồn thành dạng ảnh 33 Hình 3.2 Chuyển đổi ảnh màu thành ảnh đa cấp xám 34 Hình 3.3 Ảnh màu 35 Hình 3.4 Ảnh đa cấp xám 35 Hình 3.5 Quá trình OCR ảnh hình 3.4 bằng Tesseract-OCR 36 Hình 3.6 Kết sau hồn thành OCR bằng Tesseract-OCR 36 Hình 3.7 Thực OCR tất ảnh thư mục bằng Tesseract-OCR 36 Hình 3.8 Quá trình xử lý trùng lặp văn 37 Hình 3.9 Hệ số Jaccard tài liệu d1 d2 38 Hình 3.10[4] Bốn q trình tính tốn shingle hai tài liệu 39 Hình 3.11 Sơ đồ khối trình trích xuất tập văn đại diện 40 Hình 3.12 Quá trình phát sửa lỗi tả văn 41 Hình 3.13 Sơ đồ khối sửa lỗi chính tả sử dụng từ điển Aspell 43 Hình 3.14 Sơ đồ khối sửa lỗi chính tả sử dụng Bigram 45 Hình 3.15 Mơ tả q trình lập mục tài liệu 46 Hình 3.16 Kiểm tra khởi động Elasticsearch 46 Hình 3.17 Danh sách mục có Tên mục lectures, số tài liệu docs.count có giá trị bằng (do chưa tạo tài liệu cho mục này) 47 Hình 3.18 Tạo type document cho mục 47 Hình 3.19 Tạo type document bằng lệnh POST Id document Elasticsearch gán tự động 47 Hình 3.20 Cập nhật lại document cho mục với id đã tồn 48 Hình 3.21 Thực cập nhật lại document bằng câu lệnh UPDATE 48 Hình 3.22 Tìm kiếm document mục 48 MỞ ĐẦU Cùng với sự phát triển công nghệ thông tin, tốc độ internet cải thiện đáng kể Số lượng video giảng, diễn thuyết… phục vụ học tập cho lứa tuổi tải lên chia sẻ internet nhanh chóng Mỗi ngày, hàng triệu video giới đăng tải lên ứng dụng internet Youtube, Facebook, Yahoo Đối với lượng video tăng trưởng ngày này, chế tổ chức lưu trữ phục vụ cho việc tra cứu, tìm kiếm thách thức Giáo dục trực tuyến hay E-Learning không khái niệm lạ phát triển mạnh mẽ Số lượng video giảng, diễn thuyết ngày tăng trưởng Nhu cầu tìm kiếm người học yêu cầu khắt khe hơn: độ xác thời gian tìm kiếm Tuy nhiên, chức tìm kiếm giảng cho hệ thống thông thường cho phép người dùng tìm kiếm với tên giảng, tên học phần, tên giảng viên Các chức thường cho kết có độ xác khơng cao, kết trả có nhiều nội dung khơng liên quan đến mục đích tìm kiếm thực sự người dùng Do đó, cần có hệ thống mà “hiểu” nội dung video giảng để phục vụ cho việc tìm kiếm người dùng Những cơng cụ tìm kiếm phổ biến - Google, Yahoo, Bing…, hệ thống tìm kiếm dựa “từ khóa”, tìm kiếm liệu văn (text) Chính thế, video khơng có siêu liệu (metadata) ví dụ ngày, tác giả, từ khóa, mơ tả khơng thể tìm kiếm bằng cách sử dụng công cụ nêu Siêu liệu thường thêm bằng tay, trình tốn thời gian Hơn nữa, đoạn video tìm thấy bằng siêu liệu nó, cơng cụ tìm kiếm thơng thường khơng có khả tìm kiếm đoạn giảng, slide cụ thể video mà người dùng quan tâm Mục tiêu của Luận văn tập trung nghiên cứu xây dựng mợt hệ thống tìm kiếm giảng, thuyết trình, trình diễn slide dạng video Hệ thống cho phép người dùng cần nhập vào phần nội dung giảng, kết trả video giảng có liên quan đến chuỗi truy vấn Ngoài ra, với giải pháp cho phép hệ thống tìm kiếm truy vấn liệu video mà khơng cần có siêu liệu Xuất phát từ quan điểm nêu trên, phần mở đầu kết luận, luận văn chia làm chương tóm tắt sau: 43 Hình 3.13 Sơ đồ khối sửa lỗi chính tả sử dụng từ điển Aspell Kĩ thuật sửa lỗi tả dùng GNU Aspell áp dụng với lỗi dạng non-word Vì kĩ thuật kiểm tra từ không quan tâm đến vị trí từ đó so với từ xung quanh Vì vậy, để nâng cao hiệu việc kiểm tra lỗi tả văn bản, tác giả áp dụng kĩ thuật N-gram 3.2.3.4 Kĩ thuật sửa lỗi tả dạng real-word Lỗi tả dạng real-word phức tạp khó non-word, lỗi thường làm nhập nhằng cú pháp ý nghĩa câu Việc tự động phân tích cú pháp/ngữ nghĩa câu nhiệm vụ khó khăn nhiệm vụ phân tích câu sai gần khơng thể nhiều trường hợp Ví dụ cho thấy ngôn ngữ Tiếng Việt sự đa dạng phong phú ngữ pháp Tiếng Việt Câu cho là: “Ông già nhanh quá” Đây câu hoàn toàn ngữ pháp từ hồn tồn có từ điển Nhưng lại có sự nhập nhằng 44 ý nghĩa câu Câu có thể tách thành hai câu “/Ông/ già /nhanh / quá/” “Ông già/ / nhanh /quá” Các nghiên cứu [11] [12] [20] đã rằng, hệ thống phát sửa lỗi tả văn có độ xác xấp xỉ khoảng 50% cho tất loại lỗi Trong đó 25% - 40% tất loại lỗi lỗi real-word, việc nghiên cứu phát sửa loại lỗi hữu ích Do đặc trưng ngôn ngữ Tiếng Việt gồm từ đơn ghép lại với Vì vậy, đề xuất tác giả sử dụng kĩ thuật 2-gram để sửa lỗi tả dạng real-word Nghĩa từ kiểm tra xem xét kết hợp hai hàng xóm bên trái bên phải nó Dưới mô tả kĩ thuật kiểm tra sửa lỗi tả dùng bigram Tập đề cử cho từ kiểm tra (W) tập từ từ vựng mà sinh W bằng cách thao tác chỉnh sửa Tập đề cử biểu diễn dạng 𝑖 𝐶(𝑊 𝑖 ) = {𝑊1𝑖 , 𝑊2𝑖 , … , 𝑊𝑗𝑖 , … , 𝑊𝑘𝑗 } Trong đó: 𝑊 𝑖 từ thứ i câu cần kiểm tra kj số phần tử 𝐶(𝑊 𝑖 ) Bây tập bigram trái bigram phải từ 𝐶(𝑊 𝑖 ) có dạng sau: Bigram trái: 𝑊 𝑖−1 𝑊𝑗𝑖 Bigram phải: 𝑊𝑗𝑖 𝑊 𝑖+1 Từ điển Bigram tác giả xây dựng bằng cách thu thập liệu từ nhiều nguồn mạng vnexpress.net, dantri.com.vn, wikipedia.org Dữ liệu bao gồm nhiều chủ đề khoa học, xã hội, thể thao, giải trí… Kích thước tập liệu tác giả khoảng 66 MB Sau đó tác giả tính tần số bigram Kết mô tả bảng 3.1 Bảng 3.1 Kết Bigram tập liệu Bigram Kích thước tệp tin Số Bigram trước tách Bigram tách 66 MB 4.836.571 Kích thước sau tách Bigram 82 MB Thuật toán phát sửa lỗi tả văn dựa vào kĩ thuật N-gram tác giả cài đặt mô tả sau: 45 Hình 3.14 Sơ đồ khối sửa lỗi chính tả sử dụng Bigram 3.3 Bài toán đánh mục tìm kiếm 3.3.1 Phát biểu bài tốn Bài tốn lập mục cho tệp văn trải qua hai bước: - Bước 1: Xác định mục từ, khái niệm có khả đại diện cho văn lưu trữ Đây trình phân tích tệp văn bao gồm trình tách từ, loại bỏ từ dừng… - Bước 2: Xác định trọng số cho mục từ, trọng số giá trị phản ánh tầm quan trọng mục từ đó văn Hình 3.15 mơ tả bước để lập mục tài liệu 46 Hình 3.15 Mơ tả trình lập mục tài liệu 3.3.2 Lập mục tìm kiếm bằng Elasticsearch Trước tiến hành lập mục bằng Elasticsearch, cần thực khởi động Elasticsearch Khởi động Elasticsearch bằng câu lệnh: “sudo service elasticsearch start” Để kiểm tra, địa trình duyệt web, truy cập vào địa http://localhost:9200 Nếu thành cơng kết có mơ tả hình 3.16 Hình 3.16 Kiểm tra khởi động Elasticsearch Tạo index: Để tạo mục có tên “lectures” sau khởi động elasticsearch Sử dụng câu lệnh: curl -XPUT 'localhost:9200/lectures' Đưa danh sách tất mục có Elasticsearch bằng câu lệnh: curl 'localhost:9200/_cat/indices?v' Kết mơ tả hình 3.17 47 Hình 3.17 Danh sách mục có Tên mục lectures, số tài liệu docs.count có giá trị bằng (do chưa tạo tài liệu cho mục này) Tạo type document cho mục: Định dạng document có kiểu {“url”:”đường dẫn đến tệp video giảng”, “contents”: “nội dung tệp tin văn nội dung đã xử lý”} Document thuộc type “external” Câu lệnh để tạo type document hình 3.18 Hình 3.18 Tạo type document cho mục Chỉ mục tạo có tên lectures, type external Document có hai tham số url content URL đường đẫn đến tệp tin video, content nội dung video giảng Id document gán bằng Nếu thực lệnh POST khơng gán id cho document Elasticsearch tạo id tự động cho document Hình 3.19 Tạo type document bằng lệnh POST Id document Elasticsearch gán tự động Lấy document: Sử dụng câu lệnh GET để lấy document với id mục tương ứng:curl -XGET 'localhost:9200/lectures/external/1?pretty' Cập nhật document: Thực lệnh tạo document với id đã tồn thông tin document cập nhật lại 48 Hình 3.20 Cập nhật lại document cho mục với id đã tồn Hoặc có thể sử dụng lệnh UPDATE trực tiếp mơ tả hình 3.21 Hình 3.21 Thực cập nhật lại document bằng câu lệnh UPDATE Xóa mục: Để xóa mục đã tạo, sử dụng câu lệnh sau: curl -XDELETE 'localhost:9200/lectures?pretty' Xóa document: Câu lệnh để xóa document đã tồn bằng cách: curl -XDELETE 'localhost:9200/lectures/external/1?pretty' Tìm kiếm document index: Hình 3.22 Tìm kiếm document mục 49 Thời gian tìm kiếm cho câu truy vấn “giáo án điện tử” 0.030 giây Hiển thị 10 kết đầu tiên có liên quan đến truy vấn Kết xếp theo thứ tự giảm dần score Kết thúc chương 3, tác giả đã trình bày chi tiết giải pháp kĩ thuật cài đặt xây dựng hệ thống cho phép tìm kiếm video giảng dựa vào chuỗi truy vấn nhập vào người dùng Chương tiếp theo, tác giả trình bày trình thực nghiệm đánh giá chương trình 50 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN 4.1 Công cụ, môi trường thực nghiệm Để phục vụ cho trình thực nghiệm, tác giả sử dụng cấu hình phần cứng công cụ phần mềm thể hai bảng 4.1 bảng 4.2 sau: Bảng 4.1 Thông số phần cứng STT Thành phần CPU RAM Hệ điều hành Bộ nhớ ngồi Thơng số kĩ thuật Intel ® Pentium ® Dual core T3200 2.00GHz DDR II - 3GB Ubuntu 14.04 LTS 150 GB Bảng 4.2 Danh sách công cụ phần mềm STT Tên công cụ Sublime Text PHP 5.0 FFMpeg Imagemagick Tesseract -OCR Aspell Pspell Vietnamese Dictionary Teleport Pro 10 Elasticsearch Chức Trình soạn thảo bẫy lỗi chương trình Ngơn ngữ lập trìnhdùng thực nghiệm Công cụ xử lý video Công cụ chuyển đổi ảnh màu thành ảnh đa cấp xám Công cụ nhận dạng kí tự quang học Công cụ kiểm tra lỗi chính tả Thư viện lập trình sửa lỗi chính tả nguôn ngữ PHP Từ điển từ vựng Tiếng Việt Công cụ hỗ trợ tải liệu mạng Cơng cụ hỗ trợ đánh mục tìm kiếm tài liệu Nguồn tải https://www.sublimetext.com http://php.net/downloads.php https://ffmpeg.org/download.html http://www.imagemagick.org/script/ binary-releases.php https://github.com/tesseract-ocr http://aspell.net/ http://php.net/manual/en/intro.pspell php https://github.com/1ec5/hunspellvi/tree/master/dictionaries http://www.tenmax.com/teleport/pro/ download.htm https://www.elastic.co/ 51 4.2 Kết quả thực nghiệm, đánh giá Trong phần thực nghiệm này, tác giả lấy ngẫu nhiên mạng năm video giảng Tiến hành trích xuất khung hình từ lần lượt cho video thu bảng kết mô tả bảng 4.3 Bảng 4.3 Kết thực trích xuất khung hình từ video STT Định dạng Kích thước (MB) Thời gian (phút:giây) Số khung hình thu Kích thước (MB) mp4 23,8 6:22 382 404,6 mp4 48,1 6:38 398 450,7 mp4 32,1 3:07 187 174,8 mp4 137,6 28:27 1707 1740,8 mp4 19,6 2:35 155 139,4 Chúng ta có thể điều chỉnh tăng, giảm tần số FPS để nhằm thu số lượng khung hình phù hợp Qua trình thực nghiệm, để đảm bảo không bị thừa thiếu nội dung tần số FPS mà tác giả sử dụng luận văn FPS Số lượng khung hình thu video tương ứng bảng 4.3 Vì khung hình ảnh màu, nhằm nâng cao chất lượng trình OCR Tác giả tiến hành chuyển đổi toàn tập khung hình thu thành ảnh đa cấp xám Bảng 4.4 mô tả kết nhận dạng kí tự quang học bằng công cụ TesseractOCR Tập kết lưu trữ với định dạng văn txt Để đánh giá trình OCR bằng Tesseract-OCR, tác giả sử dụng độ chính xác - P, độ hồi tưởng - R, độ đo F1 Độ chính xác OCR video P = ∑𝑛 𝑖=1 𝑃𝑖 video đó 𝑁 Với N tổng số tệp tin Độ chính xác Pi tính theo công thức: Pi = ∑ Từ nhận dạng được|đúng ∑ Từ nhận dạng được Độ hồi tưởng OCR video R = video đó ∗ 100% ∑𝑛 𝑖=1 𝑅𝑖 𝑁 Với N tổng số tệp tin Độ hồi tưởng Ri tính theo công thức: Ri = ∑ Từ nhận dạng được|đúng ∑ Tổng số từ lỗi thực tế ∗ 100% 52 Độ đo F1 sự kết hợp hai độ đo chính xác độ đo hồi tưởng Độ đo F1 video tính theo công thức F1 = ∗ độ chí nh xá c ∗ độ hồi tưởng độ chí nh xá c + độ hồi tưởng Bảng 4.4 Kết thực Tesseract-OCR tập khung hình thu STT Số lượng Kích thước tập Độ xác Độ hời tưởng kết quả (KB) (%) (%) 382 136,3 71,2 81,8 76,13 398 100,5 71,1 82,0 76,16 187 33,7 76,4 67,0 71,39 1707 529,1 66,4 76,2 70,96 155 45,0 77,5 66,3 71,46 72,52 74,66 73,22 Trung bình Độ F1 (%) Qua thực nghiệm tác giả nhận rằng, khung hình khơng bị ảnh hưởng hiệu ứng trình chiếu kết nhận dạng bằng Tesseract-OCR cho kết với độ chính xác cao, xấp xỉ khoảng 96% đến 100% Nhưng khung hình bị ảnh hưởng cho kết nhận dạng thấp, khoảng 56% - 64% Vì độ chính xác trung bình video bị giảm đáng kể, xấp xỉ 72,52% Đây thách thức hạn chế tác giả luận văn Tập kết sau trình OCR tiếp tục xử lý trùng lặp bằng kĩ thuật Shingling Kết thực loại bỏ trùng lặp mơ tả hình 4.5 Bảng 4.5 Kết thực NDD với kĩ thuật Shingling STT Tập đầu vào Số văn bản Số slide Số văn Độ Độ hời đại diện thực tế bản đại xác tưởng thu diện (%) (%) 382 14 22 12 85,7 54,5 66,63 398 24 25 22 91,6 88,0 89,76 187 42 35 34 80,1 97,1 87,78 1707 14 18 13 92,8 72,2 81,21 155 21 24 18 85,7 75,0 79,99 87,18 77,36 81,07 Trung bình Độ F1 (%) Độ chính xác, độ hồi tưởng độ đo F1 dùng để đánh giá trình xử lý trùng lặp văn Kết trình tập văn đại diện cho video giảng đầu vào Độ chính xác P tính bằng công thức: P=∑ ∑ Văn bản đại diện|đúng Văn bản đại diện thu được ∗ 100% 53 Độ hồi tưởng R tính theo công thức: ∑ Văn bản đại diện|đúng R=∑ Văn bản đại diện thực tế Độ đo F1 tính là: F1= ∗ ∗ 100% 𝑃∗𝑅 𝑃+𝑅 Sau xử lý trùng lặp văn bản, tập hợp văn đại diện gộp chung thành văn Trước xử lý lỗi chính tả, tập văn cần làm đã trình bày chi tiết mục 3.4.2 Tập liệu sau làm bao gồm hai loại lỗi non-word real-word Trong luận văn này, tác giả kết hợp thư viện Aspell để kiểm tra lỗi non-word sử dụng Bi-gram để phát lỗi real-word Kết mô tả q trình phát lỗi chính tả mơ tả bảng 4.6 Độ chính xác P tính bằng công thức: P= ∑ Số từ phát hiện được|đúng ∑ Số từ phát hiện được ∗ 100% Độ hồi tưởng R tính theo công thức: R= ∑ Số từ phát hiện được|đúng ∑ Số từ lỗi thực tế Độ đo F1 tính là: F1= ∗ ∗ 100% 𝑃∗𝑅 𝑃+𝑅 Bảng 4.6 Kết trình phát lỗi chính tả dùng Aspell kết hợp Bi-gram STT Tập đầu Tổng số lỗi thực vào tế (số từ) Số lỗi phát Số lỗi phát Độ xác (%) Độ hời tưởng (%) Độ F1 (%) 946 77 71 66 92,9 85,7 89,15 1365 121 112 96 85,7 79,3 82,38 2482 43 33 18 54,54 41,8 47,33 786 96 91 85 93,4 88,54 90,91 1520 31 26 22 84,6 70,9 77,15 82,23 73,25 77,38 Trung bình Danh sách từ gợi ý cho từ phát lỗi, tác giả sử dụng từ điển kết hợp với khoảng cách chỉnh sửa nhỏ tần suất xuất Bi-gram để lựa chọn từ thay phù hợp Bảng kết sửa lỗi chính tả mô tả bằng bảng 4.7 Độ chính xác P tính bằng công thức: 54 P= ∑ Số từ sửa được|đúng ∑ Số từ sửa được ∗ 100% Độ hồi tưởng R tính theo công thức: R= ∑ Số từ sửa được|đúng ∑ Số từ lỗi thực tế Độ đo F1 tính là: F1= ∗ ∗ 100% 𝑃∗𝑅 𝑃+𝑅 Bảng 4.7 Kết trình sửa lỗi chính tả STT Số lỗi phát Số lỗi sữa Số lỗi sửa Độ xác (%) Độ hồi tưởng (%) Độ F1 (%) 71 69 49 71,0 69,0 69,99 112 102 62 65,8 55,4 57,97 33 16 56,3 27,3 36,77 91 84 43 51,2 50,5 49,17 26 28 18 64,3 69,2 66,66 60,72 53,64 56,11 Trung bình Như đã trình bày mục 3.4 khó khăn sửa lỗi chính tả Tiếng Việt Vì luận văn này, tác giả đã cố gắng để nhằm cải thiện chất lượng trình sửa lỗi Độ chính xác trung bình xấp xỉ khoảng 60,72% 4.3 Kết luận 4.3.1 Kết quả đạt Trong luận văn này, tác giả hướng tới mục đích tìm hiểu nghiên cứu phương pháp để xây dựng hệ thống tra cứu video dựa nội dung Video tác giả quan tâm video giảng dạng silde Nội dung truy vấn từ cụm từ có liên quan đến nội dung văn bên video giảng Qua bốn chương, luận văn đã trình bày khái niệm liên quan đến cơng cụ tìm kiếm Các phương pháp tiếp cận, kĩ thuật áp dụng để giải toán xây dựng cơng cụ tìm kiếm video Ứng dụng phương pháp, kĩ thuật để thực nghiệm xây dựng hệ thống tìm kiếm video giảng dựa nội dung Các đóng góp chính luận văn: - Hệ thống lại kiến thức, khái niệm liên quan kiến trúc cơng cụ tìm kiếm 55 - Trình bày mơ hình tốn cần xử lý q trình xây dựng cơng cụ tìm kiếm video - Phân tích phương pháp tiếp cận để giải toán lựa chọn kĩ thuật để thực nghiệm - Xây dựng thử nghiệm ứng dụng tìm kiếm video giảng dạng slide dựa nội dung 4.3.2 Định hướng phát triển Với kết đạt luận văn này, tác giả hy vọng tương lai sẽ: - Thử nghiệm với liệu đa dạng lớn Thu thập xử lý với nhiều định dạng video - Nghiên cứu phương pháp, kĩ thuật để nâng cao chất lượng chương trình sửa lỗi chính tả Tiếng Việt - Cải tiến nghiên cứu để nâng cao chất lượng, giảm thời gian xử lý video đầu vào 56 TÀI LIỆU THAM KHẢO Andrei Z Broder (2000), “Identifying and Filtering Near-Duplicate Documents”, 11th Annual Symposium on Combinatorial Pattern Matching ,Springer-Verlag London, pp.1-10 Bassma S Alsulami (2012), “Near Duplicate Document Detection Survey”, International Journal of Computer Science & Communication Networks, pp 147-151 Chirag Patel, Atul Patel, Dharmendra Patel (2012), “Optical Character Recognition by Open Source OCR Tool Tesseract: A Case Study”, International Journal of Computer Applications, Volume 55 –No.10, pp 50-56 Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2009), Introduction to Information Retrieval, Cambridge University Press, Cambridge University David C Gibbon (2012), Introduction to Video Search Engines, Springer Verlag Berlin Heidelberg, Spinger Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma (2007), “Detecting Near Duplicates for Web Crawling”, 16th International Conference on World Wide Web, pp 141-150 Haojin Yang, Maria Siebert, Patrick Lühne, Harald Sack, Christoph Meinel (2011), “Automatic Lecture Video Indexing Using Video OCR Technology”, 2011 IEEE International Symposium on, pp 111 – 116 Haojin Yang (2011), “Lecture Video Indexing and Analysis Using Video OCR Technology”, 7th International Conference IEEE Dijon France, pp 54-61 Hannaneh Hajishirzi, Wen-tau Yih, Aleksander Kolcz (2010), “Adaptive Near-Duplicate Detection via Similarity Learning”, ACM SIGIR conference on Research and development in information retrieval, pp 419-426 10 Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le (2015), “Using Large N-gram for Vietnamese Spell Checking”, Advances in Intelligent Systems and Computing, pp 617-627 11 Kukich, Karen (1992), “Techniques for Automatically Correcting Words in Text”, 24th ACM Computing Surveys, pp 377–439 12 Kurt Hornik, Duncan Murdoch (2011), “Watch Your Spelling”, The R Journal Vol 3, pp 22-28 57 13 Kyle Williams, C Lee Giles (2013), “Near Duplicate Detection in an Academic Digital Library” , 2013 ACM Symposium on Document Engineering, pp 91-94 14 Martin Røst Halvorsen (2007), Content-based lecture video indexing, Master’s Thesis, Department of Computer Science and Media Technology Gjøvik University College 15 Martin Potthast, Benno Stein (2008), “New Issues in Near-duplicate Detection”, 31th Conf of the German Classification Society, pp 601-609 16 Pratip Samanta, Bidyut B Chaudhuri (2013), “A simple real-word error detection and correction using local word bigram and trigram”, Association for Computational Linguistics and Chinese Language Processing, pp 211-220 17 Ritika Mishra, Navjot Kaur (2013), “A Survey of Spelling Error Detection and Correction Techniques”, International Journal of Computer Trends and Technology, pp 372-374 18 Radu Gheorghe, Matthew Lee Hinman, Roy Russo (2016), Elasticsearch in Action, Manning Publications Co, Shelter Island 19 Smith, R (2007), An Overview of the Tesseract OCR Engine, In proceedings of Document analysis and Recognition IEEE Ninth International Conference 20 Suzan Verberne (2002), Context-sensitive spellchecking based on word trigram probabilities, Master thesis Taal, Spraak & Informatica University of Nijmegen 21 Youssef Bassil, Mohammad Alwani (2012), “Context-sensitive Spelling Correction Using Google Web 1T 5-Gram Information”, Computer and Information Science, Vol 5, No 3, May 2012, pp 37-48 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ VĂN HÀO NGHIÊN CỨU XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO DỰA TRÊN NỘI DUNG Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số:... cần có hệ thống mà “hiểu” nội dung video giảng để phục vụ cho việc tìm kiếm người dùng Những cơng cụ tìm kiếm phổ biến - Google, Yahoo, Bing…, hệ thống tìm kiếm dựa “từ khóa”, tìm kiếm liệu... 2.1 Kiến trúc tổng quan hệ thống tìm kiếm video dựa nội dung 17 Hình 2.2 Kiến trúc hệ thống tìm kiếm video tác giả đề xuất 18 Hình 2.3 Sử dụng FFMpeg để chuyển đổi video thành ảnh 20

Ngày đăng: 01/08/2020, 21:04

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan