Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Cẩm Bình TÌM KIẾM ÂM THANH THEO NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SĨ Hà Nội- 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Cẩm Bình TÌM KIẾM ÂM THANH THEO NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC Hà Nội- 2007 Tìm kiếm âm theo nội dung sở liệu đa phương tiện : Luận văn ThS / Lê Thị Cẩm Bình ; Nghd : PGS.TS Đặng Văn Đức - H : ĐHCN, 2007 - 96 tr + CD-ROM Lời cảm ơn Danh mục ký hiệu, chữ viết tắt Mở đầu Chương Tổng quan CSDL đa phương tiện, khái niệm sở 1.1 Một số khái niệm sở 1.1.1 Dữ liệu đa phương tiện 1.1.2 Hệ thống quản trị CSDL đa phương tiện 10 1.1.3 Truy tìm thông tin 12 1.1.3.1 Đo tính tương tự 13 1.1.3.2 Các kiểu truy vấn 14 1.2 Kiến trúc hệ thống quản trị CSDL đa phương tiện 18 1.3 Một số hệ thống CSDL đa phương tiện có 20 1.3.1 Quá trình phát triển 20 1.3.1.1 Giai đoạn 21 1.3.1.2 Giai đoạn 21 1.3.1.3 Giai đoạn 25 1.3.2 Vấn đề hệ thống CSDL đa phương tiện 27 Chương Một số phương pháp, giái thuật trích chọn đặc trưng âm 29 2.1 Đặc trưng âm 29 2.1.1 Đặc trưng miền thời gian 29 2.1.1.1 Năng lượng trung bình 29 2.1.1.2 Tốc độ vượt qua 30 2.1.1.3 Tỷ lệ câm 32 2.1.2 Đặc trưng miền tần số 32 2.1.2.1 Phổ âm 33 2.1.2.2 Băng thông 33 2.1.2.3 Phân bổ lượng 34 2.1.2.4 Điều hòa 34 2.1.2.5 Cao độ 35 2.1.3 Ảnh phổ 35 2.2 CSDL âm 37 2.2.1 Mô hình tổng quát liệu âm 37 2.2.1.1 Biểu diễn nội dung âm metadata 37 2.2.1.2 Nội dung âm sở tín hiệu 37 2.2.2 Thu thập nội dung âm thông qua biến đổi rời rạc 41 2.2.3 Chỉ số hóa liệu âm 42 2.3 Phân lớp âm 43 2.3.1 Đặc điểm lớp âm 45 2.3.2 Phân lớp âm 45 2.3.2.1 Phân lớp âm theo bước 45 2.3.2.2 Phân lớp âm theo vectơ đặc trưng 47 2.3.2.3 Phân lớp âm ứng dụng mạng nơron 47 2.3.3 Chỉ số hóa truy tìm âm 53 2.3.3.1 Nhận dạng truy tìm tiếng nói 54 2.3.3.2 Nhận dạng truy tìm âm nhạc 70 Chương III Phát triển ứngdụng truy tìm âm sở nội dung 80 3.1 Yêu cầu hệ thống 80 3.1.1 Yêu cầu phần cứng 80 3.1.2 Yêu cầu phần mềm 80 3.2 Giới thiệu thư viện chương trình ACTNow C/C++ 81 3.2.1 Create/Delete 81 3.2.2 Error code 81 3.2.3 Handle 81 3.2.4 Phrase 82 3.2.5 Sound clip 83 3.2.6 Music 84 3.2.7 Speaker 84 3.2.8 Item Detector 85 3.3 Phát triển ứng dụng truy tìm âm theo nội dung sử dụng ACT Now 86 3.3.1 Khái quát 86 3.3.1.1 Dữ liệu âm 87 3.3.1.2 Tính toán đặc trưng 88 3.3.1.3 Mô hình huấn luyện 88 3.3.1.4 Quá trình huấn luyện 88 3.3.1.5 Phân lớp 88 3.3.1.6 Kết 89 3.3.2 Sơ đồ khối chức 89 3.3.3 Giao diện chương trình 90 3.3.3.1 Detection 90 3.3.3.2 Huấn luyện Detection 91 3.3.3.3 Kết từ phân tích 91 3.3.3.4 Detector 92 3.3.4 Kết đạt 92 Kết luận 94 Tài liệu tham khảo 95 LỜI CÁM ƠN rước tiên, xin phép bày tỏ lời cảm ơn chân thành T tới PGS.TS Đặng Văn Đức- Viện Công nghệ thông tin, người thầy nhiệt tình hướng dẫn, cung cấp tài liệu hữu ích giúp đỡ nhiều trình thực luận văn Tôi xin cám ơn thầy cô giáo Khoa Công nghệ thông tin truyền đạt kiến thức quí báu, bổ trợ cho đề tài luận văn tôi, xin cảm ơn Phòng ban chức Trường Đại học Công nghệ, bạn học viên lớp Cao học K11T2 gia đình tạo điều kiện, giúp đỡ trình học tập hoàn thành luận văn DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu Tên đầy đủ Ý nghĩa ACT Audio Classification Technologies kỹ thuật phân lớp âm API Application Programming Interface giao diện lập trình ứng dụng BP Back Propagation giải thuật truyền ngƣợc DBMS DataBase Management System hệ quản trị sở liệu DCT Discrete Cosine Transform biến đổi cosin rời rạc DFT Discrete Fourier Transform biến đổi Fourier rời rạc EBF Elliptical Basis Function hàm sở êlíp EED diagonal covariance matrices ma trận đồng biến chéo EM Expectation Maximization giải thuật khả cực đại FAR false acceptance rate tỷ lệ chấp nhận sai số FRR false rejection rate tỷ lệ từ chối sai số HMM Hidden Markov Model mô hình Markov ẩn HZCRR High Zero- Crossing Rate Ratio tỷ lệ tốc độ vƣợt qua cao IDFT Inverse Discrete Fourier Transform biến đổi Fourier liên tục IR Information Retrieval hệ thống truy tìm thông tin KNN K-Nearest- Neighbours query Truy vấn lân cận K gần LVQ Learning Vector Quantization lƣợng tử hóa vectơ học MARS Multimedia Analysis and Retrieval System hệ thống mục phân tích đa phƣơng tiện MDC Multimedia Data Cartridge môđun chứa liệu đa phƣơng tiện MIDI Musical Instrument Digital Interface giao diện số cho nhạc cụ MIRS multimedia Indexing and Retrieval System hệ thống mục truy tìm thông tin đa phƣơng tiện MM Multimedia đa phƣơng tiện MMDBMS MultiMedia DataBase Management System hệ quản trị sở liệu đa phƣơng tiện OS Operating System hệ điều hành QoS Quality of Service chất lƣợng dịch vụ RBF Radial Basis Function hàm sở xuyên tâm RF Relevance Feedback truy vấn phản hồi thích hợp SDK Software Development Kit công cụ phát triển phần mềm SR Silence Ratio tỷ lệ câm ZCR Zero Crossing Rate tốc độ vƣợt qua MỞ ĐẦU Internet phát triển với gia tăng thông tin đa phƣơng tiện dƣới nhiều dạng khác Chƣa ngƣời dùng lại có nhiều hội lựa chọn tận hƣởng mà đa phƣơng tiện đem lại nhƣ ngày Trong số đó, âm kỹ thuật số kết hợp với dịch vụ có ý nghĩa thực tiễn quan trọng nhiều lĩnh vực kinh tế xã hội nhƣ dịch vụ truyền hình, đài phát thanh, hội thảo truyền hình qua mạng, xem video, tìm kiếm âm nhạc theo yêu cầu, hỗ trợ ngƣời khiếm thị sử dụng máy tính, đặc biệt an ninh quốc phòng, nhƣ phân biệt giọng nói đối tƣợng hình với giọng nói ngƣời khác, phân biệt ngôn ngữ tự nhiên thuộc lớp ngôn ngữ đó, an ninh thông tin kiểm soát tự động… Thực tế mở nhu cầu truy cập vào thƣ viện âm khổng lồ Nhu cầu đòi hỏi công nghệ tìm kiếm hiệu để tổ chức, xếp, truy tìm nội dung âm thanh, nhƣ xử lý hàng trăm tỷ trang web hỗn độn mạng thiết bị lƣu trữ máy tính cá nhân Mặc dù trƣớc đây, công cụ tìm kiếm từ khoá làm nên cách mạng, ảnh hƣởng lớn đến cách ngƣời dùng Internet để lấy thông tin, nhƣng nhiều ứng dụng âm đa phƣơng tiện đem lại nhiều lợi ích thể nội dung chúng thay cho việc mô tả dùng từ khóa Hiện nay, số hãng tìm kiếm khổng lồ mạng nhƣ Yahoo, Google hay Alta Vista triển khai hoạt động nghiên cứu theo cách tìm kiếm theo nội dung thay từ khóa Yahoo bắt đầu thử nghiệm dịch vụ tìm kiếm tệp âm Yahoo Audio (http://audio.search.yahoo.com) từ ngày tháng năm 2005 Dịch vụ cho phép ngƣời sử dụng tìm kiếm 50 triệu hát tệp âm miễn phí qua Internet Ngƣời dùng cần gõ từ cụm từ liên quan đến hát Yahoo liệt kê danh sách file âm thanh, cho phép khách hàng nghe trực tuyến Công cụ tìm kiếm âm nhạc hoạt động dựa khả đọc nội dung đƣợc nhúng tệp âm thanh, đƣợc gọi metadata, để phân loại kết tìm kiếm Hãng IBM dự định cung cấp cho nhà phát triển phần mềm chƣơng trình UIMA (Unstructured Information Management Architecture - Sơ đồ quản lý thông tin không kết cấu), công nghệ có khả phân tích văn file nghe nhìn khác để hiểu ý nghĩa, mối quan hệ số liệu tiềm ẩn bên tài liệu (http://www.alphaworks.ibm.com/tech/uima/) Hiện nay, khoảng 15 công ty định sử dụng UIMA để tìm kiếm phân tích văn cho liệu đa phƣơng tiện họ IBM đồng thời xây dựng phần mềm WebSphere OmniFind nhằm hỗ trợ ngƣời sử dụng thực tìm kiếm thông tin đa phƣơng tiện nhiều định dạng ngôn ngữ khác nhƣ sở liệu, e-mail, file âm Phƣơng pháp tìm kiếm liệu kiểu kết năm phát triển IBM UIMA đƣợc phổ biến rộng rãi vào cuối năm 2005 Quaero (tiếng Latin nghĩa tìm kiếm) dự án công cụ tìm kiếm đa phƣơng tiện châu Âu (Pháp Đức) Các chuyên gia thiết kế muốn Quaero không đóng vai trò nhƣ chƣơng trình tìm kiếm mà công cụ dịch thuật, phân loại hình ảnh, âm Tại Việt nam năm qua, công cụ tìm kiếm liệu đa phƣơng tiện, công cụ tìm kiếm nhận dạng liệu âm dần đƣợc ý Ví dụ, phòng nhận dạng công nghệ tri thức- Viện công nghệ thông tin giới thiệu số sản phẩm phần mềm có ý nghĩa thực tế cao nhƣ: tổng hợp xử lý ngôn ngữ tiếng Việt, nghiên cứu tiếp cận kỹ thuật công nghệ tổng hợp nhận dạng tiếng nói giới để áp dụng hoàn cảnh Việt nam âm tiếng Việt, nghiên cứu 82 Phrase Ta huấn luyện cho hệ thống nhận dạng cụm từ đoạn âm nào, sau hệ thống phát từ đoạn âm khác đối tƣợng Item Detector Ví dụ, ta đƣa đoạn âm nội dung thể cụm từ "khủng bố", hệ thống sau đƣợc huấn luyện phát xem cụm từ có nằm tệp âm khác (do ta đƣa vào) hay không, có nằm khoảng thời gian đoạn âm cần kiểm tra Các bƣớc để huấn luyện cụm từ: 1, Khởi tạo đối tƣợng Detection Item qua hàm AN_DetectionItemCreate với tham số: AN_ITEM_TYPE_KEY_ PHRASE (dùng để xác định kiểu đối tƣợng) định danh cho đối tƣợng 2, Khởi tạo đối tƣợng Detection Item Trainer lời gọi hàm AN_ItemTrainerCreate, hàm trả handle tƣơng ứng 3, Thiết lập việc huấn luyện lời gọi hàm AN_ItemTrainerInit với tham số handle tạo lập bƣớc 4, Đƣa mẫu âm thể cụm từ mà ta muốn huấn luyên vào đối tƣợng Detection Item Trainer lời gọi hàm AN_ItemTrainerProcessAudioData (có thể sử dụng CoolRec API để đọc tệp âm nào, cần chức này) Nếu mẫu âm có chất lƣợng khác xa xuất phát từ nhiều ngƣời, ta huấn luyện mẫu với hàm AN_ItemTrainerStartNextAudioDataSequence Sau đƣa tất mẫu vào, ta sử dụng hàm AN_ItemTrainerFlush để kết thúc trình huấn luyện 83 5, Lúc ta xóa đối tƣợng Detection Item Trainer lời gọi hàm AN_ItemTrainerDelete, sau handle đối tƣợng trở thành không hợp lệ 6, Thông thƣờng, sau Item Detector xử lý mẫu âm không cần đối tƣợng Detection Item nữa, ta gọi hàm AN_DetectionItemDelete để giải phóng nhớ bị đối tƣợng Detection Item chiếm giữ Sound Clip Để huấn luyện đoạn âm thanh, ta thực theo bƣớc sau đây: 1, Khởi tạo đối tƣợng Detection Item qua hàm AN_DetectionItemCreate với tham số: AN_ITEM_TYPE_AUDIO_CLIP (dùng để xác định kiểu đối tƣợng) định danh cho đối tƣợng 2, Khởi tạo đối tƣợng Detection Item Trainer lời gọi AN_ItemTrainerCreate, hàm trả handle ứng với 3, Thiết lập việc huấn luyện lời gọi AN_ItemTrainerInit với tham số handle tạo lập bƣớc 4, Đƣa mẫu âm cần huấn luyện vào đối tƣợng Detection Item Trainer lời gọi AN_ItemTrainerProcessAudioData (có thể sử dụng CoolRec API để đọc tệp âm nào, cần chức này) Nếu ta có mẫu âm mà chất lƣợng khác xa huấn luyện mẫu với hàm AN_ItemTrainerStartNextAudioDataSequence Sau đƣa tất mẫu vào, ta sử dụng hàm AN_ItemTrainerFlush để kết thúc trình huấn luyện 5, Lúc ta xóa đối tƣợng Detection Item Trainer lời gọi hàm AN_ItemTrainerDelete, sau handle đối tƣợng trở thành không hợp lệ 84 6, Thông thƣờng, sau Item Detector xử lý mẫu âm không cần đối tƣợng Detection Item nữa, ta gọi hàm AN_DetectionItemDelete để giải phóng nhớ bị đối tƣợng Detection Item chiếm giữ Music Để phân tích đoạn âm nhạc, ta thực theo bƣớc sau: 1, Tạo đối tƣợng Detection Item lời gọi hàm AN_DetectionItemCreateTrained Hàm nhận tham số AN_PTI_MUSIC trả handle tƣơng ứng với đối tƣợng Detection Item 2, Sử dụng Item Detector để nhận dạng đối tƣợng music luồng âm 3, Thông thƣờng, sau Item Detector xử lý mẫu âm không cần đối tƣợng Detection Item nữa, ta gọi hàm AN_DetectionItemDelete để giải phóng nhớ bị đối tƣợng Detection Item chiếm giữ Speaker Để huấn luyện liệu giọng nói mục Detection, cần tuân theo bƣớc sau đây: 1, Khởi tạo AN_DetectionItemCreate đối tƣợng Detection Item qua hàm với tham số: AN_ITEM_TYPE_SPEAKER (dùng để xác định kiểu đối tƣợng) định danh cho đối tƣợng 2, Khởi tạo đối tƣợng Detection Item Trainer lời gọi AN_ItemTrainerCreate, hàm trả handle ứng với 3, Thiết lập việc huấn luyện lời gọi hàm AN_ItemTrainerInit với tham số handle tạo lập bƣớc 85 4, Đƣa mẫu âm cần huấn luyện vào đối tƣợng Detection Item Trainer lời gọi AN_ItemTrainerProcessAudioData (có thể sử dụng CoolRec API để đọc tệp âm nào, cần chức này) Nếu ta có đoạn âm mà chất lƣợng khác xa huấn luyện mẫu với hàm AN_ItemTrainerStartNextAudioDataSequence Sau đƣa tất mẫu vào, ta sử dụng hàm AN_ItemTrainerFlush để kết thúc trình huấn luyện 5, Lúc ta xóa đối tƣợng Detection Item Trainer lời gọi hàm AN_ItemTrainerDelete, sau handle đối tƣợng trở thành không hợp lệ 6, Thông thƣờng, sau Item Detector xử lý mẫu âm không cần đối tƣợng Detection Item nữa, ta gọi hàm AN_DetectionItemDelete để giải phóng nhớ bị đối tƣợng Detection Item chiếm giữ Item Detector Sau tạo huấn luyện đối tƣợng Detection Item, ta sử dụng Item Detector để phân tích luồng âm đƣa thông tin cần thiết Để sử dụng Item Detector, ta làm theo bƣớc sau: 1, Tạo lập huấn luyện đối tƣợng Detection Item (nhƣ nói phần trên) 2, Khởi tạo đối tƣợng Item Detector lời gọi hàm AN_ItemDetectorCreate Hàm trả handle tƣơng ứng 3, Đƣa đối tƣợng Detection Item đƣợc huấn luyện vào phân tích lời gọi hàm AN_ItemDetectorAddItem Trong trƣờng hợp không cần thiết, ta xoá đối tƣợng số nhờ hàm AN_ItemDetectorDeleteItem 86 4, Mặc dù đƣa đối tƣợng Detection Item vào phân tích rồi, ta xóa lời gọi hàm AN_DetectionItemDelete 5, Đƣa liệu âm cần phân tích vào lời gọi hàm AN_ItemDetectorProcessAudioData (ta dùng CoolRec API để đọc từ tệp âm trƣờng hợp ta cần đến chức này) Sau cung cấp tất liệu âm cần thiết, gọi hàm AN_ItemDetectorFlush để hệ thống kết thúc trình xử lý liệu âm 6, Trong cung cấp liệu âm sau lời gọi hàm AN_ItemDetectorFlush, ta lấy kết phân tích cách gọi hàm AN_ItemDetectorGetNextResult Đối tƣợng Item Detector lƣu giữ danh sách tất kết đƣợc phân tích lần lƣợt đƣa kết theo thứ tự Nếu không kết hàm trả mã lỗi ANE_NO_MORE_RESULTS_AVAILABLE 7, Sau kết thúc việc phân tích, ta xoá đối tƣợng Item Detector lời gọi hàm AN_ItemDetectorDelete 3.3 PHÁT TRIỂN ỨNG DỤNG TRUY TÌM ÂM THANH TRÊN CƠ SỞ NỘI DUNG SỬ DỤNG ACTNow C/C++ 3.3.1 Khái quát Dữ liệu âm đƣợc đƣa vào hệ thống thông qua đầu vào Theo lý thuyết, nguồn liệu âm bất kỳ, nhƣng thông thƣờng âm thu qua điện thoại, microphone, truyền hình, đài phát tệp âm khác Trong bƣớc 1, hệ thống phân tích tách vectơ đặc trƣng phƣơng pháp phân tích chuyên biệt nhằm mô hình hóa đặc trƣng âm nhạc giọng nói tƣơng ứng 87 Trong bƣớc 2, vectơ đặc trƣng đƣợc sử dụng để phân thành lớp mịn nhƣ: âm nhạc âm khác, giọng nói kèm nhạc nền, giọng nói âm khác Bƣớc cuối cùng, kết đƣa bao gồm: thời gian bắt đầu kết thúc lớp kết quả, xác suất cho kết tƣơng ứng Detection liệu âm tính toán đặc trƣng phân lớp trình huấn luyện mô hình huấn luyện kết Hình 26 Sơ đồ phân tích âm 3.3.1.1 Dữ liệu âm Các mẫu từ nhiều nguồn âm khác (ví dụ, microphone, điện thoại, tệp âm ) đƣợc gọi chung liệu âm Các liệu âm đầu vào đƣợc giải nén PCM (bộ điều chế mã xung) Dữ liệu âm từ hệ thống điện thoại thông thƣờng 8kHz với biên độ 16 bit Các nguồn khác có chất lƣợng lấy mẫu cao (ví dụ 32 kHz 22 kHz) chuyển đổi sang liệu 16 kHz Các liệu âm nén (ví dụ nhƣ định dạng MP3, CELP, ADPCM…) đƣợc chuyển đổi sang PCM (hoặc 8kHz 16 kHz) trƣớc cung cấp cho hệ thống phân tích giọng nói âm nhạc Về bản, hai định dạng 8kHz định dạng nguồn liệu âm nêu đủ hầu hết ứng dụng 88 3.3.1.2 Tính toán đặc trưng Các đặc trƣng đƣợc chọn lọc kỹ cần thiết cho hiệu chung toàn hệ thống Hệ thống sử dụng hai phƣơng pháp phân tích khác Đối với phân tích giọng nói âm khác, ta sử dụng phƣơng pháp phân tích hệ số cepstral nhƣ mô tả chƣơng Đối với phân tích âm nhạc âm khác, ta sử dụng đặc trƣng phổ Để đạt đƣợc chất lƣợng phân tích cao, khoảng trăm hệ số cepstral vectơ đặc trƣng phổ đƣợc tính giây 3.3.1.3 Mô hình huấn luyện Mô hình huấn luyện đƣợc mô tả dựa đặc trƣng âm Mô hình lớp giọng nói âm khác dựa mô hình Markov ẩn (HMM) nhƣ mô tả mục 3.1 chƣơng Việc mô hình hóa trình biến đổi khoảng thời gian mà giọng nói âm khác hoàn thành cấu trúc hình học mô hình HMM Các kết thí nghiệm cho thấy mô hình HMM có ƣu điểm tránh đƣợc thay đổi dễ xảy kết nhƣ mô hình khác 3.3.1.4 Quá trình huấn luyện Mô hình HMM đƣợc huấn luyện áp dụng giải thuật khả tối đa (EM) nhƣ mô tả mục 3.1.2 chƣơng sau phân tách dựa hàm mật độ xác suất Các thí nghiệm khác cho thấy cấu hình HMM tối ƣu cho kết hợp lý cao so với đa số cách tiếp cận khác 3.3.1.5 Phân lớp Việc phân lớp đƣợc thực cách tính toán khả dễ xảy tƣơng ứng mô hình giọng nói với âm khác, âm nhạc với âm khác 89 Mô hình HMM cho giọng nói với âm khác đƣợc tổ chức mạng phản hồi lại toàn phép sửa đổi mô hình Một giải mã đƣợc sử dụng để xử lý đặc trƣng đƣa vào sau xác định đƣờng tƣơng ứng để qua mạng 3.3.1.6 Kết Kết thực hệ thống bao gồm: thời gian bắt đầu kết thúc phân tích xác suất tƣơng ứng Một xác suất có giá trị 0,99 có nghĩa mục (Item) phân tích (âm nhạc giọng nói) đƣợc hệ thống phân tích giống với kết tìm Giá trị 0,1 có ý nghĩa ngƣợc lại, xác suất 0,5 tức kết đƣa không rõ ràng Để đảm bảo xác, hệ thống sử dụng tham số ERR nhƣ mô tả mục 3.1.1 chƣơng để chấp nhận từ chối kết tìm đƣợc 3.3.2 Sơ đồ khối chức Hệ thống bao gồm khối chức sau đây: Hệ thống phân tích âm Truy vấn Item Phân lớp Huấn luyện Bổ sung Item Chọn mẫu phân tích Xử lý trích đoạn Xóa Item Tính toán đặc trƣng Xử lý cụm từ Mô hình hóa Xử lý giọng nói 90 3.3.3 Giao diện chƣơng trình Giao diện chƣơng trình đƣợc minh họa nhƣ hình dƣới đây: Hình 25 Giao diện chương trình 3.3.3.1 Detection Chức Detection có khả lƣu tập tham số tách sóng đồng thời, tƣơng tự nhƣ đoạn âm dùng để nhận dạng tiếng chuông reo, đặc trƣng riêng giọng nói để phân tích ngƣời nói, đƣợc diễn đạt cách xác nhằm phân tích âm nhạc hay đoạn 91 nhạc để đánh dấu làm từ khóa Do đó, mục Detection đòi hỏi tham số đặc trƣng phải có mức tin cậy cao 3.3.3.2 Huấn luyện Detection Chức tác vụ huấn luyện Detection là: cho phép ngƣời dùng chọn đoạn âm huấn luyện thuộc loại số loại sau: đoạn âm (audio clip), ngƣời nói (speaker), cụm từ khóa (key phrase) Trên đặc trƣng hoàn toàn khác từ loại liệu âm đƣợc ngƣời dùng cung cấp, tác vụ huấn luyện trích chọn thông tin cần thiết 3.3.3.3 Kết từ phân tích Kết Detector trả lại giá trị tìm đƣợc từ đoạn âm ngƣời dùng cần tìm Nó bao gồm giá trị khoảng thời gian tìm thấy đối tƣợng, gồm thời gian bắt đầu, thời gian kết thúc (đƣợc tính ms), giá trị xác suất kiện liệu đƣợc nhận dạng mục Detection Hình 24 Kết từ Detector Ví dụ, ta có hai đoạn âm hai tệp MAN.WAV WOMEN.WAV đƣợc thu âm riêng giọng nói tƣơng ứng hai ngƣời nam nữ Sau ta muốn biết đoạn âm hỗn hợp MIX.WAV có giọng nói hai ngƣời hay không, có tƣơng ứng với khoảng thời gian MIX.WAV Khi đó, ta tạo hai mục (trong trƣờng hợp HAI BINH) tƣơng ứng với tên ngƣời nói MAN.WAV WOMAN.WAV Kết 92 minh họa hình cho thấy hệ thống phân tích đƣợc đoạn âm hỗn hợp MIX.WAV có giọng nói hai ngƣời đó, khoảng thời gian ngƣời nói BINH (tƣơng ứng với ngƣời nói NU.WAV) khoảng thời gian ngƣời nói HAI (tƣơng ứng với ngƣời nói NAM.WAV) 3.3.3.4 Detector Mục Detector nhận đối tƣợng mục Detection giai đoạn chuẩn bị Sau lần khởi tạo, sẵn sàng để nhận đặc trƣng âm đó, phân tích khác mục Detection 3.3.4 Kết đạt đƣợc Hệ thống chƣơng trình ứng dụng thử nghiệm có số ƣu điểm, nhƣ tồn số nhƣợc điểm Trong kết đạt đƣợc xem đáng kể bao gồm:  Tính tƣơng thích với môi trƣờng sở liệu khác Chƣơng trình cho phép tích hợp dễ dàng vào môi trƣờng sở liệu (ví dụ, ODBC, DB2, Oracle, SQL Server, )  Giao diện lập trình ứng dụng dễ hiểu Giao diện lập trình ứng dụng C/C++ cho phép ngƣời dùng dễ dàng nhanh chóng thực chức cần thiết  Hỗ trợ với định dạng: PCM 8kHz 16bit PCM 16kHz 16bit  Tính linh hoạt Chƣơng trình tích hợp dễ dàng hệ thống khác nhau, từ hệ thống lớn nhƣ thiết bị nhỏ nhƣ tablet PCs PDAs  Thời gian thực chấp nhận đƣợc 93 Các thử nghiệm thực cấu hình máy PC có xử lý Pentium IV GHz, nhớ 512MB, chạy hệ điều hành Windows 2000 Mẫu thử nghiệm 20 giọng nói đơn sắc đƣợc thu âm qua điện thoại, định dạng PCM 8kHz 16Bit Kết đo đƣợc nhƣ sau: Mục Thời gian thực Chỉ mục liệu 7.3 Tìm kiếm 82.2 Chuyển đổi 2.3 Bên cạnh đó, số lƣợng liệu đầu vào nên kết đạt đƣợc mang tính chủ quan chƣa có sức thuyết phục cao Định dạng mẫu liệu không chấp nhận tệp nén nên dung lƣợng tệp lớn Về mặt lý thuyết, hệ thống cần đƣợc nghiên cứu kỹ lƣỡng để tìm đặc trƣng tốt, giúp cho kết phân tích tìm kiếm đƣợc xác 94 KẾT LUẬN Hiện nay, ứng dụng có khả đọc, hiểu nội dung liệu đa phƣơng tiện nói chung, liệu âm nói riêng đáp ứng đƣợc nhu cầu ngày phức tạp ngƣời dùng, từ chúng đƣợc ứng dụng rộng rãi nhiều lĩnh vực khác nhau, đem lại hiệu cao Trên đây, luận văn giới thiệu số phƣơng pháp tìm kiếm âm theo nội dung, bao gồm tình hình nghiên cứu hƣớng phát triển, khái niệm sở chọn lọc số phƣơng pháp, giải thuật nghiên cứu đƣợc chứng minh hiệu thông qua thí nghiệm thời gian gần Về ứng dụng thực tiễn, luận văn trình bày ứng dụng dựa công cụ phát triển phần mềm ACTNow để minh họa số phƣơng pháp tìm kiếm âm theo nội dung chƣơng Kết luận văn bƣớc đầu trình nghiên cứu thân nữa, đề tài nghiên cứu luận văn tƣơng đối mẻ nay, luận văn tồn số vấn đề hoàn thiện Trong tƣơng lai, mong muốn cải tiến thêm mặt lý thuyết nhƣ mặt chƣơng trình để phát triển theo hai hƣớng: phát triển ứng dụng hoàn chỉnh lĩnh vực phát vi phạm quyền âm nhạc vấn đề tìm kiếm âm thƣ viện số ngành Văn hóa thông tin Luận văn đƣợc sử dụng làm tài liệu tham khảo vấn đề nghiên cứu âm ứng dụng âm Các khái niệm, thuật toán kết liên quan trình bày làm sở cho việc quản lý ứng dụng, xây dựng hệ thống tìm kiếm âm phù hợp hiệu 95 TÀI LIỆU THAM KHẢO [1]Asif Ghias, Jonathan Logan, David Chamberlin, Brian C Smith: “Query By Humming Musical Information Retrieval in An Audio Database”, Cornell University [2]D Griffin and J Lim: "Signal estimation from modified short-time Fourier transform", IEEE Trans on Acoust Speech and Sig Proc., vol 32, no.2, 1984 [3]Đặng Văn Đức, "Giáo trình sở liệu đa phƣơng tiện" [4]D Heng Tao Shen, "Multimedia Database", Semester 1, 2006 [5]E Scheirer and M Slaney, “Construction and Evaluation of a Robust Multifeature Music/Speech Discriminator”, In Proc.ICASSP97, Vol.2, pp.1331-1334, 1997 [6]E.Wold, T.Blum, D.Keislar and J.Wheaton(1996),Contentbased classification, search and retrieval of audio, IEEE multimedia Mag.3,pp.27-36 [7]Harald Kosch and Mario Döller, "Multimedia Database Systems: Where are we now?" [8]J Foote, “Content-based retrieval of music and audio,” Proc SPIE, vol.3229, pp 138–147, 1997 [9]J Saunders, “Real-time Discrimination of Broadcast Speech/Music”, In Proc ICASSP-96, pp.993-996, 1996 [10]J Pinquier, J.-L Rouas, and R Andre-Obrecht, “A fusion study in speech/music classification,” in Proc., International Conference Acoustics, Speech, and Signal Processing, Hong Kong, vol 2, Apr.2003 96 [11]K El-Maleh, M Klein, G Petrucci and P Kabal, “Speech/Music Discrimination for Multimedia Application”, In Proc ICASSP00, 2000 [12]L Lu, H Jiang and H J Zhang, “A Robust Audio Classification and Segmentation Method”, In Proc ACM Multimedia 2001, Ottawa, Canada, 2001 [13]LieLu, Hong-Jang Zhang and Hao Jiang,"Content Analysis for Audio Classification and Segmentation", IEEE Transaction on speech and audio processing, vol 10, No 7, october 2002 [14]M W Mak, W G Allen, and G G Sexton, “Speaker identification using multilayer perceptrons and radial basis function networks” [15]Man-Wai Mak and Sun-Yuan Kung:"Estimation of Elliptical Basis Function Parameters by the EM Algorithm with Application to Speaker Verification", Febrruary,25,2000 [16]S Renals, “Radial basis function for speech pattern classification” [17]Takuichi Nishimura, Hiroki Hashiguchi, Junko Takita, J Xin Zhang, Ryuichi Oka: “Music Signal Spotting Retrieval by Humming Query Using Model Driven Path Continuous Dynamic Programming” [18]Xi Shao, Changsheng Xu, Mohan S Kankanhalli, "Applying neural network on content- base audio classification" [...]... thống tìm kiếm âm thanh phù hợp, hiệu quả hơn Xuất phát từ những vấn đề nêu trên, luận văn đã tập trung nghiên cứu về vấn đề "Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện" Cấu trúc của luận văn nhƣ sau: Chƣơng I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN- MỘT SỐ KHÁI NIỆM CƠ SỞ Chƣơng II MỘT SỐ PHƢƠNG PHÁP VÀ GIẢI THUẬT TRÍCH CHỌN ĐẶC TRƢNG ÂM THANH Chƣơng III PHÁT TRIỂN ỨNG DỤNG TÌM... số dữ liệu cực đại bị mất trên một đơn vị thời gian 1.1.2 Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện (MMDBMS) Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là hệ thống tổ chức và lƣu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tƣợng Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là một cơ cấu tổ chức quản lý các kiểu 11 dữ liệu. .. để có thể cảm nhận đƣợc hình ảnh chuyển động trơn tru  Tìm kiếm dựa trên cơ sở tương tự Trong cơ sở dữ liệu quan hệ, phƣơng pháp tìm kiếm truyền thống đối với dữ liệu dạng văn bản và số là tìm kiếm chính xác, hay còn gọi là "exact search" Đối với dữ liệu đa phƣơng tiện, ngƣời dùng thƣờng đặt ra yêu cầu tìm kiếm một đối tƣợng tƣơng tự theo nội dung mà họ đƣa ra Ví dụ, một nghiên cứu khoa học cho biết... 1.1.3 Truy tìm thông tin Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin đƣợc lƣu trữ trên máy tính Đối với dữ liệu đa phƣơng tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tƣơng tự Hệ thống lƣu trữ một tập các đối tƣợng đa phƣơng tiện trong cơ sở dữ liệu Ngƣời dùng đƣa ra các truy vấn, và hệ thống tìm ra các đối tƣợng tƣơng tự truy vấn trong cơ sở dữ liệu đã... tài liệu văn bản thì không đáp ứng đầy đủ đối với việc quản lý các dữ liệu đa phƣơng tiện, bởi các tính chất cũng nhƣ các yêu cầu đặc biệt của chúng nhƣ đã nêu ở trên Do đó, hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là sự cần thiết để quản lý dữ liệu đa phƣơng tiện một cách có hiệu quả Các đặc trƣng chủ yếu của MMDBMS bao gồm:  Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phƣơng... từ cơ sở dữ liệu trong MMDBMS thì thực hiện nhƣ sau: + Thực hiện trích chọn đặc trƣng truy vấn + Gửi các trích chọn đặc trƣng đó đến máy chủ + Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy vấn trong cơ sở dữ liệu + Hiển thị kết quả đến ngƣời sử dụng thông qua giao diện ngƣời dùng 1.3 MỘT SỐ HỆ THỐNG CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN HIỆN CÓ 1.3.1 Quá trình phát triển Kể từ khi hệ thống cơ sở. .. thống cơ sở dữ liệu đa phƣơng tiện có nhiều môđun chức năng khác nhau nhằm hỗ trợ các thao tác trên dữ liệu đa phƣơng tiện Bao gồm các môđun chính sau đây: - Giao diện ngƣời dùng - Bộ trích chọn đặc trƣng - Chỉ số hóa và môtơ tìm kiếm - Quản lý truyền thông Trong đó, có hai thao tác cơ bản là:  Bổ sung dữ liệu đa phương tiện mới Thao tác bổ sung đƣợc thực hiện theo trình tự các bƣớc nhƣ sau: - Bƣớc 1 Dữ. .. ĐẶC TRƢNG ÂM THANH Chƣơng III PHÁT TRIỂN ỨNG DỤNG TÌM ÂM THANH TRÊN CƠ SỞ NỘI DUNG 7 Chƣơng I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN - MỘT SỐ KHÁI NIỆM CƠ SỞ Trong những năm gần đây, nhu cầu sử dụng thông tin đa phƣơng tiện ngày càng lớn Chúng đƣợc sử dụng trong đời sống hàng ngày của con ngƣời và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác Mặt khác, sự tiến bộ của công... quản lý các dữ liệu đa phƣơng tiện Các hệ thống cơ sở dữ liệu đa phƣơng tiện là mục tiêu và đem lại lợi ích cho nhiều đối tƣợng sử dụng Ví dụ, các cá nhân lƣu trữ và sở hữu một lƣợng lớn dữ liệu đa phƣơng tiện trên máy tính của mình, họ có thể sử dụng hệ thống để thực hiện các truy vấn nhƣ tìm kiếm các đoạn, cảnh nào đó trong phim Các công ty chuyên cung cấp và khai thác dịch vụ đa phƣơng tiện nhƣ các... dữ liệu đa phƣơng tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sử dụng các kỹ thuật lƣu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có  Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phƣơng tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể đƣợc thực hiện, và cần có cơ ... trung nghiên cứu vấn đề "Tìm kiếm âm theo nội dung sở liệu đa phương tiện" Cấu trúc luận văn nhƣ sau: Chƣơng I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN- MỘT SỐ KHÁI NIỆM CƠ SỞ Chƣơng II MỘT SỐ PHƢƠNG... TRÍCH CHỌN ĐẶC TRƢNG ÂM THANH Chƣơng III PHÁT TRIỂN ỨNG DỤNG TÌM ÂM THANH TRÊN CƠ SỞ NỘI DUNG 7 Chƣơng I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN - MỘT SỐ KHÁI NIỆM CƠ SỞ Trong năm gần đây, nhu...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Cẩm Bình TÌM KIẾM ÂM THANH THEO NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Ngành: Công nghệ thông tin Mã số:

Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan