Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm

77 486 1
Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HOÀI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC CHỦ TỊCH HỘI ĐỒNG PGS.TS HÀ QUANG THỤY GS.TS VŨ ĐỨC THI Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HOÀI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 LỜI CẢM ƠN Trước hết, vô biết ơn PGS.TS Hà Quang Thụy, người thầy trực tiếp dành nhiều thời gian tận tình hướng dẫn, cung cấp thông tin tài liệu quý báu, giúp đỡ hoàn thành luận văn Tôi xin cảm ơn thầy cô Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội cung cấp cho kiến thức quý báu thời gian học tập Nhà trường Sau cùng, xin bày tỏ lòng biết ơn đến người thân, bạn bè, đồng nghiệp, quan tạo điều kiện động viên cho hoàn thành luận văn tốt nghiệp Hà Nội, ngày … tháng … năm 2015 HỌC VIÊN Lê Thị Hoài Thu LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu, hướng dẫn tận tình thầy giáo PGS.TS Hà Quang Thụy Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 09 năm 2015 Học viên Lê Thị Hoài Thu MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH MỤC BẢNG PHẦN MỞ ĐẦU CHƯƠNG KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM 10 THÀNH PHẦN CHỈ SỐ TRONG MÁY TÌM KIẾM 10 1.1 Khái niệm công cụ tìm kiếm thông tin 10 1.1.1 Tổng quan hệ thống tìm kiếm 10 1.1.2 Quy trình tìm kiếm thông tin 11 1.1.3 Một số vấn đề tìm kiếm thông tin 12 1.1.4 Cấu trúc điển hình máy tìm kiếm 13 1.2 Tập số máy tìm kiếm 14 1.2.1 Các bước để xây dựng hệ thống tìm kiếm thông tin 15 1.2.2 Cấu trúc bảng số ngược 16 1.2.3 Chia bảng số 19 1.3 Tổng quan phương pháp lập số 19 1.3.1 Xác định mục từ quan trọng cần lập số 20 1.3.2 Một số hàm tính trọng số mục từ 21 1.3.3 Lập mục tài liệu 22 KẾT LUẬN CHƯƠNG I 25 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM 27 2.1 Chỉ số ngược 27 2.2 Phương pháp nén số 29 2.2.1 Lưu trữ theo khối 30 2.2.2 Nén từ điển từ vựng chuỗi 32 2.2.3 Nén tập tin posting 33 2.3 Các phương pháp nén số cập nhật 36 2.3.1 Mã Glomb 37 2.3.2 Simple9 Coding 37 2.3.3 Binary Code 39 2.3.4 PforDelta 41 2.3.5 Interpolative Coding 42 2.4 Cải tiến thuật toán PFD 44 KẾT LUẬN CHƯƠNG 45 CHƯƠNG III TÌM HIỂU VỀ LUCENE 46 3.1 Tìm hiểu lucene 46 3.1.1 Giới thiệu chung Lucene 46 3.1.2 Tìm hiểu lớp đối tượng lập mục 46 3.1.2 Tìm hiểu lớp đối tượng tìm kiếm 48 3.2 Lập số Lucene 49 3.2.1 Các tiến trình lập số 49 3.2.2 Các toán tử lập số với Lucene 50 3.2.3 Khuếch đại tài liệu trường 51 3.2.4 Điều khiển tiến trình lập số 51 3.2.5 Tối ưu hóa việc lập số 52 3.3 Tìm kiếm tập số 53 3.3.1 Tìm kiếm thuật ngữ cụ thể 53 3.3.2 Bộ chuyển đổi câu truy vấn người dùng: QueryParser 53 3.3.3 Sử dụng lớp IndexSearcher 54 3.4 Tiến trình phân tích Lucene 54 3.5 Định dạng số lucene 55 3.5.1 Cấu trúc số 55 3.5.2 Chỉ số ngược 57 TỔNG KẾT CHƯƠNG 58 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 59 4.1 Giới thiệu chương trình thử nghiệm 59 4.2 Kết thử nghiệm 62 KẾT LUẬN CHƯƠNG 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 68 DANH MỤC CÁC KÝ HIỆU VIẾT TẮT IR: Hệ thống tìm kiếm thông tin (Information Retrieval) IF: Tập tin ngược (Inverted File) IL: danh sách ngược (inverled list) URL: Uniform Resource Locator CSDL: Cơ sở liệu VB: Variable byte PFD: PforDelta IPC: Interpolative Coding TF: Tần suất xuất (Term frequency) DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 – Quy trình tìm kiếm thông tin 11 Hình 1.2 - Ví dụ số ngược_tìm theo từ 17 Hình 1.3 - Tổng quan trình lập mục 20 Hình 2.1- Xây dựng số cách phân loại nhóm từ vựng 28 Hình 2.2 - Lưu trữ theo khối 31 Hình 2.3 - Tìm kiếm từ trường hợp không nén tập từ điển (hình a) nén theo khối có kích thước k=4 (hình b) 32 Hình 2.4 - Lưu trữ từ điển mảng có độ rộng cố định 32 Hình 2.5 - Lưu trữ tập từ điển kho từ vựng chuỗi 33 Hình 2.6 - Sơ đồ mục tiêu cho Opt-PFD 44 Hình 3.1 Các thao tác tiến trình lập mục 50 Hình 3.2 Bộ nhớ đệm giúp cải thiện hiệu suất lập mục Lucene 51 Hình 3.3 - Các thành phần định dạng tập mục ngược 57 Hình 4.1- Kết trả sau lập mục 63 Hình 4.2 - Cấu trúc tập mục compound index 63 Hình 4.3 - Cấu trúc số multifile index 63 59 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 4.1 Giới thiệu chương trình thử nghiệm Trong phạm vi luận văn này, áp dụng thuật toán nén mục VB code thuật toán cải tiến OPT-PFD vào chương trình thực nghiệm Để thực nghiệm kết nén số VB code OPT-PFD, thể thuật toán ngôn ngữ lập trình Java Console Chức chương trình gồm: - Lập mục: Dựa ý tưởng lập mục sử dụng Lucnene, chương trình xây dựng chức cho phép chương trình thực quy trình tạo tập số cho tập liệu cho sẵn Các tập liệu bổ sung, sửa chữa để nâng cao hiệu việc lập mục Trên sở nghiên cứu kế thừa mã nguồn mở Lucene phiên apache_lucene để xây dựng quy trình lập mục cho tập tài liệu có sẵn Trong chức dựa lớp có sẵn phiên apache_lucene để thực hiện: • Directory: cho phép định nghĩa vùng nhớ, xác định nơi lưu trữ nhớ nhớ RAM trình tạo mục • Document Field: định nghĩa tài liệu trường thông tin tài liệu sử dụng cho lập mục, sử dụng cho việc lấy kết trả cho thành phần Tìm kiếm • Analyzer: thực chức xử lý tách văn để lấy nội dung, chuẩn hóa, loại bỏ mục từ không cần thiết,… để chuẩn bị cho việc lập mục • IndexWriter: phần thành phần Tạo mục, thực việc tạo mở mục, sau thực thêm cập nhật nội dung mục • TermFerqVector: thực chức đếm tần số xuất từ từ điển tập liệu - Nén mục: Chức cho phép thực nén tập số lập Với ý tưởng sử dụng phương pháp nén để đối sánh đưa kết đánh gía hiệu suất, tỷ lệ thời gian thực ứng dụng chúng vào hệ thống tìm kiếm Chương trình xây dựng 60 chức nén mục để thực cho thuật toán khoảng cách byte (VB code) thuật toán cải tiến OPT-PFD • Thuật toán nén khoảng cách byte (VB code) VBENDCODENUMBER(n) bytes 2.While true PREPEND (bytes, n mod 128) if n[...]... hoặc vị trí của các từ trong mỗi tài liệu 2.2 Phương pháp nén chỉ số Thành phần quan trọng của máy tìm kiếm là hệ thống chỉ số (chỉ số thuận, chỉ số ngược), trong đó chỉ số ngược giúp tìm kiếm nhanh tài liệu chứa từ khóa hoặc cụm từ khóa truy vấn người dùng Máy tìm kiếm chỉ số hóa hàng tỷ/ hàng chục tỷ tài liệu vì vậy việc tiết kiệm không gian lưu trữ (nén chỉ số) đối với hệ thống nén chỉ số là rất cần... toán tìm kiếm thông tin trên web và phân tích cấu trúc tập chỉ mục trong máy tìm kiếm Từ những phân tích trên, luận văn sẽ trình bày các quy trình xây dựng chỉ mục, chỉ mục ngược và các phương pháp nén chỉ mục trong chương 2, đưa ra thuật toán cải tiến tối ưu và cài đặt trong chương 4 27 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM Bản chất của việc tìm kiếm là tìm các. .. dung cơ bản nhất, cung cấp một cách nhìn khái quát về kiến trúc của máy tìm kiếm trong mô hình hệ thống thông tin Đồng thời luận văn cũng mô tả chi tiết các thành phần của cấu trúc chỉ số trong máy tìm kiếm và nhu cầu nén chỉ số cho máy tìm kiếm Chương 2 – Các phương pháp nén chỉ số trong máy tìm kiếm Nội dung của chương này xem xét và đánh giá một số phương pháp nén chỉ số cơ bản và cập nhật Ban đầu... hạn tìm kiếm các trang chứa đựng từ khóa) vẫn tiếp tục phương pháp chính để xác định các trang liên quan tới vấn đề đang được truy vấn Bảng chỉ mục văn bản hỗ trợ cho việc tìm kiếm có thể được thực hiện sử dụng bất kỳ phương pháp truy cập truyền thống nào để tìm kiếm trên toàn tập tài liệu Vì vậy việc lập chỉ số trong máy tìm kiếm là một thao tác vô cùng quan trọng trong các hệ thống tìm kiếm Lập chỉ. .. Tập chỉ số trong máy tìm kiếm Các module lập chỉ số và module phân tích tập hợp đã xây dựng lên đủ loại bảng lập chỉ số trên tập hợp các trang Module lập chỉ số xây dựng hai bảng chỉ mục cơ bản: Đó là bảng chỉ số văn bản (cho nội dung) và bảng chỉ số cấu trúc (cho liên kết) Module phân tích tập hợp sử dụng hai bảng chỉ số cơ bản này cùng với các trang trong kho lưu trữ để xây dựng lên các bảng chỉ số. .. liệu, hiểu một cách đơn giản, là việc sắp xếp các tài liệu nhằm đáp ứng nhanh chóng yêu cầu tìm kiếm thông tin của người sử dụng Công cụ tìm kiếm web cũng như nhiều hệ thống tìm kiếm khác đều dựa vào chỉ số đảo ngược với cấu trúc đơn giản và hiệu quả cho phép tìm thấy tất cả các tài liệu có chứa từ cụ thể 9 Luận văn tập trung khảo sát các phương pháp nén chỉ số, chỉ số ngược trong máy tìm kiếm và đánh... trúc chỉ số ngược và phân tích quy trình lập chỉ số ngược trong máy tìm kiếm Từ đó đưa ra các phương pháp cập nhật và cải tiến để nén các tập chỉ số một cách tối ưu Chương 3 – Tìm hiểu về Lucene Giới thiệu chi tiết về Lucene, các thành phần cơ bản trong Lucene, cấu trúc chỉ số trong Lucene và tối ưu hóa lập chỉ số trong Lucene Chương 4 – Cài đặt thử nghiệm Chương trình trình bày kết quả thực nghiệm nén. .. Giải pháp nén chỉ số không chỉ đảm bảo tính hiệu quả về không gian lưu trữ mà còn đảm bảo tính hiệu quả về thời gian giải nén Nhiều phương pháp nén chỉ số đã được đề xuất, trong đó có cả phương pháp cơ bản [2, 9] lẫn phương pháp cập nhập [1, 3, 5-8, 10-14] đã được ứng dụng và so sánh về hiệu suất của các phương pháp Một trong những yếu tố chính trong việc xác định thời gian đáp ứng của hệ thống tìm kiếm. .. trong các tài liệu Hệ thống này giúp người sử dụng tìm kiếm thông tin mà họ quan tâm Các hệ thống này không giống như các hệ thống trả lời câu hỏi, nó chỉ ra sự tồn tại và vị trí các tài liệu có chứa thông tin cần thiết Một số tài liệu tìm kiếm được” thỏa mãn yêu cầu của người sử dụng gọi là các tài liệu phù hợp hay tài liệu liên quan (relevanl document) Một hệ thống tìm kiếm hoàn hảo sẽ chỉ tìm và... tìm kiếm) Chẳng hạn cho tập từ điển 8 từ như trong hình 2.3, các bước tìm kiếm nhị phân được biểu diễn bởi đường nét đôi và các bước trong danh sách tìm kiếm bởi đường nét đơn Chúng ta thực hiện tìm kiếm các từ khi không nén bằng cách tìm kiếm nhị phân (hình a) Ngược lại khi tập từ điển được nén, đầu tiên xác định vị trí khối của các từ bằng cách tìm kiếm nhị phân và sau đó xác định vị trí của nó trong ... MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM 27 2.1 Chỉ số ngược 27 2.2 Phương pháp nén số 29 2.2.1 Lưu trữ theo khối 30 2.2.2 Nén. .. tiết thành phần cấu trúc số máy tìm kiếm nhu cầu nén số cho máy tìm kiếm Chương – Các phương pháp nén số máy tìm kiếm Nội dung chương xem xét đánh giá số phương pháp nén số cập nhật Ban đầu nội... ngược phương pháp nén mục chương 2, đưa thuật toán cải tiến tối ưu cài đặt chương 27 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM Bản chất việc tìm kiếm tìm từ

Ngày đăng: 25/11/2015, 17:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan