Tìm hiểu thư viện lucene và xây dựng ứng dụng search media

Thông tin tài liệu

Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media LỜI CẢM ƠN Đầu tiên, chúng em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên tận tình dạy dỗ, dìu dắt chúng em suốt bốn năm đại học Chúng em cảm ơn thầy Nguyễn Văn Khiết và thầy Bùi Tấn Lợc, tận tình hướng dẫn, giúp đỡ, động viên chúng em hoàn thành luận văn này Cuối cùng, chúng cảm ơn Ba, Mẹ và người thân khích lệ, đợng viên chúng thời gian học tập, nghiên cứu để có thành ngày Sinh viên Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm Ký tên Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm Ký tên ĐỀ CƯƠNG CHI TIẾT Tên Đề Tài: Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Giáo viên hướng dẫn: Ngũn Văn Khiết-Bùi Tấn Lợc Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Thời gian thực hiện: Sinh viên thực hiện: Nguyễn Thanh Nga-0512230,Trần Thanh Quỳnh-0512286 Loại đề tài: Xây dựng ứng dụng Nội Dung Đề Tài: (mô tả chi tiết nội dung đề tài, yêu cầu, phương pháp thực hiện, kết đạt được) Kế Hoạch Thực Hiện: Stt Nội dung công việc Thời gian thực hiện Thành viên thực hiệ Giai đoạn 1: tìm hiểu thư viện Lucene Tìm hiểu indexing lucene Nguyễn Thanh Nga (Chapter 2) Tìm hiểu loại Query hỗ trợ việc search lucene Tìm hiểu search và advance search lucene(Chapter và Chapter 5) Tìm hiểu bợ Analyzer(Chapter 4) Trần Thanh Quỳnh Tìm hiểu việc chuyển đởi định dạng liệu để index và tool xây dựng hỗ trợ cho Lucene Giai đoạn 2:xây dựng ứng dụng Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 2.1 Tìm hiểu và sử dụng crawler(robot) tìm hiểu robot Jspider Trần Thanh Quỳnh Tìm hiểu robot WinHttrack Tìm hiểu cách crawler Nguyễn Thanh Nga chương trình Nutch Sử dụng WinHttrack để thu thập om,vnmusic.com… liệu trang web nghe nhạc: nhaccuatui 10 Sử dụng WinHttrack để thu thập Trần Thanh Quỳnh liệu trang web dạng phim: topphim.com,clip.vn 2.2 Xây dựng bộ đánh chỉ mục index 11 Phân tích trang music crawl index liệu Nguyễn Thanh Nga và Cài đặt lớp và hàm hỗ trợ việ 12 Phân tích trang video crawl Trần Thanh Quỳnh và Cài đặt lớp và hàm hỗ trợ việc index liệu 2.3 xây dựng ứng dụng tìm kiếm 13 Cài đặt lớp,hàm dựa vào thư Nguyễn Thanh Nga viện Lucene hỗ trợ việc search Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media liệu index 14 Thiết kế hệ thống trang web hỗ Trần Thanh Quỳnh trợ việc tìm kiếm Media 15 Triển khai ứng dụng lên host để lấy Trần Thanh đánh giá từ người dùng,ghi nhận Quỳnh,Nguyễn lỗi và fix lỗi Thanh Nga Giai đoạn 3:báo cáo và nâng cấp ứng dụng 16 Tìm hiểu bài luận,cách báo Nguyễn Thanh Nga cáo,bố cục báo cáo 17 Tởng hợp báo cáo phần tìm hiểu Trần Thanh Quỳnh thư viện Lucene 18 Tổng hợp báo cáo tìm hiểu Trần Thanh Quỳnh crawler(robot) và vấn đề gặp phải,phương pháp giải 19 Báo cáo index và search trang Nguyễn Thanh Nga web thu thập 20 Báo cáo xây dựng ứng dụng search 21 Tổng hợp lỗi,ghi nhận đánh gia Trần Thanh Quỳnh Nguyễn Thanh ́,thực hiện sửa lỗi và nâng cấp một số chức cho ứng dụng(xây Nga,Trần Thanh Quỳnh dựng Gui cho phần index,xây dựng thệm trang web dùng để thống kê ,xây dựng database lưu trữ Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media liệu cần thiết) Giai đoạn 4: tổng kết,đánh giá 22 Tởng kết toàn bợ q trình thực Ngũn Thanh hiện đề tài,lấy đánh giá,nhận xét và kết thúc Nga,Trần Thanh Quỳnh Xác nhận GVHD Ngày… tháng…năm… SV Thực MỤC LỤC ĐỀ CƯƠNG CHI TIẾT Phần : TÌM HIỂU thư viện Lucene .2 Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các bộ phận cấu thành hệ thống search engine 1.1 Bộ thu thập thông tin – Robot 1.2 Bộ lập chỉ mục – Index 1.3 Bợ tìm kiếm thơng tin – Search Engine Nguyên lý hoạt động Chương 2: THƯ VIỆN LUCENE Giới thiệu thư viện Lucene: Bộ lập chỉ mục – Indexing: 2.1 Quy trình đánh chỉ mục 2.1.1 Convert to text 2.1.2 Analysis 2.1.3 Wrting index 2.2 Các toán tử đánh chỉ mục 2.3 Khuếch đại tài liệu và trường ( Boosting Documents and Fields) 2.4 Điều khiển tiến trình đánh chỉ mục 2.5 Bợ nhớ trong q trình đánh chỉ mục : RAMDirectory .11 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 2.6 Tối ưu hóa việc đánh chỉ mục 12 2.7 Tính đờng thời,an toàn tiến tình,ngăn chặn thực thi .12 Search- Chức tìm kiếm kết quả: 14 3.1 Bộ chuyển đổi câu truy vấn của người dùng : QueryParser 14 3.2 Các tốn tử luận lí 16 3.3 Cụm truy vấn(phrase queries) 17 3.4 Sử dụng lớp IndexSearcher 17 3.4.1 Tìm hiểu Hits 18 3.4.2 Phân trang thông qua Hits .18 3.5 Tìm hiểu loại Query 19 3.5.1 Tìm kiếm theo giới hạn : TermQuery 19 3.5.2 Tìm kiếm theo dãy :RangeQuery 19 3.5.3 Tìm kiếm dựa chuỗi :PrefixQuery 20 3.5.4 Kết hợp truy vấn : BooleanQuery 21 3.6 Tìm kiếm theo cụm: PhraseQuery .21 3.7 Tìm kiếm theo wildcard: WildcardQuery 22 3.8 Tìm kiếm theo từ giống nhau: FuzzyQuery .22 Bộ phân tích – Analyzer: 22 4.1 Using analyzers 23 4.1.1 Indexing analysis 24 4.1.2 QueryParser analysis .24 4.1.3 Parsing versus analysis : một analyzer không phù hợp 25 4.2 Analyzing the analyzer 25 4.2.1 Token là gì? 25 4.2.2 TokenStreams uncensored .26 4.2.3 Visualizing analyzers .28 4.3 Sử dụng bợ phân tích tích hợp sẵn Lucene 30 4.3.1 StopAnalyzer 30 4.3.2 StandardAnalyzwer .31 4.4 “Sounds like” querying 31 4.5 Language analysis issues 32 Kỹ thuật tìm kiếm nâng cao: 33 5.1 Sắp xếp theo độ xác 33 5.2 Sắp xếp theo độ thứ tự đánh chỉ mục(index order) 34 5.3 Sắp xếp theo Trường (Field) 34 5.4 Đảo ngược thứ tự đánh chỉ mục 34 5.5 Sắp xếp theo nhiều trường khác nhau(multiple fields) 34 Chuyển đổi kiểu liệu khác dạng liệu chung 35 6.1 Handling rich-text document 35 6.2 Indexing XML 36 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 6.3 Indexing một DPF document .36 6.4 Indexing an HTML document 37 6.5 Indexing a Microsoft Word document 37 6.5.1 Using POI 37 6.5.2 Using TextMining.org’s API 37 6.6 Indexing an RTF document 38 6.7 Indexing a plain-text document 38 6.8 Creating a document – handling framwork 38 6.8.1 FileHandler interface .39 6.8.2 Extension FileHandler 40 6.8.3 FileIndexer drawbacks and how to extend the framework 40 6.9 Other text-extraction tools 41 Phần : THIẾT KẾ VÀ CÀI ĐẶT 41 Chương 1: THU THẬP THÔNG TIN 42 Giới thiệu Crawler 42 Crawler sử dụng .43 2.1 Các phần mềm chép tài nguyên website 43 2.2 Nutch .43 2.3 Jspider 44 2.4 Teleport và Httrack .44 Hướng dẫn sử dụng crawler lựa chọn HTTrack 45 Chương 2: xây dựng đánh chỉ mục index 51 Chương 3: xây dựng ứng dụng search 51 Chương 4: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 52 Phần : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 52 DANH SÁCH CÁC BẢNG 52 DANH SÁCH CÁC HÌNH VẼ .52 TÀI LIỆU THAM KHẢO .52 I Sách, ebook: 52 II Luận văn, luận án 52 III Bài báo 52 IV Website 52 Tìm hiểu Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này Tuy nhiên tờn mợt nghịch lý là dù ví thư viện toàn cầu, internet không thoả mãn nhu cầu thông tin của người Xung quanh vấn đề này có nhiều nguyên nhân quan trọng nhất là sự thông hiểu người và công cụ tìm kiếm mạng – search engine – chưa đạt đến mức giao tiếp tốt với Hơn nữa, search engine mang đặc thù của ngôn ngữ mà hiển thị search engine Tiếng Việt phải giải vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp Tiếng Việt Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine tiếp cận ta tối ưu hố hợi nhận thơng tin hữu ích Đây là mục tiêu của luận văn Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Framwork components : 6.8.1 FileHandler interface FileHandler là một interface đơn giản giống là DocumentHandle Tuy nhiên , điểm khác là DocumentHandle dùng giống InputStream để làm loại liệu đưa vào , FileHandler interface định nghĩa File là loại liệu đưa vào ,điều làm việc dễ dàng 39 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 6.8.2 Extension FileHandler ExtensionFileHandler chỉ thực thi với FileHandler interface và trả một Lucene Document chung FileHandler thực thi với bất kỳ gói , ngoại lệ thông qua FileHandlerException ExtensionFileHandler chỉ thực thi FileHandler interface Khi thực thi phương thức getDocument(File) sử dụng phần mở rộng của file để suy loại file và gọi hàm thi hành parser thích hợp Bởi tất phần thực thi parser tḥc phần chung DocumentHandler interface, ExtensionFileHandler dị đối tượng File đưa vào gói FileInputStream biết cần phải xử lý nào 6.8.3 FileIndexer drawbacks and how to extend the framework Framework bao parser xử lý loại file đưa vào :XML, PDF, HTML, Microsoft Word, RTF , Plain text Nhưng cần index và tạo file tìm kiếm với loại file mà framwork không hỗ trợ mở rợng framwork theo bước sau: 40 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media - Viết một parser cho loại file mong muốn và thực thi DocumentHandler interface Thêm class parser đến file handler.properties , ánh xạ thích hợp với phần mở rộng của loại file mong muốn Vẫn sử dụng FileIndexer 6.9 Other text-extraction tools Trong phần này ta thấy sự hiện diện của text rút trích từ , phần indexing của loại định dạng liệu phổ biến nhất PHẦN : THIẾT KẾ VÀ CÀI ĐẶT     Ngôn ngữ lập trình Cơng cụ lập trình Web Server Hệ quản trị CSDL : Java, HTML : NetBean 6.5, DreamWeaver CS3 : Apache : Mysql 41 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 1: THU THẬP THƠNG TIN Để xây dựng mợt ứng dụng Search Engine phải cần có mợt bợ thu thập thơng tin gọi là crawler (bọ tìm kiếm , web spider hay web robot) Giới thiệu Crawler Crawler là chương trình tự đợng tìm kiếm tài ngun internet trang web , hình ảnh , tài liệu word , pdf hay Postscripts, cho phép máy tìm kiếm đánh chỉ số sau Q trình thực hiện gọi là Web crawling hay spidering, rất nhiều cơng cụ tìm kiếm giới sử dụng spidering để cập nhật kho liệu website của Chẳng hạn google dùng để lấy thơng tin website ồi cập nhật vào sở liệu của giúp người dùng search trang theo ý muốn Web crawler là loại của gọi là bot (là tác tử thực hiện tự đợng, nghĩa giống spider) Đại loại, bắt đầu từ danh sách địa chỉ URL gọi là seeds (hạt giống) Nó vào địa chỉ này lọc thơng tin rời tìm địa chỉ URL khác thêm chúng vào danh sách địa chỉ duyệt qua gọi là crawl frontier Sau lại lặp lại q trình dụt qua URL Cứ thế, cứ thể lần qua rất nhiều địa chỉ website và thu thập rất nhiều nội dung khác giúp ta dễ dàng tìm kiếm thơng tin cần Mợt số bọ tìm kiếm phở biến của máy tìm kiếm : - Googlebot của Google - MSNBot của MSN - Slurp của Yahoo - Scooter của Alta Vista - Baidu của Baidu Vì điều cần thiết để tạo nên một cỗ máy tìm kiếm tụt hảo là có mợt crawler thơng minh và khả cập nhật liệu nhanh và tốt một khối lượng dự trữ cực lớn Sau tìm hiểu mợt số crawler mã ng̀n mở có mạng tìm JSpider, Crawler của Nutch Yêu cầu hiện để thực hiện luận văn là tìm và sử dụng đưowjc crawler có khả download file html từ website nhạc để lấy link media file html dùng để indexing cho Search Enginer Vì crawler là mợt yếu tố cực kỳ quan trọng chiến lược tìm kiếm của máy tìm kiếm danh tiếng Google, yahoo , Baidu… khả dùng crawler của cỗ máy tìm kiếm là khơng thể , mà việc index và search phải phụ thuộc vào crawler thu thập liệu Hiện có rất 42 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media nhiều phần mềm crawler bán có quyền bên cạnh phần mềm mã nguồn mở rất phong phú đa dạng giới thiệu Aspseek , arachnode.net ,DataparkSearch ,GNU Wget, GRUB , Heritrix , HTTrack ,ICDL Crawler , mnoGoSearch ,Nutch , Pavuk , YaCy … Crawler đã sử dụng Yêu cầu đặt cho crawler sử dụng luận văn là có khả tải hầu hết trang của một site media internet máy tính cục bợ dạng file html , có khả resum bị ngắt kết nối download chừng, có chức redownload liệu trang web bị thay đởi, có chức hẹn tự động cập nhật lại liệu Jspider sau tìm hiểu ví dụ khơng thấy khả quan trình tìm kiếm và download html từ trang web media bamboo.com , nhac8.com , nhaccuatui.com, www3.nhac.vui.vn, mp3.zing.vn, vnmusic.com, … Mã ng̀n mở Nutch tìm hiểu thấy rất khó để tách riêng liệu tải làm liệu để làm đầu vào để indexing riêng , rất nhiều phần mềm copy website sử dụng không đáp ứng yêu cầu Ngoài khảo sát chương trình khác : Webcopier, WebRipper_1.32 free , WebsiteWatcher4.42, WebDataExtractor_wde , Nutch, Jspider , telepot.pro 2.1 Các phần mềm chép tài ngun website Hiện có nhiều chương trình giúp tải mợt website với thành phần của hình ảnh, file văn bản, file html ví dụ phần mềm webcopier (http://www.maximumsoft.com/ ) , webRipper (http://download.cnet.com/WebRipper/3000-2071_4-10457425.html ) , WebsiteWatcher(http://www.lisisoft.com/free-download-version/8452websitewatcher.html ), webDataExtractor (http://redpiranha.sourceforge.net/doc/net/firstpartners/rp/back/extractor/WebDataExtractor.ht ml ) khả chép nguyên website theo yêu cầu máy local Đối với trang diễn đàn chương trình này có khả thu thập tốt thử sử dụng crawler website media đem lại kết khơng khả quan, rất dễ bị ngắt kết nối, liệu thu thập rất nên khơng sử dụng 2.2 Nutch Mã ng̀n mở: http://lucene.apache.org/nutch/ 43 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Hướng phát triển và tìm kiếm mợt phần mềm crawler là tìm phần mềm mã ng̀n mở dễ sử dụng , và có khả thu thập liệu tốt với website media Phần mềm crawler ứng dụng Nutch phát triển cùng tác giả của Lucence là phần mềm mã nguồn mở Đã dùng thu thập một số website media và thu số lượng liệu lớn liệu thu thập Nutch tổ chức lưu trữ liệu dùng Hadoop sử dụng công nghệ của GoogleFS, trình index và trình search Ban đầu hướng phát triển là dùng Nutch q trình tìm hiểu và phân tích mã ng̀n của Nutch thấy thời gian để phân rã và sử dụng mã ng̀n để viết mợt ứng dụng riêng theo u cầu riêng khơng làm kịp khoảng thời gian đặt cho phần tìm hiểu và sử dụng crawler Vì vậy, trước mắt cần tìm mợt crawler khác thu thập liệu tốt và Hướng phát triển lâu dài sử dụng Nutch để viết lại một crawler riêng để tạo chức theo yêu cầu đặt theo ý muốn 2.3 Jspider Mã nguồn mở : http://j-spider.sourceforge.net/ Mã nguồn mở Jspider viết ngôn ngữ java, khả tìm kiếm liệu website media thu liệu tốt hạn chế của chương trình là khơng hỗ trợ chức update và lưu lại trạng thái download bị ngắt kết nối ( continue interrupted download) 2.4 Teleport Httrack HTTrack và Teleport đáp ứng yêu cầu đặt có khả download website media tốt, có chức update, có chức tiếp tục download project bị ngắt kết nối chừng, có khả link tới website liên quan (khả spider), giới hạn định dạng download,có khả tải website máy local một phiên thứ với trang web yêu cầu - HTTrack : http://en.wikipedia.org/wiki/HTTrack HTTrack giới thiệu wiki , http://www.httrack.com/ website giới thiệu mã ng̀n Đây là chương trình mã ng̀n mở viết ngơn ngữ C - Teleport : http://www.tenmax.com/teleport/pro/home.htm là chương trình của hãng Tennyson Maxwell Information Systems Những yêu cầu đặt crawler đáp ứng tốt Teleport là phần mềm thương mại nên lâu dài việc lựa chọn HTTrack tốt HTTrack là phần mềm mã nguồn mở viết ngôn ngữ C mở rợng chức cần thiết 44 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Hướng dẫn sử dụng crawler đã lựa chọn HTTrack Download phần mềm : http://download.httrack.com/httrack-3.43-5.exe Ở lần chạy đầu tiên, HTTrack yêu cầu thiết lập Proxy và ngơn ngữ thức sử dụng chương trình Nên OK để đờng ý với hiệu chỉnh mặc định của và bắt đầu q trình tải website mong muốn của theo bước sau: Bước 1: Tạo project mới: Để thuận tiện cho người sử dụng, HTTrack lưu tất thông số mợt q trình tải website cần tải, nơi lưu site máy tính, scan rules vào mợt file project có dạng *.whtt Vì nên dễ dàng quản lý nhiều tác vụ tải site khác nhau, mở lại hay nâng cấp website tải Trên cửa sổ của chương trình, bấm Next và nhập tên project vào khung Project name Sau đó, chọn nơi cần lưu website máy cách bấm vào nút hình dấu cợng (+) Lưu ý, nên đặt tên project theo địa chỉ website cần tải, chẳng hạn mp3.zing.com (www.mp3.zing.com) để tiện phân biệt với project khác sau này Ở mục Action với project thiết lập dùng mợt năm u cầu ban đầu : • Download web site(s) (Mirroring Mode) Chủ yếu dùng chức này • Download web site(s) + questions ( Interactive Wizard Mode questions) • Get separated file ( File download) • Download all sites in pages (Link list Mode) • Test links in pages(bookmark test) (Link Testing Mode) 45 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Next để tiếp tục qua bước Bước 2: Thiết lập thông số cần thiết Đây là bước quan trọng nhất toàn bợ thao tác định website tải có và cách thức tải nào Đầu tiên, nhập vào địa chỉ website khung Web Addresses (URL), ví dụ www.mp3.zing.com , hoặc thêm link khác muốn.Nếu website cần tải có yêu cầu đăng nhập (Login), bấm nút Add URL và điền vào thông số cần thiết mật mã và tên tài khoản 46 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Sau hoàn tất phần địa chỉ website cần tải, bạn bấm tiếp vào nút Set options để có thêm mợt số hiệu chỉnh khác • Bộ lọc định dạng: Như nói trên, HTTrack cho phép thiết lập bộ lọc giúp xác định dạng file cần tải Để thực hiện điều này hộp thoại vừa hiện ra, bạn chuyển qua thẻ Scan Rules, sau bấm chọn vào dạng file cho sẵn của chương trình là gif,jpg,png muốn tải dạng file hình ảnh; zip,tar,tgz với dạng file nén và mov,mpg,mpeg file phim và nhạc số Lưu ý là thiết lập thêm dạng file khác cách nhập trực tiếp vào khung theo công thức sau: +*.dạng file để thêm vào dạng file cần tải và -*.dạng file để ngăn khơng cho HTTrack tải dạng file này Ví dụ cơng thức +*.pdf -*.txt có nghĩa là lấy 47 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media file pdf và bỏ file txt • Spider Trong phần hiệu chỉnh option có phần spider để quét trang web có liên kết với website hiện hành Phần này mục tiêu đặt không u cầu đặt lên đầu , với mức đợ của luận văn , chi phí và thời gian khơng đáp ứng nhiều, chỉ download trực tiếp website yêu cầu 48 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Trong ứng dụng cho mục đích phục vụ cho đề tài khóa luận và giới hạn vật chất cho phép nên chỉ sử dụng crawler website chỉ định sẵn , khơng thực hiện chức spider • Browser ID: Phần này cho phép chọn kiểu comment liệu tải hoặc tự tạo định dạng liệu riêng - %s : chèn đường link của trang html lấy - • Các chức khác: sử dụng mặc định Bước 3: Các thao tác với website tải Nếu chụn sn sẻ, có website mong muốn máy tính Cần biết là khơng phải website nào cho phép bạn tải xuống lý bảo mật Để duyệt website vừa tải, mở thư mục lưu site và bấm đúp chuột vào file index.html HTTrack cịn có thao tác rất hữu dụng hộp danh sách Action bước mà bạn nên tìm hiểu là: • Continue interrupted download: Tiếp tục lại mợt q trình tải site gặp trục trặc phải ngưng chừng • Update esixting download: Đờng bợ hóa website máy tính với website tương ứng Internet Các bước là bước thực hiện cấu hình cho chương trình crawler để tạo projet thu thập liệu website media 50 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 2: XÂY DỰNG BỘ ĐÁNH CHỈ MỤC INDEX Chương 3: XÂY DỰNG ỨNG DỤNG SEARCH 51 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 4: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH PHẦN : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ TÀI LIỆU THAM KHẢO I Sách, ebook: II Luận văn, luận án III Bài báo IV Website 52 ... viên thư? ?c hiệ Giai đoạn 1: tìm hiểu thư viện Lucene Tìm hiểu indexing lucene Nguyễn Thanh Nga (Chapter 2) Tìm hiểu loại Query hỗ trợ việc search lucene Tìm hiểu search và advance search lucene( Chapter... Đề Tài: Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Giáo viên hướng dẫn: Ngũn Văn Khiết-Bùi Tấn Lợc Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Thời... - 0012624 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Phần : TÌM HIỂU THƯ VIỆN LUCENE Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các phận cấu thành hệ thống search engine

Ngày đăng: 26/10/2015, 22:54

Xem thêm: Tìm hiểu thư viện lucene và xây dựng ứng dụng search media, Tìm hiểu thư viện lucene và xây dựng ứng dụng search media, Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE, Giới thiệu thư viện Lucene:, Bộ phân tích – Analyzer:, 3 Sử dụng các bộ phân tích được tích hợp sẵn trong Lucene, Chuyển đổi các kiểu dữ liệu khác nhau về dạng dữ liệu chung, Chương 1: THU THẬP THÔNG TIN, Hướng dẫn sử dụng crawler đã lựa chọn HTTrack

Tìm hiểu thư viện lucene và xây dựng ứng dụng search media

Thông tin tài liệu

Từ khóa liên quan

Mục lục

ĐỀ CƯƠNG CHI TIẾT

Phần 1 : TÌM HIỂU thư viện Lucene

Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE

1. Các bộ phận cấu thành hệ thống search engine

1.1 Bộ thu thập thông tin – Robot

1.2 Bộ lập chỉ mục – Index

1.3 Bộ tìm kiếm thông tin – Search Engine

2. Nguyên lý hoạt động

Chương 2: THƯ VIỆN LUCENE

1. Giới thiệu thư viện Lucene:

2. Bộ lập chỉ mục – Indexing:

2.1 Quy trình đánh chỉ mục

2.1.1 Convert to text

2.1.2 Analysis

2.1.3 Wrting index

2.2 Các toán tử đánh chỉ mục cơ bản

2.3 Khuếch đại các tài liệu và các trường ( Boosting Documents and Fields)

2.4 Điều khiển tiến trình đánh chỉ mục

2.5 Bộ nhớ trong trong quá trình đánh chỉ mục : RAMDirectory

2.6 Tối ưu hóa việc đánh chỉ mục

2.7 Tính đồng thời,an toàn tiến tình,ngăn chặn các thực thi

3. Search- Chức năng tìm kiếm kết quả:

3.1 Bộ chuyển đổi câu truy vấn của người dùng : QueryParser

3.2 Các toán tử luận lí

3.3 Cụm truy vấn(phrase queries)

3.4 Sử dụng lớp IndexSearcher

3.4.1 Tìm hiểu về Hits

3.4.2 Phân trang thông qua Hits

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan