Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek

Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 1 LỜI CẢM ƠN Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy giáo tiến sĩ Hà Quang Thụy và thầy Nguyễn Trí Thành, khoa Công nghệ, ĐHQG Hà nội đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn. Em xin cảm ơn các Thầy Cô trong khoa Công nghệ, Đại học Quốc Gia Hà Nội, và nhóm Xemina "Máy tìm kiếm VietSeek" thuộc bộ môn Các Hệ thống Thông tin, khoa Công nghệ, những người đã giúp đỡ cho em trong suốt quá trình học tập và nghiên cứu. Cuối cùng, em xin bày t ỏ lòng biết ơn tới gia đình và các bạn bè đã giúp đỡ, động viên em rất nhiều trong suốt quá trình học tập. Hà Nội ngày 28/05/2003 Sinh viên Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 2 TÓM TẮT NỘI DUNG Do kích thước khổng lồ của dữ liệu Web, việc xây dựng cũng như tích hợp các yếu tố khai phá dữ liệu Web vào công cụ tìm kiếm trên mạng Internet đang thu hút được sự quan tâm rất lớn của rất nhiều nhà nghiên cứu. Khóa luận đề cập tới vấn đề cải tiến chất lượng và tốc độ của máy tìm kiếm bằng việc nghiên cứu bài toán phân lớp trong máy tìm kiếm. Nội dung chính của khóa lu ận trình bày cấu trúc cũng như mô hình hoạt động của modul đánh chỉ mục trong máy tìm kiếm VietSeek, các kỹ thuật cơ bản và các thuật toán thông dụng liên quan đến quá trình khai phá dữ liệu Web trong máy tìm kiếm, mà cụ thể là bài toán phân lớp trang văn bản Web. Đặc biệt khóa luận tập trung vào giải pháp phân lớp theo phương pháp Bayes thứ nhất. Xuất phát từ công thức (3.8) [1], khóa luận đề xuất các công thức (3.15), (3.16) và chứng minh tính đúng đắn của chúng, với giả thiết về tính độc lập của các biến cố. Đi kèm với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho các lớp. Khóa luận đã tích hợp thành công các đề xuất này vào máy tìm kiếm VietSeek và thu được kết quả rất khả quan. Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 3 PHẦN MỞ ĐẦU Ngày nay sự phát triển vượt bậc của công nghệ thông tin, đặc biệt là sự ra đời và phát triển như vũ bão của mạng Internet đã tạo ra một cuộc cách mạng trong mọi lĩnh vực đời sống xã hội. Có thể nói rằng Internet là một thế giới ảo với vô vàn các thông tin về mọi mặt của đời sống kinh tế, chính trị, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh, Internet luôn biến đổi không ngừng cả về kích thước lẫn nội dung. Đến nay không có một ai biết được chính xác kích thước của Internet là bao nhiêu, có bao nhiêu Website và bao nhiêu trang Web. Bên cạnh đó, thông tin trong chính các trang Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang Web trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì 50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó không còn tồn tại nữa [2]. Một điều thực tế là kh ối lượng dữ liệu tăng lên gấp nhiều lần, nhưng tỷ lệ các thông tin có ích so với khối lượng dữ liệu đó lại giảm đi rất nhiều. Theo thống kê, 99% của thông tin Web là vô ích với 99% người dùng Web [2]. Rõ ràng với một khối lượng khổng lồ dữ liệu được lưu trữ trên Internet thì vấn đề tìm kiếm thông tin có ích đang trở thành một vấn đề nghiên cứu có tính thời sự cao. Ngườ i dùng không thể tự tìm kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu của người tìm kiếm. Hiện nay, trên thế giới có một số máy tìm kiếm thông dụng như Yahoo, Google, Alvista, đã được xây dựng và triển khai nhằm đáp ứng nhu cầu tìm kiếm thông tin của người dùng. Mặc dù đã đáp ứng ứng được phần lớn nhu cầu tìm kiếm thông tin của người dùng, tuy nhiên hầu hết các máy hiện nay mới chỉ hỗ trợ việc tìm kiếm theo từ khóa, mà chưa xét đến vấn đề ngữ nghĩa của các từ cần tìm kiếm. Với việc tìm kiếm bằng cách đối sánh các từ khóa, kết quả tìm kiếm có thể không bao gồm tất cả các tài liệu như ý muốn của ngườ i dùng (do vấn đề từ đồng nghĩa). Thậm chí các tài liệu tìm thấy có thể không liên quan đến yêu cầu của người dùng (do vấn đề từ đa nghĩa). Mặc khác các máy tìm kiếm thông dụng hiện nay đều chưa có chức năng lưu trữ và phân tích tiểu sử của người dùng, để từ đó có khả năng hỗ trợ tốt hơn với từng lớp người dùng. Cụ thể, gi ả sử chúng ta có các trang Web về các vấn đề Tin học, Thể thao, Kinh tể-Xã hội và Xây dựng Căn cứ vào nội dung của các tài liệu mà khách Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 4 hàng xem hoặc tải về, sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào nội dung gì, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng quan tâm. Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài toán hay, có tính thời sự cao, cần được phát triển và nghiên cứu hiện nay. Đề tài khóa luận tốt nghiệp ‘Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek (Vinahoo)’ cũng không nằm ngoài mục đ ích trên. Ngoài phần mở đầu và phần kết luận, nội dung của khóa luận được tổ chức thành 4 chương với nội dung chính như sau: Chương 1, với tên gọi Máy tìm kiếm VietSeek, nhằm mục đích giới thiệu một cách chi tiết cấu trúc cũng như cơ chế hoạt động của các máy tìm kiếm VietSeek. Ngoài ra, phần đầu của chương còn giới thiệu tổng quát về cấu trúc chung củ a các máy tìm kiếm đang được sử dụng rộng rãi hiện nay. Chương 2 có tên gọi là Khai phá dữ liệu Web trong máy tìm kiếm. Nội dung chính của chương trình bày các kỹ thuật cơ bản liên quan dến bài toán khai phá dữ liệu Web trong máy tìm kiếm. Chương 3, tích hợp giải pháp phân lớp trang văn bản vào máy tìm kiếm VietSeek, giới thiệu các thuật toán điển hình được áp dụng để giải quyết bài toán phân lớp văn bản. Trong đ ó đặc biệt tập trung vào giải pháp phân lớp theo phương pháp Bayes thứ nhất. Các công thức đề xuất (3.15) và (3.16), cùng với quá trình chứng minh tính đúng đắn của chúng được trình bày một cách chi tiết trong chương này. Đi kèm với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho các lớp. Phần cuối của chương giới thiệu quá trình tích hợp giải pháp phân lớp trang văn bản vào máy tìm kiếm VietSeek. Chương 4 vớ i tựa đề Kết qủa thực nghiệm và đánh giá sẽ giới thiệu các kết quả thực nghiệm thu được khi tiến hành tích hợp giải pháp phân lớp văn bản Web vào máy tìm kiếm VietSeek. Sau đó đưa ra các đánh giá về các công thức đề xuất dựa trên kết quả thực nghiệm. Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 5 Chương 1. MÁY TÌM KIẾM VIETSEEK 1.1. Giới thiệu máy tìm kiếm VietSeek Hiện nay, trên thế giới có một số máy tìm kiếm thông dụng như Yahoo, Google, Alvista, đã được xây dựng và triển khai nhằm đáp ứng nhu cầu tìm kiếm thông tin ngày càng lớn của người dùng. Máy tìm kiếm là một hệ thống được xây dựng có khả năng tiếp nhận các yêu cầu tìm kiếm từ phía người dùng (thường là một tập các từ khoá), phân tích nội dung câu truy vấn và tiến hành tìm kiếm trong cơ sở d ữ liệu đã được xây dựng sẵn từ trước. Kết quả trả về cho người sử dụng bởi máy tìm kiếm là tập hợp các trang Web liên quan hoặc có chứa các từ khóa xuất hiện trong câu truy vấn. Đối với các máy tìm kiếm, vấn đề biểu diễn dữ liệu là rất quan trọng. Biểu diễn các trang Web như thế nào để vừa có khả năng lưu trữ được một số l ượng khổng lồ các trang Web, vừa cho phép máy tìm kiếm thực hiện việc tìm kiếm nhanh chóng và chính xác. Cấu trúc điển hình của một máy tìm kiếm được mô tả như trong hình (1.0 ) Trong thực tế thì mỗi máy tìm kiếm lại có các sửa đổi riêng theo cách riêng, tuy nhiên về cơ bản vẫn dựa trên các bộ phận được mô tả trong hình (1.0 ) Kho trang web Bé t×m duyÖt Hình 1.0. Mô hình cấu trúc hoạt động của máy tìm kiếm Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 6 Bộ dò tìm trang Web (Crawler): Hầu hết các máy tìm kiếm hoạt động dựa vào các bộ dò tìm trang Web, là các chương trình có kích thước nhỏ đảm nhận chức năng cung cấp dữ liệu (các trang web) cho máy tìm kiếm hoạt động. Bộ dò tìm trang Web thực hiện công việc duyệt web. Hoạt động của nó tương tự như hoạt động của con người khi truy cập web là dựa vào các mối liên kết để đi từ trang web này tới trang web khác. Modul đánh chỉ mụ c (Indexer) thực hiện việc khảo sát tất cả các từ khóa trong từng trang web có trong kho trang Web, và ghi lại các địa chỉ URL của các trang web có chứa mỗi từ. Kết quả sinh ra một bảng chỉ mục rất lớn gọi là chỉ mục ngược. Nhờ có bảng chỉ mục này, máy tìm kiếm cung cấp tất cả các địa chỉ URL của các trang web khi có yêu cầu: Khi cho một từ khóa bất kỳ thì qua bảng chỉ mục, máy tìm kiếm s ẽ nhận được tất cả các địa chỉ URL của các trang web có chứa từ khóa đó. Bộ phân tích tập (Collection Analysis Module) hoạt động dựa vào thuộc tính của bộ truy vấn (Query Engine). Ví dụ nếu bộ truy vấn chỉ đòi hỏi việc tìm kiếm hạn chế trong một số Website đặc biệt, hoặc giới hạn trong một tên miền thì công việc sẽ nhanh và hiệu quả hơn nếu tồn t ại một bảng chỉ mục các Website mà trong đó mỗi tên miền được gắn với một danh sách các trang Web thuộc miền đó. Công việc như thế được thực hiện bởi bộ phân tích tập. Bộ truy vấn chịu trách nhiệm nhận các yêu cầu của người sử dụng. Bộ phận này hoạt động thường xuyên dựa vào bảng chỉ mục và thỉnh thoảng dựa vào kho trang Web. Do số lượ ng các trang web là rất lớn, và trong thực tế thì người sử dụng chỉ đưa vào khoảng một hoặc vài từ khoá, cho nên tập kết quả thường rất lớn. Vì vậy bộ xếp hạng (Rangking) có chức năng sắp xếp kết quả thành một danh sách các trang web theo thứ tự giảm dần về độ liên quan (theo máy tìm kiếm) tới vấn đề mà người sử dụng đang quan tâm, và sau đó hiển thị danh sách kế t quả tìm được cho người sử dụng. VietSeek là một trong số ít các máy tìm kiếm tiếng Việt đã được xây dựng và đưa vào sử dụng hiện nay (như PanVietNam của NetNam, HoaTieu của Vương Quang Khải). VietSeek được phát triển dựa trên ASPSeek, là một phần mềm mã nguồn mở, bởi nhóm Vinahoo (ban đầu do Bùi Quang Minh thực hiện ) trong khuôn khổ của đề tài QG-02-02 và công ty TTVNOnline [7]. Là một máy tìm kiếm trên Internet với tất cả các đặc tính mong muốn từ phía người dùng, VietSeek được vi ết bằng ngôn ngữ C++, sử dụng thư viện STL, và kết hợp giữa hệ quản trị cơ sở dữ liệu MySQL và các file nhị phân cho mục đích lưu trữ. VietSeek bao gồm ba modul chính: modul đánh chỉ Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 7 mục (indexer), modul tìm kiếm chạy ngầm (search deamon), và modul CGI chạy ở phía người dùng. • Modul đánh chỉ mục Modul này sẽ lần theo các Web site, tải về các trang Web mà nó bắt gặp, phân tích và lưu trữ nội dung các trang Web đó trong một cấu trúc dữ liệu đặc biệt(một số dữ liệu được lưu trữ trong cơ sỡ dữ liệu MySQL, số còn lại được lưu trong các file nhị phân được gọi là “file delta” ở th ư mục “/usr/local/aspseek/var”). Khi không còn trang Web nào để đánh chỉ số, modul này sẽ sắp xếp các file delta và trộn nội dung trong các file delta vào cơ sỡ dữ liệu MySQL để xây dựng chỉ số ngược. Modul đánh chỉ mục hỗ trợ các giao thức HTTP, HTTPS và có thể phân tích được các tài liệu full text cũng như các tài liệu HTML. Hầu hết các chức năng của modul index đều được điều khiển bởi nội dung file cấu hình “vinaseek.conf”. • Modul tìm kiế m Modul tìm kiếm chạy ngầm để lắng nghe và trả lời các câu truy vấn đến từ modul đầu cuối “s.cgi”. Modul phía người dùng (s.cgi) nhận kết quả tìm kiếm, định dạng và hiện thị kết quả tìm kiếm dưới dạng trang Web. Hình 1.1. Giao diện một trang kết quả tìm kiếm của máy tìm kiếm Vietseek Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 8 1.2. Một số tính chất của máy tìm kiếm VietSeek VietSeek được tối ưu hóa để có thể làm việc với nhiều Website, và có thể tiến hành tìm kiếm trên hàng triệu trang Web. Người sử dụng có thể yêu cầu VietSeek tìm kiếm các từ, cụm từ, sử dụng các ký tự đại diện cũng như các phép toán Logic. Dưới đây là một số tính năng của máy tìm kiếm VietSeek:  Khả năng đánh chỉ mục và tìm kiếm trên hàng triệ u trang tài liệu  Kết quả tìm kiếm trả về rất tốt, được sắp xếp theo độ liên quan đến câu truy vấn  Khả năng tìm kiếm nâng cao Người sử dụng có thể yêu cầu máy tìm kiếm VietSeek tìm kiếm không chỉ một từ mà có thể là một cụm từ. Để tìm kiếm một cụm từ, người dùng chỉ cần thêm dấu mở ngoặc và đóng ngoặc vào cụm từ đó. Ví dụ, ‘many years ago’. Nếu người dùng biết chính xác cụm từ cần tìm, nhưng lại quên một từ trong cụm từ đó thì có thể sử dụng dấu (*) để thay thế cụm từ đó. Bởi vậy câu truy vấn sẽ là: “many * ago” . Người dùng có thể sử dụng biểu thức tìm kiếm logic để yêu cầu tìm kiếm. Biểu thức logic có thể được kết hợp dựa trên các phép toán logic như AND, OR, và các dấu ngoặc. Ví dụ, (some OR any) AND (days OR months OR years). Người dùng cũng có thể loại trừ các từ không muốn xuất hiện trong kết quả tìm kiếm bằng cách đặt dấu “-“ trước các từ đó.Với câu truy vấn dạng này, các trang Web chứa các từ đó sẽ bị loại bỏ khỏi kết quả tìm kiếm. Ví dụ: search engine –prorietary Đặc tính tìm kiếm theo khuôn mẫu cho phép tìm các tài liệu chứa các từ phù hợp với khuôn mẫu được xác định trướ c. Ký tự “?” đại diện cho một ký tự bất kỳ, ký tự “*” đại diện cho một chuỗi các ký tự bất kỳ. Ví dụ, để tìm kiếm tất cả các tài liệu có chứa các từ bắt đầu bằng ‘provider’ ta đánh: provider* VietSeek cho phép người dùng giới hạn việc tìm kiếm trong một vài site cụ thể. Ví dụ để tìm kiếm tất cả các tài liệu có chứa từ ‘bubble’ trong site www.mysite.org người dùng đánh câu truy vấn: bubble site: www.mysite.org bubble site: mysite.org Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 9 bubble –site: mysite.org site: www.fotech.edu.vnn.vn Cuối cùng người sử dụng có thể tiến hành tìm kiếm tất cả các trang Web chứa các liên kết tới các trang Web đặc biệt khác. Ví dụ: link: www.aspseek.org  Hỗ trợ các giao thức HTTP,HTTPS,HTTP proxy, FTP proxy  Hỗ trợ hai loại tài liệu full text và html  Sử dụng đa tuyến Modul đánh chỉ mục tải về các tài liệu từ nhiều Website và modul tìm kiếm có khả năng xử lý nhiều câu truy vấn đồng thời. Đặc điểm này sẽ giúp chúng ta cải thiện tốc độ của modul đánh chỉ mục vì trong trường hợp sử dụng chỉ một luồng, phần lớn thời gian được dành cho việc chờ dữ liệu từ mạng. Nhân tố làm chậm tốc độ của modul đánh chỉ mục chính là việc phải tìm các máy chủ phục vụ tên miền nhiều lần. Để tránh điều này, quá trình tìm kiếm không đồng bộ ( việc tìm kiếm DNS được thực hiện bởi một số tiến trình riêng biệt được xác định trước ) và bộ nhớ đệm chứa các ánh xạ từ tên máy sang địa chỉ IP được triển khai trong máy tìm kiếm VietSeek  Hỗ trợ các từ dừng ( stopword ) Từ dừng là các từ mà bản thân nó không có ý nghĩa hoàn chỉnh. Ví dụ :’is, are,at,this’. Việc tìm kiếm trên các từ dừng là hoàn toàn vô nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi câu truy vấn. Các từ dừng cũng bị loại bỏ ra khỏi cơ sở dữ liệu trong suốt quá trình đánh chỉ mục, bởi vậy cơ sỡ dữ liệu sẽ nhỏ hơn và nhanh hơn. Không có tập các từ dừng được xây dựng sẵn trong VietSeek, người sử dụng phải xây dựng tập hợp các từ dừng tương ứng với từng ngôn ngữ và lưu vào file.  Hỗ trợ việc đoán nhận mã chữ cái Một số máy chủ b ị hỏng hoặc do cấu hình sai sẽ không cho máy khách biết bộ mã chữ cái của tài liệu mà chúng cung cấp. Nếu người quản trị hệ thống tìm kiếm VietSeek đang đánh chỉ mục các máy chủ này, hay sử dụng VietSeek để đánh chỉ mục Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 10 các máy chủ FTP (giao thức FTP không cho biết thông tin về bộ mã chữ cái), bộ đoán nhận mã chữ cái có thể được sử dụng để giải quyết điều này. Bộ đoán nhận sẽ sử dụng các bảng chứa tần số các từ ( được gọi là ‘langmaps’ ) để tìm ra tập chữ cái đúng.  Hỗ trợ việc sử dụng “robots” của các máy chủ phục vụ Web Máy tìm kiế m VietSeek sẽ tiến hành kiểm tra một file đặc biệt trong thư mục gốc của mày chủ phục vụ Web có tên là “robots.txt”. Nội dung của file “robots.txt” thông báo cho máy tìm kiếm VietSeek không được thăm một tập hợp các trang Web cụ thể trên máy chủ này. File “robots.txt” sử dụng giao thức “Robots Exclusion Protocol”, giao thức này cho phép người quản trị Website có thể xác định máy tìm kiếm nào không được thăm phần nào của site. Giao thức “Robots Exclusion Protocol” được miêu tả như sau: Ví dụ Ý nghĩa User-agent: * Disallow: Dấu (*) có ý nghĩa “bất cứ máy tìm kiếm nào” User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow:/private/ Tất cả các máy tìm kiếm có thể thăm tất cả các thư mục ngoại trừ ba thư mục đề cập ở đây User-agent: BadBot Disallow: / Máy tìm kiếm BadBot không được phép thăm bất cứ thư mục nào. User-agent: BadBot Disallow: / User-agent:* Disallow : /private/ Riêng máy tìm kiếm BadBot không được phép thăm bất cứ thư mục nào còn tất cả các máy tìm kiếm còn lại đều có quyền thăm tất cả các thư mục ngoại trừ thư mục “private”  Có thể điều khiển việc sử dụng độ rộng băng thông mạng Nhà quản trị hệ thống VietSeek có thể điều khiển độ rộng băng thông mạng để modul đánh chỉ mục sử dụng. Chính xác nhà quản trị máy tìm kiếm VietSeek có thể giới hạn độ rộng băng thông (số byte trên một giây ) được sử dụng bởi modul đánh chỉ mụ c trong một ngày xác định.  Hỗ trợ chế độ đánh chỉ mục không đồng bộ theo thời gian thực Một số máy tìm kiếm yêu cầu việc tìm kiếm phải dừng lại trong suốt thời gian cập nhật cơ sở dữ liệu. VietSeek không yêu cầu điều này bằng cách hỗ trợ chế độ thời [...]... trong máy tìm kiếm là rất quan trọng Biểu diễn các trang Web như thế nào để vừa có khả năng lưu trữ được một số lượng khổng lồ các trang Web, vừa cho phép máy tìm kiếm thực hiện việc tìm Khóa luận tốt nghiệp đại học 11 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek kiếm nhanh chóng và chính xác Đối với máy tìm kiếm VietSeek, dữ liệu được tổ chức, lưu trữ trong. .. tốt nghiệp đại học 20 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek • Chiến lược dò tìm trang Web trong máy tìm kiếm VietSeek Bộ dò tìm trang Web trong máy tìm kiếm VietSeek có hai chiến lược hoạt động dựa trên nguyên tắc lưu trữ các urlID trong hàng đợi ‘ m_queue’ 1 Chiến lược thứ nhất Bộ dò tìm tiến hành dò tìm các trang Web theo độ ưu tiên về giá trị thời... hệ giữa ba file nhị phân trong cơ chế CompactStorage Khóa luận tốt nghiệp đại học 16 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek File nhị phân ’ /dev/zero’ Trong quá trình đánh chỉ số các trang Web, máy tìm kiếm VietSeek thường xuyên thêm mới các Url vào bảng ‘urlword’ và ‘urlwordNN”, hoặc xóa các Url sẵn có trong hai bảng đó (chỉ có trong quá trình đánh... dò tìm trong máy tìm kiếm VietSeek được trình như hình (1.4): Khóa luận tốt nghiệp đại học 19 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Tải nội dung file cấu hình ‘vinahoo.conf’ d/sách url hạt nhân Lưu vào hàng đợi và cơ sở dữ liệu Lấy thông tin về tài liệu tiếp theo cần đánh chỉ mục Url id hàng đợi m_queue Url id Tải trang Web về và tạo chỉ số xuôi và. .. được lưu trữ trong cơ sở dữ liệu MySQL, quá trình tìm kiếm sẽ được thực hiện một cách nhanh chóng Tuy nhiên, kích thước của cơ sở dữ liệu chỉ mục ngược thường rất lớn và vượt quá khả năng lưu Khóa luận tốt nghiệp đại học 14 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek trữ của hệ quản trị cơ sở dữ liệu MySQL Để giải quyết khó khăn này, máy tìm kiếm VietSeek sử.. .Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek gian thực cho modul đánh chỉ mục Trong chế độ thời gian thực chúng ta sử dụng một cơ sở dữ liệu giống hệt cơ sở dữ liệu ban đầu để lưu trữ nỗi dung đã được đánh chỉ số ngược của các trang Web Tính năng này sẽ rất có ích khi tiến hành xây dựng một máy tìm kiếm chuyên biệt cho các trang Web có nội dung thay... tiến hành đánh chỉ mục Khóa luận tốt nghiệp đại học 24 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Chương 2 KHAI PHÁ DỮ LIỆU WEB TRONG MÁY TÌM KIẾM 2.1 Quá trình khai phá dữ liệu Web Hệ thống các Website trên Internet được xem như là một trung tâm dịch vụ thông tin toàn cầu rộng lớn, phân tán một cách rỗng rãi, về mọi mặt của đời sống xã hội như tin tức,... trúc của hệ thống các trang web (web structure mining) Là quá trình khám phá ra các thông tin có ích từ cấu trúc siêu liên kết trong hệ thống các trang web 2.2.3 Khai phá quá trình sử dụng Web (WebUusage Mining) Khóa luận tốt nghiệp đại học 27 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Quá trình này chủ yếu có chức năng lưu trữ và phân tích tiểu sử của người... x' = x* x' x* x' x* x' Trong đó X, X’ là hai biểu diễn vector tương ứng của các tài liệu d và d’ Khóa luận tốt nghiệp đại học 32 Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek 2.3.5 Vấn đề từ đồng nghĩa và đa ngôn ngữ trong mô hình vector Giải pháp cho vấn đề từ đồng nghĩa và đa ngôn ngữ trong bài toán khai phá dữ liệu Fulltext được thực hiện bằng cách liệt... trong máy tìm kiếm VietSeek 1.3.2 Hệ thống file nhị phân được sử dụng trong máy tìm kiếm VietSeek Hệ thống file tạm, delta Để nâng cao tốc độ của quá trình xây dựng cơ sở dữ liệu chỉ mục ngược cho tất cả các từ khóa trong toàn bộ các trang Web đã được phân tích bởi bộ dò tìm, máy tìm kiếm VietSeek sử dụng hệ thống gồm 100 file nhị phân delta để lưu trữ nội dung đã được phân tích của các trang Web trong . 28/05/2003 Sinh viên Đặng Thanh Hải Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek Khóa luận tốt nghiệp đại học Đặng Thanh Hải 2 TÓM TẮT NỘI DUNG. hiện nay. Chương 2 có tên gọi là Khai phá dữ liệu Web trong máy tìm kiếm. Nội dung chính của chương trình bày các kỹ thuật cơ bản liên quan dến bài toán khai phá dữ liệu Web trong máy tìm. có chứa từ khóa này 8 4 Địa chỉ tương đối của vùng thông tin URL cho site thứ hai 12 4 Số định danh của site thứ hai có chứa từ khóa này (N-1)*8 4 Địa chỉ tương đối của vùng thông tin URL

Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan