LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx

59 385 0
LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bướ c trên con đường học tập của mình. Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học làm khoá luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ , chị tôi, những người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh i TÓM TẮT NỘI DUNG Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web việc khai phá, đánh giá từ khoá dựa trên các đặc tr ưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh cho kết qu ả khả quan. ii MỤC LỤC TÓM TẮT NỘI DUNG i MỤC LỤC ii Bảng các kí hiệu chữ viết tắt iv Danh mục hình vẽ v Danh mục các bảng biểu vi MỞ ĐẦU 1 Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3 1.1. Đặt vấn đề 3 1.2. Khái niệm các đặc trưng của từ khóa 4 1.3. Đánh giá các từ khóa 5 1.4. Thách thức của bài toán sinh từ khóa cho trang web 5 1.4.1. Đối với các trang có nội dung tập trung 6 1.4.2. Đối với các trang có nội dung tổng hợp 6 1.4.3. Các vấn đề khác 6 1.5. Ứng dụng của từ khóa trong các lĩnh vực 7 1.5.1. Vai trò từ khóa trong máy tìm kiếm 7 1.5.1.1. Quảng cáo trên máy tìm kiếm 7 1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9 1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin 10 1.6. Tổng kết chương 12 Chương 2. Các công trình liên quan 13 2.1. Các phương pháp trích xuất từ khóa cho văn bản 13 2.1.1. Phương pháp tần số từ 13 2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản 14 2.1.3. Phương pháp sử dụng học máy 15 2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes 16 2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) phân lớp16 2.2. Các phương pháp trích xuất từ khóa cho trang web 17 2.2.1. Tần số từ 17 2.2.2. Kĩ thuật khai phá log 17 2.2.3. Kĩ thuật áp dụng máy tìm kiếm độ tương đồng từ 18 2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19 2.4 Tổng kết chương 19 Chương 3. Hướng giải quyết đề xuất mô hình bài toán 20 3.1. Hướng giải quyết 20 3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20 3.1.2. Sử dụng đồ thị web 23 3.1.2.1. Định nghĩa đồ thị Web 23 3.1.2.2 Nội dung của phương pháp 24 3.1.3. Sử dụng query log 26 3.1.4. Sử dụng từ điển hỗ trợ 27 3.2. Đề xuất mô hình bài toán 27 3.2.1. Mô hình toàn hệ thống 27 3.2.2. Mô đun Crawler 28 iii 3.2.3. Mô đun sinh từ khóa 29 3.2.3.1. Mô đun sử dụng trọng số thẻ HTML 30 3.2.3.2. Mô đun sử dụng đồ thị web 32 3.2.3.3. Các phương pháp hỗ trợ 33 3.2.3.4. Mô đun tổng hợp 35 3.3. Tổng kết chương 35 Chương 4. Thực nghiệm đánh giá 36 4.1. Giới thiệu bài toán thực nghiệm 36 4.2. Môi trường, dữ liệu 36 4.1.1. Môi trường phần cứng 36 4.1.2. Mô tả chương trình 36 4.1.3. Công cụ phần mềm 37 4.1.4. Dữ liệu thử nghiệm 38 4.3. Kết quả thực nghiệm 40 4.4. Đánh giá kết quả thực nghiệm 45 Kết luận 46 Hướng phát triển tiếp theo 47 Tài liệu tham khảo 48 iv Bảng các kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language IR Information Retrieval SE Search Engine SEM Search Engine Marketing SEO Search Engine Optimization TF Term Frequency IDF Inverse Document Frequency URL Uniform Resource Locator W3C World Wide Web Consortium WWW World Wide Web v Danh mục hình vẽ Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 9 Hình 2. Top từ khóa của baomoi.com 10 Hình 3. Top từ khóa của flickr.com 10 Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com11 Hình 5. Hình minh họa kết quả sinh từ khóa của trang web http://seokeywordanalysis.com 17 Hình 6. Mô tả đồ thị web 25 Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25 Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25 Hình 9. Mô hình đề xuất cho toàn hệ thống 28 Hình 10. Mô hình mô đun sinh từ khóa 30 Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32 Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 33 Hình 13. Mô hình mô đun sinh từ khóa dựa trên log 34 Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 35 Hình 15. Mô hình mô đun tổng hợp từ khóa 36 Hình 16. Thư mục Tiếng_Việt của dmoz 38 Hình 17. Các liên kết cần lấy về trong các thư mục 39 vi Danh mục các bảng biểu Bảng 1. Bảng trọng số các thẻ HTML trongTextNet 21 Bảng 2. Bảng các thẻ HTML quan trọng khác 22 Bảng 3. Ví dụ về các trường trong querylog của MSN 26 Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán 36 Bảng 5. Các gói của chương trình 36 Bảng 6. Các lớp của gói general 37 Bảng 7. Các lớp của gói methods 37 Bảng 8. Các lớp của gói SELink 37 Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 38 Bảng 10.Kết qu ả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh 40 Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 44 1 MỞ ĐẦU Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu v ẫn sử dụng những từ khoá tìm những trang có chứa từ khoá cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động l ực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web. Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiề u các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm. Một vấ n đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. [...]... những từ khoá mà ngay cả chủ trang webthể thiếu xót Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML đồ thị Web Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích. .. pháp tần số từ trong văn bản có thể được áp dụng trên các trang web Việc lấy ra nội dung của văn bản trong các trang web là đơn giản phương pháp phân tích nội dung này, thống kê tần số xuất hiện của các từ, cụm từ áp dụng kĩ thuật n-gram Một ví dụ về trích từ khoá cho trang web phục vụ hoạt động của SEO của Andy Hoskison, LLC2 trong Hình 5 áp dụng kĩ thuật tìm các từ khoá đơn cụm từ khoá bằng phương. .. toán trích xuất từ khóa là tìm ra những từ khoá miêu tả được nội dung của văn bản, trang web bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc điểm của văn bản, web Tuy nhiên, miền áp dụng của bài toán tóm tắt văn bản là trên các văn bản thông thường Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán trích xuất từ khóa cho văn bản Các lý thuyết, phương pháp. .. nội dung trang dựa trên thẻ HTML đồ thị web Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log dùng từ điển hỗ trợ Với từng loại trang web sẽ có từng loại phương pháp khác nhau Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan có triển... kiếm, web portal cung cấp các thông tin dịch vụ khác như báo tin tức, chứng khoán, giải trí Ví dụ về các web portal như: AOL, MSN, yahoo, iGoogle Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung trong các trang web này sẽ dẫn đến kết quả không chính xác Cần có những phương pháp khác để có thể sinh từ khóa cho loại trang này, trong khóa luận này tôi áp dụng phương pháp dùng đồ thị Web và. .. khóa trong văn bản, web (keyword assignment) Các phương pháp nêu trên là các phương pháp dùng để trích xuất từ khóa (keyword extraction) [29][9][28] Trong khi đó có một phương pháp cũng đã được sử dụng nhiều trong trang web, cả văn bản đóphương pháp gán từ khóa Việc gán từ khóa chỉ là việc khớp các từ trong văn bản, web với các từ thuộc bộ từ điển có sẵn Từ những trang cần sinh từ khóa, ta lấy ra... bài toán này 12 Chương 2 Các công trình liên quan 2.1 Các phương pháp trích xuất từ khóa cho văn bản Trích xuất từ khoá cho trang web là một bài toán được cụ thể hóa một phần từ bài toán trích xuất thông tin (IR: Information Retrieval) Đã có các nghiên cứu khác nhau về bài toán trích xuất từ khoá một cách tự động Mà đặc biệt với bài toán tóm tắt văn bản là một trong những bài toán gần giống với bài toán. .. là việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29] Chính những sự áp dụng rộng rãi nhu cầu thực tiễn của bài toán đã là động lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web Khóa luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính... quan trọng cho bài toán sinh từ khóa Dưới đây là hai hướng tiếp cận chính của tôi trong khóa luận đó là: sử dụng độ quan trọng của các thẻ trong HTML đồ thị web Hai hướng này là chủ đạo có thể áp dụng với các loại trang web tiếng Việt tiếng Anh Tuy nhiên, phương pháp đồ thị web do phải xử lý nhiều nên phù hợp hơn với các trang chủ, các web portal Bên cạnh hai phương pháp trên, tôi còn ứng dụng thêm... với thẻ hoặc dùng các thẻ , để có thể phân biệt được với các chữ khác Hay các thẻ như trong văn bản web có chứa tiêu đề của trang web đó Nhờ những đặc điểm sẵn có là HTML trong văn bản web, tôi đã đề xuất phương án áp dụng độ quan trọng của các từ trong các thẻ khác nhau trong văn bản HTML để phục vụ cho bài toán sinh từ khóa Trước hết, áp dụng phương pháp này vào bài toán trích xuất . “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web . Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính. HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY . HỌC CÔNG NGHỆ Chu Anh Minh BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngày đăng: 27/06/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan