Mô hình và thuật giải cho hệ hỗ trợ tìm kiếm thông tin theo ngữ nghĩa trên các báo điện tử

140 597 3
Mô hình và thuật giải cho hệ hỗ trợ tìm kiếm thông tin theo ngữ nghĩa trên các báo điện tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ──────────── HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 TP HỒ CHÍ MINH - NĂM 2014 2 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS-TS ĐỖ VĂN NHƠN 3 TP HỒ CHÍ MINH - NĂM 2014 4 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực. Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ. TP. Hồ Chí Minh, ngày 01 tháng 12 năm 2014 Hồ Long Vân 5 LỜI CẢM ƠN Trước tiên, em xin chân thành cảm ơn quý thầy cô trường Đại học Công nghệ Thông tin - ĐHQG thành phố Hồ Chí Minh đã tận tình dạy bảo cho em nhiều kiến thức bổ ích trong thời gian học tập tại trường, cũng như tạo điều kiện cho em thực hiện đề tài này. Kính chúc quý thầy cô luôn dồi dào sức khoẻ và thành công trong cuộc sống. Đặc biệt, em xin bày tỏ lòng biết ơn chân thành, sâu sắc đến PGS. TS. Đỗ Văn Nhơn, người Thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo em trong suốt quá trình thực hiện luận văn. Luận văn này sẽ rất khó hoàn thành nếu không có sự truyền đạt kiến thức quí báu và sự hướng dẫn nhiệt tình của Thầy. Con xin gửi tất cả lòng biết ơn và sự kính trọng đến ông bà, cha mẹ và những người thân đã nuôi dạy, luôn bên cạnh động viên và ủng hộ con trên con đường học tập mà con đã lựa chọn, những người đã cho con niềm tin và nghị lực vượt qua mọi khó khăn trong quá trình học tập và làm việc. Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn, cũng như đóng góp cho tôi nhiều ý kiến quý báu, qua đó, giúp tôi có nhiều ý tưởng hay hơn để hoàn thiện cho đề tài này. Một lần nữa xin chân thành cảm ơn! TP. Hồ Chí Minh, ngày 01 tháng 12 năm 2014 Hồ Long Vân 6 MỤC LỤC 7 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 URL Uniform Resource Locator 2 RSS Really Simple Syndication 3 HTML HyperText Markup Language 4 CK_ONTO Classed Keyphrase based Ontology 5 KĐTNN Keyphrase đặc trưng ngữ nghĩa 8 DANH MỤC BẢNG Bảng 3.1: Trọng số được gán cho mỗi quan hệ………………………………………….67 Bảng 4.1: Thống kê kết quả tìm kiếm theo từ khoá trên kho thử nghiệm 1000 tin bài 101 Bảng 4.2: Thống kê kết quả tìm kiếm ngữ nghĩa trên kho thử nghiệm 1000 tin bài.… 104 Bảng 4.3: Thống kê kết quả tìm kiếm theo chủ đề trên kho thử nghiệm 1000 tin bài….107 Bảng 4.4: Thống kê kết quả tìm kiếm tin bài gần giống nhau.…………………………108 Bảng 4.5: Thống kê chức năng điểm tin.……………………………………………….109 9 DANH MỤC HÌNH Hình 2.1: Quy trình xử lý của Crawler……………………………………….………….12 Hình 2.2: Kiến trúc tổng quát của một RSS…………………………………………… 14 Hình 2.3: Ví dụ về một đồ thị keyphrase ………………………………………………37 Hình 2.4: Ví dụ về một đồ thị keyphrase mở rộng………………………………………38 Hình 3.1: Quy trình xây dựng đồ thị keyphrase cho câu truy vấn……………………….64 Hình 3.2: Quy trình xây dựng đồ thị keyphrase cho tin bài báo điện tử…………………65 Hình 4.1: Cấu trúc tổng quát của hệ thống …………………………………………….87 Hình 4.2: Menu các chức năng của hệ thống ………………………………………… 90 Hình 4.3: Giao diện trang chủ của hệ thống ………………………………………… 90 Hình 4.4: Giao diện danh sách các trang báo điện tử……………………………………91 Hình 4.5: Giao diện quản lý thông tin và cấu trúc của một trang báo điện tử……… Hình 4.6: Giao diện tập danh sách các chủ đề tin tức.………………………………… 93 Hình 4.7: Giao diện thông tin của một chủ đề tin tức……………………………………93 Hình 4.8: Giao diện cấu hình lựa chọn chế độ và chiến lược thu thập Hình 4.9: Giao diện quản lý kho tin bài………………………………………………….95 Hình 4.10: Giao diện nâng cao cho “Tìm kiếm thông thường”………………………….96 Hình 4.11: Giao diện nâng cao cho “Tìm kiếm ngữ nghĩa”…………………………… 97 Hình 4.12: Giao diện kết quả tìm kiếm sắp xếp theo “Trang báo điện tử”………………98 Hình 4.13: Giao diện chức năng lọc tin kết quả tìm kiếm……………………………….99 Hình 4.14: Giao diện chức năng điểm tin.……………………………………………….99 10 [...]... keyphrase, tìm kiếm theo ngữ nghĩa các tin bài báo điện tử, tìm kiếm tin bài theo chủ đề, bài toán điểm tin Đi cùng với các vấn đề là các phương pháp tiếp cận để giải quyết và các thuật giải tương ứng Các phương pháp và thuật giải này là cơ sở để xây dựng các động cơ suy diễn và tìm kiếm trong hệ thống hỗ trợ tìm kiếm ngữ nghĩa cho báo điện tử Chương 4 là phần cài đặt xây dựng hệ thống hỗ trợ tìm kiếm tin. .. nghĩa - Giải quyết bài toán tìm kiếm theo chủ đề - Liệt kê các tin bài không trùng lắp cho bài toán điểm tin Trên cơ sở đó, đề tài sẽ xây dựng hệ hỗ trợ thu thập và tìm kiếm thông tin theo ngữ nghĩa cho lĩnh vực Lao động-Việc làm trên các báo điện tử Hệ thống đáp ứng các chức năng chính sau: - Hỗ trợ thu thập và quản lý tin bài: cho phép thu thập tin bài từ các trang báo điện tử và quản lý các tin bài... bài báo điện tử Hệ thống hỗ trợ việc thu thập và lưu trữ các tin bài thuộc các trang báo điện tử cần quan tâm, quản lý cấu trúc thông tin của các trang báo này, hỗ trợ người dùng tìm kiếm theo từ khóa và tìm kiếm theo nội dung tin bài, tìm kiếm tin bài theo các chủ đề quan tâm và trích xuất báo cáo điểm tin Tiến hành phân tích các yêu cầu và chức năng của hệ thống, thiết kế các thành phần xử lý và đưa... lắp của tin bài trong tập dữ liệu web lớn có ý nghĩa rất thực tiễn 1.5 Mục tiêu và giới hạn đề tài Đề tài tập trung tìm hiểu, nghiên cứu các giải pháp và kỹ thuật đã có của việc thu thập và tìm kiếm tin bài theo ngữ nghĩa cho một lĩnh vực đặc thù, từ đó đưa ra mô hình 21 chung cho hệ thống tìm kiếm tin bài theo ngữ nghĩa trên báo điện tử, nêu ra được các vấn đề cần giải quyết và các thuật giải liên... đó, cách tiếp cận dựa trên các Ontology được xem là cách tiếp cận hiện đại và phù hợp nhất cho việc thiết kế biểu diễn, xử lý nội dung và ý nghĩa thông tin của các trang báo điện tử Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng, đề tài đã tìm hiểu và nghiên cứu các kỹ thuật để xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử bao gồm các. .. thập về… - Hỗ trợ tìm kiếm: tìm kiếm tin bài trong cơ sở dữ liệu đã thu thập về Việc tìm kiếm bao gồm các chức năng: tìm kiếm theo từ khóa, tìm kiếm theo ngữ nghĩa và tìm kiếm theo chủ đề cần quan tâm Tìm kiếm từ khóa sẽ cho kết quả là các tin bài có nội dung trùng với các từ khóa ở câu truy vấn Tìm kiếm ngữ nghĩa sẽ không so trùng một cách chính xác những gì người dùng cung cấp mà dựa trên tri thức... pháp thu thập thông tin, mô hình ontology CK_ONTO, mô hình tổng quát cho một trang báo điện tử, cuối cùng giới thiệu một số phương pháp rút trích keyphrase, phương pháp biểu diễn tài liệu và phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm 12 Chương 3 giới thiệu mô hình của hệ thống tìm kiếm báo điện tử theo ngữ nghĩa và các vấn đề liên quan để xây dựng hệ thống bao gồm: thu thập tin bài, rút... gồm các khảo sát tìm hiểu thực trạng hiện nay của các tờ báo điện tử và nhu cầu cần thiết để xây dựng hệ thống hỗ trợ cho việc tìm kiếm thông tin trên internet, tìm hiểu các hệ thống thu thập và tìm kiếm thông tin, phát hiện tin bài trùng lắp cũng như các kỹ thuật liên quan trong nước và quốc tế Cuối cùng trình bày mục tiêu của luận văn Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan tới các. .. và giải quyết các vấn đề sau: - Tìm hiểu các kỹ thuật giúp cho việc thu thập tin bài - Nghiên cứu một số mô hình biểu diễn tri thức, trong đó có mô hình Ontology mô tả tri thức lĩnh vực, cùng với đó là các phương pháp biểu diễn ngữ nghĩa liên quan đến nội dung tin bài - Nghiên cứu và đề xuất kỹ thuật rút trích các keyphrase một cách hiệu quả - Đưa ra các vấn đề và thuật toán cho việc tìm kiếm ngữ nghĩa. .. tập các webpage biểu diễn các trang lĩnh vực, chủ đề thuộc về trang báo điện tử - A là tập các các tin bài đã thu thập được thuộc về trang báo điện tử - FStr là tập các kiểu cấu trúc của các trang lĩnh vực thuộc trang báo điện tử - AStr là tập các kiểu cấu trúc của các trang bài viết thuộc trang báo điện tử - Rels là tập các quan hệ nội tại trong trang báo điện tử  Tập các thuộc tính của trang báo điện . CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ──────────── HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA. PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  HỒ LONG VÂN MÔ HÌNH VÀ THUẬT GIẢI CHO HỆ HỖ TRỢ TÌM KIẾM THÔNG TIN THEO NGỮ NGHĨA TRÊN CÁC BÁO ĐIỆN TỬ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY. đề tài đã tìm hiểu và nghiên cứu các kỹ thuật để xây dựng hệ hỗ trợ tìm kiếm tin bài theo ngữ nghĩa trên các báo điện tử bao gồm các mô hình, vấn đề, thuật giải, quy trình xây dựng hệ thống trong

Ngày đăng: 18/05/2015, 20:38

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC BẢNG

  • DANH MỤC HÌNH

  • MỞ ĐẦU

  • CHƯƠNG 1

    • 1.1. Thực trạng và nhu cầu xây dựng hệ hỗ trợ thu thập, tìm kiếm thông tin

    • 1.2. Vấn đề thu thập thông tin

    • 1.3. Vấn đề tìm kiếm thông tin theo ngữ nghĩa

    • 1.4. Vấn đề phát hiện sự trùng lắp thông tin

    • 1.5. Mục tiêu và giới hạn đề tài

    • CHƯƠNG 2

    • 2.1. Các phương pháp thu thập thông tin

      • 2.2. Mô hình CK_ONTO

      • 2.3. Mô hình Newspaper Model

      • 2.4. Một số phương pháp rút trích keyphrase đặc trưng ngữ nghĩa

      • 2.5. Các phương pháp biểu diễn tài liệu

      • 2.6. Các phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm

      • CHƯƠNG 3

        • 3.1. Mô hình của hệ thống tìm kiếm báo điện tử theo ngữ nghĩa

        • 3.2. Các vấn đề và thuật giải

          • 3.2.1. Thu thập tin bài

          • 3.2.2. Rút trích tự động các keyphrase đặc trưng ngữ nghĩa cho tin bài và câu truy vấn

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan