Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)

90 317 1
Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐỖ VĂN HANH PHƢƠNG PHÁP TÌM KIẾM THEO NGỮ NGHĨA ỨNG DỤNG TÌM KIẾM THƠNG TIN ĐỀ TÀI KHOA HỌC TRÊN WEB LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) TP HỒ CHÍ MINH – 2017 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐỖ VĂN HANH PHƢƠNG PHÁP TÌM KIẾM THEO NGỮ NGHĨA ỨNG DỤNG TÌM KIẾM THÔNG TIN ĐỀ TÀI KHOA HỌC TRÊN WEB Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐỖ VĂN NHƠN TP HỒ CHÍ MINH – 2017 i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tơi Ngồi trừ tài liệu tham khảo trích dẫn luận văn, số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác TP Hồ Chí Minh, ngày 30 tháng 10 năm 2017 Học viên thực Đỗ Văn Hanh ii LỜI CẢM ƠN Xin chân thành cảm ơn quý thầy cô công tác Học viện Cơng nghệ Bưu Viễn thơng Cơ sở Thành phố Hồ Chí Minh tận tình bảo cho em kiến thức bổ ích suốt thời gian học tập trường, tạo điều kiện cho em thực đề tài Kính chúc q thầy ln dồi sức khoẻ thành công sống Đặc biệt, em xin bày tỏ lòng biết ơn chân thành đến PGS.TS Đỗ Văn Nhơn, người thầy tận tâm, nhiệt tình hướng dẫn bảo cho em suốt trình thực đề tài Xin cảm ơn tất bạn bè, đồng nghiệp động viên, giúp đỡ đóng góp cho tơi nhiều ý kiến q báu, qua đó, giúp tơi hồn thiện đề tài cuối cùng, xin gửi lời cảm ơn đến tác giả báo cáo nghiên cứu khoa học mà tham khảo tìm hiểu cho đề tài Luận văn hoàn thành với số kết định nhiên khơng tránh khỏi thiếu sót Kính mong cảm thơng đóng góp ý kiến từ quý thầy cô bạn Một lần xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 30 tháng 10 năm 2017 Học viên thực Đỗ Văn Hanh iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vii DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ viii MỞ ĐẦU Chƣơng - GIỚI THIỆU TỔNG QUAN 1.1 Khảo sát trạng nhu cầu tìm kiếm thông tin internet 1.1.1 Nhu cầu tìm kiếm đề tài khoa học internet 1.1.2 Hiện trạng theo cách thức tìm kiếm truyền thống 1.2 Phân tích kết đề tài liên quan .5 1.3 Mục tiêu, yêu cầu ý nghĩa đề tài 1.3.1 Mục tiêu đề tài 1.3.2 Yêu cầu đề tài .8 1.3.3 Ý nghĩa đề tài .9 1.4 Phương pháp nghiên cứu 1.5 Nội dung thực Chƣơng - CƠ SỞ LÝ THUYẾT 11 2.1 Kỹ thuật lấy tin tự động internet 11 2.1.1 Các dạng liệu internet 11 2.1.2 Một số phương pháp lấy tin tự động 12 2.2 Vấn đề truy tìm thơng tin 15 2.2.1 Truy tìm thơng tin theo hướng tiếp cận thống kê .16 2.2.2 Truy tìm thơng tin theo hướng ngữ nghĩa .17 2.2.3 Đánh giá hệ thống tìm kiếm thơng tin .18 2.3 Semantic web Ontology 19 2.3.1 Semantic web 19 iv 2.3.2 Semantic Search gì? 22 2.3.3 Ontology 24 2.4 Cách biểu diễn tài liệu dùng đồ thị keyphrase .35 2.4.1 Vấn đề biểu diễn tài liệu 35 2.4.2 Mơ hình hóa tài liệu thành đồ thị keyphrase 36 2.5 Các kỹ thuật, phương pháp xử lý ngữ nghĩa .37 2.5.1 Kỹ thuật rút trích keyphrase .37 2.5.2 Phương pháp đo khoảng cách keyphrase 38 Chƣơng - THIẾT KẾ MƠ HÌNH .41 3.1 Xây dựng Ontology cho lĩnh vực Nội vụ 41 3.1.1 Mơ hình ontology cho ngữ nghĩa tài liệu 41 3.1.2 Quy trình xây dựng ontology cho lĩnh vực Nội vụ Việt Nam: 49 3.2 Mơ hình tổ chức biểu diễn tài liệu theo ngữ nghĩa .51 3.2.1 Mơ Hình SEMANTIC DOCUMENT BASE 51 3.2.2 Tổ chức lưu trữ sở tài liệu .51 3.3 Tính tốn độ tương đồng ngữ nghĩa 53 3.3.1 Thuật tốn tính tốn độ tương đồng ngữ nghĩa hai keyphrase 53 3.4 Giải pháp rút trích keyphrase 56 3.5 Giải pháp xử lý câu truy vấn 59 3.6 Tìm kiếm theo ngữ nghĩa 60 3.6.1 Mơ hình tổng qt hệ truy tìm tài liệu theo ngữ nghĩa 60 3.6.2 Thuật tốn tìm kiếm theo ngữ nghĩa tổng quát 60 Chƣơng - CÀI ĐẶT THỬ NGHIỆM HỆ THỐNG 62 4.1 Phân tích hệ thống 62 4.1.1 Xác định đối tượng sử dụng mục tiêu hệ thống 62 4.1.2 Yêu cầu hệ thống 63 4.1.3 Các chức hệ thống 63 4.1.4 Cấu trúc hệ thống .64 4.2 Cài đặt hệ thống .66 v 4.2.1 Nền tảng công nghệ 66 4.2.2 Tổ chức giao diện .66 4.3 Triển khai ứng dụng kết thử nghiệm 69 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 77 PHỤ LỤC 79 vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt CNTT Tiếng Anh Informatin Technology CK_ONTO Classified Keyphrase based Ontology Tiếng Việt Công nghệ thông tin Ontology cho Keyphare phân lớp CSDL DataBase Cơ sở liệu HĐH System Hệ điều hành IR Information Retrieval Trùy hồi thông tin KHCN Science and Technology Khoa học công nghệ KĐTNN Keyphrase Key đặc trưng nghữ nghĩa MATCH() MATCH So khớp NN Semantic Ngữ nghĩa SDB Semantic Document Base Cơ sở tài liệu có ngữ nghĩa vii DANH SÁCH BẢNG Bảng 3.1 Quan hệ Keyphrase CK_ONTO .48 Bảng 4.1 Kết tìm kiếm dạng từ khóa (keyword) 70 Bảng 4.2 Kết tìm kiếm dạng ngữ nghĩa 71 viii DANH SÁCH HÌNH VẼ Hình 2.1 Giao diện iCA 12 Hình 2.2 Giao diện trang chủ GoogleReader 13 Hình 2.3 Giao diện trang lấy tin RSS 13 Hình 2.4 Các phương pháp truy hồi thông tin 16 Hình 2.5 Liên kết ngữ nghĩa nguồn khác Semantic web 20 Hình 2.6 Kiến trúc Semantic web 21 Hình 2.7 Ví dụ Semantic Search 23 Hình 2.8 So sánh kết tìm kiếm ẩn danh không ẩn danh 24 Hình 2.9 Phiên Protégé 5.2.0 dùng cho Desktop 35 Hình 3.1 Khơng gian Keyphrase 42 Hình 3.2 Quy trình xây dựng Ontology 49 Hình 3.3 Trang web Bộ Nội vụ 50 Hình 3.4 Sơ đồ sở liệu Database 52 Hình 3.5 Màn hình chương trình xây dựng Ontology 53 Hình 3.6 Ontology có class cấp cao 57 Hình 4.1 Cấu trúc hệ thống 64 Hình 4.2 Tổ chức giao diện người dùng 66 Hình 4.3 Giao diện trang chủ hệ thống 67 Hình 4.4 Giao diện chức lấy tin 67 Hình 4.5 Giao diện chức quản lý tin 68 Hình 4.6 Giao diện chức tìm kiếm 68 Hình 4.7 Giao diện chức tìm kiếm ngữ nghĩa 69 Hình 4.8 Giao diện xem chi tiết tin 69 66 vào Ontology, thực việc lập mục cho kho liệu Lập mục giai đoạn phân tích tài liệu để rút trích đơn vị thông tin cần thiết mô tả tài liệu, biểu diễn lại liệu đơn vị thông tin cập nhật vào field mục ngữ nghĩa tìm kiếm cách nhanh chóng, hiệu  Bộ quản lý tài liệu ngữ nghĩa: Tổ chức lưu trữ, cập nhật, theo dõi kiện liên quan đến hệ thống tập tin thêm, xóa viết… 4.2 Cài đặt hệ thống 4.2.1 Nền tảng công nghệ Công nghệ lựa chọn để xây dựng ứng dụng ASP.Net, ngơn ngữ lập trình C#, sở liệu SQL Server 2008 R2 kết hợp với hàm OWL API ontology Bộ công cụ lập trình Visual Studio 2013 Trong phạm vi nghiên cứu đề tài, sử dụng công cụ Protégé 5.2.0 phiên Desktop 4.2.2 Tổ chức giao diện Trang chủ Khai thác liệu Tìm kiếm đề tài Tìm kiếm Tìm kiếm theo ngữ nghĩa Yêu cầu khai thác Quản trị Quản lý User Xem chi tiết tin tức/bài viết Hình 4.2: Tổ chức giao diện ngƣời dùng Quản lý CSDL tin tức Quản ký Hệ thống thu thập tin 67  Giao diện trang chủ: Đối với người quản trị cho phép quản trị hệ thống lấy tin, quản trị phân quyền người dùng Đối với người dùng tìm kiếm cho phép hiển thị trang tìm kiếm, khơng can thiệp vào hệ thống xử lý CSDL quản lý người dùng Hình 4.3: Giao diện trang chủ hệ thống  Giao diện chức lấy tin: Chức lấy tin thực tự động từ website phân tích Hoặc thu thập tin cách thủ công Hệ thống tự động sàng lọc để tránh trùng lắp tin lấy về, tin lấy lần không hệ thơng lấy lần sau Hình 4.4: Giao diện chức lấy tin 68  Giao diện chức quản lý CSDL tin tức Đây chức dành cho Admin, quản lý toàn CSDL tin tức lấy về, user thơng thường khơng có quyền truy cập Hình 4.5: Giao diện chức quản lý tin  Giao diện chức tìm kiếm theo từ khóa (Keyword) Hình 4.6: Giao diện chức tìm kiếm  Giao diện chức tìm kiếm theo ngữ nghĩa Người dùng nhập câu truy vấn vào tìm kiếm, sau chọn chức tìm 69 kiếm, hệ thống tự động phân tích gửi kết hình tài liệu có liên quan ngữ nghĩa đến câu truy vấn Hình 4.7: Giao diện chức tìm kiếm theo ngữ nghĩa  Giao diện chức xem chi tiết tin Kết trả danh sách tin, người dùng xem chi tiết tin hệ thống xem lại nguồn tin theo đường link website gốc Hình 4.8: Xem chi tiết tin 4.3 Triển khai ứng dụng kết thử nghiệm Hệ thống cài đặt thử nghiệm lấy tin website bao gồm: 70 {Sở Khoa học Công nghệ Tỉnh Bắc Giang, Sở Khoa học Công nghệ Tỉnh Bến Tre, Sở Khoa học Công nghệ Tỉnh Bà Rịa - Vũng Tàu; Sở Khoa học Công nghệ Tỉnh Lâm Đồng; Sở Khoa học Công nghệ Tỉnh Vĩnh Long; Viện Khoa học Nhà nước} Số mẫu tin đưa thử nghiệm 400 mẫu tin chọn tin liên quan đề tài khoa học  Đối với câu truy vấn dạng từ khóa (keyword): Học viên thực nghiệm với 20 câu truy vấn khác khoảng 400 mẫu tin, kết trả câu truy vấn có kết nhiều để đem tính độ xác độ bao phủ hệ thống (HT) tìm kiếmtheo từ khóa hệ thống tìm kiếm theo ngữ nghĩa Bảng 4.1: Kết tìm kiếm dƣới dạng từ khóa (keyword) Số tin trả liên TT Số tin trả quan đến yêu (D) cầu người dùng Số tin tức (S) liên quan Câu truy vấn Nghiệm thu đề tài khoa học 2017 Tuyển chọn đề tài 2017 Danh mục đề tài khoa học Công Nghệ Tuyển chọn tổ chức, cá nhân chủ nhiệm đề tài Độ Độ bao phủ xác (S/D) (S/U) có HT HT cũ HT 25 30 20 26 23 27 20 13 32 40 kho (U) HT HT HT HT cũ cũ 28 0.8 0.86 0.71 0.93 25 26 0.87 0.93 0.80 0.96 10 11 12 0.77 0.85 0.83 0.92 28 36 38 0.88 0.9 0.74 0.95 HT cũ Phân tích kết quả, tính trung bình cộng kết để đưa nhận xét: - Trung bình kết trả đối hệ thống cũ: Độ xác (0.8 + 0.87 + 0.77 + 0.88)/4 = 0.83 Độ bao phủ (0.71 + 0.80 + 0.83 + 0.74)/4 = 0.77 - Trung bình kết trả đối hệ thống mới: Độ xác (0.86 + 0.93 + 0.85 + 0.9)/4 = 0.89 Độ bao phủ (0.93 + 0.96 + 0.92 + 0.95)/4 = 0.94 71  Đối với câu truy vấn gần với ngôn ngữ tự nhiên: Bảng 4.2: Kết tìm kiếm dƣới dạng ngữ nghĩa Số tin trả liên quan đến yêu Số tin Độ Độ bao phủ (D) cầu người dùng liên quan xác (S/D) (S/U) (S) có Câu truy vấn TT Số tin trả Vấn đề nâng cao chất HT HT cũ 18 14 15 0 HT cũ HT kho (U) HT HT HT HT cũ cũ 17 0.78 0.82 12 14 0.8 0.93 0.75 0.86 lượng đội ngũ cán công chức, viên chức Phát triển nguồn nhân lực cơng chức hành Cải cách thủ tục hành chính, chế độ cơng vụ, cơng chức thời đại ngày Từ số liệu thống kê trên, ta nhận thấy với câu truy vấn dạng từ khóa hệ thống trội độ bao phủ, câu hỏi gần với ngơn ngữ tự nhiên có hệ thống mới cho kết hệ thống cũ không cho kết 72 KẾT LUẬN Với mục tiêu ban đầu đề ra, đề tài thực tương đối hoàn chỉnh nội dung nghiên cứu Luận văn xây dựng hệ thống quản lý nguồn đề tài khoa học internet, đặc biệt trọng đề tài lĩnh vực nội vụ Việt Nam, có hỗ trợ biểu diễn xử lý ngữ nghĩa tìm kiếm Hệ thống cho phép tìm kiếm tin tức (tài liệu) theo từ khóa tìm kiếm dựa tri thức lĩnh vực hay theo ngữ nghĩa Theo hệ thống khơng so trùng cách xác người dùng cung cấp mà hướng tới việc tìm kiếm người dùng nghĩ, nghĩa tìm cách đốn ý, hiểu nghĩa dựa khái niệm có liên quan đến từ khóa tìm kiếm để trả tập tài liệu kết với ý định tìm kiếm người dùng Về mặt lý thuyết, luận văn phân tích đánh giá phương pháp biết, khảo sát kết nghiên cứu lý thuyết thực hành, từ lựa chọn mơ hình khả thi phù hợp cho việc xây dựng hệ tìm kiếm thơng tin đề tài khoa học web Các mơ hình đƣợc nghiên cứu sửa đổi cho phù hợp gồm có: Mơ hình ontology mô tả tri thức lĩnh vực đặc biệt sử dụng keyphrase thành phần để hình thành khái niệm ontology giới thiệu [12], [13] gồm thành phần ban đầu học viên nghiên cứu lược bớt thành phần cho phù hợp với liệu, năm thành phần lại là: (1) tập hợp keyphrase biểu thị cho hệ thống khái niệm lĩnh vực, (2) tập hợp lớp keyphrase mô tả lĩnh vực hay chủ đề thuộc miền tri thức xét, (3) tập hợp quan hệ keyphrase lớp, (4) tập hợp quan hệ lớp, (5) tập hợp quan hệ trực tiếp keyphrase Học viên nhận thấy quan hệ xuất tài liệu nên mơ hình đồ thị keyphrase giới thiệu [2] học viên chuyển thành mơ hình tập keyphrase có gom cụm biểu diễn cho tài liệu văn câu truy vấn Việc cải tiến nhằm mục đích tăng tốc độ tìm kiếm liệu 73 Mơ hình sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB) giới thiệu [12] từ thành phần ban đầu học viên lược bớt thành phần thứ năm cho phù hợp với yêu cầu Mơ hình lại thành phần: (1) danh sách phần tử tài liệu thực, cụ thể hệ thống lưu trữ tập tin, (2) mơ hình Cơ sở liệu phục vụ việc lưu trữ thuộc tính mơ tả tài liệu, (3) mơ hình ontology mơ tả tri thức lĩnh vực cuối (4) liên hệ ràng buộc thành phần kể Trên cở sở mơ hình trên, luận văn nghiên cứu vấn đề biểu diễn, xử lý, tìm kiếm đề xuất phương pháp, kỹ thuật, quy trình phát triển thuật giải nhằm giải vấn đề Một số vấn đề xử lý đƣợc giải đề tài bao gồm: - Xây dựng tập keyphrase biểu diễn ngữ nghĩa cho liệu, bao gồm việc rút trích keyphrase đặc trưng liệu biểu diễn (nội dung) liệu thành tập keyphrase có gom cụm theo chủ đề - Xử lý câu truy vấn: tương tự liệu, bao gồm xử lý rút trích tự động keyphrase diễn đạt nội dung muốn tìm kiếm, biểu diễn câu truy vấn thành tập keyphrase có gom cụm theo chủ đề - Đề xuất phương pháp tính tốn độ đo tương đồng ngữ nghĩa keyphrase, quan hệ, so khớp tập keyphrase đo lường mức độ tương quan ngữ nghĩa tài liệu câu truy vấn sở kế thừa phương pháp có sẵn điều chỉnh cho phù hợp với yêu cầu - Bài tốn tìm kiếm tìm kiếm theo ngữ nghĩa liệu Về mặt ứng dụng, luận văn thực hóa nghiên cứu, cải tiến thuật tốn thơng qua việc thiết kế, cài đặt xây dựng ứng dụng thử nghiệm hệ thống lấy tin tự động tìm kiếm thơng tin đề tài khoa học lĩnh vực nội vụ với yêu cầu sử dụng bao gồm tác vụ quản lý tìm kiếm, đặc biệt chức tìm kiếm theo ngữ nghĩa liên quan đến nội dung liệu Hệ thống đáp ứng mục tiêu đề ra, giao diện thân thiện, gần gũi, cho kết tốt tập sở liệu thử nghiệm 74 Một số kết khác luận văn kể đến nhƣ: - Xây dựng ứng dụng lấy tin tự động website thử nghiệm trình bày chương - Nghiên cứu phương pháp biểu diễn tri thức đại, đặc biệt cách tiếp cận ontology phục vụ cho việc biểu diễn xử lý ngữ nghĩa Tìm hiểu tổng quan ontology bao gồm định nghĩa ontology, thành phần ontology, phân loại, vai trò, ứng dụng dựa ontology, hướng tiếp cận xây dựng ontology - Tìm hiểu tổng quan hệ thống tìm kiếm thông tin bao gồm định nghĩa, cấu trúc hệ thống, phân loại hệ thống, khảo sát thực trạng, phương pháp mơ hình truy hồi thơng tin, chiến lược tìm kiếm, tiêu chuẩn đánh giá hệ thống truy tìm thơng tin; đánh giá ưu khuyết điểm hệ thống, phương pháp định hướng phát triển - Tìm hiểu phương pháp tính khoảng cách ngữ nghĩa khái niệm độ đo chuỗi, phương pháp kỹ thuật biểu diễn tài liệu, lập mục tự động cho tài liệu, rút trích khái niệm từ tài liệu, … Bên cạnh kết đạt được, luận văn có hạn chế định Hạn chế chức lấy tin tức từ internet bán tự động, cần nhiều tác động từ người dùng Phân tích cấu trúc website để lấy tin cứng chưa tự động hóa, cấu trúc trang thay đổi hệ thơng không lấy tiếp tin cần phải thay đổi tinh chỉnh lại Nhưng học viên nhận thấy nguồn lấy tin trang web thuộc Sở Khoa học Công nghệ tỉnh, website quan nhà nước nên việc thay đổi cấu trúc trang web có biến động Một hạn chế lớn đề tài biểu diễn phần nhỏ tri thức lĩnh vực nội vụ Ontology vốn xây dựng cách thủ công người theo ý kiến chủ quan nên dễ dẫn tới nhiều trường hợp thiếu sót hay dư thừa Những thiếu sót dẫn đến “lỗ hổng” bất cân ontology hay ảnh hưởng đến kết suy diễn, tìm kiếm tự động Ngoài tiêu 75 chuẩn phân loại, phân lớp keyphrase chưa định nghĩa rõ ràng, cách phân loại chưa tốt không cung cấp đủ phân biệt keyphrase hết đòi hỏi nhiều cơng sức người nhằm tạo danh sách lớn từ đồng nghĩa, gần nghĩa, quan hệ phân cấp hay có liên quan khác cách thủ cơng chưa đầy đủ Việc rút trích tập keyphrase hồn tồn phụ thuộc vào định nghĩa ontology, khái niệm chưa định nghĩa khơng rút trích Điều dẫn đến khả rút trích keyphase khơng đầy đủ, ảnh hưởng đến kết tìm kiếm Thuật tốn tính độ tương đồng ngữ nghĩa hai tập keyphase đơn giản, chưa xử lý tốt quan hệ phức tạp, điều dẫn đến kết tìm kiếm khơng thực xác số trường hợp Hiện ứng dụng thử nghiệm truy vấn đơn giản, cần phải xét đến tất dạng truy vấn khác đặc biệt ngôn ngữ tự nhiên, phát triển ngôn ngữ qui ước, việc bắt lỗi chặt chẽ mặt cú pháp Phần demo chương trình chức năng, chưa ý đến tiện ích cho người dùng Đánh giá kết được hạn chế luận văn, học viên đề xuất hướng phát triển tương lai sau: - Tiếp tục hoàn thiện chức lấy tin tự động, có lưu cấu trúc nguồn lấy tin để có cập nhật có thay đổi cấu trúc - Tiếp tục phát triển, hồn thiện mơ hình biểu diễn tri thức, biểu diễn ngữ nghĩa tài liệu, mơ hình tổ chức lưu trữ kho tài liệu theo ngữ nghĩa Vấn đề biểu diễn liệu CSDL cải tiến thêm - Nghiên cứu heuristic thuật toán nhằm hỗ trợ tìm kiếm nhanh chóng hơn, dễ dàng hơn, cho kết xác với nhu cầu tìm kiếm người dùng Nghiên cứu cơng cụ hỗ trợ tự động, tự động hóa cao tốt khâu xử lý chẳng hạn mơ hình giải pháp rút trích tự động keyphrase từ tài liệu sở lai ghép phối hợp mơ hình có, kỹ thuật xác suất thống kê, máy học, kỹ thuật xử lý ngôn ngữ tự nhiên, … Tiếp cục nghiên cứu 76 giải pháp tổ chức lưu trữ, cập nhật semantic document base Nghiên cứu phương pháp kỹ thuật xây dựng ontology phù hợp cho tiếng Việt Xây dựng hoàn chỉnh hệ thống lấy tin tự động từ nhiều nguồn internet hệ tra tìm theo ngữ nghĩa lĩnh vực nội vụ mở rộng thêm nhiều chức năng, tiện ích cho đối tượng sử dụng mở rộng cho loại hình liệu khác Đề tài hoàn thành với số kết định nhiên khơng tránh khỏi thiếu sót Kính mong thơng cảm đóng góp ý kiến q thầy cô bạn 77 TÀI LIỆU THAM KHẢO [1] Cao Hoàng Trụ (2005), VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ - Khoa Công Nghệ Thông Tin, Đại học Bách khoa TP Hồ Chí Minh [2] Huỳnh Thị Thanh Thương (2012), Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếmngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT, Luận văn thạc sĩ, Trường Đại học Khoa học Tự nhiên TP Hồ Chí Minh [3] Lê Quang Định (2013), Nghiên cứu công nghệ Web 3D (Semantic Web) khả triển khai ứng dụng, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [4] Nguyễn Cơng Nhật Thư viện Quốc gia Việt Nam [Online] [5] Nguyễn Thị Trang (2013), Nghiên cứu phương pháp trích rút văn từ trang web ứng dụng, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [6] Phạm Hồng Đạc (2015), Xây dựng hệ tra cứu tài liệu số theo ngữ nghĩa lĩnh vực lịch sử Việt Nam trung tâm lưu trữ quốc gia II, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [7] Trương Mạnh Hà (2009), Nghiên cứu số kỹ thuật lấy tin tự động internet, Luận văn Thạc sĩ, Đại học Thái Nguyên [8] Diem L.T.H., J.-P CHEVALLET, D.T.B Thuy (2007), “Thesaurus-based query and document expansion in conceptual indexing with UMLS RIVF” [9] Dean Allemang and Jim Hendler (2011), Semantic Web for the Working Ontologist 225 Wyman Street, Waltham, MA 02451, USA: Elsevier [10] Haav, H.-M and T.-L Lubi (2001), “A Survey of Concept-based Information Retrieval Tools on the Web”, in 5th East-European Conference 78 [11] Henrik Bulskov Styltsvig (2006), Ontology-based Information Retrieval, Roskilde University, Denmark, p Computer Science Section [12] Nhon Do, Thuong Huynh, An Pham (2011), “Organization model of semantic document repository and search techniques for studying information technology” WASET - ICEEEL 2011 : International Conference on eEducation and e-Learning [13] Nhon Do, Long Van Ho (2015), “Domain-Specific Keyphrase Extraction and Near-Duplicate Article Detection based on Ontology” 2015 IEEE RIVF International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future [14] John Hebeler, Matthew Fisher, Ryan Blace, and Andrew Perez-Lopez (2008), Semantic Web Programming, Indianapolis, Indiana: Wiley [15] Paea LePendu, DejingDou, GwenA.Frishkoff, and Jiawei Rong (2008), Ontology Database: A New Method for Semantic Modeling and an Application to Brainwave Data Berlin, Germany: Springer-Verlag [16] https://en.wikipedia.org/wiki/Semantic_search, truy cập ngày 20/10/2017 79 PHỤ LỤC Sơ đồ mô tả tài nguyên Sơ đồ mô tả tài nguyên lưu trữ sau: 1) NewsAuto_URL (nguồn trang): Mô tả thông tin nguồn trang web lấy tin tức - Id (int): Mã URL - GetNewsMyUrl (nvarchar): Đường dẫn URL nơi lấy tin - NameURL (nvarchar): Tên website lấy tin - IsActive (bit): Cho phéo khai thác - MyCode (int): Tên code phân tích lấy tin 2) NewsAuto: Bảng lưu trữ tin tức lấy - Id (int): Mã tin - Title (nvarchar): Tiêu đề tin - Summary (nvarchar): Tóm tắt tin - Description (nvarchar): Nội dung tin - DateOfNew: Thời gian uptin - RootUrl (nvarchar): Đường link gốc tin - MyCodeId (int): Id nguồn trang lấy tin - download (nvarchar): Lưu tập tin đính kèm - strKeyphrase (nvarchar): Tập Keypharese rút trích 3) Ngƣời dùng: Quản lý thơng tin user - MaNV (int): Mã số người dùng - HoNV (nvarchar): Họ người dùng - TenNV (nvarchar): Tên người dùng - IsActive (bit): Cho phép kích hoạt tài khoản 4) Quyền: Quản lý quyền user - MaQuyen (int): Mã quyền hạn user 80 - TenQuyen (nvarchar): Tên quyền hạn user 5) Phân quyền: Phân quyền cho user - MaQuyen (int): Mã quyền hạn - MaNV (int): Mã số người dùng 6) Ngƣời dùng_Tài khoản - MaNV (int): Mã người dùng - User (nvarchar): Tên tài khoản - Pass (nvarchar): Mật tài khoản ... thập thông tin tạo thành nguồn Cơ sở liệu (CSDL) quản lý đề tài khoa học, từ xử lý tìm kiếm thơng tin hữu ích theo phương pháp ứng dụng tìm kiếm theo ngữ nghĩa Ứng dụng bước đầu thử nghiệm lấy tin. ..HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐỖ VĂN HANH PHƢƠNG PHÁP TÌM KIẾM THEO NGỮ NGHĨA VÀ ỨNG DỤNG TÌM KIẾM THƠNG TIN ĐỀ TÀI KHOA HỌC TRÊN WEB Chuyên ngành: Hệ thống thông. .. động hay thu thập thông tin mà sâu vào việc hỗ trợ người dùng tìm kiếm tin tức theo ngữ nghĩa để đạt hiệu việc tìm kiếm Hệ thống cho phép tra cứu, tìm kiếm tin đề tài khoa học CSDL theo nhiều chức

Ngày đăng: 12/03/2018, 16:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan