Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (tt)

32 203 1
Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)Phương pháp tìm kiếm theo ngữ nghĩa và ứng dụng tìm kiếm thông tin đề tài khoa học trên Web (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - ĐỖ VĂN HANH PHƢƠNG PHÁP TÌM KIẾM THEO NGỮ NGHĨA ỨNG DỤNG TÌM KIẾM THƠNG TIN ĐỀ TÀI KHOA HỌC TRÊN WEB Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH – 2017 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Đỗ Văn Nhơn Phản biện 1: PGS.TS Trần Văn Lăng Phản biện 2: TS Lê Xuân Trường Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: 11giờ 15” ngày 06 tháng 01 năm 2018 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Hiện nay, việc tập hợp thông tin liên quan đến lĩnh vực đề tài khoa học internet địa phương, quan, viện nghiên cứu việc quan trọng cá nhân hay tổ chức tham gia viết đề tài khoa học Tuy nhiên, phương pháp thu thập xử lý thông tin lĩnh vực khoa học lệ thuộc vào kinh nghiệm kiến thức chun mơn người tìm Việc tìm kiếm tập hợp thơng tin đơi chậm trễ, nhiều thời gian không hiệu thông tin internet vô phong phú đa dạng Xuất phát từ nhu cầu thực tế khả phát triển khoa học công nghệ ngày nay, học viên nghiên cứu đưa mơ hình ứng dụng : xây dựng công cụ lấy tin tự động internet để thu thập thông tin tạo thành nguồn Cơ sở liệu (CSDL), quản lý đề tài khoa học, từ xử lý tìm kiếm thơng tin hữu ích theo phương pháp ứng dụng tìm kiếm theo ngữ nghĩa Ứng dụng bước đầu thử nghiệm lấy tin website Sở Khoa học Công nghệ số tỉnh website viện, bộ, trung tâm quản lý đề tài khoa học lưu thành kho CSDL, từ quản lý hỗ trợ người dùng tìm kiếm kho liệu Kết thực nghiệm ban đầu cho thấy giải pháp đề xuất có tính khả quan khả ứng dụng thực tiễn tốt Nội dung luận văn trình bày chương, bao gồm: Chương Giới thiệu tổng quan đề tài bao gồm bước khảo sát đánh giá thực trạng, khả nghiêm cứu giải pháp, mục tiêu ý nghĩa đề tài Chương Cơ sở lý thuyết đề tài liên quan đến kỹ thuật lấy tin tự động tìm kiếm theo ngữ nghĩa bao gồm định nghĩa, phân loại phương pháp tìm kiếm, phân loại liệu, vấn đề biểu diễn theo ngữ nghĩa tài liệu, lý thuyết tảng Ontology Chương Đề xuất giải pháp dựa sở lý thuyết chương 2, bao gồm phân tích kỹ thuật lấy tin web, mơ hình tập keyphrase biểu diễn ngữ nghĩa cho tài liệu văn hay câu truy vấn người dùng; mô hình tổ chức lưu trữ kho tài liệu gọi mơ hình Semantic Document Base (SDB); Các thuật tốn so khớp rút trích keyphrase, giới thiệu qui trình xây dựng ontology cho lĩnh vực nội vụ cách thức tổ chức lưu trữ sở tài liệu theo mơ hình SDB máy tính Chương Xây dựng chương trình mơ cài đặt thực nghiệm, phân tích cấu trúc số trang web tỉnh để lấy tin về, tìm kiếm thơng tin kho liệu lấy theo mức bản, nâng cao tìm kiếm theo ngữ nghĩa Tiến hành thực nghiệm để so sánh đánh giá kết Kết luận hướng phát triển, tổng kết kết đạt được, tóm tắt lại vấn đề đặt luận văn giải quyết, đóng góp hướng phát triển luận văn tương lai Chƣơng - GIỚI THIỆU TỔNG QUAN Chương giới thiệu thực trạng nhu cầu tìm kiếm, tập hợp thơng tin đề tài khoa học internet về, hạn chế phương pháp, phân tích kết đề tài liên quan Trình bày mục tiêu, yêu cầu ý nghĩa đề tài 1.1 Khảo sát trạng nhu cầu tìm kiếm thơng tin internet 1.1.1 Nhu cầu tìm kiếm đề tài khoa học internet Các hệ thống tìm kiếm thơng tin hay nói ngắn gọn máy tìm kiếm Web thơng thường trả lại danh sách tài liệu phân hạng mà người dùng phải tốn công chọn lọc danh sách dài đểtài liệu phù hợp Ngồi thơng tin thường phong phú, đa dạng liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng gây khó khăn cho người sử dụng việc lấy thông tin cần thiết 1.1.2 Hiện trạng theo cách thức tìm kiếm truyền thống Hiện nay, cơng cụ tìm kiếm thơng tin máy tính khơng ngừng cải tiến thuật tốn cơng nghệ Thời gian gần đây, nghe nhiều “cuộc chiến động tìm kiếm Internet” mà dẫn đầu Google (google.com) thâu tóm 60% thị phần tìm kiếm, Yahoo (yahoo.com), Bing (bing.com), MSN (msn.com), Ask (ask.com), AOL (aol.com), Lycos (lycos.com), Alta Vista (altavista.com) Các động tìm kiếm tiếng tồn giới, ngơn ngữ hỗ trợ tiếng Anh sử dụng với ngôn ngữ khác 1.2 Phân tích kết đề tài liên quan Về Kỹ thuật lấy tin tự động có đề tài liên quan sau:  Luận văn Thạc sĩ Trương Mạnh Hà (2009), Nghiên cứu số kỹ thuật lấy tin tự động internet, Đại học Thái Nguyên Cung cấp cho người đọc nhìn tổng quan kỹ thuật khai phá liệu web lấy tin tự động [7] Về lĩnh vực tìm kiếm ngữ nghĩađề tài liên quan:  Cơng trình tác giả Đỗ Văn Nhơn, Huỳnh Thị Thanh Thương, Phạm Nguyễn Trường An [12] Đề xuất phương pháp sử dụng keyphrase làm yếu tố đơn vị để mô tả tri thức lĩnh vực hay nội dung tài liệu sử dụng đồ thị keyphrase việc biểu diễn so khớp tài liệu  Cơng trình nhóm tác giả Lê Thị Hoàng Diễm, Jean-Pierre Chevallet Joo Hwee Lim [8] xây dựng hệ thống tìm kiếm dựa khái niệm sử dụng mơ hình mạng Bayes, nhiên, cách đánh trọng số cho mối quan hệ sử dụng mơ hình hạn chế  Nhóm tác giả Phạm Hồng Đạc [6], Huỳnh Thị Thanh Thương [2], đề xuất mô hình tìm kiếm dựa khái niệm, hướng tới việc xây dựng hệ thống dịch vụ hỗ trợ việc tìm kiếm tài liệu lưu trữ lịch sử Trung tâm Lưu trữ Quốc gia II quản lý kho tài nguyên học tập theo hướng ngữ nghĩa Tuy nhiên, khái niệm giả định hồn toàn độc lập nhau, nghĩa ontology mức thấp nhất, mối quan hệ khái niệm không xem xét đến 1.3 Mục tiêu, yêu cầu ý nghĩa đề tài 1.3.1 Mục tiêu đề tài Xây dựng hệ thống lấy tin đề tài khoa học tự động internet, quản lý lưu trữ thành kho sở liệu Xây dựng hệ tìm kiếm theo ngữ nghĩa kho tài liệu lĩnh vực nội vụ 1.3.2 Yêu cầu đề tài Luận văn tập trung giải vấn đề sau:  Xây dựng tính lấy tin tự động bán tự động từ internet  Đề xuất phát triển số mơ hình biểu diễn tri thức bao gồm mơ hình ontology mơ tả tri thức lĩnh vực nội vụ  Đề xuất phát triển số mơ hình biểu diễn ngữ nghĩa cho tài liệu  Các vấn đề, kỹ thuật xử lý ngữ nghĩa tìm kiếm  Các kỹ thuật, quy trình chung cho việc thiết kế, xây dựng hệ tìm kiếm theo ngữ nghĩa kho tài liệu lĩnh vực nội vụ 1.3.3 Ý nghĩa đề tài 1.4 Phƣơng pháp nghiên cứu 1.5 Nội dung thực - Chuẩn bị kho liệu: xây dựng hệ thống lấy tin tự động bán tự động từ số website internet, lưu trữ phân loại sơ tạo lập kho CSDL - Nghiên cứu phương pháp biểu diễn tri thức đại, đặc biệt ontology phục vụ cho việc biểu diễn xử lý ngữ nghĩa Chƣơng - CƠ SỞ LÝ THUYẾT 2.1 Kỹ thuật lấy tin tự động internet 2.1.1 Các dạng liệu internet 2.1.1.1 Dạng Fulltext 2.1.1.2 Dạng Hypertext 2.1.2 Một số phương pháp lấy tin tự động 2.1.2.1 Một số chương trình hỗ trợ đọc tin tức RSS 2.1.2.2 Các kỹ thuật phân tích lấy tin a) Giới thiệu ngơn ngữ mở rộng đánh dấu XML b) Giới thiệu Kỹ thuật RSS 2.2 Vấn đề truy tìm thơng tin 2.2.1 Truy tìm thông tin theo hƣớng tiếp cận thống kê 2.2.2 Truy tìm thơng tin theo hướng ngữ nghĩa 2.2.2.1 Xử lý ngôn ngữ tự nhiên 2.2.2.2 Hướng tiếp cận Ontology 2.2.3 Đánh giá hệ thống tìm kiếm thơng tin Độ xác: tương ứng số tài liệu mà hệ thống tìm thấy có liên quan đến câu truy vấn theo người dùng tổng số tài liệu tìm thấy hệ thống Độ xác  S U S Độ bao phủ: tương quan số tài liệu hệ thống tìm thấy đánh giá liên quan theo người dùng tổng số tài liệu có liên quan theo người dùng Độ bao phủ  S U U 2.3 Semantic web Ontology 2.3.1 Semantic web Phần tìm hiểu Semantic web tham khảo trích dẫn phần từ tài liệu [2] 2.3.1.1 Semantic web gì? 2.3.1.2 Semantic web có đặc điểm mới? 2.3.1.3 Kiến trúc semantic web Semantic Web tập hợp/một chồng (stack) ngôn ngữ Tất lớp Semantic Web sử dụng để đảm bảo độ an toàn giá trị thông tin trở nên tốt 2.3.2 Semantic Search gì? 2.3.3 Ontology 16 CC_Rela := {}; // quan hệ “có liên quan” := {}; // quan hệ ri giữa lớp Ri keyphrase với i = 1, 2, …14 tương ứng 14 quan hệ có độ ưu tiên (thứ tự dò tìm tập quan hệ) giảm dần Mỗi phần tử Ri [keyphrase 1, keyphrase 2, val_ri (keyphrase 1, keyphrase 2)] (val_ri(keyphrase 1, keyphrase 2) trọng số phản ánh độ tương đồng keyphrase keyphrase 2) minValR // lưu giá trị := [] Ri 14 quan hệ keyphrase Các bƣớc thực hiện: Bƣớc 1: Khởi tạo Đặt trạng thái ban đầu cho số biến điều khiển KQueue: = {}; // hàng đợi ưu tiên Threshold: = 0,5; // ngưỡng, khoảng cách ngữ nghĩa nhỏ cho phép keyprhase Bƣớc 2: Thêm vào hàng đợi keyphrase k1 với giá trị ưu tiên KQueue.add(k1, 1); Bƣớc 3: Thực q trình dò tìm keyphrase có quan hệ ngữ nghĩa với k1 để phát sinh keyphrase lưu vào hàng đợi while not (KQueue.empty()) Lấy khỏi hàng đợi phần tử có độ ưu tiên lớn (truy xuất xóa phần tử có độ ưu tiên lớn từ hàng đợi) (key, val) : = KQueue.dequeue(); Kiểm tra mục tiêu if (key == k2) then return val; 17 Dò tìm quan hệ ngữ nghĩa keyphrase có quan hệ với key for i from to 16 if (val*minValR[i]) > Threshold) then for (each k such that k ri (ri-1) key) // bổ sung vào hàng đợi keyphrase với độ ưu tiên tương ứng KQueue.add(k, val*val_ri (key, k)); return 0; // trả khơng tìm liên kết ngữ nghĩa k1 k2  Thuật tốn tính tốn độ tƣơng đồng ngữ nghĩa tập keyphrase Input: Ontology CK_ONTO Tập keyphrase KD hồ sơ tài liệu Tập keyphrase KQ câu truy vấn Output: giá trị Rel(KD, KQ) Các bước thực hiện: Bƣớc 1: Khởi tạo Đặt trạng thái ban đầu cho biến điều khiển V:= {} // Lưu độ tương đồng ngữ nghĩa hai tập keyphrase N:= {Số lớp cấp cao (SuperClass) Ontology CK_ONTO) Bƣớc 2: Tính độ tương đồng ngữ nghĩa tập KD KQ For (i=1 to N) 18 If (Cụm(i) tập KQ ) If (Cụm(i) tập KD ) //Tính độ tương đồng ngữ nghĩa hai cụm thứ i tập KD tập KQ lưu vào mảng V Vi := Sim(KQ.Cụm(i), KD.Cụm(i)) //độ tương đồng ngữ nghĩa Rel KD KQ tổng độ tương đồng ngữ nghĩa cụm For (i=1 to N) Rel := SUM(Vi)  Thuật giải tính giá trị hàm Sim(KD, KQ) tính độ tƣơng đồng ngữ nghĩa hai tập keyphrase: Input: Ontology CK_ONTO Tập keyphrase KD hồ sơ tài liệu Tập keyphrase KQ câu truy vấn Output: giá trị β(KD, KQ)  [0,1] Các bước thực hiện: Bƣớc 1: Khởi tạo Đặt trạng thái ban đầu cho số biến điều khiển //Lưu độ tương đồng ngữ nghĩa lớn M:= {} keyphrase tập KD với keyphrase tập KQ Value:= {} // Lưu giá trị độ tương đồng sau lần duyệt Bƣớc 2: Tính độ tương đồng ngữ nghĩa phần tử KD với tất phần tử tập KQ For (keyphrase d in KD) For (keyphrase q in KQ) 19 // Vd(d, q) độ tương đồng ngữ nghĩa hai keyphrase d,q định nghĩa ontology // Lấy độ tương đồng lớn keyphrase d KD với tất keyphrase KQ lưu vào M M:= max(Vd(d,q)) Bổ sung giá trị M vào biến Value Value  Value  M Bƣớc 3: Tìm β(KD,KQ) = AVG(Value) 3.4 Giải pháp rút trích keyphrase Việc rút trích keyphrase tiến hành sau: Input:  Ontology CK_ONTO  Một tài liệu d D Output: Một tập keyphrase biểu diễn ngữ nghĩa cho tài liệu có phân cụm Q trình biểu diễn tin tức thành đồ thị keyphrase tiến hành theo bước sau: Bƣớc 1: Khởi tạo biến trung gian strKeyphrase, mảng IndexOfSuperClass // Chuỗi ban đầu phân cụm sẵn, cụm nằm cặp ngoặc đơn strKeyphrase := {( );( );( );( );( );( );( )} Bƣớc 2: Thực trình duyệt so khớp (gần đúng) keyphrase có ontology với chuỗi cấu trúc bên nội dung rút trích từ tài liệu (là trường Title bảng tblNewsAuto), có lưu vào chuỗi strKeyphrase theo cụm: For (each key in Keyphrases) 20 if (EXIST(key, d.Title)) then for i:=1 to n // duyệt class (n class) mức cao if (key có class[i]) Save(key, strKeyphrase, i) Bƣớc 3: Lưu chuỗi nằm biến strKeyphrase vào trường liệu sở liệu (trường strKeyphrase bảng tblNewsAuto) tblNewsAuto.strKeyphrase  strKeyphrase Giải thích: Đoạn giải thuật Bước 2, có sử dụng hàm sau:  Hàm EXIST(key, Trƣờng liệu) Sử dụng phương pháp so khớp nội dung tin, kết trả True key xuất (tồn tại) trường liệu (trường Title tin tức d), trả False trường hợp ngược lại  Hàm Save(keyphrase, strKeyphrase, i) Lưu keyphrase vào cụm thứ i biến strKeyphrase 3.5 Giải pháp xử lý câu truy vấn Quy trình xử lý câu truy vấn: Quá trình gồm bước sau: Input: Câu truy vấn người dùng Output: Tập keyphrase biểu diễn câu truy vấn Các bƣớc thực hiện: Bƣớc 1: Phân tách phần nội dung tìm kiếm ghi nhận thơng tin mơ tả liên quan (giúp khoanh vùng, giới hạn phạm vi tìm kiếm hay lọc kết ) Bƣớc 2: Rút trích keyphrase mơ tả nội dung muốn tìm kiếm So khớp (gần đúng) từ, cụm từ với keyphrase Ontology chọn lọc keyphrase ứng viên 21 Bƣớc 3: Xây dựng tập keyphrase biểu diễn câu truy vấn tương tự rút trích keyphrase tài liệu 3.6 Tìm kiếm theo ngữ nghĩa 3.6.1 Mơ hình tổng quát hệ truy tìm tài liệu theo ngữ nghĩa Mơ hình tổng qt hệ truy tìm tài liệu theo ngữ nghĩa hệ thống gồm có bốn thành phần chúng tơi kế thừa từ [12], [13] (Q, KG(Q), SDB, rank) thành phần mô tả sau :  Q tập câu truy vấn  KG(Q) mơ hình biểu diễn ngữ nghĩa cho câu truy vấn  SDB = (D, FS, DB, ONTO, SDB_R) mơ hình sở tài liệu có ngữ nghĩa  rank : Q  D   hàm xếp hạng theo độ đo tương quan ngữ nghĩa câu truy vấn Q tài liệu có D Giá trị xếp hạng rank(qi, dj) với qi  Q d j  D xác định thứ tự mức độ liên quan tài liệu dj với câu truy vấn qi tập tài liệu D 3.6.2 Thuật tốn tìm kiếm theo ngữ nghĩa tổng qt Q trình tìm kiếm theo ngữ nghĩa mơ tả q trình sau: + Người dùng nhập câu truy vấn tìm kiếm + Hệ thống phân tích, chắt lọc từ, cụm từ câu truy vấn, sau so khớp với ontology để xây dựng tập keyphrase KQ + So sánh KQ với trường lưu trữ keyphrase sở liệu + Kết trả danh sách tin có liên quan ngữ nghĩa với câu truy vấn độc giả 22 Input:  Cơ sở liệu DB lưu trữ tin tức  Câu truy vấn Q người dùng Output: danh sách tài liệu (có hạng) liên quan đến thơng tin truy vấn Các bƣớc thực chính: Bƣớc 1: Ghi nhận thông tin truy vấn người dùng Bƣớc 2: Xử lý biểu diễn câu truy vấn Q thành tập keyphrase KQ có gom cụm Bƣớc 3: Thực q trình dò tìm tin tức CSDL phù hợp với thông tin truy vấn người dùng trả tập kết hạng Các tài liệu có D biểu diễn tập đồ thị keyphrase KGD = {G1, G2, …, Gk}, nghĩa ta đánh index cho tài liệu ngôn ngữ index dựa đồ thị keyphrase Tìm KGD đồ thị “trùng khớp” với KGQ cách tính tốn so khớp đồ thị for g in KGD if Match(g, KGQ) then Result  (g, Rel(g, KGQ) Xếp hạng tài liệu tập kết Result theo giá trị Rel tương ứng Bƣớc 4: Hiển thị kết Kết thu bao gồm danh sách tin tức (tài liệu) có liên quan đến thơng tin tìm kiếm người dùng hạng 23 Chƣơng - CÀI ĐẶT THỬ NGHIỆM HỆ THỐNG 4.1 Phân tích hệ thống 4.1.1 Xác định đối tượng sử dụng mục tiêu hệ thống 4.1.2 Yêu cầu hệ thống 4.1.3 Các chức hệ thống  Chức tìm kiếm theo từ khố  Chức tìm kiếm nâng cao  Chức tìm kiếm theo ngữ nghĩa 4.1.4 Cấu trúc hệ thống Người dủng Bộ quản lý ontology Giao diện người dùng Tài liệu ngữ nghĩa ontolog y Bộ rút trích siêu Databas e Tin tức lấy Bộ quản lý liệu ngữ nghĩa 4.1: Cấu trúc hệ thống Bộ phân tích query Bộ xử lý tìm kiếm theo ngữ Luồng liệu Phụ thuộc Luồng điều khiển 24 4.2 Cài đặt hệ thống 4.2.1 Nền tảng công nghệ 4.2.2 Tổ chức giao diện  Giao diện chức lấy tin Hình 4.4: Giao diện chức lấy tin  Giao diện chức tìm kiếm theo ngữ nghĩa Hình 4.7: Giao diện chức tìm kiếm theo ngữ nghĩa 25  Giao diện chức xem chi tiết tin Hình 4.8: Xem chi tiết tin 4.3 Triển khai ứng dụng kết thử nghiệm Hệ thống cài đặt thử nghiệm chạy nguồn lấy tin 10 website Số mẫu tin đưa thử nghiệm 250 mẫu tin chọn tin liên quan đề tài khoa học  T T Đối với câu truy vấn dạng từ khóa (keyword): Số tin trả (D) Số tin trả liên quan đến yêu cầu người dùng (S) H T cũ HT mớ i HT cũ HT 25 30 20 26 Câu truy vấn Nghiệm thu đề tài Số tin tức liên quan có kho (U) 28 Độ xác (S/D) Độ bao phủ (S/U) HT cũ HT HT cũ HT 0.8 0.86 0.71 0.93 26 Tuyển chọn đề tài 2017 23 27 20 25 26 0.8 0.93 0.80 0.96 Danh mục đề tài 2018 13 10 11 12 0.7 0.85 0.83 0.92  Đối với câu truy vấn gần với ngôn ngữ tự nhiên: T T Số tin trả (D) Số tin trả liên quan đến yêu cầu người dùng (S) H T cũ HT mớ i HT cũ HT 50 46 15 0 Câu truy vấn Đề tài nâng cao đội ngũ cán công chức, viên chức Phát triển nguồn nhân lực công chức hành Cải cách thủ tục hành chính, chế độ công vụ, công chức thời đại ngày Độ xác (S/D) Độ bao phủ (S/U) HT cũ HT HT cũ HT 48 0.92 0.96 12 14 0.8 0.93 0.75 0.86 Số tin liên quan có kho (U) 27 KẾT LUẬN Một số vấn đề xử lý giải đề tài bao gồm: - Xây dựng tập keyphrase biểu diễn ngữ nghĩa cho liệu, bao gồm việc rút trích keyphrase đặc trưng liệu biểu diễn (nội dung) liệu thành tập keyphrase có gom cụm theo chủ đề - Xử lý câu truy vấn: tương tự liệu, bao gồm xử lý rút trích tự động keyphrase diễn đạt nội dung muốn tìm kiếm, biểu diễn câu truy vấn thành tập keyphrase có gom cụm theo chủ đề - Đề xuất phương pháp tính tốn độ đo tương đồng ngữ nghĩa keyphrase, quan hệ, so khớp đồ thị keyphrase đo lường mức độ tương quan ngữ nghĩa tài liệu câu truy vấn sở kế thừa phương pháp có sẵn điều chỉnh cho phù hợp với yêu cầu - Bài tốn tìm kiếm tìm kiếm theo ngữ nghĩa liệu Một số kết khác luận văn kể đến như: - Ứng dụng phát triển khoa học công nghệ để xây dựng hệ thống lấy tin tự động truy xuất, tìm kiếm thơng tin, phân tích đánh giá thực trạng, nhu cầu khả nghiên cứu phát triển giải pháp ứng dụng - Nghiên cứu phương pháp biểu diễn tri thức đại, - Tìm hiểu tổng quan hệ thống tìm kiếm thơng tin bao gồm định nghĩa, cấu trúc hệ thống, phân loại hệ 28 thống, khảo sát thực trạng, phương pháp mơ hình truy hồi thơng tin, chiến lược tìm kiếm, tiêu chuẩn đánh giá hệ thống truy tìm thơng tin; đánh giá ưu khuyết điểm hệ thống, phương pháp định hướng phát triển - Tìm hiểu phương pháp tính khoảng cách ngữ nghĩa khái niệm độ đo chuỗi, phương pháp kỹ thuật biểu diễn tài liệu, lập mục tự động cho tài liệu, rút trích khái niệm từ tài liệu, …  Hạn chế đề tài Hạn chế đề tài chức lấy tin tức từ internet bán tự động Một hạn chế lớn đề tài biểu diễn phần nhỏ tri thức lĩnh vực nội vụ Thuật tốn tính độ tương đồng ngữ nghĩa hai tập keyphase đơn giản, chưa xử lý tốt quan hệ phức tạp, điều dẫn đến kết tìm kiếm khơng thực xác số trường hợp  Hƣớng phát triển Tiếp tục hoàn thiện chức lấy tin tự động, có lưu cấu trúc nguồn lấy tin để có cập nhật có thay đổi cấu trúc Tiếp tục phát triển, hồn thiện mơ hình biểu diễn tri thức, biểu diễn ngữ nghĩa tài liệu, mơ hình tổ chức lưu trữ kho tài liệu theo ngữ nghĩa Vấn đề biểu diễn liệu CSDL cải tiến thêm 29 TÀI LIỆU THAM KHẢO [1] Cao Hồng Trụ (2005), VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ - Khoa Công Nghệ Thông Tin, Đại học Bách khoa TP.HCM [2] Huỳnh Thị Thanh Thương (2012), Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếmngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT, Luận văn thạc sĩ, Trường Đại học Khoa học Tự nhiên TP Hồ Chí Minh [3] Lê Quang Định (2013), Nghiên cứu công nghệ Web 3D (Semantic Web) khả triển khai ứng dụng, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [4] Nguyễn Công Nhật Thư viện Quốc gia Việt Nam [Online] [5] Nguyễn Thị Trang (2013), Nghiên cứu phương pháp trích rút văn từ trang web ứng dụng, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [6] Phạm Hồng Đạc (2015), Xây dựng hệ tra cứu tài liệu số theo ngữ nghĩa lĩnh vực lịch sử Việt Nam trung tâm lưu trữ quốc gia II, Luận văn Thạc sĩ, Học viện CNBCVT TP Hồ Chí Minh [7] Trương Mạnh Hà (2009), Nghiên cứu số kỹ thuật lấy tin tự động internet, Luận văn Thạc sĩ, Đại học Thái Nguyên [8] Diem L.T.H., J.-P CHEVALLET, D.T.B Thuy (2007), “Thesaurus-based query and document expansion in conceptual indexing with UMLS RIVF” [9] Dean Allemang and Jim Hendler (2011), Semantic Web for the Working Ontologist 225 Wyman Street, Waltham, MA 02451, USA: Elsevier 30 [10] Haav, H.-M and T.-L Lubi (2001), “A Survey of Conceptbased Information Retrieval Tools on the Web”, in 5th EastEuropean Conference [11] Henrik Bulskov Styltsvig (2006), Ontology-based Information Retrieval, Roskilde University, Denmark, p Computer Science Section [12] Nhon Do, Thuong Huynh, An Pham (2011), “Organization model of semantic document repository and search techniques for studying information technology,” WASET - ICEEEL 2011 : International Conference on e-Education and e-Learning [13] Nhon Do, Long Van Ho (2015), “Domain-Specific Keyphrase Extraction and Near-Duplicate Article Detection based on Ontology” 2015 IEEE RIVF International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future [14] John Hebeler, Matthew Fisher, Ryan Blace, and Andrew PerezLopez (2008), Semantic Web Programming, Indianapolis, Indiana: Wiley [15] Paea LePendu, DejingDou, GwenA.Frishkoff, and Jiawei Rong (2008), Ontology Database: A New Method for Semantic Modeling and an Application to Brainwave Data Berlin, Germany: Springer-Verlag [16] https://en.wikipedia.org/wiki/Semantic_search, truy cập ngày 20/10/2017 ... đề tài khoa học, từ xử lý tìm kiếm thơng tin hữu ích theo phương pháp ứng dụng tìm kiếm theo ngữ nghĩa Ứng dụng bước đầu thử nghiệm lấy tin website Sở Khoa học Công nghệ số tỉnh website viện,... cầu tìm kiếm, tập hợp thông tin đề tài khoa học internet về, hạn chế phương pháp, phân tích kết đề tài liên quan Trình bày mục tiêu, yêu cầu ý nghĩa đề tài 1.1 Khảo sát trạng nhu cầu tìm kiếm. .. vực đề tài khoa học internet địa phương, quan, viện nghiên cứu việc quan trọng cá nhân hay tổ chức tham gia viết đề tài khoa học Tuy nhiên, phương pháp thu thập xử lý thông tin lĩnh vực khoa học

Ngày đăng: 12/03/2018, 16:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan