NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT

53 341 2
NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÁO CÁO LUẬN VĂN THẠC SĨ NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT HỌC VIÊN: CHÂU KIM HÙNG HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ VĂN NHƠN Nội dung Giới thiệu đề tài Cải tiến mơ hình CK-ONTO Các vấn đề thuật giải cải tiến Ứng dụng thử nghiệm Kết luận hướng pháp triển 1.1 Đặt vấn đề Tầm quan trọng hệ thống thư viện điện tử, hệ quản lý tài nguyên học tập Một số cơng cụ tìm kiếm hệ thống quản lý tài nguyên thông dụng 1.1 Đặt vấn đề (tt) Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đưa giải pháp tổng thể, mang tính hệ thống cho việc quản lý thơng tin ngữ nghĩa liên quan đến nội dung tài liệu hỗ trợ biểu diễn ngữ nghĩa xử lý truy vấn tài liệu Kết quả: Ứng dụng quản lý Hệ thống tổng kho tài liệu học tập hợp tin tức trực lĩnh vực CNTT tuyến Hạn chế: Khả biểu diễn ngữ nghĩa tri thức cho lĩnh vực ontology nhiều hạn chế, việc biểu diễn nội dung tài liệu kỹ thuật xử lý ngữ nghĩa đơn giản: - Kỹ thuật tính tốn so khớp đồ thị keyphrase - Thuật giải xử lý câu truy vấn Chưa xây dựng hồn chỉnh rút trích keyphrase tự động để tạo tập đồ thị keyphrase biểu diễn cho tài liệu Chưa xây dựng lập mục tự động cho tập tài liệu 1.2 Mục tiêu đề tài Nghiên cứu đề xuất mơ hình ontology cải tiến dựa việc định nghĩa thành phần lớp có mơ tả cấu trúc thông tin xây dựng tập luật phổ biến miền tri thức lĩnh vực: - Mở rộng việc xử lý câu truy vấn - Cải tiến kỹ thuật tính tốn so khớp đồ thị keyphrase Ứng dụng: thừa kế xây dựng hệ thống quản lý tài nguyên học tập lĩnh vực KHMT phạm vi trường đại học Với tác vụ chính: tổ chức quản lý lưu trữ tìm kiếm (giới hạn phạm vi kho tài liệu tiếng Anh) Cải tiến mơ hình CK-ONTO Vai trị ontology giải pháp Mơ hình CK-ONTO Mơ hình CK-ONTO cải tiến 2.1 Vai trị ontology giải pháp Mơ hình sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB) D Tập hợp tài liệu, tài liệu tương ứng tập tin FS CK-ONTO DB SDB_R Mơ hình lưu trữ kho tài liệu theo hệ thống thư mục có qui chuẩn Mơ hình ontology mơ tả tri thức lĩnh vực Mơ hình lớp Cơ sở liệu kho tài liệu Các hàm liên kết thànhphần 2.1 Vai trò ontology giải pháp Ontology thành phần quan trọng mơ hình tổng thể Khả biểu diễn ngữ nghĩa tri thức cho lĩnh vực ontology định toàn hiệu hệ thống, ảnh hưởng đến hầu hết kỹ thuật xử lý:  Biểu diễn ngữ nghĩa cho tài liệu  Đo lường mức độ liên quan ngữ nghĩa tài liệu câu truy vấn  Xử lý câu truy vấn  Kỹ thuật tìm kiếm theo ngữ nghĩa tài liệu  … Cải tiến mơ hình ontology mang lại ý nghĩa quan trọng cho toàn hệ thống 2.2 Mơ hình CK-ONTO Mơ hình “Ontology cho keyphrase phân lớp” (CK-ONTO) (K, C, RKC, RCC, RKK, label) đó, thành phần mơ tả sau:  K : tập hợp keyphrase  C : tập hợp lớp keyphrase  RKC : tập hợp quan hệ keyphrase lớp  RCC : tập hợp quan hệ lớp  RKK : tập hợp quan hệ keyphrase  label : hàm gán nhãn phân loại keyphrase 2.2 Mơ hình CK-ONTO (tt) Ontology thành phần quan trọng mơ hình tổng thể hệ thống chủ yếu dựa tập keyphrase tập lớp; mà lớp chứa keyphrase, quan hệ thuộc keyphrase lớp, quan hệ phân cấp lớp => Vì vậy, khả thể ngữ nghĩa kiến thức cho lĩnh vực ontology hạn chế; việc biểu diễn nội dung tài liệu kỹ thuật xử lý ngữ nghĩa đơn giản Chẳng hạn giải thuật tính độ liên quan mặt ngữ nghĩa hai keyphrase kỹ thuật tính tốn so khớp đồ thị keyphrase chậm nhiều trường hợp có độ xác chưa cao Vấn đề 1: Đo độ tương đồng ngữ nghĩa (tt) Ví dụ: Xác định mối quan hệ ngữ nghĩa hai keyphrase: Keyphrase graph KR model Suy [“keyphrase graph”, Rkind-of, “knowledge representation model”] từ [“keyphrase graph”, Rkind-of, “conceptual graph”] [“conceptual graph”, Rkindof, “knowledge representation model”] luật r2 Suy [“knowledge representation model”, Rsyn, “KR model”] từ [“KR model”, Rsyn, “knowledge representation model”] luật r1 Suy [“keyphrase graph”, Rkind-of, “KR model”] từ [“keyphrase graph”, Rkind_of, “knowledge representation model”] [“knowledge representation model”, Rsyn, “KR model”] luật r9 Vấn đề 1: Đo độ tương đồng ngữ nghĩa (tt)  Cải thiện kỹ thuật tính tốn  từ thành phần luật: Định nghĩa α: a (k,k ') = if !r(k,k ') // khơng có liên kết ngữ nghĩa k k’ a (k,k ') = Max{val _ ri (k,k ')} // tồn quan hệ từ k đến k’ đó, quan hệ ri hai keyphrase k k’ xác định dựa vào kỹ thuật suy diễn tập quan hệ tập luật ontology trình bày < val _ ri (k,k ') < 1: trọng số gán cho quan hệ ri cặp keyphrase k k’ Quan hệ ngữ nghĩa [min, max] r1 Synonym [0.95, 0.99] r2 Acronym [0.95, 0.99] r3 Near synonym [0.9, 0.94] r4 A part of [0.8, 0.84] r5 A kind of [0.85, 0.89] r6 Extension [0.75,0.79] … Vấn đề 2: Xử lý câu truy vấn Sơ đồ quy trình xử lý câu truy vấn thông qua hai bước Vấn đề 2: Xử lý câu truy vấn (tt) Giai đoạn 1: Nhận dạng xử lý câu truy vấn đặc biệt Các dạng câu truy vấn đặc biệt: Dạng 1: query := sorting algorithm Dạng 2: query := + heuristic algorithm Dạng 3: query := + has/have/with/on + Sorting algorithm has/with logarit complexity Problems on graph data structure/graph Dạng 4: query := + use/not use/with/not with + Algorithm use/with heuristic Vấn đề 2: Xử lý câu truy vấn (tt) Ví dụ: Nhận dạng xử lý cấu truy vấn “Searching algorithm has logarit complexity” Tách câu truy vấn thành ba phần: q1  “Searching algorithm” q2  “has” q3  “logarit complexity” Duyệt tập lớp ontology thấy q1 có trùng với tên lớp SEARCHING ALGORITHM Duyệt lớp thực thể lớp SEARCHING ALGORITHM thấy có thực thể {Binary search algorithm} có thuộc tính có giá trị q3 Output  {“Binary search algorithm”} => Câu truy vấn nhận dạng câu truy vấn đặc biệt dạng biến đổi thành tập truy vấn mở rộng, kết hợp với câu truy vấn ban đầu người dùng ta tập truy vấn: {“Binary search algorithm”, “Searching algorithm has logarit complexity”} Vấn đề 2: Xử lý câu truy vấn (tt) Giai đoạn 2: Biểu diễn câu truy vấn thành đồ thị keyphrase Qui trình biến đổi câu truy vấn thành đồ thị keyphrase Vấn đề 2: Xử lý câu truy vấn (tt) Ví dụ: Tạo đồ thị keyphrase cho câu truy vấn “Semantic search with conceptual graph” Phân tách nội dung tìm kiếm ta được: “Semantic search with conceptual graph” Các keyphrase ứng viên rút trích mơ tả nội dung tìm kiếm là: “semantic search” “conceptual graph” Tìm mối quan hệ ngữ nghĩa instrument hai keyphrase ứng viên ontology hệ thống Xây dựng đồ thị keyphrase biểu diễn cho câu truy vấn sau Ứng dụng thử nghiệm Đánh giá hiệu truy tìm tài liệu so với hệ thống cũ: độ xác (precision) độ phủ (recall) STT Kho thử nghiệm gồm 500 tài liệu phân bố cho chuyên ngành hẹp KHMT Câu truy vấn (q) Programming language Data structure and algorithm T Ontology bao gồm khoảng 6000 keyphrase 59 lớp Thử nghiệm 50 câu truy vấn chọn lọc tính tốn độ đo tương ứng với ngưỡng chặn 0.5 S U Precision Precision % (S/T) (old) 50 94,11 83,93 Recall % (S/U) 98 Recall (old) 94 51 48 145 141 155 97,24 90,67 90,97 87,74 Algorithm using heuristic 41 41 46 100 83,67 89,00 89,13 Conceptual graph 45 40 40 88,89 80,85 100 95 Artificial intelligence 98 89 108 90,82 86 82,41 79,63 Knowledge representation 62 52 59 83,87 81,82 88,14 91,53 Programming language with dynamic type checking 59 52 60 88,14 94,12 86,67 80 Gesture recognition 24 20 22 83,33 78,26 90,01 81,82 Probabilistic Model 56 49 57 87,50 85,71 85,97 84,21 10 Information retrieval 98 91 95 92,86 89,90 95,79 93,68 11 Tree has two degree 28 24 26 89,29 81,48 96,15 84,62 12 Unsupervised learning 78 72 77 92,31 88,61 93,51 90,91 Ứng dụng thử nghiệm (tt) 92.00% 90.00% 88.00% Bảng so sánh độ xác hệ thống với hệ thống cũ 86.00% Old 84.00% New 82.00% 80.00% 78.00% 76.00% 100 200 350 500 90.00% 88.00% Bảng so sánh độ phủ hệ thống với hệ thống cũ 86.00% 84.00% Old 82.00% New 80.00% 78.00% 76.00% 100 200 350 500 Kết luận hướng phát triển KẾT QUẢ: Đề xuất mơ hình ontology cải tiến với kỹ thuật xử lý ngữ nghĩa để cải thiện giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa kho tài liệu KHMT Mơ hình ontology cải tiến mơ tả tri thức lĩnh vực thừa kế từ đặc tính từ mơ hình cũ thay đổi, bổ sung thành phần LÝ THUYẾT Mở rộng kỹ thuật xử lý câu truy vấn Cải thiện kỹ thuật tính tốn so khớp đồ thị keyphrase Kết luận hướng phát triển (tt) Triển khai hệ thống quản lý tài nguyên học tập lĩnh vực KHMT phạm vi trường đại học Chức hệ thống: ỨNG DỤNG 1.Tổ chức lưu trữ, quản lý 2.Tìm kiếm: định hướng theo thư mục phân cấp, theo từ khóa, CSDL, đặc biệt chức tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu Hệ thống đáp ứng mục tiêu đề ra, giao diện thân thiện gần gũi Kết tốt so với hệ thống cũ tập liệu thử nghiệm Kết luận hướng phát triển (tt) HẠN CHẾ Chưa biểu diễn hết tri thức lĩnh vực KHMT  Chưa định nghĩa nhiều lớp khái niệm  Ontology xây dựng phương pháp thủ cơng nên cịn trường hợp thiếu sót hay dư thừa keyphrase quan hệ  Tốn nhiều chi phí xây dựng trì Ứng dụng Chỉ giới hạn phạm vi kho tài liệu tiếng Anh (vấn đề mới, chưa có lời giải tối ưu, xây dựng CSTT gặp nhiều khó khăn) Mặc dù mở rộng kỹ thuật xử lý câu truy vấn đơn giản, chưa tận dụng đầy đủ thông tin cấu trúc lớp Hệ thống cịn chức năng, chưa ý đến nhiều tiện ích khác cho người dùng Kết luận hướng phát triển (tt) Nghiên cứu công cụ hỗ trợ tự động: rút trích keyphrase, lập mục tài liệu, … HƯỚNG PHÁT TRIỂN Tiếp tục phát triển, hồn thiện mơ hình biểu diễn tri thức, biểu diễn ngữ nghĩa tài liệu, mơ hình tổ chức kho tài liệu theo ngữ nghĩa Hoàn chỉnh hệ ứng dụng quản lý tài nguyên học tập lĩnh vực CNTT, mở rộng thêm nhiều chức năng, tiện ích Mở rộng cho nhiều lĩnh vực, loại hình ứng dụng khác nhau, Khai thác thành phần lớp ontology để mở rộng việc xử lý câu truy vấn phức tạp hỗ trợ việc biểu diễn ngữ nghĩa nội dung tài liệu Công trình nghiên cứu cơng bố: VanNhon Do, TruongAn PhamNguyen, Hung K Chau, ThanhThuong T Huynh, “Improved semantic representation and search techniques in a document retrieval system design”, International Conference on Software and Information Systems, Las Vegas, USA, May 9-10, 2015 Trân trọng cảm ơn Châu Kim Hùng Học viên Khoa Khoa học Máy Tính Trường Đại học Cơng nghệ Thông tin, ĐHQG TP HCM Khu phố 6, P Linh Trung, Quận Thủ Đức, Tp Hồ Chí Minh ĐT: (08) 372 52002 - Fax: (08) 372 52148 ... 350 500 Kết luận hướng phát triển KẾT QUẢ: Đề xuất mô hình ontology cải tiến với kỹ thuật xử lý ngữ nghĩa để cải thiện giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa kho tài liệu KHMT Mơ... diễn ngữ nghĩa, biểu diễn tài liệu, lập mục cho tài liệu (3) xây dựng chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu 2.3 Mơ hình CK-ONTO cải tiến Mơ hình CK-ONTO cải tiến hệ. .. tìm kiếm hệ thống quản lý tài nguyên thông dụng 1.1 Đặt vấn đề (tt) Giải pháp ? ?Thiết kế hệ thống truy vấn tài liệu? ?? đưa giải pháp tổng thể, mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa

Ngày đăng: 18/05/2015, 20:47

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan