Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính

111 877 4
Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  CHÂU KIM HÙNG NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH - NĂM 2014 ` ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  CHÂU KIM HÙNG NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT LUẬN VĂN THẠC SĨ, KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ VĂN NHƠN TP HỒ CHÍ MINH - NĂM 2014 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, tất cơng việc kết nghiên cứu trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Thành phố Hồ Chí Minh, ngày 15 tháng 12 năm 2014 Học viên Châu Kim Hùng LỜI CẢM ƠN Đầu tiên, em xin bày tỏ lịng biết ơn chân thành đến Phó giáo sư tiến sĩ Đỗ Văn Nhơn, người tận tình hướng dẫn, tạo điều kiện thuận lợi để em hoàn thành tốt đề tài luận văn Thầy định hướng cho em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học công việc cụ thể Em xin chân thành cảm ơn thầy Ngô Tuấn Kiệt cô Nguyễn Thị Diễm Thuý hỗ trợ em suốt trình làm luận văn Chân thành cảm ơn cô Huỳnh Thị Thanh Thương thầy Phạm Nguyễn Trường An giúp đỡ, kiểm thử đưa nhận xét hữu ích để đề tài tốt Xin gửi lời cảm ơn đến gia đình, cảm ơn anh chị, bạn bè, người sát cánh, động viên bước đường học tập sống Xin chân thành biết ơn tận tình dạy dỗ giúp đỡ tất quý thầy cô trường Đại học Công nghệ Thông tin Tất kiến thức mà nhà trường quý thầy cô truyền đạt hành trang to lớn để mang theo đường học tập, làm việc nghiên cứu q trình hồn thiện nhân cách MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CNTT : Công nghệ thông tin KHMT : Khoa học máy tính CK_ONTO : Classified Keyphrase based Ontology CSDL : Cơ sở liệu DRS : Document Retrieval System HĐH : Hệ điều hành IR : Information Retrieval KĐTNN : Keyphrase đặc trưng ngữ nghĩa SDB : Semantic Document Base DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Hiện hệ thống thư viện điện tử hay hệ quản lý văn tài nguyên học tập hỗ trợ xử lý liên quan tới ngữ nghĩa nước ta hướng nhiều tiềm Các tổ chức giáo dục đào tạo, đơn vị nghiên cứu triển khai CNTT đặc biệt trường đại học viện nghiên cứu ngày quan tâm nhiều đến lĩnh vực Theo chủ trương Bộ Giáo dục Đào tạo, nhiều trường đại học đầu tư vào việc xây dựng đổi hệ thống hỗ trợ giảng dạy học tập giảng viên học sinh Những đầu tư nhằm đáp ứng tiêu chí giáo dục thời đại mà người học đóng vai trị trung tâm chủ động, học lúc, nơi Các hệ thống xem cơng cụ hỗ trợ việc học tập nghiên cứu Bên cạnh bổ sung hỗ trợ cho phương tiện đào tạo truyền thống, tạo nhiều hội học tập cho đông đảo người học khác đặc biệt góp phần đại hố nâng cao chất lượng giảng dạy Đã có số cơng trình liên quan đến vấn đề tổ chức quản lý xử lý tìm kiếm theo nội dung Tuy nhiên kết đạt hạn chế chưa đủ để đáp ứng cho nhu cầu khai thác thông tin người dùng Các giải pháp công nghệ phổ biến có nhiều hỗ trợ cho giải pháp ứng dụng quản lý tài nguyên học tập, chủ yếu mức xử lý liệu Do chưa đủ khả diễn giải, kết hợp tài nguyên theo ngữ nghĩa nội dung hay tri thức liên quan Vì tính hệ thống chưa đủ đáp ứng yêu cầu sử dụng ngày cao, đặc biệt việc tổ chức xử lý tích hợp liệu, thơng tin tri thức Xuất phát từ nhu cầu thực tế khả nghiên cứu phát triển giải pháp ứng dụng Đề tài “Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếm có ngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT” đưa giải pháp tổng thể, mang tính hệ thống cho việc quản lý kho tài nguyên học tập chuyên ngành, lĩnh vực đặc biệt CNTT Giải pháp đáp ứng mức độ hệ thống hồn chỉnh, cịn nhiều vấn đề cần cải thiện như: việc biểu diễn thông tin ngữ nghĩa cho lĩnh vực sâu hơn, xử lý dạng truy vấn phức tạp hơn, xây dựng rút trích keyphrase tự động cải tiến cơng thức tính độ tương đồng ngữ nghĩa, v.v Do đó, mục tiêu đề tài đặt nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa kho tài liệu KHMT Cụ thể việc đóng góp cải tiến mặt giải pháp đề tài tập trung nghiên cứu cải tiến mơ hình ontology vài vấn đề liên quan xử lý ngữ nghĩa để giúp hệ thống biểu diễn tri thức lĩnh vực sâu khả suy diễn ngữ nghĩa tốt Dựa vào xây dựng ứng dụng quản lý tài nguyên học tập lĩnh vực KHMT (giới hạn phạm vi kho tài liệu tiếng Anh) với khả tìm kiếm tài liệu dựa vào ngữ nghĩa đầy đủ xác để hỗ trợ việc học tập, giảng dạy nghiên cứu Các đóng góp từ kết nghiên cứu đề tài: • Đối với hệ thống giáo dục đề tài góp phần nâng cao hiệu công tác tổ chức quản lý chia nguồn tài nguyên học tập; nâng cao chất lượng đào tạo hiệu nghiên cứu khoa học; tiết kiệm thời gian học tập làm việc; tăng cường khả hỗ trợ đối tượng sử dụng tra cứu, tìm kiếm tài liệu điện tử phục vụ cho việc học tập, giảng dạy nghiên cứu • Đối với lĩnh vực khoa học có liên quan đề tài đóng góp vào việc thúc đẩy nhu cầu ứng dụng CNTT phục vụ đào tạo; thúc đẩy phát triển CNTT lĩnh vực tìm kiếm tự động; triển khai áp dụng rộng rãi cho nhiều trường học, tổ chức khác mở rộng phạm vi ứng dụng nhiều lĩnh vực quản lý văn quy phạm pháp luật, quản lý văn hành chính, … Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, đề tài cịn có đóng góp phát triển, đề xuất mặt mơ hình kỹ thuật giải pháp thiết kế tốt từ nhược điểm giải pháp trước Việc nghiên cứu phát triển mơ hình biểu diễn tri thức với việc áp dụng chiến lược suy diễn tự động dựa luật có ý nghĩa lớn mặt lý thuyết ứng dụng Trí tuệ nhân tạo, hệ thống quản lý dựa tri thức Các kết nghiên cứu liên quan sở công cụ cho việc xây dựng hệ sở tri thức, hệ chun gia, hệ thống thơng minh nói chung nhiều hệ thống 10 Chương 4: Cài đặt - thử nghiệm Hình 4.16 Trang quản lý ontology hệ thống Phương pháp tổ chức lưu trữ cho ontology cách thức lưu trữ thông tin keyphrase, lớp khái niệm mối quan hệ chúng ổ đĩa Kiến thức lĩnh vực KHMT theo mơ hình ontology CK_ONTO cải tiến tổ chức hệ thống bảng quan hệ bảng sở liệu quan hệ Ontology lưu sở liệu tối ưu hóa cho phép tìm kiếm Vì vậy, việc truy vấn sở liệu nhanh chóng duyệt thành ontology trực quan rõ ràng, bù lại việc cập nhật ontology có chi phí lớn Tuy nhiên cập nhật ontology việc khơng thường xun làm ontology tri thức thay đổi • Trang xác định mối quan hệ ngữ nghĩa tự động keyphrase 97 Chương 4: Cài đặt - thử nghiệm Hình 4.17 Giao diện xác định mối quan hệ ngữ nghĩa keyphrase Giao diện thể cho ta thấy mối liên kết ngữ nghĩa keyphrase trung gian trình tìm kiếm mối liên kết ngữ nghĩa keyphrase nguồn keyphrase đích thơng qua tập luật suy diễn Bên cạnh giao diện cịn thể giá trị liên kết ngữ nghĩa hai keyphrase (giá trị α công thức (3.1)) giúp ta biết độ mức độ liên quan mặt ngữ nghĩa keyphrase Từ đó, ta kiểm sốt việc suy luận q trình tìm kiếm quan hệ chỉnh sửa cần thiết để giúp ontology biểu diễn kiến thức lĩnh vực ngày tốt 4.3 KẾT QUẢ THỬ NGHIỆM Để đánh giá hiệu truy tìm tài liệu hệ thống so với hệ thống cũ, sử dụng hai độ đo độ xác (precision) độ bao phủ (recall) để đo thỏa mãn người dùng với tài liệu mà hệ thống tìm thấy Hiện tại, chúng tơi xây dựng liệu chuẩn kho tài liệu học tập thuộc lĩnh vực KHMT để thử nghiệm, bao gồm: ontology theo mơ hình CK-ONTO giải pháp cũ (thừa kế từ ontology lĩnh vực CNTT, chỉnh sửa bổ sung thành ontology lĩnh vực KHMT) ontology theo mơ hình CK-ONTO 98 Chương 4: Cài đặt - thử nghiệm cải tiến đề xuất luận văn (kế thừa từ ontology trên); kho tài liệu học tập thu thập có kích thước khoảng 50 GB, bao gồm 30,000 tập tin tài liệu với kiểu định dạng khác pdf, doc, ppt, rar, zip…, dàn trải đủ cho bốn nhóm nhỏ đặc trưng chuyên ngành KHMT là: Nhóm sở ngành, Cơng nghệ tri thức máy học, Xử lý ngôn ngữ tự nhiên Đồ hoạ máy tính Tuy nhiên, cơng tác thực nghiệm gặp nhiều khó khăn tốn nhiều chi phí xây dựng gia cơng liệu vốn phải có can thiệp người, đòi hỏi kiến thức chuyên gia lĩnh vực phụ thuộc nhiều vào ngơn ngữ Hơn nữa, việc đánh giá hiệu tìm kiếm hệ thống địi hỏi nhiều cơng sức thủ cơng cho việc xác định tập tài liệu có liên quan đến mẫu truy vấn tổng số tài liệu có kho để so sánh với kết trả hệ thống Với hạn chế trên, tiến hành thử nghiệm kho tài liệu tổ chức theo mô hình SDB với kích thước từ 100, 200, 350 đến 500 tài liệu tiếng Anh chuyên ngành KHMT hai hệ thống, bao gồm báo khoa học, sách điện tử, luận văn/luận án, phân bố cho nhóm nêu Các tập tin tài liệu có kích thước từ 50 KB đến 80000 KB Ứng với kho tài liệu, thực khảo sát 50 câu truy vấn có chọn lọc tính tốn độ đo recall, precision tương ứng, với ngưỡng chặn 0.5 Hệ thống tìm hầu hết tài liệu có liên quan đến nội dung cần tìm xếp theo thứ tự độ liên quan giảm dần xác so với thứ tự độ liên quan hệ thống cũ Kết thực nghiệm với độ đo precision trung bình hệ thống 87,74% độ đo recall trung bình 88,15% tập CSDL thử nghiệm so với hệ thống cũ 82,43% 81,98% Gọi S: số lượng tài liệu mà hệ thống tìm thấy đánh giá có liên quan theo người dùng T: tổng số tài liệu tìm thấy hệ thống U: tổng số tài liệu liên quan theo đánh giá người dùng có kho Bảng 4.1 Thống kê kết tìm kiếm kho gồm 500 tài liệu từ hệ thống ST T Câu truy vấn (q) T Programming language S 51 99 U 48 precisio Recall n% % (S/T) (S/U) 50 94,11 98 Chương 4: Cài đặt - thử nghiệm 10 11 12 Data structure and algorithm Algorithm using heuristic Conceptual graph Artificial intelligence Knowledge representation Programming language with dynamic type checking Gesture recognition Probabilistic Model Information retrieval Tree has two degree Unsupervised learning 145 41 45 98 62 59 141 41 40 89 52 52 155 46 40 108 59 60 97,24 100 88,89 90,82 83,87 88,14 90,97 89,00 100 82,41 88,14 86,67 24 56 98 28 78 20 49 91 24 72 22 57 95 26 77 83,33 87,50 92,86 89,29 92,31 90,01 85,97 95,79 96,15 93,51 Bảng 4.2 Thống kê kết tìm kiếm kho gồm 500 tài liệu từ hệ thống cũ ST T Câu truy vấn (q) Programming language Data structure and algorithm Algorithm using heuristic Conceptual graph Artificial intelligence Knowledge representation Programming language with dynamic type checking Gesture recognition Probabilistic Model Information retrieval Tree has two degree Unsupervised learning 10 11 12 T S U 56 150 49 47 100 66 51 47 136 41 38 86 54 48 50 155 46 40 108 59 60 23 56 99 27 79 18 48 89 22 70 22 57 95 26 77 precisio Recall n% % (S/T) (S/U) 83,93 94 90,67 87,74 83,67 89,13 80,85 95 86 79,63 81,82 91,53 94,12 80 78,26 85,71 89,90 81,48 88,61 81,82 84,21 93,68 84,62 90,91 Bảng 4.3 Bảng so sánh độ xác hệ thống với hệ thống cũ Bảng 4.4 Bảng so sánh độ phủ hệ thống với hệ thống cũ 4.4 ĐÁNH GIÁ SO SÁNH Với mơ hình tìm kiếm chun biệt có tính tập trung cao vào chuyên ngành KHMT, kết trả có độ xác cao tập CSDL thử nghiệm, đánh giá thoả mãn tốt nhu cầu khai thác thông tin người sử dụng Với việc tích hợp khả phân tích ngữ nghĩa, kết trả về, chúng 100 Chương 4: Cài đặt - thử nghiệm ta tìm thấy liệu liên quan khác từ mở rộng vấn đề ngồi kết tìm kiếm Từ kết thực tế cho thấy, việc cải tiến mơ hình ontology với kỹ thuật xử lý liên quan giúp cho hệ thống tìm kiếm với độ xác độ phủ trung bình cao so với hệ thống cũ liệu thử nghiệm Vẫn có số trường hợp hệ thống cũ cho kết tốt hơn, nhìn chung hệ thống đem lại kết khả quan nhiều Ngồi kết thực nghiệm trình bày Việc triển khai thử nghiệm mơ hình giải pháp đem lại thành công đáng khích lệ Hệ thống cho thấy tính khả thi thực nghiệm giải pháp cải tiến mặt mơ hình kỹ thuật xử lý Mơ hình ontology cải tiến giúp cho hệ thống biểu diễn thông tin, kiến thức lĩnh vực đầy đủ tốt Việc thêm vào thành phần lớp mô hình ontology hướng tiến cận đại hiệu quả, thành phần khai thác nhiều việc nghiên cứu phát triển sau Bên cạnh đó, thành phần tập luật suy diễn ontology giúp cho hệ thống có khả xác định mối quan hệ ngữ nghĩa đối tượng cách tự động, nhanh chóng xác so với giải pháp cũ 101 Chương 5: Kết luận hướng phát triển CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 KẾT QUẢ CỦA LUẬN VĂN Với mục tiêu đề ban đầu, luận văn thực hoàn chỉnh nội dung nghiên cứu Nhóm nghiên cứu đề xuất mơ hình ontology cải tiến với kỹ thuật xử lý ngữ nghĩa để cải thiện giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa kho tài liệu KHMT Qua làm sở công cụ cho việc thiết kế sở tri thức, suy diễn tìm kiếm tự động giao diện hệ thống quản lý kho tài nguyên nói chung kho tài liệu học tập lĩnh vực KHMT nói riêng Mơ hình ontology cải tiến giúp hệ thống có khả mở rộng việc xử lý câu truy vấn xác định độ tương đồng ngữ nghĩa keyphrase cách tự động Từ đó, cải thiện độ xác độ bao phủ tập kết trả trình tìm kiếm tài liệu theo ngữ nghĩa Luận văn phân tích đánh giá phương pháp tiếp cận việc tổ chức lưu trữ xử lý ngữ nghĩa tài liệu biết, đặc biệt giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT” Từ đó, mặt lý thuyết, luận văn đóng góp việc phát triển mơ hình biểu diễn tri thức lĩnh vực kỹ thuật xử lý liên quan tới ngữ nghĩa: - Mơ hình ontology cải tiến mơ tả tri thức lĩnh vực đặc biệt sử dụng keyphrase lớp khái niệm thành phần để định nghĩa khái niệm ontology Cấu trúc ontology thiết kế có tính tổng quát dễ dàng mở rộng cho nhiều lĩnh vực khác loại hình ứng dụng khác Mơ hình cho ta thể tương đối đầy đủ với cấu trúc tường minh cho lớp kiến thức tổng quát bao gồm thành phần chính: (1) tập hợp keyphrase biểu thị cho hệ thống thuật ngữ quan trọng lĩnh vực, (2) tập hợp lớp định nghĩa khái niệm tương đối lĩnh vực, (3) tập hợp quan hệ đối tượng bao gồm ba tập hợp con: tập hợp quan hệ lớp, tập hợp quan hệ keyphrase lớp tập hợp quan hệ keyphrase, (4) tập hợp luật suy diễn cuối (5) hàm gán nhãn 102 Chương 5: Kết luận hướng phát triển phân loại keyphrase theo phân cấp chủ đề từ phạm vi rộng đến hẹp - Đề xuất phương pháp xác định mối quan hệ ngữ nghĩa tự động đối tượng phương pháp suy diễn tiến từ tập luật định nghĩa ontology kiện liên quan đến keyphrase, lớp tính chất quan hệ Từ đó, giúp cho việc tính độ liên quan mặt ngữ nghĩa hai keyphrase kỹ thuật tính tốn so khớp đồ thị keyphrase nhanh chóng xác - Mở rộng kỹ thuật xử lý câu truy vấn: tận dụng thông tin mô tả trúc khái niệm định nghĩa ontology, tiến hành phân tích nhận dạng mẫu câu truy vấn để đưa câu truy vấn dạng cụ thể Nếu khơng có kết trả ta tiến hành xử lý cách rút trích tự động keyphrase diễn đạt nội dung muốn tìm kiếm, biểu diễn câu truy vấn thành danh sách keyphrase hay đồ thị keyphrase tùy theo chức tìm kiếm ngơn ngữ đặc tả câu truy vấn Bên cạnh việc nêu lên ưu lợi ích việc nghiên cứu, phát triển mơ hình với thuật giải tự động dựa ngữ nghĩa, cài đặt xây dựng ứng dụng thử nghiệm từ cải tiến Đây hệ thống quản lý kho tài nguyên học tập chuyên ngành KHMT phạm vi trường đại học với yêu cầu sử dụng bao gồm tác vụ tổ chức lưu trữ, quản lý tìm kiếm, đặc biệt chức tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu Từ sở để đánh giá tính hiệu việc cải tiến so với giải pháp cũ Kết đạt hệ thống cho kết tìm kiếm có độ xác trung bình 87,74% độ phủ trung bình 88,15% so với hệ thống cũ 82,43% 81,98% tập liệu 500 tài liệu phân bố tương đối đồng cho lĩnh vực Một số kết khác kể đến như: khắc phục trường hợp thiếu sót dư thừa keyphrase quan hệ giúp cho ontology biểu diễn tri thức lĩnh việc hoàn thiện Thu thập kho tài nguyên học tập lĩnh vực KHMT gần 50GB liệu thô tổ chức lưu trữ theo cấu trúc thư mục phân cấp Tài liệu phân loại theo chức sử dụng giảng dạy theo loại hình tài liệu 103 Chương 5: Kết luận hướng phát triển 5.2 HẠN CHẾ CỦA ĐỀ TÀI Việc xây dựng hệ thống quản lý kho tài liệu văn hỗ trợ tìm kiếm dựa ngữ nghĩa tài liệu mặt thực tế khó nhiều vấn đề vẫn chưa có lời giải tối ưu Các phương pháp kỹ thuật có thường hỗ trợ cho số miền tri thức định ứng dụng cụ thể Ngoài ra, việc xây dựng sở tri thức cho lĩnh vực gặp nhiều khó khăn tốn nhiều chi phí xây dựng trì vốn phải có can thiệp người, đòi hỏi kiến thức chuyên gia lĩnh vực phụ thuộc nhiều vào ngôn ngữ Trong bối cảnh đó, với khn khổ luận văn thạc sỹ, tập trung nghiên cứu phát triển cải tiến mơ hình ontology với kỹ thuật xử lý ngữ nghĩa liên quan Xây dựng thử nghiệm hệ thống quản lý kho tài liệu học tập lĩnh vực cụ thể chuyên ngành KHMT để đánh giá với giải pháp cũ giới hạn phạm vi kho tài liệu tiếng Anh Riêng đề tài, hạn chế lớn chưa định nghĩa nhiều khái niệm chuyên ngành KHMT Việc định nghĩa cấu trúc khái niệm phức tạp, đặc biệt khái niệm lĩnh vực chuyên ngành, đòi hỏi nhiều công sức kiến thức sâu rộng chuyên gia Bên cạnh đó, việc xây dựng ontology phương pháp thủ công theo ý kiến chủ quan người nên cịn trường hợp thiếu sót hay dư thừa keyphrase quan hệ cải thiện nhiều so với ontology cũ Tuy nhiên, việc định nghĩa khái niệm ontology tập lớp có mơ tả cấu trúc thơng tin cách tiếp cận đại phù hợp, giúp cho ontology mô tả thông tin miền lĩnh vực sâu Nếu tài nguyên từ vựng hay ontology xây dựng tốt, mô tả tương đối đầy đủ tri thức lĩnh vực việc sử chúng làm tăng độ xác khả vét cạn q trình tính tốn độ đo ngữ nghĩa tìm kiếm Quá trình xử lý câu truy vấn mở rộng, nhiên đơn giản, chưa tận dụng đầy đủ thông tin cấu trúc lớp Nếu thông tin lớp khai thác đầy đủ hệ thống có khả xử lý cấu truy vấn phức tạp dạng câu hỏi hay câu diễn đạt mệnh đề Mặc dù đơn giản sở cho việc mở rộng xử lý câu truy vấn so với việc lọc tách keyphrase giải pháp cũ Từ quy trình xử lý câu truy vấn đề xuất luận văn, 104 Chương 5: Kết luận hướng phát triển ta cần thêm vào việc nhận dạng loại câu truy vấn đặc biệt khác mà khơng làm ảnh hưởng tới quy trình xử lý chung hệ thống Ngoài giải pháp tồn hạn chế giải pháp cũ mà chưa giải như: việc đánh mục tự động, việc xây dựng đồ thị keyphrase biểu diễn cho tài liệu thực giám sát người, chương trình cịn chức năng, chưa ý đến tiện ích cho người dùng 5.3 HƯỚNG PHÁT TRIỂN Tiếp tục phát triển, hồn thiện mơ hình biểu diễn tri thức, biểu diễn ngữ nghĩa tài liệu, mô hình tổ chức lưu trữ kho tài liệu theo ngữ nghĩa Nghiên cứu phương pháp kỹ thuật xây dựng ontology phù hợp cho tiếng Việt Khai thác thành phần lớp ontology để mở rộng việc xử lý câu truy vấn phức tạp hỗ trợ việc biểu diễn ngữ nghĩa nội dung tài liệu Nghiên cứu công cụ hỗ trợ tự động khâu xử lý chẳng hạn mơ hình giải pháp rút trích tự động keyphrase từ tài liệu sở lai ghép phối hợp mô hình có, kỹ thuật xác suất thống kê, máy học, kỹ thuật xử lý ngôn ngữ tự nhiên Theo xây dựng cơng cụ hỗ trợ lập mục tự động cho tài liệu Xây dựng hoàn chỉnh hệ ứng dụng quản lý tài nguyên học tập lĩnh vực KHMT, mở rộng thêm nhiều chức năng, tiện ích cho đối tượng sử dụng Các kết nghiên cứu liên quan sở công cụ cho việc xây dựng nhiều hệ thống quản lý tài nguyên khác quản lý kho tài nguyên học tập tổng quát cho lĩnh vực, quản lý thư viện tổng hợp, quản lý văn hành chính, văn pháp luật hệ thống số khác Đề tài hoàn thành với số kết định nhiên không tránh khỏi thiếu sót Kính mong thơng cảm đóng góp ý kiến q thầy CƠNG TRÌNH ĐÃ CƠNG BỐ CĨ LIÊN QUAN ĐẾN LUẬN VĂN VanNhon Do, TruongAn PhamNguyen, Hung K Chau, ThanhThuong T Huynh, “Improved semantic representation and search techniques in a document retrieval system design”, International Conference on Software and Information Systems, Las Vegas, USA, May 9-10, 2015 105 TÀI LIỆU THAM KHẢO Tiếng Việt Lê Tấn Hùng, Từ Minh Phương & Huỳnh Quyết Thắng (2006), Tác tử công nghệ phần mềm hướng tác tử, Nhà xuất khoa học kỹ thuật, Hà Nội Lê Thúy Ngọc (2008), Xây dựng hệ thống tìm kiếm thơng tin theo hướng tiếp cận ngữ nghĩa, Luận văn thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM Huỳnh Thị Thanh Thương (2012), Nghiên cứu mơ hình tổ chức kỹ thuật tìm kiếm có ngữ nghĩa kho tài nguyên học tập lĩnh vực CNTT, Luận văn thạc sĩ, Trường Đại học Khoa học Tự nhiên TP.HCM Nguyễn Thị Bảo Trâm (2005), Thiết kế thực dịch vụ Ontology hỗ trợ thư viện số, Luận văn thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM Cao Hoàng Trụ (2005), VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ - Khoa Công Nghệ Thông Tin, Đại học Bách khoa TP.HCM Tiếng Anh Aly, A.A (2008), “Using a query expansion technique to improve document retrieval”, International Journal Information Technologies and Knowledge, Volumn Number Julita Bermejo (2007), A simplified guide to create an ontology, The Autonomous Systems Laboratory, Universidad Politecnica de Madrid Dario Bonino, Fulvio Corno, Laura Farinetti, Alessio Bosca (2004), “Ontology Driven Semantic Search”, WSEAS Transaction on Information Science and Application, Issue 6, Volume 1, pp 1597-1605 Graciela Brusa, Ma Laura Caliusco, Omar Chiotti (2006), “A Process for Building a Domain Ontology: an Experience in Developing a Government Budgetary Ontology”, Conferences in Research and Practice in Information Technology, Vol 72 10 Oscar Corcho, Mariano Fernández-López, Asunción Gómez-Pérez (2003), “Methodologies, tools and languages for building ontologies Where is their meeting point?”, Data & Knowledge Engineering 46, 41-64 11 Nhon Do (2014), “Ontology COKB for designing knowledge- based systems”, SOMET 2014, Pages 354-373 106 12 Henrik Eriksso (2007), “The semantic-document approach to combining documents and ontologies”, International Journal of Human-Computer Studies, Volume 65, Issue 7, Pages 624-639 13 D.Genest, M.Chein (1997), “An experiment in Document Retrieval using Conceptual Graph”, Proceeding of 5th ICCS Conference, Washington USA, P.489504 14 Jon Atle Gulla, Hans Olaf Borch, Jon Espen Ingvaldsen (2006), “Unsupervised Keyphrase Extraction for Search Ontologies”, Natural Language Processing and Information Systems, Lecture Notes in Computer Science Volume 3999, P 25-36 15 Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press Cambridge, England 16 Min Peng (2011), “Query expansion based on Conceptual Word Cluster Space Graph”, Information Science and Service Science (NISS), 2011 5th International Conference on New Trends in Volume 1, Pages 128-133 17 Natalya F Noy, Deborah L McGuinness (2001), “Ontology Development 101: A Guide to Creating Your First Ontology” Stanford Knowledge Systems Laboratory, Technical Report KSL-01-05 18 David Sánchez, Montserrat Batet (2013), “A semantic similarity method based on information content exploiting multiple ontologies”, Expert Systems with Applications, Volume 39, Issue 9, Pages 1393-1399 19 David Sánchez, Montserrat Batet, David Isern, Aida Valls (2012), “Ontology-based semantic similarity: A new feature-based approach”, Expert Systems with Applications, Volume 39, Issue 9, Pages 771–7728 20 Henrik Bulskov Styltsvig (2006), Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy 107 ... keyphrase tự động cải tiến cơng thức tính độ tương đồng ngữ nghĩa, v.v Do đó, mục tiêu đề tài đặt nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa kho tài liệu KHMT Cụ thể... liệu, cho phép tra cứu tìm kiếm tài liệu theo nhiều chức hỗ trợ tìm kiếm dựa từ khóa, tìm kiếm theo hệ thống thư mục có quy chuẩn hỗ trợ tìm kiếm theo ngữ nghĩa Về mặt lý thuyết, giải pháp ? ?Thiết. ..` ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  CHÂU KIM HÙNG NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT LUẬN VĂN

Ngày đăng: 18/05/2015, 20:38

Từ khóa liên quan

Mục lục

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • MỞ ĐẦU

  • CHƯƠNG 1

  • GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

    • 1.1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

      • 1.1.1. Một số công cụ tìm kiếm và hệ thống quản lý tài nguyên thông dụng

      • 1.1.2. Vấn đề truy tìm thông tin và biểu diễn ngữ nghĩa

      • 1.1.3. Giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT”

      • 1.2. MỤC TIÊU VÀ PHẠM VI CỦA ĐỀ TÀI

      • 1.3. PHƯƠNG PHÁP NGHIÊN CỨU

      • 1.4. NỘI DUNG THỰC HIỆN

      • CHƯƠNG 2

      • CƠ SỞ LÝ THUYẾT

        • 2.1. VẤN ĐỀ TRUY TÌM THÔNG TIN

          • 2.1.1. Cấu trúc của một hệ thống truy tìm thông tin

          • 2.1.2. Hệ thống tìm kiếm thông tin dựa trên khái niệm

          • 2.1.3. Các phương pháp truy hồi thông tin

          • 2.1.4. Đánh giá một hệ thống tìm kiếm thông tin

          • 2.2. ONTOLOGY

            • 2.3.1. Định nghĩa

            • 2.3.2. Các thành phần của ontology

Tài liệu cùng người dùng

Tài liệu liên quan