Tóm tắt: luận án tiến sĩ kỹ thuật truy hồi thông tin dựa trên ontology

40 273 0
Tóm tắt: luận án tiến sĩ kỹ thuật truy hồi thông tin dựa trên ontology

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2013 Cơng trình hồn thành tại: Trƣờng Đại học Bách Khoa Đại học Quốc Gia TpHCM Người hướng dẫn khoa học: PGS TS Cao Hoàng Trụ Phản biện độc lập 1: PGS TS Đồng Thị Bích Thủy Phản biện độc lập 2: PGS TS Lê Thanh Hƣơng Phản biện 1: PGS TS Đỗ Phúc Phản biện 2: TS Nguyễn Thị Minh Huyền Phản biện 3: PGS TS Dƣơng Tuấn Anh Luận án bảo vệ trước Hội đồng chấm luận án họp tại: ……………………………………………………………… ……………………………………………………………… Vào lúc …….giờ…….ngày……tháng……năm…… Có thể tìm hiểu luận án tại: - Thư viện Khoa học Tổng hợp Tp.HCM Thư viện Trường Đại học Bách Khoa – ĐHQG-TpHCM Chƣơng - GIỚI THIỆU Dữ liệu Web phần lớn văn phù hợp cho người đọc hiểu Do đó, việc nghiên cứu phát triển mơ hình truy hồi văn có độ đầy đủ độ xác cao cần thiết Trong luận án này, không cần nhấn mạnh, dùng thuật ngữ “truy hồi tài liệu” với ý nghĩa truy hồi văn Nhằm khắc phục nhược điểm nói mơ hình truy hồi tài liệu theo từ khóa, mơ hình truy hồi theo ngữ nghĩa khai thác biểu diễn nghĩa từ khái niệm tiềm ẩn truy vấn tài liệu Cùng với đời phát triển Web có ngữ nghĩa, ontology sử dụng rộng rãi việc nghiên cứu phát triển mô hình truy hồi tài liệu theo ngữ nghĩa Trong đó, nhiều cơng trình với mục đích nâng cao hiệu truy hồi tài liệu đã: (1) khai thác thực thể có tên; (2) khai thác từ WordNet; luận án, gọi từ WordNet từ mô tả ontology từ vựng WordNet; (3) thêm thơng tin vào truy vấn Ví dụ với truy vấn tìm kiếm tài liệu “Earthquake in USA” tài liệu “Earthquake in United States of America”, “Temblor in USA” “Earthquake in Denali, Alaska 2002” phù hợp với truy vấn Điều do: (1) USA United States of America hai bí danh (alias) thực thể có tên (Named Entity, NE); (2) Earthquake Temblor hai từ WordNet đồng nghĩa với nhau; (3) Denali, Alaska 2002 trận động đất xảy USA Trong đó, tài liệu “Earthquake in Fukushima 2011” khơng phù hợp với truy vấn Fukushima 2011 trận động đất xảy Japan, USA Để giải vấn đề này, cần khai thác đặc điểm ontology thực thể có tên, từ WordNet, kiện Mục tiêu luận án nghiên cứu khai thác ontology thực thể có tên, từ WordNet kiện để nâng cao hiệu truy hồi tài liệu Thứ nhất, luận án khảo sát tất đặc điểm ontology thực thể có tên nghiên cứu ảnh hưởng chúng đến hiệu truy hồi tài liệu Đồng thời, luận án nghiên cứu cách kết hợp thực thể có tên từ khóa truy hồi tài liệu Trong đó, so với cơng trình trước đây, luận án khai thác thêm cặp tên-lớp định danh thực thể có tên để biểu diễn truy vấn tài liệu Ngoài ra, luận án khai thác lớp thực thể mức cụ thể tiềm ẩn từ để hỏi dạng Wh Thứ hai, luận án nghiên cứu khai thác đặc điểm ontology từ WordNet kết hợp chúng với từ khóa Ngồi đặc điểm ontology từ WordNet nhãn nghĩa sử dụng cơng trình trước đây, luận án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trường hợp từ có nhiều nghĩa ngữ cảnh xem xét Thứ ba, luận án khai thác ontology kiện để thêm vào truy vấn thực thể tiềm ẩn liên quan với thực thể theo quan hệ tường minh truy vấn Các mơ hình đề xuất luận án sử dụng ontology thực thể có tên, từ WordNet kiện có độ bao phủ lớn, giải thuật nhận diện thực thể có tên phân giải nhập nhằng nghĩa từ có độ xác cao cơng trình khác Vì vậy, kết thí nghiệm luận án chịu ảnh hưởng chất lượng ontology công cụ xử lý sử dụng Tuy nhiên, ý nghĩa luận án nghiên cứu khác biệt hiệu truy hồi tài liệu mơ hình khác tảng ontology công cụ tiền xử lý Việc xây dựng hệ thống truy hồi tài liệu để dùng thực tiễn nằm phạm vi luận án Vì vậy, trọng tâm luận án vấn đề thời gian xử lý truy hồi tài liệu, mà độ xác độ đầy đủ mơ hình phương pháp đề xuất Luận án đề xuất mơ hình truy hồi tài liệu khai thác đặc điểm ontology thực thể có tên, từ WordNet kiện cách tương đối đầy đủ toàn diện nhằm nâng cao hiệu truy hồi, bao gồm: Mơ hình khai thác đặc điểm ontology thực thể có tên kết hợp chúng với từ khóa Mơ hình khai thác đặc điểm ontology từ WordNet kết hợp với từ khóa Mơ hình mở rộng truy vấn với thực thể có tên cách lan truyền theo quan hệ tường minh truy vấn Mô hình kết hợp phương pháp mơ hình đề xuất Hiệu mô hình đề xuất kiểm tra thực nghiệm qua bước kiểm định ý nghĩa thống kê Luận án gồm 123 trang chia thành chương Chương - Giới thiệu; Chương - Cơ sở kiến thức; Chương - Khai thác thực thể có tên; Chương - Khai thác từ WordNet; Chương - Khai thác thông tin tiềm ẩn; Chương - Kết hợp mơ hình; Chương Tổng kết Luận án có 35 bảng, 35 hình sử dụng 178 tài liệu tham khảo có báo khoa học công bố tác giả Chƣơng - CƠ SỞ KIẾN THỨC 2.1 Ontology Ontology bắt nguồn từ triết học, dẫn xuất từ tiếng Hy Lạp “onto” “logia” Trong năm gần đây, ontology sử dụng nhiều khoa học máy tính định nghĩa khác với nghĩa ban đầu Theo ontology mơ hình hóa đặc tả các khái niệm cách hình thức, rõ ràng chia sẻ Các ontology sử dụng luận án KIM ontology, WordNet YAGO KIM ontology chứa khoảng 300 lớp thực thể, 100 thuộc tính kiểu quan hệ, 77.500 thực thể có tên với 110.000 bí danh Thực thể có tên người, tổ chức, nơi chốn, đối tượng khác tham khảo tên Mỗi thực thể có tên có ba đặc điểm ontology tên, lớp định danh Mỗi thực thể có tên có nhiều tên khác nhau, gọi bí danh thực thể có tên Mặt khác, có nhiều thực thể có tên khác có tên Mỗi thực thể có tên thuộc lớp trực tiếp đồng thời thuộc lớp cha lớp trực tiếp Mỗi thực thể có tên có định danh xác định WordNet phiên 3.0 chứa khoảng 155.000 từ 117.000 tập đồng nghĩa Mỗi từ WordNet có đặc điểm nhãn (word form, form label) nghĩa (word meaning sense) Trong đó, nhãn phát âm ghi vật lý từ Mỗi nghĩa từ có định danh xác định WordNet Hai nhãn gọi đồng nghĩa thay lẫn chúng câu không làm thay đổi ý nghĩa câu Các nhãn đồng nghĩa tạo thành tập đồng nghĩa (synsets) dùng để biểu diễn nghĩa YAGO chứa khoảng 1,95 triệu thực thể, 93 kiểu quan hệ 19 triệu kiện mô tả quan hệ thực thể Cũng KIM ontology, kiểu thuộc tính quan hệ thực thể có tên YAGO nhị phân 2.2 Nhận diện thực thể có tên phân giải nhập nhằng nghĩa từ Nhận diện thực thể có tên (Named Entity Recognition – NER) nhằm xác định định danh lớp thực thể có tên ngữ cảnh xem xét Tùy theo ngữ cảnh, giải thuật NER khơng xác định định danh mà xác định lớp thực thể có tên, chí khơng xác định lớp Trong luận án, động nhận diện thực thể có tên KIM dùng để rút trích đặc điểm ontology thực thể có tên truy vấn tài liệu Các đặc điểm ontology luận án khai thác để giải thực thể có tên truy vấn tài liệu Độ xác độ đầy đủ động vào khoảng 90% 86% Phân giải nhập (Word Sense Disambiguation - WSD) nhằm xác định nghĩa từ ngữ cảnh xem xét Trong Agirre Soroa (2009), tác giả cho thấy hiệu giải thuật WSD dựa WordNet đề xuất hiệu giải thuật dựa WordNet khác có độ xác khoảng 56.8% Luận án áp dụng giải thuật WSD để rút trích đặc điểm ontology từ WordNet, dùng chúng để giải ngữ nghĩa từ WordNet truy vấn tài liệu 2.3 Tập liệu kiểm tra Mỗi tập kiểm tra bao gồm phần: (1) tập tài liệu; (2) tập truy vấn; (3) tập cặp truy vấn tài liệu có liên quan với Một số tập kiểm tra chuẩn TREC, CISI, NTCIR, CLEF, Reuters-21578, TIME WBR99 Trong đó, tập TIME gồm 425 tài liệu 83 truy vấn, cung cấp SMART TREC hội thảo tổ chức hàng năm Viện Kỹ Thuật - Chất Lượng Hoa Kỳ Bộ Quốc Phòng Hoa Kỳ nhằm tạo sở cho việc đánh giá phương pháp truy hồi thông tin với quy mô lớn Trong đó, tập tài liệu L.A Times TREC sử dụng phổ biến báo SIGIR-2007 SIGIR-2008 Tập tài liệu chứa 130.000 tài liệu, với gần 500MB 2.4 Độ đo hiệu truy hồi kiểm định ý nghĩa thống kê Các độ đo thường dùng cho việc đánh giá hiệu truy hồi mơ hình truy hồi tài liệu độ xác độ đầy đủ Hai độ đo thường bù trừ với nhau, tức độ xác cao độ đầy đủ thấp ngược lại Vì độ đo kết hợp hai sử dụng độ F (F-measure) Một cách khác để đánh giá hiệu truy hồi tài liệu xây dựng đường cong P-R, cho thấy thay đổi độ xác theo tăng dần độ đầy đủ Bên cạnh đó, độ xác trung bình nhóm (mean average precision - MAP) độ đo chuẩn cộng đồng truy hồi tài liệu Sự thua mơ hình thể độ đo tình cờ Do đó, tiến hành so sánh mơ hình, giả thuyết null (null hypothesis) đặt mơ hình tương đương hiệu truy hồi dù độ đo hiệu chúng khác Để phủ nhận giả thuyết null khẳng định mơ hình thật hiệu mơ hình cần có bước kiểm định ý nghĩa thống kê (statistical significance test) Trong phương pháp kiểm định ý nghĩa thống kê phương pháp kiểm định ngẫu nhiên Fisher có tính ổn định cao nên luận án sử dụng Chƣơng - KHAI THÁC THỰC THỂ CÓ TÊN 3.1 Giới thiệu Các đặc điểm ontology thực thể có tên tiềm ẩn truy vấn tài liệu có ý nghĩa với hiệu truy hồi Ví dụ lớp thực thể có tên, tài liệu chứa “Ha Noi”, “Paris”, “New York” câu trả lời cho truy vấn tìm tài liệu thành phố (tức thực thể thuộc lớp thành phố) giới Truy hồi tài liệu dựa từ khóa khơng tìm tài liệu cho truy vấn này, khơng sử dụng thơng tin lớp tiềm ẩn thực thể tài liệu để so khớp với lớp thực thể mà người dùng quan tâm Trong trường hợp định danh thực thể có tên, tài liệu U.S., USA, United States, America nên trả cho truy vấn tìm tài liệu United States of America Truy hồi tài liệu dựa từ khóa thất bại khơng sử dụng tri thức thực thể có tên có nhiều bí danh khác Trong trường hợp thông tin kết hợp lớp tên thực thể, với truy vấn tìm kiếm tài liệu ông Washington, người dùng muốn nhận tài liệu nói Washington người Trong mơ hình dựa từ khóa trả trang chứa từ Washington, cho dù tên tiểu bang hay trường đại học Vì thế, mục tiêu luận án nghiên cứu, khảo sát khai thác đặc điểm ontology khác thực thể có tên cho truy hồi tài liệu Hơn nữa, xuất thực thể có tên tài liệu hàm chứa kéo theo thơng tin tiềm ẩn khác Thứ nhất, bí danh thực thể Ví dụ, quốc gia Georgia xuất tài liệu xem bí danh Gruzia có tài liệu Thứ hai, lớp cha lớp thực thể Ví dụ, thành phố Paris xuất tài liệu xem lớp cha lớp City Location có tài liệu Vì vậy, để nâng cao hiệu truy hồi, tài liệu cần mở rộng đặc điểm ontology bao phủ, tức hàm ý kéo theo bởi, đặc điểm ontology gốc thực thể có tên xuất tài liệu Mặt khác, truy vấn thường khơng có thực thể có tên, ví dụ truy vấn “economic growth of Vietnam”, Vietnam thực thể có tên có định danh, cịn “economic” “growth” từ khóa Các từ khóa quan trọng việc thể nội dung truy vấn Vì thế, việc kết hợp thực thể có tên từ khóa cần thiết để biểu diễn nội dung truy vấn tài liệu Thêm vào đó, truy vấn có chứa từ để hỏi Wh Who, Which, Where, When What, từ để hỏi hàm chứa lớp thực thể có tên hỏi Ví dụ truy vấn “Where did the Battle of the Bulge take place?”, từ để hỏi Where hàm ý thực thể có tên thuộc lớp Location Vì thế, việc khai thác ánh xạ từ để hỏi Wh đến lớp thực thể có tên thích hợp luận án nghiên cứu nhằm nâng cao hiệu truy hồi tài liệu Chương đề xuất mơ hình khơng gian vectơ (Vector Space Model – VSM) dựa thực thể có tên từ khóa, với bốn nội dung sau: (1) khai thác tất đặc điểm ontology thực thể có tên; (2) mở rộng tài liệu đặc điểm ontology bao phủ đặc điểm ontology gốc thực thể có tên; (3) khai thác lớp thực thể có tên tiềm ẩn câu hỏi Wh; (4) kết hợp thực thể có tên từ khóa 3.2 Mơ hình đa khơng gian vectơ cho thực thể có tên Các đặc điểm ontology thực thể có tên Luận án đề xuất mơ hình nhiều khơng gian vectơ tương ứng với đặc điểm ontology khác thực thể có tên Để biểu diễn cách hình thức truy vấn tài liệu đặc điểm ontology thực thể có tên, luận án định nghĩa ba (N, C, I), N, C, I tập hợp tên, lớp định danh thực thể ontology thực thể Theo đó: Mỗi truy vấn q tài liệu d mơ hình hóa tập (N{*})(C{*})(I{*}) Mỗi ba (tên/lớp/địnhdanh) tập xem thuật ngữ (term) ontology thực thể có tên Trong „*‟ biểu thị tên, lớp định danh khơng xác định thực thể có tên truy vấn tài liệu     Truy vấn q mô tả bốn ( q N , qC , q NC , q I ),     q N , qC , q NC q I vectơ N, C, NC, I     Tài liệu d biểu diễn bốn ( d N , d C , d NC , d I ),     d N , d C , d NC d I vectơ N, C, NC, I Độ tương tự tài liệu d truy vấn q định nghĩa là:       sim( d , q ) = wN.cosine( d N , q N ) + wC.cosine( d C , qC )     + wNC.cosine( d NC , qNC ) + wI.cosine( d I , q I ) (3-1) Mỗi tài liệu d mơ hình WN+KW xử lý theo bước sau: Loại bỏ từ không chứa thông tin quan trọng đưa từ dạng nguyên mẫu tương tự xử lý truy vấn Các từ WordNet tài liệu nhận diện xác định nghĩa giải thuật WSD xử lý truy vấn Với từ WordNet nhận diện: a Nếu xác định nghĩa s từ này, bổ sung vào túi thuật ngữ tổng quát biểu diễn d thuật ngữ sau: s, hypernym(s) , b Nếu từ có nhãn f có nhiều nghĩa phù hợp, bổ sung vào túi thuật ngữ tổng quát biểu diễn d thuật ngữ sau: msc_hypernym(f), hypernym(msc_hypernym(f)) , Từ không từ WordNet xem từ khóa bổ sung vào túi thuật ngữ tổng quát biểu diễn d Ở đây, form(s) nhãn từ WordNet có nghĩa s, hypernym(s) nghĩa cha nghĩa s Các thông tin định nghĩa ontology từ vựng mà hệ thống sử dụng 4.3 Đánh giá thực nghiệm Bảng 4.1 Việc sử dụng đặc điểm ontology từ WordNet để biểu diễn truy vấn tài liệu Mơ hình Đặc điểm Nhãn Nghĩa Nhóm cơng trình liên quan Group_1 x Mơ hình luận án Group_2 x Cặp Nhãn-Nghĩa WN+KW x x Trong phần này, luận án tiến hành thực nghiệm để so sánh hiệu truy hồi tài liệu mơ hình WN+KW đề xuất với mơ hình 24 liên quan khai thác từ WordNet kết hợp với từ khóa Như trình bày Bảng 4.1, nhóm mơ hình liên quan ký hiệu Group_1 Group_2, tương ứng với nhóm cơng trình liên quan khảo sát, dựa cách khai thác đặc điểm ontology từ WordNet Tương tự với mơ hình WN+KW, mơ hình khơng gian vectơ sử dụng để thực hai nhóm mơ hình Group_1 Group_2, từ WordNet từ khóa xem thuật ngữ tổng quát để biểu diễn truy vấn tài liệu Trong đó, Group_1 sử dụng nhãn cịn Group_2 sử dụng nghĩa để biểu diễn từ WordNet truy vấn tài liệu So với Group_2, mô hình WN+KW luận án khai thác sử dụng thêm cặp nhãn-nghĩa từ WordNet trường hợp từ WordNet có nhiều nghĩa ngữ cảnh xem xét Cụ thể là: Lexical: mơ hình khơng gian vectơ dựa từ khóa truyền thống thực Lucene, Chương Group_1: nhóm mơ hình này, với từ WordNet, từ truy vấn biểu diễn nhãn xuất truy vấn, từ tài liệu biểu diễn tập đồng nghĩa từ Các từ không xác định từ WordNet xem từ khóa Group_2: nhóm mơ hình này, với từ WordNet có nghĩa s, từ truy vấn biểu diễn s, từ tài liệu biểu diễn s hypernym(s) Các từ không xác định từ WordNet xem từ khóa Tương tự Chương 3, chọn tập tài liệu L.A Times TREC để tiến hành thực nghiệm hiệu truy hồi mơ hình Tiếp theo, chúng tơi chọn truy vấn AdhocTrack-99 có tài liệu liên quan thuộc tập L.A Times Có 44 truy vấn tổng số 50 truy vấn Adhoc-Track-99 chọn Mỗi truy vấn đầy đủ có phần: tiêu đề (title), mô tả (description) tường 25 thuật (narrative) Trong đó, phần tiêu đề sử dụng làm truy vấn tất thí nghiệm chương Bảng 4.2 trình bày độ MAP mơ hình Bảng 4.3 kết kiểm định ý nghĩa thống kê theo phương pháp Fisher Các kết cho thấy mơ hình WN+KW thật hiệu ba mơ hình cịn lại, mà đặc biệt việc sử dụng thêm cặp nhãn-nghĩa giúp cải thiện hiệu truy hồi so với mơ hình khai thác đặc điểm ontology từ WordNet trước Ở độ MAP, mơ hình WN+KW hiệu so với mơ hình Lexical, Group_1 Group_2 30%, 19,7% 14,9% Bảng 4.2 Các độ xác trung bình nhóm mơ hình Lexical, Group_1, Group_2 WN+KW Mơ hình WN+KW Lexical Group_1 Group_2 MAP 0,2866 0,2204 0,2395 0,2494 30% 19,7% 14,9% Độ cải thiện Bảng 4.3 Trị số p hai chiều phương pháp kiểm định ngẫu nhiên Fisher mơ hình WN+KW với mơ hình Lexical, Group_1 Group_2 |MAP(A) – MAP(B)| N– N+ Trị số p hai chiều Lexical 0,0662 2.079 2.060 0,04139 Group_1 Group_2 0,0471 0,0372 2.471 2.486 2.427 2.472 0,04898 0,04958 Mơ hình A Mơ hình B WN+KW Chƣơng - KHAI THÁC THÔNG TIN TIỀM ẨN 5.1 Giới thiệu Một truy vấn thường ngắn gọn nên nhiều không diễn đạt muốn người dùng Để làm rõ nghĩa nội dung truy vấn, phương pháp mở rộng truy vấn sử dụng rộng rãi cộng đồng truy hồi thông tin Mở rộng truy vấn thêm vào truy vấn thông tin tiềm ẩn khơng xuất truy vấn góp phần biểu 26 diễn rõ nghĩa truy vấn, tức làm rõ ý muốn người dùng Phương pháp kích hoạt lan truyền (Spreading Activation - SA), phương pháp mở rộng truy vấn, tìm kiếm ontology khái niệm có liên quan với khái niệm truy vấn theo quan hệ ontology Các khái niệm kích hoạt thêm vào truy vấn Việc thêm thông tin phù hợp với ý muốn người dùng thường làm tăng hiệu truy hồi tài liệu Ngược lại, hiệu truy hồi mơ hình thường giảm thêm thơng tin khơng phù hợp Ví dụ, xét truy vấn tìm tài liệu nội dung sau: (1) “cities that are tourist destinations of Thailand”; (2) “Jewish settlements are built in the east of Jerusalem”; (3) “works of Ernest Hemingway” Ở truy vấn thứ nhất, Chiang Mai Phuket nên thêm vào truy vấn, chúng thuộc lớp City điểm du lịch tiếng Thái Lan Việc thêm vào truy vấn thành phố du lịch tiếng khác Jakarta Hanoi khơng phù hợp, hai thành phố khơng Thái Lan Ở truy vấn thứ hai, khu định cư Do Thái xây dựng phía đơng thành phố Jerusalem Beit Orot Beit Yehonatan nên thêm vào truy vấn Ở truy vấn thứ ba, cần thêm The Old Man and the Sea A Farewell to Arms vào truy vấn chúng tác phẩm nhà văn Ernest Hemingway Khác với phương pháp kích hoạt lan truyền trước đây, chương luận án đề xuất phương pháp mở rộng truy vấn với thực thể có tên tiềm ẩn cách lan truyền ontology theo quan hệ tường minh truy vấn Các bí danh, lớp cha lớp thực thể ontology khai thác để thực kích hoạt lan truyền Tuy nhiên, sau thực thể tiềm ẩn thêm vào truy vấn, truy vấn tài liệu xem túi từ khoá Việc kết hợp phương pháp kích hoạt lan truyền đề xuất đặc điểm ontology thực thể có tên từ WordNet trình bày 27 chương trước thực mơ hình hợp Chương 5.2 Mở rộng truy vấn Phương pháp kích hoạt lan truyền để mở rộng truy vấn mà luận án đề xuất chương phương pháp ràng buộc theo quan hệ, gọi R+CSA Truy vấn ban đầu mở rộng thông qua Phương pháp R+CSA Tiếp theo tài liệu truy vấn mở rộng biểu diễn không gian vectơ dựa từ khóa Cuối cùng, việc lọc xếp hạng tài liệu thực với VSM truyền thống thơng qua mơ đun VSM dựa từ khóa, trọng số từ khóa tính theo tf.idf Phương pháp R+CSA xác định thông tin tiềm ẩn liên quan với truy vấn gồm năm bước sau: Nhận diện quan hệ: nhận diện cụm từ quan hệ truy vấn ánh xạ chúng thành quan hệ tương ứng ontology sử dụng Nhận diện khái niệm khởi động: nhận diện giải thực thể xuất truy vấn Thiết lập quan hệ: biểu diễn truy vấn ban đầu thành quan hệ I-R-C (hoặc C-R-I) cho quan hệ R xác định bước 1, với I C thực thể có tên xác định lớp thực thể nhận diện bước Ví dụ với truy vấn “Where is the actress, Marion Davies, buried?”, cụm từ quan hệ xác định hai từ “where” “buried” ánh xạ thành quan hệ R buriedIn, Marion Davies nhận diện thực thể có tên có định danh I #Marion_Davies có lớp Woman, từ “where” ánh xạ thành lớp C Location Vì quan hệ thiết lập truy vấn [I: #Marion_Davies]-(R: buriedIn)-[C: Location] 28 Kích hoạt lan truyền có ràng buộc theo quan hệ tường minh truy vấn: với quan hệ I-R-C, tìm thực thể có tên tiềm ẩn Ia có quan hệ R với I Ia có lớp C lớp C ontology Ví dụ, ontology sử dụng có quan hệ: [I: #Marion_Davies]-(R: buriedIn)[Ia: #Hollywood_Cemetery] #Hollywood_Cemetery thực thể có lớp lớp Location, nên thực thể có tên tiềm ẩn cần tìm cho quan hệ ví dụ thiết lập bước Mở rộng truy vấn: thêm vào truy vấn tên Ia tiềm ẩn tìm thấy Ở ví dụ trên, “Hollywood Cemetery” thêm vào truy vấn Như vậy, so với phương pháp SA tự do, phương pháp R+CSA có ba ràng buộc Thứ ràng buộc khoảng cách Tức là, dựa ontology kiện sử dụng, thực thể có quan hệ trực tiếp với thực thể ban đầu xuất truy vấn kích hoạt Thứ hai ràng buộc quan hệ Tức là, ontology kiện, lan truyền thực quan hệ xuất tường minh truy vấn Thứ ba lớp thực thể Tức là, lớp thực thể kích hoạt phải giống với, lớp của, lớp theo quan hệ tương ứng truy vấn 5.3 Đánh giá thực nghiệm Để tiến hành thực nghiệm mô hình R+CSA, tương tự Chương 3, chúng tơi chọn tập tài liệu L.A Times tập truy vấn QA-Track-99 Chương so sánh hiệu truy hồi tài liệu mơ hình R+CSA luận án đề xuất với hai mơ hình sau: Lexical: mơ hình khơng gian vectơ dựa từ khóa truyền thống thực Lucene, Chương Chương 29 CSA: mơ hình sử dụng phương pháp kích hoạt lan truyền có ràng buộc theo khoảng cách Nó mở rộng truy vấn cách lan truyền ontology theo tất quan hệ trực tiếp với thực thể ban đầu truy vấn Các truy vấn mở rộng tài liệu sau biểu diễn theo mơ hình khơng gian vectơ dựa từ khóa Các độ MAP Bảng 5.1 trị số p hai chiều Bảng 5.2 cho thấy việc mở rộng truy vấn cách hợp lý làm tăng hiệu truy hồi văn Ở độ MAP, mơ hình R+CSA luận án hiệu 26,5% 17,8% so với hai mơ hình Lexical CSA Bảng 5.1 Các độ xác trung bình nhóm mơ hình Lexical, CSA R+CSA R+CSA Mơ hình MAP 0,6451 Độ cải thiện Lexical 0,5099 26,5% CSA 0,5474 17,8% Bảng 5.2 Trị số p hai chiều phương pháp kiểm định ngẫu nhiên Fisher mơ hình R+CSA với hai mơ hình Lexical CSA N– N+ Lexical |MAP(A) – MAP(B)| 0,1352 1.691 1.630 Trị số p hai chiều 0,03321 CSA 0,0977 2.207 2.268 0,04475 Mơ hình A Mơ hình B R+CSA Chƣơng - MƠ HÌNH HỢP NHẤT 6.1 Giới thiệu Chương Chương giới thiệu mơ hình khai thác thực thể có tên mơ hình khai thác từ WordNet mà luận án đề xuất cho truy hồi tài liệu Tuy nhiên, truy vấn tài liệu thường chứa thực thể có tên từ WordNet Trong đó, Chương đề xuất phương pháp kích hoạt lan truyền có ràng buộc theo quan hệ để thêm vào truy vấn thực thể tiềm ẩn Tuy nhiên, truy vấn 30 mở rộng tài liệu biểu diễn dạng từ khóa việc so khớp chúng so khớp từ khóa Do đó, chương này, chúng tơi đề xuất mơ hình hợp UM (Unified Model) kết hợp phương pháp đề xuất Chương 3, 5, để thừa hưởng ưu điểm phương pháp Đây mơ hình khơng gian vectơ tổng qt khai thác giải đặc điểm ontology thực thể có tên từ WordNet tài liệu truy vấn, với mở rộng truy vấn cách khai thác thực thể tiềm ẩn liên quan đến khái niệm quan hệ truy vấn 6.2 Mơ hình hợp dựa ontology Kiến trúc hệ thống mơ hình hợp UM trình bày Hình 6.1 có hai phần phần1 chứa mô đun giải mở rộng truy vấn phần chứa mô đun mở rộng giải tài liệu Mơ hình hợp sử dụng ba ontology KIM, WordNet YAGO, khai thác ontology thực thể có tên, ontology từ WordNet, ontology kiện Ở phần kiến trúc hệ thống, mô đun Phương pháp R+CSA, phương pháp trình bày Chương 5, xác định thực thể tiềm ẩn phù hợp để mở rộng truy vấn Tiếp theo, từ truy vấn mở rộng, mô đun Nhận diện giải thực thể có tên, mơ đun Phân giải nhập nhằng giải từ WordNet xác định nhúng thuật ngữ ontology cụ thể thực thể có tên từ WordNet vào truy vấn Thêm vào đó, mơ đun Nhận diện giải từ để hỏi thay từ để hỏi, có, lớp thực thể có tên thích hợp Cuối cùng, việc truy hồi tài liệu theo ngữ nghĩa thực thông qua mô đun VSM tổng quát dựa thực thể có tên, từ WordNet từ khóa Ở phần kiến trúc hệ thống, mơ đun Nhận diện giải thực thể có tên, mô đun Phân giải nhập nhằng giải từ 31 WordNet xác định nhúng thuật ngữ ontology thực thể có tên từ WordNet vào tài liệu Tiếp theo, tài liệu mở rộng thuật ngữ ontology bao phủ thuật ngữ ontology gốc thực thể có tên từ WordNet Các thuật ngữ ontology từ khóa đánh mục thông qua mô đun Mở rộng đánh mục tài liệu theo thuật ngữ ontology thực thể có tên, từ WordNet từ khóa lưu trữ Kho chứa tài liệu giải mở rộng theo thực thể có tên, từ WordNet từ khóa Phần Truy vấn thô Các tài liệu xếp hạng Phương pháp R+CSA Truy vấn mở rộng Nhận diện giải NE Phân giải nhập nhằng giải từ WordNet Ontology từ WordNet Tài liệu thô … Truy vấn mở rộng giải theo NE, từ WordNet KW Nhận diện giải từ để hỏi Ontology NE (KIM) VSM tổng quát dựa NE, từ WordNet KW Kho chứa tài liệu giải mở rộng theo NE, từ WordNet KW Nhận diện giải NE Mở rộng đánh mục tài liệu theo thuật ngữ ontology NE, từ WordNet KW Phân giải nhập nhằng giải từ WordNet Phần Hình 6.1 Kiến trúc hệ thống mơ hình UM Xử lý truy vấn Truy vấn ban đầu mở rộng theo phương pháp đề xuất Chương 5, thực thể tiềm ẩn thêm vào không thay tên chúng Tiếp theo từ không hàm chứa 32 thông tin quan trọng truy vấn mở rộng loại bỏ Việc nhận diện giải thực thể có tên từ WordNet truy vấn mở rộng giống mơ hình NE+KW mơ hình WN+KW Chương Chương Trong đó, từ vừa thực thể có tên vừa từ WordNet, ưu tiên xem thực thể có tên Một từ khơng nhận diện thực thể có tên từ WordNet xem từ khóa Bên cạnh đó, từ để hỏi (Who, Which, Where, When What) truy vấn ánh xạ đồng thời thành lớp tương ứng ontology thực thể Xử lý tài liệu Đối với tài liệu, hệ thống loại bỏ từ không hàm chứa thông tin quan trọng Tiếp theo hệ thống nhận diện thực thể có tên từ WordNet, mở rộng chúng giống mơ hình NE+KW mơ hình WN+KW trình bày Chương Chương Trong đó, cụm từ vừa thực thể có tên vừa từ WordNet ưu tiên xem thực thể có tên Nếu cụm từ không nhận diện thực thể có tên từ WordNet xem từ khóa Cuối cùng, tài liệu đánh mục theo thuật ngữ ontology thực thể có tên, từ WordNet, từ khóa 6.3 Đánh giá thực nghiệm Trước hết, phần này, luận án giới thiệu mơ hình NE+WN kết hợp mơ hình NE+KW+Wh Chương với mơ hình WN+KW Chương Tiếp theo, mơ hình hợp UM mơ hình kết hợp mơ hình NE+WN với mơ hình R+CSA Chương Luận án tiến hành đánh giá thực nghiệm để kiểm tra xem mơ hình NE+WN có hiệu hai mơ hình NE+KW+Wh WN+KW hay khơng, mơ hình UM có hiệu hai mơ hình NE+WN R+CSA hay khơng Năm mơ hình thực nghiệm tập 33 liệu kiểm tra giống Chương Chương 5, tức tập tài liệu L.A Times tập truy vấn QA-Track-99 Các độ MAP Bảng 6.1 trị số p hai chiều Bảng 6.2 cho thấy việc khai thác đặc điểm ontology thực thể có tên từ WordNet với thực thể tiềm ẩn truy vấn thật làm tăng hiệu truy hồi tài liệu Cụ thể là, mơ hình UM có hiệu bốn mơ hình NE+KW+Wh, WN+KW, NE+WN R+CSA 26.8%, 32.9%, 19% 11,1% độ MAP Bảng 6.1 Các độ xác trung bình nhóm mơ hình NE+KW+Wh, WN+KW, NE+WN, R+CSA UM Mơ hình UM NE+KW+Wh WN+KW NE+WN 0,5652 26.8% 0,5391 32.9% 0,6024 19% 0,7166 MAP Độ cải thiện R+CSA 0,6451 11,1% Bảng 6.2 Trị số p hai chiều phương pháp kiểm định ngẫu nhiên mơ hình NE+WN với mơ hình NE+KW+Wh WN+KW, mơ hình UM so với mơ hình NE+WN R+CSA NE+WN UM Mơ hình B |MAP(A) – MAP(B)| N– N+ Trị số p hai chiều NE+KW+Wh Mơ hình A 0,0372 1.716 1.643 0,03359 WN+KW 0,0633 2.009 2.109 0,04118 NE+WN 0,1142 1.043 966 0,02009 R+CSA 0,0715 2.188 2.140 0,04328 Chƣơng - TỔNG KẾT Mục tiêu luận án nghiên cứu đề xuất mơ hình truy hồi tài liệu dựa ontology nhằm cải thiện hiệu truy hồi tài liệu Các thông tin tài liệu truy vấn phần lớn diễn đạt thông qua khái niệm thực thể có tên từ WordNet Do đó, luận án nghiên cứu đặc điểm ontology khác thực thể có tên từ WordNet khai thác chúng để biểu diễn ngữ nghĩa truy vấn tài liệu Mặt khác, truy vấn hàm ý thực thể 34 có tên khơng xuất truy vấn tài liệu nói chúng nằm mong đợi người đặt truy vấn Vì vậy, luận án nghiên cứu phương pháp để khám phá thêm vào truy vấn thực thể tiềm ẩn Các mơ hình truy hồi tài liệu mà luận án đề xuất dựa ba loại ontology ontology thực thể có tên, ontology từ vựng (như WordNet), ontology kiện Các mơ hình luận án thí nghiệm tập liệu kiểm tra chuẩn TIME TREC, theo độ đo hiệu chuẩn độ xác, độ đầy đủ, độ F MAP Đặc biệt phương pháp kiểm định ý nghĩa thống kê sử dụng để xác nhận lại tăng hiệu mô hình đề xuất Ở Chương 3, luận án khảo sát cách khai thác đặc điểm ontology khác thực thể có tên cơng trình liên quan truy hồi tài liệu, nhận thấy hai đặc điểm cặp tên-lớp định danh thực thể chưa sử dụng Luận án nghiên cứu đề xuất làm thí nghiệm đánh giá mơ hình biểu diễn truy vấn tài liệu có sử dụng đầy đủ đặc điểm ontology thực thể (tức tên, lớp, cặp tên-lớp, định danh) kết hợp với từ khố Bên cạnh đó, luận án đề xuất ánh xạ từ để hỏi Wh vào lớp thực thể tương ứng biểu diễn truy vấn Ở Chương 4, luận án tập trung nghiên cứu khai thác đặc điểm ontology từ vựng định nghĩa sở liệu từ vựng WordNet Luận án đề xuất cách sử dụng nhãn từ kết hợp với nghĩa cha chung cụ thể nghĩa Ở Chương 5, phương pháp mà luận án đề xuất kích hoạt thêm vào truy vấn thực thể có tên có quan hệ với thực thể xuất truy vấn theo quan hệ tường minh truy vấn Cuối cùng, Chương đề xuất mơ hình hợp nhất, kết hợp mơ hình nghiên cứu phát triển Chương 3, Kết thực nghiệm cho thấy mơ hình hợp thật hiệu 35 mơ hình đề xuất riêng lẻ Hình 7.1 sơ đồ tóm tắt lại mơ hình mà luận án nghiên cứu đề xuất, theo thứ tự phát triển cải thiện dần, tập tài liệu L.A Times tập truy vấn QA-Track-99 TREC Sơ đồ cho thấy mô hình NE+KW, WN+KW R+CSA có độ MAP cao mơ hình Lexical (là mơ hình truy hồi tài liệu theo từ khố thơng dụng) 7,3%, 5,7% 26,5% Hơn nữa, mơ hình NE+KW+Wh có độ MAP cao mơ hình NE+KW 3,3% Mơ hình UM, kết hợp ba mơ hình NE+KW+Wh, WN+KW R+CSA, có độ MAP cao mơ hình thành phần 26,8%, 32,9% 11,1% So với mô hình Lexical, mơ hình UM làm tăng hiệu truy hồi cách đáng kể 40,5%, với độ MAP 0,7166 so với 0,5099 UM (MAP = 0,7166) +11,1% +26,8% R+CSA NE+KW+Wh +32,9% +3,3% +26,5% NE+KW WN+KW +7,3% +5,7% Lexical (MAP = 0,5099) Hình 7.1 Sự phát triển hiệu mơ hình đề xuất Từ nghiên cứu kết đạt luận án này, đề nghị số vấn đề hướng nghiên cứu sau:  Khai thác thực thể tiềm ẩn có quan hệ bắc cầu với thực thể truy vấn thông qua quan hệ tường minh 36  Kết hợp phương pháp R+CSA luận án với phương pháp phản hồi liên quan giả (pseudo feedback)  Áp dụng đặc điểm ontology thực thể có tên từ WordNet mơ hình truy hồi thơng tin khác mơ hình khơng gian vectơ  Thể chủ đề mơ hình hố chủ đề (topic modeling) khái niệm ontology thực thể có tên từ WordNet, dùng chủ đề để biểu diễn tài liệu truy vấn CÁC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1] T H Cao and V M Ngo, “Semantic Search by Latent Ontological Features,” in International Journal of New Generation Computing, Springer-Verlag, SCIE, Vol 30, No.1, pp 53-71, 2012 [2] V M Ngo and T H Cao, “Discovering Latent Concepts and Exploiting Ontological Features for Semantic Text Search,” in Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP-2011), pp 571-579, 2011 [3] V M Ngo, T H Cao and T M V Le, “WordNet-based Information Retrieval Using Common Hypernyms and Combined Features,” in Proceedings of the 5th International Conference on Intelligent Computing and Information Systems (ICICIS-2011), pp 313-318, 2011 [4] V M Ngo, T H Cao and T M V Le, “Combining Named Entities with WordNet and Using Query-Oriented Spreading Activation for Semantic Text Search,” in Proceedings of the 8th IEEE International Conference on Computing and 37 Telecommunication Technologies (IEEE-RIVF-2010), pp 13-18, 2010 [5] V M Ngo and T H Cao, “Ontology-based Query Expansion with Latently Related Named Entities for Semantic Text Search,” in Proceedings of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS-2010), Springer-Verlag, Studies in Computational Intelligence, Vol 283, pp 41-52, 2010 [6] V M Ngo and T H Cao, “A Generalized Vector Space Model for Ontology-based Information Retrieval,” in Vietnamese Journal on Information Technologies and Communications, Vol 22, No.2, pp 43-53, 2009 [7] T H Cao, K C Le and V M Ngo, “Exploring Combinations of Ontological Features and Keywords for Text Retrieval,” in Proceedings of the 10th Pacific Rim International Conference on Artificial Intelligence (PRICAI-2008), Springer-Verlag, LNAI, Vol 5351, pp 603-613, 2008 [8] T H Cao, V M Ngo, D T Hong and T T Quan, “A NamedEntity-based Multi-Vector Space Model for Semantic Document Clustering,” in Proceeding of PAKDD-2008 Workshop on Web Mining and Web-Based Application (WMWA), pp 139-150, 2008 38 ... TỔNG KẾT Mục tiêu luận án nghiên cứu đề xuất mơ hình truy hồi tài liệu dựa ontology nhằm cải thiện hiệu truy hồi tài liệu Các thông tin tài liệu truy vấn phần lớn diễn đạt thông qua khái niệm... đồng truy hồi thông tin Mở rộng truy vấn thêm vào truy vấn thông tin tiềm ẩn không xuất truy vấn góp phần biểu 26 diễn rõ nghĩa truy vấn, tức làm rõ ý muốn người dùng Phương pháp kích hoạt lan truy? ??n... truy hồi văn có độ đầy đủ độ xác cao cần thiết Trong luận án này, không cần nhấn mạnh, dùng thuật ngữ ? ?truy hồi tài liệu” với ý nghĩa truy hồi văn Nhằm khắc phục nhược điểm nói mơ hình truy hồi

Ngày đăng: 02/02/2015, 05:07

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan