Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt

78 463 0
Giải pháp phân biệt tên người trên Web dựa trên mô hình thông tin Người và thử nghiệm vào hệ thống tìm kiếm người tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM NGƢỜI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hƣớng dẫn: ThS. Nguyễn Cẩm Tú HÀ NỘI - 2011 i LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy, ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Đại học Công Nghệ. Xin cảm ơn sự hỗ trợ từ đề tài từ QG.10.38 trong thời gian tôi thực hiện khóa luận. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Thị Thanh Na ii Tóm tắt Tìm kiếm thông tin về thực thể người trên Web là một trong những hoạt động phổ biến nhất của người dùng trên Internet. Tuy nhiên, thực thể người là một trong những kiểu thực thể có độ nhập nhằng cao. Một tên có thể ứng với nhiều thực thể người khác nhau và nhiều tên có thể ứng với cùng một thực thể người. Bài toán phân biệt tên người nhằm giải quyết vấn đề nhập nhằng trong tên của thực thể người, từ đó nâng cao chất lượng tìm kiếm thông tin người trên Web. Khóa luận này tập trung giải quyết bài toán phân biệt tên người trên Web dựa trên việc trích chọn đặc trưng theo mô hình thông tin Người. Các đặc trưng được trích chọn sử dụng để phân cụm các văn bản chứa cùng một tên người nhưng chỉ đến các thực thể người khác nhau. Kết quả thực nghiệm ban đầu với tập tên người có độ nhập nhằng cao cho thấy mô hình phân biệt tên người của hệ thống đạt kết quả độ đo F 0.5 = 84,8%% và F 0,2 = 83.1 %. Điều này khẳng định mô hình là khả quan và có khả năng ứng dụng vào thực tế. iii Lời cam đoan Tôi xin cam đoan mô hình phân biệt tên người dựa trên mô hình thông tin Người và thực nghiệm được trình bày trong khóa luận này là do tôi thực hiện sự hướng dẫn của ThS. Nguyễn Cẩm Tú và CN. Nguyễn Đạo Thái. Các số liệu và kết quả có được trong luận văn là trung thực và chưa từng được công bố ở bất kỳ một công trình nào khác. Tôi cũng nêu rõ nguồn gốc của những tham khảo từ các nghiên cứu liên quan trong danh mục tài liệu tham khảo của khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Sinh viên Nguyễn Thị Thanh Na iv MỤC LỤC LỜI CẢM ƠN i Tóm tắt ii Lời cam đoan iii MỤC LỤC iv Danh mục các bảng vii Danh mục hình vẽ viii Danh sách các từ viết tắt x Mở đầu 1 Chương 1. Khái quát bài toán phân biệt tên ngƣời trên Web 3 1.1. Giới thiệu về vấn đề phân biệt tên người 3 1.1.1. Hệ thống tìm kiếm thực thể 3 1.1.2. Dãy hội nghị khoa học về vấn đề phân biệt tên người 14 1.2. Bài toán phân biệt tên người. 14 1.2.1. Phát biểu bài toán 14 1.2.2. Mối quan hệ của bài toán phân biệt người cùng tên với bài toán phân biệt nhập nhằng ngữ nghĩa của từ và đồng tham chiếu 15 1.3. Một vài công trình nghiên cứu về phân biệt tên người tại ở Việt Nam 16 Tóm tắt chương 1 17 Chương 2.Một số giải pháp phân biệt tên ngƣời trên Web 18 2.1. Một số cách tiếp cận điển hình 18 2.1.1. Cách tiếp cận dựa trên thực thể định danh 18 2.1.2. Cách tiếp cận phân cụm dựa trên các đặc trưng được trích chọn 22 2.1.3. Cách tiếp cận dựa trên mô hình chủ đề. 24 2.2. Mô hình phân biệt tên người dựa trên mô hình thông tin Người 26 v 2.2.1. Mô hình thông tin Người 26 2.2.2. Phân biệt tên người dựa theo mô hình thông tin Người 27 2.3. Nhận xét 32 Tóm tắt chương 2 33 Chƣơng 3. Mô hình hệ thống phân biệt tên người trong tập văn bản và áp dụng trọng hệ thống tìm kiếm thực thể người tiếng Việt 34 3.1. Đặc điểm miền dữ liệu các trang Web tin tức tiếng Việt 34 3.2. Cơ sở lý thuyết 35 3.2.1. Mô hình không gian vector 35 3.2.2. Độ tương đồng Cosin 37 3.2.3. Thuyết chắc chắn Stanford 37 3.2.4. Phân cụm phân cấp HAC (Hierachical agglomerative clustering) 38 3.3. Mô hình giải quyết bài toán 42 3.4. Áp dụng bài toán phân biệt tên người vào hệ thống tìm kiếm thực thể 49 Tóm tắt chương 3 50 Chương 4: Thực nghiệm và đánh giá 51 4.1. Môi trường và công cụ sử dụng thực nghiệm. 51 4.2. Quá trình thực nghiệm: 53 4.2.1. Xây dựng tập dữ liệu thực nghiệm 53 4.2.2. Trích chọn đặc trưng 55 4.2.3. Biểu diễn mô hình thông tin Người: 56 4.2.4. Phân cụm 56 4.4. Đánh giá 59 4.4.1. Phương pháp đánh giá. 59 4.4.2. Kết quả kiểm thử 60 vi 4.5. Nhận xét 60 Kết luận 62 PHỤ LỤC 64 TÀI LIỆU THAM KHẢO 65 vii Danh mục các bảng Bảng 1-1: 10 từ khóa được tìm kiếm nhiều nhất năm 2009 11 Bảng 1-2. 10 từ khóa được tìm kiếm nhiều nhất năm 2010 11 Bảng 3-1: Các đặc trưng được sử dụng trong khóa luận 44 Bảng 4-1: Cấu hình phần cứng 51 Bảng 4-2: Danh sách các phần mềm sử dụng: 51 Bảng 4-3: Bảng các gói của chương trình 52 Bảng 4-3: Bảng tập tên người thực nghiệm trong mô hình 54 Bảng 4-4: Kết quả phân cụm tự động của chương trình 57 Bảng 4-4: Bảng đánh giá kết quả phân cụm của hệ thống 60 Bảng 5-1: Nhãn của các loại đặc trưng người 64 viii Danh mục hình vẽ Hình 1: Cấu trúc chung của một máy tìm kiếm 5 Hình 2. Giao diện của máy tìm kiếm nơi nghỉ mát Cazoodle 7 Hình 3. Kết quả tìm kiêm Google cho từ khóa “lead honda” 7 Hình 4. Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin 8 Hình 5. Hệ thống tìm kiếm căn hộ ở New York 10 Hình 6. Tổng hợp thông tin của người P từ 2 trang d 1 và d 2 13 Hình 7. Mô hình đoán nhận và giải quyết nhập nhằng thực thể tiếng Việt 16 Hình 8. Hệ thống phân biệt thực thể người sử dụng không gian vector 19 Hình 9. Trích từ tài liệu doc.36 20 Hình 10. Trích từ tài liệu doc.38 20 Hình 11. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 21 Hình 12. Chuỗi kết quả của đoạn trích trong tài liệu doc.36 21 Hình 13. Các bước trong bài toán phân biệt tên người 27 Hình 14. Các bước trích chọn thuộc tính người. 29 Hình 15 : Đoạn tóm tắt của bài báo “Nữ cán bộ Agribank bị bắt vì nghi tham ô 6 tỷ đồng.” 34 Hình 16: Tên người các tên người khác cùng xuất hiện với tên người “Trương Hồng Nhung” 35 Hình 17. Biểu diễn văn bản trong khôn gian vector 36 Hình 18. Sơ đồ thuật toán phân cụm HAC 39 Hình 19: Phân cụm với độ đo single-link 41 Hình 20: Phân cụm với độ đo complete-link 41 Hình 21. Mô hình giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người 43 [...]... thuộc lĩnh vực tin tức tiếng Việt, từ đó đưa ra mô hình giải quyết bài toán phân biệt tên người trong tập văn bản và ứng dụng bài toán phân biệt tên người trong hệ thống tìm kiếm thực thể tiếng Việt Chƣơng 4 Khóa luận trình bày quá trình thực nghiệm khâu phân cụm các trang Web cho bài toán phân biệt tên người trên miền dữ liệu các trang Web tin tức, với dữ liệu kiểm thử là danh sách tên người có độ nhập... khác nhau, các hệ thống tìm kiếm thực thể được tổ chức khác nhau Sử dụng kỹ thuật trích xuất thông tin, hệ thống sẽ được tổ chức như hình 4 Hình 4 Kiến trúc hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin [17] Mô hình hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích xuất thông tin gồm hai bộ phận chính là trích xuất thông tin về thực thể và tổng hợp thông tin về thực thể... phương pháp tiếp cận giải quyết bài toán phân biệt tên người trên thế giới Khóa luận cũng tập trung phân tích mô hình phân biệt tên người dựa 1 http://nlp.uned.es/weps/ 1 trên mô hình thông tin Người Đây là cơ sở phương pháp luận quan trọng để khóa luận đưa ra mô hình giải quyết bài toán phân biệt tên người trong tiếng Việt Chƣơng 3 Khóa luận giới thiệu các đặc trưng của miền dữ liệu các trang Web thuộc... về người P và chứa 4 đặc trưng A, B, D, E Hệ thống tìm kiếm thực thể người sẽ không đưa ra kết quả là người P Trường hợp hệ thống tìm kiếm thực thể người kết hợp giải quyết bài toán phân biệt tên người thì sau khi phân biệt nhập nhằng tên người Hai bài báo d1 và d2 cùng nói về người P sẽ được nhóm vào một cụm Hệ thống tiến hành tổng hợp thông tin thuộc tính của hai tài liệu này, nhận được thông tin. .. Các hệ thống tìm kiếm vẫn chủ yếu dựa vào mức từ, các đặc trưng liên quan đến ngữ nghĩa của ngôn ngữ còn ít Vì vậy, kết quả trả về nhiều khi không đúng với mong muốn của người dùng  Hệ thống tìm kiếm thực thể Hệ thống tìm kiếm thực thể ra đời với mục đích khắc phục những hạn chế trên đây của hệ thống tìm kiếm thông thường Trong hệ thống tìm kiếm thực thể, người dùng cũng tiến hành tìm kiếm thông tin. .. cho người dùng P là S = {A, B, C, D, E} Khi người dùng nhập vào từ khóa trên, vì S chứa tất cả các từ khóa A, B, D và E, nên hệ thống đưa ra kết quả chứa người P Từ những phân tích trên có thể thấy bài toán phân biệt tên người có vai trò quan trọng để nâng cao độ chính xác cho hệ thống tìm kiếm thực thể người Và bài toán phân biệt tên người trong hệ thống tìm kiếm thực thể được quy về bài toán phân biệt. .. giải quyết bài toán phân biệt tên người dựa trên mô hình thông tin Người trên miền dữ liệu các trang tin điện tử tiếng Việt Kết quả thực nghiệm cho thấy mô hình là khả quan và có khả năng ứng dụng tốt vào thực tế Nội dung của khóa luận được bố cục gồm 4 chương: Chƣơng 1 Giới thiệu khái quát về bài toán phân biệt tên người, các khái niệm và vấn đề liên quan đến bài toán phân biệt tên người Chƣơng 2 Giới... giới thiệu khái quát về hệ thống tìm kiếm thực thể, vấn đề phân biệt tên người trong hệ thống tìm kiếm thực thể và các hội nghị liên quan đến vấn đề phân biệt tên người Khóa luận cũng trình bày bài toán phân biệt tên người, mỗi liên hệ của bài toán phân biệt tên người với bài toán phân biệt ngữ nghĩa của từ và bài toán đồng tham chiếu Bên cạnh đó, khóa luận cũng giới thiệu một vài công trình nghiên cứu... của hệ thống tìm kiếm khi người dùng nhập vào các các câu truy vấn trước - Nhờ thành phần ranking, hệ thống tìm kiếm sẽ đưa về các trang web phù hợp nhất với từ khóa mà người dùng nhập vào, tuy nhiên, các trang web trả về vẫn bao gồm cả những thông tin người dùng quan tâm lẫn những thông tin người dùng không quan tâm, vì vậy người dùng vẫn phải duyệt từng trang web để tìm thông tin mình đang tìm kiếm. .. dùng cùng tên và những tên khác nhau cùng trỏ đến một thực thể, đặc biệt trong vấn đề tìm kiếm người Một số hệ thống tìm kiếm thực thể điển hình: Một hệ thống tìm kiếm thực thể điển hình là hệ thống Cazoodle2 do nhóm nghiên cứu Kevin Chen-Chuan Chang, thuộc phòng thí nghiệm Cơ sở dữ liệu và Hệ thống thông tin DAIS thuộc đại học Illinois, Mỹ Hệ thống thực hiện các truy vấn thuộc các lĩnh vực tìm kiếm nơi . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM. HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Na GIẢI PHÁP PHÂN BIỆT TÊN NGƢỜI TRÊN WEB DỰA TRÊN MÔ HÌNH THÔNG TIN NGƢỜI VÀ THỬ NGHIỆM. trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Thị Thanh Na ii Tóm tắt Tìm kiếm thông tin về thực thể người trên Web là một trong những hoạt

Ngày đăng: 26/07/2014, 08:09

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan