Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow

43 322 0
Phân tích và trực quan hóa chuỗi sự kiện dạng hệ thống lifeflow

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Quang Hiểu PHÂN TÍCH TRỰC QUAN HÓA CHUỖI SỰ KIỆN DẠNG HỆ THỐNG LIFEFLOW KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2013 HÀ NỘI 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Quang Hiểu PHÂN TÍCH TRỰC QUAN HÓA CHUỖI SỰ KIỆN DẠNG HỆ THỐNG LIFEFLOW KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Vũ Ngọc Trình i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn chân thành sâu sắc nhất đến PGS.TS Hà Quang Thụy, ThS. Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin cảm ơn các thầy cô cán bộ của trường Đại học Công Nghệ đã dạy bảo cũng như tạo điều kiện cho tôi học tập nghiên cứu tại đây. Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học tập trong quá trình thực hiện khóa luận. Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ tôi rất nhiều trong quá trình học tập rèn luyện tại trường. Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc biệt là bố mẹ em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích ủng hộ để tôi có thể vượt qua những khó khăn đạt được những thành công trong học tập cuộc sống. Tôi xin chân thành cảm ơn! Hà Nội, ngày 10 tháng 5 năm 2013 Sinh viên Ngô Quang Hiểu ii TÓM TẮT NỘI DUNG Phân tích trích chọn chuỗi sự kiện là quá trình trích chọn thông tin trong các văn bản có chứa sự kiện, nhóm các văn bản cùng nói về một sự kiện thành chuỗi theo thứ tự thời gian. Đây là một bài toán có tính ứng dụng thực tiễn cao nên nó đã đang nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, chẳng hạn tại các hội nghị khoa học quốc tế có uy tín như MUC (Message Understand Conference), chương trình TDT (Topic Detection Tracking), chương trình ACE (Automatic Content Extraction), tại các trung tâm nghiên cứu IBM, Microsoft… Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự kiện trích chọn được. LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra- Gómez J. cộng sự (Đại học Maryland) nghiên cứu phát triển [1]. Hệ thống cho phép biểu diễn theo thời gian, thống kê, theo vết các chuỗi sự kiện rất hiệu quả. Khóa luận tốt nghiệp với đề tài “Phân tích trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích trích chọn chuỗi sự kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này. Khóa luận trình bày một số hướng tiếp cận để giải quyết bài toán phân tích trích chọn chuỗi sự kiện, sau đó, đề xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt. Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống LifeFlow. Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích chuỗi sự kiện, trực quan hóa chuỗi sự kiện iii Lời cam đoan Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích trực quan hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự giúp đỡ của giảng viên hướng dẫn là PGS.TS. Hà Quang Thụy. Các nội dung kết quả trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào. Tất cả các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo của khóa luận. Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình. Hà Nội, ngày 10 tháng 5 năm 2013 Sinh viên Ngô Quang Hiểu iv Nội Dung Lời cảm ơn i TÓM TẮT NỘI DUNG ii Lời cam đoan iii Danh sách hình vẽ bảng biểu vii Danh sách thuật toán . viii LỜI MỞ ĐẦU . 1 Chương 1 . 3 Tổng quan về phân tích trích chọn chuỗi sự kiện 3 1.1. Trích chọn thông tin 3 1.2. Trích chọn sự kiện . 3 1.2.1. Định nghĩa sự kiện 4 1.2.2. Trích chọn sự kiện 5 1.3. Phân tích trích chọn chuỗi sự kiện . 5 1.3.1. Phân tích chuỗi sự kiện tính thời sự . 5 1.3.2. Định nghĩa chuỗi sự kiện 5 1.3.3. Phát hiện sự kiện khởi đầu quyết định chuỗi . 6 1.3.4. Trực quan hóa chuỗi sự kiện . 7 1.4. Ý nghĩa ứng dụng của phân tích trực quan hóa chuỗi sự kiện 7 1.4.1. Ý nghĩa khoa học 7 1.4.2. Ứng dụng thực tiễn . 7 1.5. Khó khăn thách thức 7 1.6. Tóm tắt chương 1 8 Chương 2 9 Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện 9 2.1. Hướng tiếp cận học máy . 9 2.1.1. Phương pháp k người láng giềng gần nhất k-NN 9 2.1.2. Phương pháp lai kNN-SVM . 11 v 2.2. Hướng tiếp cận sử dụng trọng số TF-IDF . 13 2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm . 14 2.3.1. Thông tin thời gian . 14 2.3.2. Thông tin địa điểm 15 2.4. Nhận xét đánh giá . 16 2.5. Tóm tắt chương 2 16 Chương 3 . 18 Phương pháp phân tích trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng Việt . 18 3.1 Mô tả bài toán . 18 3.2 Phương pháp đề xuất . 18 3.2.1 Đánh giá độ tương đồng nội dung 20 3.2.2 Đánh giá độ tương đồng thời gian địa điểm . 20 3.2.3 Đánh giá độ tương đồng sự kiện 21 3.3 Mô hình giải quyết 22 3.3.1 Lưu trữ dữ liệu . 22 3.3.2 Trích chọn đặc trưng 24 3.3.3 Biểu diễn sự kiện 24 3.3.4 Phát hiện sự kiện khởi đầu . 24 3.3.5 Tính độ tương đồng sự kiện . 24 3.3.6 Quyết định chuỗi sự kiện . 25 3.3.7 Mô hình chuỗi sự kiện 25 3.4 Tóm tắt chương 3 25 Chương 4: 27 Thực nghiệm . 27 4.1. Phương pháp thực nghiệm 27 4.1.1. Phương pháp đánh giá 27 4.1.2. Chiến thuật thực nghiệm . 27 4.2. Môi trường thực nghiệm . 29 vi 4.2.1. Hệ thống phần cứng 29 4.2.2. Công cụ phần mềm . 29 4.3. Kết quả thực nghiệm đánh giá . 29 Tổng kết . 31 Tài liệu tham khảo 32 vii Danh sách hình vẽ bảng biểu Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy ………………… 10 Hình 2.2. Mô tả dữ liệu âm dương ………………………………………. 11 Hình 2.3. Sự nhập nhằng của học máy SVM …………………………… 13 Hình 3.1. Mô hình đề xuất để giải quyết bài toán………………………… 24 Hình 3.2. Cấu trúc tệp dữ liệu sự kiện………………………………… . 26 Hình 3.3. Cấu trúc tệp thuộc tính sự kiện ……………………………… . 26 Hình 4.1. Giao diện hệ thống VnLoc …………………………………… 29 viii Danh sách thuật toán Thuật toán 1. Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM…… 14

Ngày đăng: 28/12/2013, 20:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan