TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MÔ HÌNH THỐNG KÊ VÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN IỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT

68 632 0
TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MÔ HÌNH THỐNG KÊ VÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN  IỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MÔ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT Mục lục Tóm tắt nội dung................................................................................................................... 4 Bảng các ký hiệu và chữ viết tắt ........................................................................................... 8 Danh sách bảng biểu ............................................................................................................. 9 Danh sách hình ảnh............................................................................................................. 10 Mở đầu ................................................................................................................................ 11 Chương 1: Giới thiệu chung ............................................................................................... 13 1.1 Khai phá quan điểm .................................................................................................. 13 1.1.1 Khái quát khai phá quan điểm ........................................................................... 14 1.1.2 Ý nghĩa và ứng dụng bài toán ........................................................................... 20 1.2 Khai phá quan điểm trên miền tin tức....................................................................... 22 1.2.1 Giới thiệu bài toán ............................................................................................. 22 1.2.2 Máy tìm kiếm quan điểm .................................................................................. 23 1.2.3 Tổng hợp quan điểm dựa trên truy vấn ............................................................. 25 Tóm tắt chương 1 ............................................................................................................ 25 Chương 2: Các phương pháp tiếp cận giải quyết bài toán khai phá quan điểm trên văn bản tin tức .................................................................................................................................. 26 2.1 Một số nghiên cứu liên quan ..................................................................................... 26 2.2 Phương pháp tóm tắt quan điểm dựa trên mô hình thống kê .................................... 26 Bước 1. Thu thập từ nhận định .................................................................................. 29 Bước 2: Trích xuất quan điểm.................................................................................... 29 Bước 3. Tổng hợp quan điểm trích xuất được. .......................................................... 30 2.3 Phương pháp tóm tắt quan điểm dựa trên mô hình học máy .................................... 32 2.3.1 Mô tả hệ thống .................................................................................................. 32 2.3.2 Dữ liệu ............................................................................................................... 37 7 2.3.3 Phương pháp thực hiện ..................................................................................... 38 2.4 Nhận xét .................................................................................................................... 40 Tóm tắt chương 2 ............................................................................................................ 40 Chương 3: Tổng hợp quan điểm dựa trên mô hình thống kê ............................................. 41 3.1 Cơ sở lý thuyết ...............................................................................................

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Xuân Sơn TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MƠ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Xuân Sơn TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MƠ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: Th.S Nguyễn Thu Trang Cán đồng hướng dẫn: CN Nguyễn Tiến Thanh HÀ2 NỘI - 2011 Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy, ThS Nguyễn Thu Trang CN Nguyễn Tiến Thanh tận tình hướng dẫn tơi suốt q trình thực khóa luận tốt nghiệp Tơi xin gửi lời cảm ơn tới CN Vũ Tiến Thành, CN Trần Bình Giang anh chị, bạn sinh viên phịng thí nghiệm KT-Sislab hỗ trợ tơi nhiều q trình thực khóa luận Tơi xin gửi lời cảm ơn tới bạn lớp K52CB K52CHTTT ủng hộ khích lệ tơi suốt thời gian học tập trường Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi giúp học tập nghiên cứu trường Đại học Công Nghệ Xin cảm ơn hỗ trợ từ đề tài QG.10.38trong thời gian thực khóa luận Cuối cùng, tơi muốn gửi lời cảm ơn vơ hạn tới gia đình, bạn bè, người thân yêu bên cạnh động viên suốt q trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn! Sinh Viên Vũ Xuân Sơn Tóm tắt nội dung Khai phá quan điểm miền tin tức lĩnh vực mới, nhận nhiều quan tâm năm gần đây, đánh dấu bước phát triển khai phá văn (text mining).Khai phá văn hướng tới việc phân tích ngữ nghĩa, giúp máy móc thực “hiểu” nội dung văn nói quan điểm người viết (ví dụ: khen/chê) văn Nhu cầu máy tìm kiếm quan điểm đặt đáp ứng nhu cầu tìm kiếm quan điểm người dùng Máy tìm kiếm quan điểm nhận đầu vào truy vấn từ người dùng kết trả quan điểm vấn đề mà người dùng quan tâm, thay trả tập văn liên quan tới truy vấn người dùng máy tìm kiếm thơng thường Khóa luận tập trung nghiên cứu phương pháp xây dựng mơ hình thống kê cho tổng hợp quan điểm miền ứng dụng tin tức tiếng Việt nhằm ứng dụng vào máy tìm kiếm quan điểm miền liệu tin tức tiếng Việt Với đầu vào danh từ tên thực thể người dùng quan tâm, hệ thống tiến hành gửi truy vấn lên máy tìm kiếm (Google, Yahoo ) lấy trang tin có chứa bình luận người dùng Với tập trang tin thu thập được, hệ thống tiến hành tổng hợp quan điểm trả kết tổng hợp cho người dùng Với mơ hình đề xuất, khóa luận tiến hành xây dựng thử nghiệm áp dụng mơ hình miền liệu bình luận từ trang tin VnExpress.Trong [DK08], Hoa cộng đưa phương pháp đánh giá kết cho máy tìm kiếm dựa vào chuyên gia Thực nghiệm cho kết quảtrên mức điểm 5, giá trị đáp ứng trung bình chất lượng tổng hợp đạt mức điểm khả quan Kết cho thấy mơ hình đề xuất đắn triển khai thực tế Lời cam đoan Tơi xin cam đoan khóa luận với đề tài “Tổng hợp quan điểm dựa mơ hình thống kê ứng dụng vào khai phá quan điểm văn tin tức tiếng Việt” cơng trình nghiên cứu riêng Các số liệu, kết trình bày khóa luận hồn tồn trung thực chưa công bố cơng trình khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Trong công trình khoa học cơng bố khóa luận, tơi thể rõ ràng xác tơi đóng góp Khóa luận hồn thành thời gian làm Sinh viên Bộ môn Các hệ thống thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tác giả Vũ Xuân Sơn Mục lục Tóm tắt nội dung Bảng ký hiệu chữ viết tắt Danh sách bảng biểu Danh sách hình ảnh 10 Mở đầu 11 Chương 1: Giới thiệu chung 13 1.1 Khai phá quan điểm 13 1.1.1 Khái quát khai phá quan điểm 14 1.1.2 Ý nghĩa ứng dụng toán 20 1.2 Khai phá quan điểm miền tin tức 22 1.2.1 Giới thiệu toán 22 1.2.2 Máy tìm kiếm quan điểm 23 1.2.3 Tổng hợp quan điểm dựa truy vấn 25 Tóm tắt chương 25 Chương 2: Các phương pháp tiếp cận giải toán khai phá quan điểm văn tin tức 26 2.1 Một số nghiên cứu liên quan 26 2.2 Phương pháp tóm tắt quan điểm dựa mơ hình thống kê 26 Bước Thu thập từ nhận định 29 Bước 2: Trích xuất quan điểm 29 Bước Tổng hợp quan điểm trích xuất 30 2.3 Phương pháp tóm tắt quan điểm dựa mơ hình học máy 32 2.3.1 Mô tả hệ thống 32 2.3.2 Dữ liệu 37 2.3.3 Phương pháp thực 38 2.4 Nhận xét 40 Tóm tắt chương 40 Chương 3: Tổng hợp quan điểm dựa mơ hình thống kê 41 3.1 Cơ sở lý thuyết 41 3.1.1 Kho ngữ liệu khai phá quan điểm 41 3.1.2 Phương pháp trích rút đặc trưng văn 43 3.1.3 Phương pháp tổng hợp quan điểm dựa vào từ điển 45 3.2 Mơ hình thống kê áp dụng tổng hợp quan điểm cho văn tin tức tiếng Việt 46 3.2.1 Phân tích mơ hình đề xuất 46 3.2.2 Phân tích phương pháp đề xuất 49 Tóm tắt chương 53 Chương 4: Thực nghiệm đánh giá 54 4.1 Môi trường công cụ sử dụng thực nghiệm 54 4.2 Dữ liệu thử nghiệm 55 4.2.1 Đặc trưng trang tin tức VnExpress 55 4.2.2 Thu thập liệu 57 4.3 Thực nghiệm 58 4.3.1 Mô tả cài đặt chương trình 58 4.3.2 Thực nghiệm hệ thống 58 4.3.3 Đánh giá kết thực nghiệm 61 Tóm tắt chương 63 Kết luận định hướng phát triển 64 Phụ lục 66 Tài liệu tham khảo 66 Bảng ký hiệu chữ viết tắt Ký hiệu viết tắt Viết đầy đủ POS Part Of Speech TF-IDF Term Frequency-Inverse Document Frequency Pos(s) Positive Score Neg(s) Negative Score Danh sách bảng biểu Bảng 1: Mẫu nhãn POS trích chọn quan điểm 17 Bảng 2: Kết trích xuất từ quan điểm từ tập liệu 29 Bảng 3: Sự khác TAC 2008 nghiên cứu tác giả 35 Bảng 4: Danh sách máy tìm kiếm blog thuộc tính 38 Bảng 5: Hướng dẫn đánh giá khả trả lời câu hỏi 39 Bảng 6: Hướng dẫn đánh giá chất lượng ngôn ngữ học 39 Bảng Ví dụ synset từ điển VietSentiWordNet 42 Bảng Một số từ tập từ điển phủ định 43 Bảng Một số từ từ điển thể sắc thái 43 Bảng 10 Cấu hình hệ thống thử nghiệm 54 Bảng 11 Công cụ phần mềm sử dụng 54 Bảng 12: Thành phần tin định dạng HTML 57 Bảng 13: Các gói cài đặt thực nghiệm 58 Bảng 14: Một số đoạn bình luận liên quan tới từ khóa “Rùa Hồ Gươm” 60 Bảng 15: Kết tổng hợp quan điểm với từ khóa truy vấn “Rùa Hồ Gươm” 61 Bảng 16: Thang điểm đánh giá khả trả lời câu hỏi hệ thống đề xuất 62 Bảng 17: Thang điểm đánh giá chất lượng ngôn ngữ học 62 Bảng 18: Kết đánh giá thực nghiệm với truy vấn 63 Danh sách hình ảnh Hình Trang web Twitter Sentiment với từ khóa search Obama 21 Hình Trang web tweetfeel với từ khóa search Steve Jobs 22 Hình Mơ hình thống kê tổng hợp quan điểm 28 Hinh Kiến trúc FastSum cho tổng hợp quan điểm Blog 34 Hình Mơ hình tổng hợp quan điểm dựa phương pháp thống kê 48 Hình Truy vấn máy tìm kiếm lấy trang liên quan 50 Hình 7: Bảng xếp hạng VnExpress.Net Alexa 55 Hình 8: Một tin trang VnExpress.Net 56 Hình 9: Thực nghiệm pha thu thập tài liệu liên quan 59 Hình 10: Ví dụ tài liệu sau bước tiền xử lý 59 Hình 11: Thực nghiệm pha trích xuất quan điểm với từ khóa “Rùa Hồ Gươm” 60 Hình 12 Định dạng lại liệu lấy từ VnExpress.Net sau trích xuất thơng tin 66 10 Chương 4: Thực nghiệm đánh giá Dựa vào mơ hình đề xuất chương 3, khóa luận tiến hành thu thập liệu, trích xuất đặc trưng cho văn tin tức tổng hợp quan điểm liên quan tới truy vấn 4.1 Môi trường công cụ sử dụng thực nghiệm Cấu hình phần cứng Bảng 10 Cấu hình hệ thống thử nghiệm Thành phần Chỉ số CPU 2.0 GHz Dual Core Intel RAM 2GB OS Windows Pro Bộ nhớ 250GB Các phần mềm sử dụng Bảng 11 Công cụ phần mềm sử dụng STT Tên phần mềm Eclipse-SDK-3.5win32 JvnTextPro 2.0 Tác giả Nguồn LingPie 4.0.1 http://www.eclipse.org/downloads N.C.Tú-P.X.HiếuN.T.Trang http://jvntextpro.sourceforge.net/ http://aliasi.com/lingpipe/web/download.html 54 4.2 Dữ liệu thử nghiệm 4.2.1 Đặc trưng trang tin tức VnExpress Trong nội dung khóa luận, chúng tơi thực nghiệm liệu từ trang tin tức VnExpress.Net Trong phần này, giới thiệu cấu trúc viết bình luận người dùng trang tin VnExpress.Net Giới thiệu VnExpress.Net: VnExpress thành lập tập đoàn FPT vào ngày 26/2/2011 Bộ Thông tin Truyền thông cấp giấy phép số 511/GP-BVHTT ngày 25/11/2002 VnExpress tờ báo điện tử Việt Nam khơng có phiên báo giấy Tính tới thời điểm viết báo cáo này, theo bảng xếp hạng Alexa, VnExpress ln có số người truy cập lớn số mười tờ báo điện tử Việt Nam nằm top 400 website truy cập nhiều giới: Hình 7: Bảng xếp hạng VnExpress.Net Alexa Hình cho thấy thứ hạng VnExpress.Net đứng thứ 349 giới, đứng thứ Việt Nam Bài viết đa dạng, số lượng lớn bình luận người đọc tất lĩnh vực đời sống xã hội, trang tin VnExpress kho liệu tốt cho thực thử nghiệm mơ hình hệ thống đề xuất Kết phần đánh giá thực nghiệm khẳng định lựa chọn trang tin VnExpress cho việc thử nghiệm mơ hình hoàn toàn đắn 55 Cấu trúc tin VnExpress: Một tin tức VnExpress.Net sử dụng font chữ Time New Romanvới kích thước font chữ 11.8pt Ví dụ tin tiêu đề “Hơm Hà Nội bàn cách cứu ‘cụ’ Rùa hồ Gươm6”được trình bày hình dưới: Hình 8: Một tin trang VnExpress.Net Các tin trang VnExpress.Net có phần quan trọng: Tiêu đề báo Nội dung báo Bình luận người đọc o Tiêu đề bình luận o Nội dung bình luận o Người bình luận Bảng cho thấy việc tổ chức thành phần tin VnExpress hồn tồn có cấu trúc dễ dàng cho việc trích chọn thơng tin: http://vnexpress.net/gl/khoa-hoc/2011/02/hom-nay-ha-noi-ban-cach-cuu-cu-rua-ho-guom/ 56 Bảng 12: Thành phần tin định dạng HTML Thành phần Định dạng HTML Tiêu đề báo Tiêu đề báo Nội dung báo Nội dung tin tức Tiêu đề bình luận

Tiêu đề bình luận

Nội dung bình luận

Nội dung bình luận

Người bình luận

Người bình luận

Trang tin VnExpress.Net có ưu điểm: Nguồn liệu tin phong phú, với số lượng lớn bình luận người dùng, đặc biệt định dạng thơng tin có cấu trúc giúp dễ dàng cho nhiệmvụ trích chọn thơng tin Với đặc điểm trên, trang tin VnExpress trang tin điển hình để chúng tơi tiến hành thực nghiệm mơ hình miền liệu tin tức tiếng Việt 4.2.2 Thu thập liệu Dữ liệu thử nghiệm lấy từ trang báo điện tử http://vnexpress.net Sử dụng phần mềm IDM Grabber để lấy liệu với link đầu vào trang chủ http://vnexpress.net/: Trong Tasks công cụ download IDM, chọn Run Site Grabber Mỗi Site Grabber gồm bước: - Chọn địa trang web cần download: Thực nghiệm chọn trang http://vnexpress.net/ - Chọn nơi lưu liệu download - Thiết lập lọc link levels: Thực nghiệm chọn duyệt độ sâu trang tới mức không lấy từ links bên trang - Thiết lập điều kiện lọc nâng cao: Bằng khảo sát liệu, thấy trang sau tải nội dung html có kích thước < 20k trang có thơng tin Do đó, chúng tơi thiết lập ràng buộc trang lấy có kích thước > 20kb - Thiết lập lọc file cần download: Thực nghiệm chọn download file *.html, *.htm Sau thiết lập thông số IDM tự động download liệu từ trang web thiết lập 57 Dữ liệu trang web lấy sau loại bỏ liệu nhiễu (là trang web thơng tin) có tổng số 1.548 báotrong có 214 file cóbình luận người đọcchiếm 13.83% 4.3 Thực nghiệm Trong phần này, khóa luận đưa số kết thực nghiệm để chứng minh cho tính đắn tính thực tiễn mơ hình đề xuất Thực nghiệm xây dựng theo mơ hình đề xuất 4.3.1 Mơ tả cài đặt chương trình Chương trình tổ chức thành gói: Bảng 13: Các gói cài đặt thực nghiệm OS.Data: thực thao tác với tài liệu: chuyển tài liệu thành đối tượng, thao tác với đối tượng… OS.GetVnExpress: thực truy vấn lấy tài liệu liên quan tới truy vấn trả từ Google OS.Extraction: thực trích xuất tài liệu liên quan tới từ khóa truy vấn OS.Summarization: thực tổng hợp quan điểm đưa output cho người dùng OS.Dictionary: thực thao tác với từ điển VietSentiWordNet để khai phá nhận định sử dụng từ điển OS.Ultils: gói chứa thư viện hỗ trợ cho bước xử lý bên 4.3.2 Thực nghiệm hệ thống Thực nghiệm pha thu thập tài liệu liên quan: với truy vấn đầu vào “Rùa Hồ Gươm”, pha gửi truy vấn lên máy tìm kiếm Google lấy tập 100 trang web trả từ máy tìm kiếm: 58 Hình 9: Thực nghiệm pha thu thập tài liệu liên quan Thực nghiệm bước tiền xử lý liệu:Dữ liệu lấy tập trang web với định dạng html trích xuất thành phần: Tiêu đề báo Nội dung báo Bình luận o Tiêu đề bình luận o Nội dung bình luận o Người bình luận Ví dụ tài liệu sau tiền xử lý: Hình 10: Ví dụ tài liệu sau bước tiền xử lý 59 Thực nghiệm pha trích xuất quan điểm:Thử nghiệm với tập liệu thu thập được, với truy vấn đầu vào “Rùa Hồ Gươm”, kết có 53 đoạn bình luận liên quan tới từ khóa “Rùa Hồ Gươm” Hình 11: Thực nghiệm pha trích xuất quan điểm với từ khóa “Rùa Hồ Gươm” Một số đoạn bình luận kết trích ra: Bảng 14: Một số đoạn bình luận liên quan tới từ khóa “Rùa Hồ Gươm” Tiêu đề bình luận Nước hồ Gươm Nội dung bình luận Trong chờ đợi đưa cụ Rùa lên bờ để chửa trị vết thương cho cụ, xin góp ý kiến sa83n dịp nên xử lý nước Người bình luận Phan Tấn Lộc hồ gươm ln… Chỉ cịn Cụ Hồ mà Thương "Cụ Rùa" cịn lâu trở thành huyền thoại, đài báo quan nói đến nhiều… Tùng Lê Cụ rùa sống Hồ Gươm Gửi Bạn Tấn Lộc - Nước Hồ lâu nên quen với môi Gươm trường sống đây… Đỗ Minh Ngọc Thật đáng thương cho Cụ Vì Cụ Rùa! nước Hồ Gươm nên xem lại ,chúng ta cần bảo tồn,và xem 60 Lê Hiền lại rùa tai đỏ! Chúc Cụ mau lành bệnh… Nhất trí ý kiến bạn Mình xin chia sẻ ý kiến bạn Nhân dịp cụ Rùa lên bờ cần triệt để làm nước hồ tiêu diệt bọn rùa tai đỏ khó chịu… Bùi Phạm Tú Trang Thực nghiệm pha tổng hợp quan điểm:Với từ khóa truy vấn “Rùa Hồ Gươm” hệ thống cho kết quả: Bảng 15: Kết tổng hợp quan điểm với từ khóa truy vấn “Rùa Hồ Gươm” Có t ng s 53 • R t thích • Thích 23 • Trung l p 14 • Khơng thích 14 • R t khơng thích 4.3.3 Đánh giá kết thực nghiệm Chúng thực phương pháp đánh giá tổng hợp hệ thống [DK08] Hai nhà báo Phạm Thị Hồng Anh7 Nguyễn Thị Nguyệt8 chọn làm chuyên gia tin tức (cả hai nhà báo nhà biên tập có kinh nghiệm lĩnh vực tin tức) điểm đánh giá kết tổng hợp theo hai độ đo Khả trả lời truy vấn hệ thống (Độ_đo_1) Chất lượng ngôn ngữ kết trả (độ_đo_2) Hai độ đo xây dựng thang điểm Với tiêu chí điểm cho độ đo bảng 16 17: Phóng viên báo Người Đại Biểu Nhân Dân, quan ngôn luận Quốc Hội Việt Nam Email: anhph@qh.gov.vn Biên tập viên báo Việt Báo Email: nguyennt@vietbao.vn 61 Bảng 16: Thang điểm đánh giá khả trả lời câu hỏi hệ thống đề xuất Bậc Ý nghĩa Mô tả Rất tốt Kết tổng hợp tập trung vào từ khóa truy vấn, câu có chứa phân cực quan điểm từ khóa Tốt Kết tổng hợp có liên quan tới từ khóa, nhiên quan điểm khơng tập trung, có phân cực quan điểm Trung bình Hơi liên quan tới từ khóa có phân cực quan điểm Kém Kết tổng hợp bị trùng lặp có phân cực quan điểm Rất Khơng tập trung vào câu hỏi, phân cực phía (chỉ có quan điểm tích cực, tiêu cực trung lập) Với Độ_đo_1(độ đo khả trả lời câu hỏi hệ thống): dựa vào cột mô tả, chuyên gia tiến hành phân loại cho kết trả theo mức đoạn theo bậc Bậc tương ứng với số điểm đoạn Điểm độ đo cho tồn tổng hợp tính công thức: Đ_đ‫= 1_݋‬ ܶ݊݃ đ݅݉ đ đ‫ܿ ݋‬ℎ‫ܿ ܿ ݐݐ ݋‬áܿ đ‫݊݋‬ ܶ݊݃ ‫ ݏ‬đ‫݊݋‬ Bảng 17: Thang điểm đánh giá chất lượng ngôn ngữ học Điểm Tiêu chí Điểm quan tâm +1 Ngữ pháp Định dạng viết, thiếu sót, lỗi tả, … +1 Khơng có thơng tin Khơng có lặp lại nội dung, dư thừa kiện, cụm danh từ… +1 Câu viết rõ ràng Dễ dàngnhận cụmdanh từ… +1 Tính tập trung Quan điểm tập trung, rõ ràng, thông tin đầy đủ… +1 Cấu trúc Bài viết có cấu trúc, câu có 62 dạngđại từvà liên quan tới Với Độ_đo_2(độ đo chất lượng ngôn ngữ học): chuyên gia tiến hành phân tích chất lượng ngơn ngữ kết tổng hợp theo mức đoạn Với tiêu chí đánh giá đạt cộng thêm điểm Điểm tổng hợp độ đo hai kết tổng hợp tính cơng thức: Đ đ‫= ݋‬ ܶ݊݃ đ݅݉ đ đ‫ܿ ݋‬ℎ‫ܿ ܿ ݐݐ ݋‬áܿ đ‫݊݋‬ ܶ݊݃ ‫ ݏ‬đ‫݊݋‬ Điểm đánh giá tổng hợp cuối cho truy vấn tính cách lấy trung bình điểm Độ_đo_1 Độ_đo_2 Tiến hành đánh giá kết tổng hợp với năm truy vấn đầu vào theo hai độ đo với tiêu chí chấm điểm trên, ta có bảng tổng hợp kết đánh sau: Bảng 18: Kết đánh giá thực nghiệm với truy vấn Truy vấn đầu vào Số lượng đoạn bình Điểm độ Điểm độ đo đo luận liên quan tới truy vấn Cụ Rùa 231 Nữ sinh 163 Clip 280 CSGT 320 Uyên Linh 190 4 Trung bình trung tồn hệ thống với truy vấn Điểm trung bình 3.5 4.5 3.5 3.9 Từ bảng đánh giá kết hệ thống cho thấy với mức điểm Kết đánh giá cho thấy mô hình hệ thống đề xuất khả quan, có khả áp dụng vào thực tế Tóm tắt chương Trong chương này, tiến hành thực nghiệm, xem xét đánh giá kết trình thử nghiệm mơ hình tổng hợp quan điểm dựa phương pháp thống kê áp dụng cho văn tin tức tiếng Việt Qua phân tích đánh giá thực nghiệm cho thấy tính đắn phương pháp sử dụng khóa luận 63 Kết luận định hướng phát triển Kết đạt khóa luận: Đã cài đặt, thử nghiệm ban đầu tập liệu trang tin VnExpress Với mơ hình phương pháp đề xuất, hệ thống hồn mở rộng sang tất văn tin tức trang báo điện tử khác với bổ xung việc tiền xử lý văn đầu vào Kết đánh giá mơ hình cho thấy hệ thống có khả phát triển ứng dụng thực tế Hiện tại, toán khai phá quan điểm văn tin tức tiếng Việt cịn, với mơ hình phương pháp đề xuất bước đầu tiếp cận định hướng phát triển khai phá quan điểm tin tức tiếng Việt Các vấn đề chưa đạt được:bên cạnh kết đạt được, hạn chế mặt thời gian kiến thức, khóa luận cịn hạn chế sau: • Truy vấn đầu vào hệ thống: hệ thống hạn chế truy vấn đầu vào người dùng bắt buộc phải danh từ tên thực thể xác định Với giới hạn này, hệ thống chưa thể tổng hợp theo hướng quan điểm người dùng quan tâm tức người dùng muốn biết quan điểm khía cạnh thực thể khơng quan tâm tới tồn quan điểm thực thể Ví dụ: Khi người dùng muốn muốn tìm quan điểm cụ thể “Nữ Sinh đánh nhau” thay tồn quan điểm “Nữ sinh” • Phương pháp tổng hợp quan điểm: phương pháp tổng hợp quan điểm hệ thống hạn chế từ điển VietSentiWordNet chưa bao quát hết miền liệu tin tức Định hướng tương lai: tiến hành phát triển đưa thêm số pha xử lý để hệ thống nhận truy vấn đầu vào dạng ngôn ngữ tự nhiên thay danh từ tên thực thể xác định 64 Mở rộng từ điển cho phương pháp tổng hợp đạt kết xác áp dụng cho nhiều miền liệu khác Triển khai hệ thống vào thực tế với đầy đủ pha xử lý máy tìm kiếm quan điểm cho tin tức tiếng Việt 65 Tài liệu tham khảo Tài liệu tiếng Việt [THST09] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [SHH11] Vũ Xuân Sơn, Trần Trung Hiếu, Lê Thu Hà, Đào Thủy Ngân “Xây dựng từ điển VietSentiWordNet ứng dụng khai phá quan điểm tin tức” Cơng trình SVNCKH năm 2011, Đại Học Cơng Nghệ, ĐHQGHN Tài liệu tiếng Anh [ADSB10] Amitava Das, OpinionSummarization”, 2010 Sivaji Bandyopadhyay,“Topic-Based Bengali [EHM10] Elena, Horacio, Manuel “Experiments on Summary-based Opinion Classification”, 2010 [TWU10] Thelwall, M., Wilkinson, D & Uppal, S Data mining emotion in social network communication: Gender differences inMySpace, Journal of the American Society for Information Science and Technology, 61(1), 190-199 [BO09] BrunoOhana “OpinionminingwiththeSentWordNetlexicalresource”, 2009 [JGR09] Jackie, Giuseppe, Raymond basedContentSelectionforOpinionSummarization”, 2009 “Optimization- [KSR09] Kevin Lerman, Sasha Blair-Goldensohn, and Ryan McDonald Sentiment summarization: Evaluating and learning user preferences In Proceedings of the European Association for Computational Linguistics (EACL 2009), Athens, Greece, 2009 ACL 66 [DK08] Hoa Trang Dang and Karolina Owczarzak “Overview of the TAC 2008 Update Summarization Task”, 2008 [FRJJ08] Frank Schilder, Ravikumar Kondadadi, Jochen L Leidner, and Jack G Conrad Thomson Reuters at TAC 2008: Aggressive filtering with FastSum for update and opinion summarization In Proceedings of the First Text Analysis Conference (TAC 2008), pages 396–405, Gaithersburg, MD, 2008 NIST [JJLF08] Jack G Conrad, Jochen L Leidner, Frank Schilder, Ravi Kondadadi “Querybased Opinion Summarizationfor Legal Blog Entries”, 2008 [BoLee08]Bo Pang, Lillian Lee “Opinion Mining and Sentiment Analysis”, 2008 [AMT08] AurélienBossard, Michel Généreux and ThierryPoibeau “CBSEAS, a Summarization System Integration of Opinion Mining Techniques to Summarize Blogs” TAC 2008 [PSS08] Prof.SudeshnaSarkars “Multi-DocumentUpdateandOpinionSummarization”, 2008 [SD08] Sushant Kumar and Diptesh Chatterjee “Statistical Model for Opinion Summarization”, 2008 [BL07] Bing Liu “Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data” Chapter II, 2007 [AF06] Andrea Esuli, Fabrizio Sebastiani “SentiWordNet: A public avaible lexical resource for opinion mining” LREC’06 [VC06] Veselin, Claire “PartiallySupervisedCoreferenceResolutionforOpinionSummarizationthroughStructuredR uleLearning”, 2006 [KLC06] Lun-Wei Ku, Yu-Ting Liang and Hsin-Hsi Chen “Opinion extraction, summarization and tracking in news and blog corpora” AAAI 2006 [HL04] Minqing Hu and Bing Liu “Mining and SummarizingCustomer Reviews” SIGKDD 2004, pages 168-177.2004 [KH04] Soo-Min Kim and Eduard Hovy “Determining Coling, pages 1367-1373.2004 67 theSentiment of Opinions” [JR03] J Ramos, "Using TF-IDF to Determine Word Relevance in Document Queries", First International Conference on Machine Learning, 2003 [PLV02]B Pang, L Lee and S Vaithyanathan “Thumbs up?Sentiment classification using machine learning techniques” Proceedings of the 2002 Conference on EMNLP, pages 79-86 2002 [JCD01] John M Conroy and Dianne P O’Leary Text summarization via hidden markov models In Proceedings of the 24th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001), pages 406–407, New York, NY, USA, 2001 ACM [HM97] Hatzivassiloglou, V and McKeown, K Predicting the Semantic Orientation of Adjectives ACL- EACL’97, 1997 [KD] KerstinDenecke DomainSentimentClassification?” “AreSentiWordNetScoresSuitedforMulti- [MKG] Mike Thelwall, Kevan Buckley, Georgios Paltoglou, Di Cai Sentiment Strength Detection in Short Informal Text 68 ... mơ hình thống kê cho khai phá quan ? ?iểm văn tin tức tiếng Việt Chương giới thiệu khái niệm khai phá quan ? ?iểm toán khai phá quan ? ?iểm miền ứng dụng tin tức 1.1 Khai phá quan ? ?iểm Thơng tin văn. .. quát khái niệm liên quan tới khai phá quan ? ?iểm, toán khai phá quan ? ?iểm Khóa luận giới thiệu tốn khai phá quan ? ?iểm miền ứng dụng tin tức ứng dụng vào tìm kiếm quan ? ?iểm tin tức Trong chương tiếp... Xuân Sơn TỔNG HỢP QUAN ĐIỂM DỰA TRÊN MƠ HÌNH THỐNG KÊVÀ ỨNG DỤNG VÀO KHAI PHÁ QUAN ĐIỂM TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng

Ngày đăng: 15/05/2014, 10:40

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan