Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

18 432 0
Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

1 Đại học Quốc Gia Hà Nội – Đại học Cơng Nghệ Khoa Cơng Nghệ ThơngTin CƠNG TRÌNH DỰ THI GiẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC” NĂM 2012 Tên cơng trình: Phát câu so sánh tiếng Việt áp dụng miền liệu”điện thoại” Họ tên sinh viên: Đào Tuấn Vũ – K53CB Tiêu Thị Phương – K54CC Giáo viên hướng dẫn: CN Vũ Tiến Thành CN Trần Xuân Tứ Hà nội -2012 NỘI DUNG I ĐẶT VẤN ĐỀ ĐỘNG LỰC VÀ MỤC ĐÍCH GIỚI THIỆU VỀ KHAI PHÁ QUAN ĐIỂM 2.1 Khái niệm khai phá quan điểm 2.2 Ứng dụng khai phá quan điểm 2.3 Bài toán khai phá quan điểm dựa câu so sánh PHÁT HIỆN CÂU SO SÁNH TRONG TIẾNG VIỆT VÀ ÁP DỤNG TRONG MIỀN DỮ LIỆU”ĐIỆN THOẠI” MỘT SỐ NGHIÊN CỨU LIÊN QUAN 4.1 Nghiên cứu Bing Liu cộng khai phá câu so sánh 4.2 Một số nghiên cứu khác II MƠ HÌNH GIẢI QUYẾT BÀI TỐN 10 TIỀN XỬ LÝ DỮ LIỆU 12 PHÁT HIỆN CÂU SO SÁNH 12 2.1 Trích xuất tập ứng viên cho phân lớp: 12 2.2 Học phân lớp thứ 12 2.3 Học phân lớp thứ hai 13 III THỰC NGHIỆM 14 CẤU HÌNH THỰC NGHIỆM 14 DỮ LIỆU THỰC NGHIỆM 14 THỰC NGHIỆM HỆ THỐNG 15 KẾT LUẬN 16 TÀI LIỆU THAM KHẢO 17 TÓM TẮT Khai phá quan điểm so sánh toán nhận quan tâm giới Mặc dù tốn có liên quan tới toán khai phá quan điểm dựa đặc trưng sản phẩm khác biệt Mục tiêu tốn gồm có (1) phát câu so sánh từ văn (2) trích xuất quan hệ so sánh Trong năm gần đây, số giải pháp phát câu so sánh đưa [JL06, HW08] Tuy nhiên, tiếng Việt, chưa có nghiên cứu sâu vào vấn đề Trong báo cáo này, sử dụng kỹ thuật học bán giảm sát để phát câu so sánh miền sản phẩm điện thoại di động dựa hướng tiếp cận Nitin Jindal cộng [JL06] Chúng tơi đề xuất mơ hình tự động phát câu so sánh dựa học máy bán giám sát EM với kết tốt (f1 0.78) Các bảng hình vẽ Bảng Môi trường thực nghiệm 14 Bảng 2.Thống kê số lượng câu đánh giá 15 Bảng Đánh giá trích xuất đặc trưng Error! Bookmark not defined Bảng Đánh giá xác định định hướng quan điểm (chưa có phát câu so sánh) Error! Bookmark not defined Bảng Đánh giá xác định định hướng quan điểm (Có phát câu so sánh) Error! Bookmark not defined Hình Mơ hình 11 Hình Bảng tổng kết quan điểm đặc trưng điện thoại Apple Iphone 32G Error! Bookmark not defined 4 I ĐẶT VẤN ĐỀ Động lực mục đích Ngày mạng xã hội phát triển phổ biến mạnh mẽ Theo số liệu thống kê1 trang mạng xã hội ưa chuộng facebook Có tới 500 triệu người dùng, ngày có 50% số lượng người dùng đăng nhập tài khoản, 20 phút facebook lại có triệu thơng điệp gửi Các thơng điệp chứa đựng nhiều ý kiến chủ quan người sử dụng mạng xã hội vật, sản phẩm hay kiện Rất nhiều người muốn biết ý kiến mang ý nghĩa tích cực, tiêu cực tới vật, sản phẩm hay kiện Chẳng hạn, cơng ty muốn biết thái độ người sử dụng sản phẩm mình, người muốn mua sản phẩm thường tìm thơng tin xung quanh sản phẩm mính muốn mua Khai phá quan điểm giúp họ nhanh chóng biết thơng tin Từ thực tế cần thiết mà giới toán khai phá quan điểm quan tâm nghiên cứu Đặc biệt có số hội nghị chuyên khai phá quan điểm như: Workshop on Opinion Mining for Business Intelligence (OMBI'10), Workshop on Opinion Mining and Sentiment Analysis, ICDM-2011 Workshop on Sentiment Elicitation from Natural Text for Information Retrieval and Extraction, International Workshop on Search and Mining User-generated Contents, Workshop on Social Theory and Social Computing, Workshop on Mining User-Generated Content Bên cạnh có nhiều báo khai phá quan điểm hội nghị tiếng như: International World Wide Web Conference, ACM Transactions on Intelligent Systems and Technology Không dừng lại việc nghiên cứu phương pháp, nhiều hệ thống khai há quan điểm ứng dụng thực tiễn: Twitter Sentiment2 TweetFeel3 Hiện nay, Việt Nam, có số hệ thống khai phá quan điểm ePiORM4 Tuy nhiên, theo tìm hiểu nhóm chưa có hệ thống khai phá quan điểm miền sản phẩm điện thoại di động Xuất phát nhu cầu thực tế đấy, chúng tơi chọn tốn nghiên cứu, xây dựng thử nghiệm mơ hình khai phá quan điểm cho miền tiếng Việt http://www.bbc.co.uk/news/technology-10713199 http://twittersentiment.appspot.com/ http://www.tweetfeel.com/ http://orm.epi.vn/ Giới thiệu khai phá quan điểm 2.1 Khái niệm khai phá quan điểm Thông tin chia làm hai loại thông tin khách quan thông tin chủ quan Trong đó, thơng tin khách quan phát biểu khách quan vật hay kiện sống Cịn thơng tin chủ quan phát biểu chủ quan phản ánh cảm xúc, nhận thức người phát biểu vật kiện Bing Liu [Liu10] định nghĩa khai phá quan điểm sau: “Với tập văn D chứa quan điểm cảm nghĩ đối tượng, mục tiêu khai phá quan điểm trích xuất thuộc tính thành phần đối tượng đề cập văn d thuộc D xác định xem liệu quan điểm tích cực, tiêu cực hay trung lập.” Bài tốn khai phá quan điểm gồm có tốn điển hình [Liu10]: - Phân lớp quan điểm - Khai phá quan điểm dựa đặc trưng - Khai phá quan điểm dựa câu so sánh 2.2 Ứng dụng khai phá quan điểm Do có nhiều ứng dụng nên khai phá quan điểm trở thành lĩnh vực quan tâm Bing Liu [Liu10] hai ứng dụng khai phá quan điểm: Thứ nhất, ứng dụng cho người dùng cuối, người muốn mua sản phẩm họ thường tìm kiếm thơng tin, đánh giá người khác sản phẩm Khai phá quan điểm giúp họ thay ngồi đọc số lượng lớn bình luận cần xem đánh giá tóm tắt sản phẩm Thứ hai, tổ chức doanh nghiệp, khai phá quan điểm hữu ích doanh nghiệp Khai phá liệu giúp họ biết thái độ người dùng sản phẩm tổ chức doanh nghiệp để đưa định hướng 6 2.3 Bài toán khai phá quan điểm dựa câu so sánh 2.3.1 Một số khái niệm liên quan Câu so sánh loại câu hay người dùng đưa nhận xét vật, tượng Nó mơ tả rõ ràng vật, tượng nói cách chung chung Chính vậy, chúng tơi tiến hành khai phá câu so sánh để củng cố kết đánh giá sản phẩm người dùng Ví dụ: “Điện thoại A tốt điện thoại B” với câu “điện thoại A tốt” Trong trường hợp với câu nhiều người sử dụng điện thoại B biết điện thoại B “tốt” đến mức độ nào, nên suy chất lượng điện thoại A Còn câu thứ hai nói lên cách chung chung khó đánh giá độ “tốt” điện thoại A 2.3.2 Phân loại câu so sánh Câu so sánh chia làm hai loại [JL06]: - So sánh phân cấp được: câu so sánh dựa quan hệ lớn hơn, nhỏ hơn, bằng, lớn nhỏ tất Ví dụ: iphone có hình đẹp samsung galaxy sii - So sánh phân cấp được: câu so sánh mang tính ngụ ý ám việc so sánh Ví dụ: iphone có cảm ứng cịn nokia 1002 khơng có Với câu so sánh phân cấp ta chia làm loại [JL06]: - So sánh bằng: mối quan hệ theo kiểu hai thực thể vài đặc trưng Ví dụ: Samsung Galaxy S II có hệ điều hành tương đương iphone 4s - So sánh hơn: mối quan hệ theo kiểu hai thực thể vài đặc trưng Ví dụ: Màn hình LG Optimus tốt hình Nokia C3-01 - So sánh nhất: mối quan hệ thực thể với tất thực thể khác vài đặc trưng Ví dụ: Kiểu dáng Samsung Galaxy Mini đẹp điện thoại Phát câu so sánh tiếng Việt áp dụng miền liệu”điện thoại” Hiện nay, theo khảo sát nhóm chưa có nghiên cứu việc phát câu so sánh tiếng Việt Bài toán phát câu so sánh tiếng Việt áp dụng miền liệu “điện thoại” phát biểu sau: “Với tập văn gồm câu bình luận tiếng Việt D chứa quan điểm cảm nghĩ sản phẩm Mục tiêu toán phát câu so sánh văn d thuộc D phân lớp quan điểm so sánh hơn, so sánh hay so sánh bằng.” Một số nghiên cứu liên quan Hiện tại, theo khảo sát nhóm chưa có nghiên cứu liên quan đến khai phá câu so sánh tiếng Việt giới có nghiên cứu đến tốn 4.1 Nghiên cứu Bing Liu cộng khai phá câu so sánh Việc khai phá quan điểm dựa câu so sánh chia làm hai nhiệm vụ gồm trích xuất câu so sánh trích xuất quan hệ so sánh Nitin Jindal Bing Liu [JL06],[JL06-1] đề xuất mơ hình để trích xuất câu so sánh trích xuất quan hệ so sánh - Trích xuất tập ứng viên câu so sánh: Từ tập từ khóa tạo tay (gồm 83 từ) mơ hình tìm câu chứa từ khóa để tạo thành tập ứng viên câu so sánh - Sử dụng học máy để loại bỏ câu câu so sánh: Jindal Liu tập ứng viên câu so sánh có độ hồi tưởng cao (98% theo tập liệu) nhiên lại có độ xác thấp (32% theo tập liệu) Do vậy, Jindal Liu sử dụng học máy để loại bỏ câu không câu so sánh từ tập Jindal Liu sử dụng phương pháp học máy bayes với thuộc tính luật chuỗi lớp cho kết cao (độ đo F1 81%) - Sử dụng học máy để phân lớp câu so sánh vào ba lớp phần giới thiệu Sau loại bỏ tập câu so sánh, Jindal Liu tiếp tục sử dụng phân lớp để phân câu so sánh vào lớp: so sánh hơn, so sánh bằng, so sánh Jindal Liu sử dụng gộp hai trình phân lớp lại nhiên kết thực nghiệm không cao việc chia thành hai phân lớp riêng biệt Tác giả sử dụng học máy SVM với đặc trưng từ khóa cho kết cao (độ xác 96%) 4.2 Một số nghiên cứu khác Nitin Jindal Bing Liu [JL06] đề xuất phương pháp cho việc khai phá quan điểm dựa câu so sánh (phát câu so sánh trích xuất quan hệ so sánh) Phương pháp phát câu so sánh từ khóa (có độ hồi tưởng cao) sau sử dụng luật chuỗi lớp kết hợp với gán nhãn từ loại làm đặc trưng phân lớp Để trích xuất quan hệ so sánh tác giả sử dụng luật chuỗi nhãn kết hợp với phương pháp học riêng chọn luật chuỗi nhãn tốt bao phủ toàn liệu Yang Ko [YK09] cải tiến phương pháp trích xuất Nitin Jindal Bing Liu áp dụng việc phát câu so sánh văn tiếng Hàn Quốc Bằng việc chia tập từ khóa làm hai phần cho tập câu chứa từ khóa phần có độ xác cao (trên 90%) tập câu chứa từ khóa phần cịn lại có độ xác thấp Sau giống phương pháp Jindal Liu tác giả sử dụng học máy để phần lớp phần liệu cịn lại Ngồi ra, Xiaojiang Huang cộng [HWYX] tiến hành việc phát câu so sánh tiếng Trung Quốc dựa nghiên cứu Nitin Jindal Bing Liu [JL06] Qua việc nghiên cứu số cơng trình liên quan, chúng tơi đề xuất mơ hình phát câu so sánh dựa mơ hình trích chọn câu so sánh [JB06] Tuy nhiên thay đổi đặc trưng cho học cac đoạn dãy gán nhãn 10 II Mơ hình giải tốn Trong phần chúng tơi đề xuất mơ hình câu so sánh dựa mơ hình đề xuất Bing Liu [JB06-2] Mơ hình chia làm ba pha gồm có: + Pha 1: Tiền xử lý liệu + Pha 2: Trích xuất tập ứng viên + Pha 3: Học phân lớp thứ + Pha 4: Học phân lớp thứ hai 11 Hình Mơ hình 12 Tiền xử lý liệu Do liệu lấy bình luận người dùng trang bán hàng trực tuyến nên chưa chuẩn Nhóm tiến hành chuẩn hóa lại liệu để kết có độ chuẩn xác cao Ví dụ: chuyển câu “cai dien thoai dep qua” thành “cái điện thoại đẹp q” Sau chuẩn hóa liệu, chúng tơi sử dụng công cụ WordSeg để tách từ gán nhãn từ loại Phát câu so sánh Đây phần mơ hình chúng tơi nhằm phát câu so sánh bình luận Việc trích xuất câu so sánh gồm ba q trình là: - Trích xuất tập ứng viên cho phân lớp - Học phân lớp thứ nhất: để trích xuất câu so sánh - Học phân lớp thứ hai: phân câu so sánh trích xuất bước vào lớp: so sánh hơn, so sánh bằng, so sánh 2.1 Trích xuất tập ứng viên cho phân lớp: Dữ liệu sau chuẩn hóa lọc tập từ khóa tạo thành tập ứng viên cho phân lớp đó: -Tập từ khóa tập từ mang ý nghĩa so sánh Chúng thống kê có 51 từ khóa - Tập ứng viên câu có chứa từ khóa Phát câu so sánh học máy bán giám sát: 2.2 Học phân lớp thứ Chúng thay việc trích chọn đặc trưng luật chuỗi nhãn [JL06] đoạn dãy gán nhãn Các đoạn chuỗi nhãn trích chọn sau: coi từ khóa điểm chốt để xây dựng đặc trưng Các dãy tạo chốt từ liền kề quanh với bán 13 kính r Trong q trình thực nghiệm chúng tơi thấy r đạt giá trị tốt giá trị Từ dãy tiến hành gán nhãn so sánh không so sánh cho liệu học Ví dụ: “iphone/N 5/M thì/C chuẩn_bị/V ra/R chạy/V nhanh/A hơn/R” so sánh Tiếp theo sử dụng học máy bán giám sát EM để học phân lớp với dãy gán nhãn đặc trưng Mỗi câu chứa dãy gán nhãn tập đặc trưng giá trị tương ứng cho đặc trưng gán 1, ngược lại gán 2.3 Học phân lớp thứ hai Với việc phân lớp này, tập từ khóa sử dụng làm tập đặc trưng để phân lớp Các lớp so sánh hơn, so sánh so sánh Nếu câu có chứa từ khóa tập đặc trưng giá trị tương ứng cho đặc trưng gán giá trị 1, trường hợp khác Bộ học SVM-kNN áp dụng cho kết tốt 14 III Thực nghiệm Cấu hình thực nghiệm Bộ xử lý Intel® Core™ CPU T5670 1.80 GHz RAM 2.00 GB Hệ điều hành Microsoft Windows Cơng cụ lập trình Java Eclipse SDK & Eclipse 3.7 Bảng Môi trường thực nghiệm Dữ liệu thực nghiệm Dữ liệu thực nghiệm thu thập từ trang thegioididong.com sử dụng chương trình nhóm tự viết Chúng tơi chọn 12 sản phẩm có số lượng bình luận nhiều tổng số 76 sản phẩm trang thegioididong.com Tổng số lượng bình luận cho 12 sản phẩm 3431 bình luận với số lượng câu 8556 Do việc chuẩn hóa cơng cụ có nhiều hạn chế, khơng thể xử lý hồn tồn ngơn ngữ tự nhiên nên nhóm tiến hành chuẩn hóa tay để nâng cao độ xác q trình gán nhãn liệu Ví dụ: - sửa “hok” thành “khơng” - sửa “oy” thành “rồi” Dưới bảng tổng kết liệu qua q trình chuẩn hóa: Thống kê số lượng đánh giá STT 10 11 Tên sản phẩm iphone-4-32gb lg-gs290-cookie-fresh lg-optimus-one-p500 lg-gm360i lg-optimus-me-p350 nokia-c3-00 nokia-c2-01 samsung-s5830-ace samsung-galaxy-mini-s5570 samsung-galaxy-s-ii-i9100g samsung-galaxy-y-s5360 Số lượng câu đánh giá 256 648 925 659 445 378 269 967 1253 1623 857 15 12 276 8556 samsung-galaxy-note-n7000 Tổng cộng Bảng 2.Thống kê số lượng câu đánh giá Thực nghiệm hệ thống Với tập ứng viên câu so sánh lọc từ khóa, tiến hành thử nghiệm với tập liệu học gồm 1000 câu có 800 câu chưa gán nhãn tập liệu kiểm tra gồm 300 câu Trong phân lớp thứ thực nghiệm với bán kính r khác cho kết sau: 0.90 0.80 0.70 0.60 0.50 Độ xác 0.40 Độ hồi tưởng Độ đo f1 0.30 0.20 0.10 0.00 EM r = EM r = EM r = SVM Hình Kết phân lớp Với thuật toán EM kết hợp với bán kính r đoạn gán nhãn cho kết tốt với độ xác 0.75, độ hồi tưởng 0.81 độ đo f1 0.78 16 KẾT LUẬN Xuất phát từ nhu cầu thực tế Việt Nam, nghiên cứu khoa học này, tiến hành nghiên cứu lĩnh vực khai phá câu so sánh Kết bước đầu miền sản phẩm “điện thoại” tốt Chúng bày tỏ lời cảm ơn PGS.TS Hà Quang Thụy, CN Vũ Tiến Thành, CN Trần Xuân Tứ phòng nghiên cứu SIS-KTLab giúp đỡ hoàn thành nghiên cứu 17 TÀI LIỆU THAM KHẢO [Liu10] Bing Liu Sentiment Analysis and Subjectivity Invited Chapter for the Handbook of Natural Language Processing, Second Edition March, 2010 [BingLiu] Bing Liu, Chapter 11, Webdata mining - Exploring Hyperlinks, Contents, and Usage Data [JL06] Nitin Jindal and Bing Liu, Mining Comparative Sentences and Relations, Proceedings of 21st National Conference on Artificial Intellgience (AAAI-2006), July 16.20, 2006, Boston, Massachusetts, USA [JL06-2] Nitin Jindal and Bing Liu, Identifying Comparative Sentences in Text Documents, Proceedings of the 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval (SIGIR-06), Seattle 2006 [HW08] Xiaojiang Huang, Xiaojun Wan, Jianwu Yang and Jianguo Xiao, Learning to Identify Comparative Sentences in Chinese Text, Proceedings of the 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence (PRICAI '08) [YK09] Seon Yang and Youngjoong Ko, Extracting Comparative Sentences from Korean Text Documents Using Comparative Lexical Patterns and Machine Learning Techniques, Proceedings of the ACL-IJCNLP 2009 Conference Short Papers (ACLShort '09) ... chưa có nghiên cứu việc phát câu so sánh tiếng Việt Bài toán phát câu so sánh tiếng Việt áp dụng miền liệu ? ?điện thoại? ?? phát biểu sau: “Với tập văn gồm câu bình luận tiếng Việt D chứa quan điểm... sánh PHÁT HIỆN CÂU SO SÁNH TRONG TIẾNG VIỆT VÀ ÁP DỤNG TRONG MIỀN DỮ LIỆU”ĐIỆN THOẠI” MỘT SỐ NGHIÊN CỨU LIÊN QUAN 4.1 Nghiên cứu Bing Liu cộng khai phá câu so sánh 4.2... lớp câu so sánh vào ba lớp phần giới thiệu Sau loại bỏ tập câu so sánh, Jindal Liu tiếp tục sử dụng phân lớp để phân câu so sánh vào lớp: so sánh hơn, so sánh bằng, so sánh Jindal Liu sử dụng

Ngày đăng: 07/12/2015, 15:23

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan