(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

66 43 0
(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUN - 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN VIỆT ANH THÁI NGUYÊN – 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn i LỜI CẢM ƠN Trước hết tơi xin bày tỏ lịng biết ơn sâu sắc gửi lời cảm ơn đặc biệt tới Thầy TS Nguyễn Việt Anh, người định hướng đề tài, cung cấp cho kiến thức, tài liệu tận tình hướng dẫn bảo tơi suốt trình thực đề tài luận văn cao học này, từ ý tưởng đề cương nghiên cứu, phương pháp nghiên cứu, phương pháp giải vấn đề lần kiểm tra cuối để hồn thành luận văn Tơi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phịng Đào tạo sau đại học, Đại học Cơng nghệ thông tin truyền thông Thái Nguyên tạo điều kiện tốt giúp tơi suốt q trình học tập Cuối xin gửi lời cảm ơn đến gia đình, bạn bè người ln động viên khuyến khích tơi suốt q trình học tập thực đề tài luận văn Thái Nguyên, ngày tháng năm 2016 Học viên Lê Thị Bích Hảo Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn tơi tự nghiên cứu tìm hiểu dựa tài liệu tơi trình bày theo ý hiểu thân hướng dẫn trực tiếp Thầy TS Nguyễn Việt Anh Các nội dung nghiên cứu, tìm hiểu kết thực nghiệm hoàn toàn trung thực Luận văn chưa cơng bố cơng trình Trong q trình thực luận văn tơi tham khảo đến tài liệu số tác giả, ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả liệt kê mục “DANH MỤC TÀI LIỆU THAM KHẢO” cuối luận văn Học viên Lê Thị Bích Hảo Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iii MỤC LỤC Trang Trang bìa phụ Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh mục bảng, hình vẽ, đồ thị iv MỞ ĐẦU Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 1.1 Khai phá quan điểm 1.1.1 Giới thiệu chung 1.1.2 Những thách thức khai phá quan điểm với liệu đánh giá 1.1.3 Các định nghĩa khai phá quan điểm 1.1.4 Các toán khai phá quan điểm 1.2 Khai phá quan điểm dựa đặc trưng 11 1.2.1 Mơ hình khai thác ý kiến dựa thuộc tính 12 1.2.2 Trích xuất khía cạnh 15 1.2.3 Dự đoán cực 16 1.2.4 Nhóm khía cạnh 17 1.2.5 Phân giải đồng tham chiếu (Coreference resolution) 18 1.2.6 Đánh giá 18 Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Phương pháp trích chọn đặc trưng dựa tập phổ biến 21 2.2 Phương pháp trích chọn đặc trưng dựa lan truyền kép 26 2.3 Mơ hình giải toán khai phá quan điểm dựa vào đặc trưng cho tiếng Việt 34 Chƣơng 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƢNG CHO ĐIỆN THOẠI DI ĐỘNG 37 3.1 Mô tả toán ý tưởng giải 37 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iv 3.2 Xây dựng mơ hình hệ thống 37 3.2.1 Xây dựng sở liệu đặc tả sản phẩm 40 3.2.2 Sinh tập ứng viên đặc trưng 41 3.3.3 Nhóm gộp đặc trưng 43 3.3 Thực nghiệm đánh giá 45 3.3.1 Môi trường công cụ sử dụng 46 3.3.2 Bước tiền xử lý liệu: 47 3.3.4 Trích chọn tính dựa theo thuật tốn lan truyền kép 51 3.3.5 Gộp nhóm tính 53 3.3.6 Đánh giá chung cho toàn hệ thống 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 57 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iv DANH MỤC CÁC BẢNG Trang Bảng 3.1 Các nhãn từ loại giải thích 40 Bảng 3.2 Tổng hợp tính quan tâm 54 DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ Hình 1.1 Ví dụ biểu diễn đối tượng Hình 1.2 Quan hệ nhiệm vụ 10 Hình 2.1 Mơ hình trích chọn đặc trưng Hu Liu 22 Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp A B 27 Hình 2.3 Mơ hình khai phá quan điểm dựa tính Ha [6] 35 Hình 3.1 Mơ hình giải tốn 39 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn MỞ ĐẦU Trên giới nói chung Việt Nam nói riêng, thương mại điện tử trở nên phổ biến ngày phát triển Một phần quan trọng thương mại điện tử bán hàng trực tuyến Số lượng người mua hàng trực tuyến gia tăng, số lượng đánh giá, nhận xét người dùng sản phẩm ngày nhiều Một sản phẩm thơng dụng có hàng trăm, hàng nghìn đánh giá Cùng với trang web bán hàng trực tuyến trang web đánh giá sản phẩm epinions.com, dpreview.com, vnreview.vn, trustedreviews.com, tinhte.vn, Các trang web nơi người tiêu dùng viết đánh giá sản phẩm Các đánh giá đăng trang web loại cần tuân theo số quy định trang web đưa chấm điểm đông đảo người dùng trang web vào độ tin cậy, hợp lý hữu dụng mà đánh giá mang lại Chính vậy, đánh giá từ trang web loại coi nguồn tổng hợp lớn đánh giá sản phẩm tin cậy từ khách hàng Đây nguồn thông tin quan trọng, cung cấp cho người mua hàng nhìn tồn diện sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hoàn thiện sản phẩm Tuy nhiên, vấn đề đặt số lượng ý kiến đánh giá lớn Điều gây khó khăn cho người mua hàng nhà sản xuất Người mua hàng gặp khó khăn việc tổng hợp ý kiến người tiêu dùng trước để đưa định mua hay khơng mua sản phẩm Cịn nhà sản xuất khó theo dõi, nắm bắt tất phản hồi người tiêu dùng sản phẩm Thực tế làm nảy sinh yêu cầu tổng hợp tất nhận xét khách hàng đặc trưng sản phẩm trang web đánh giá sản phẩm Theo cuô ̣c khảo sát 2000 người Mỹ trưởng thành cho th 81% người dùng internet (chiếm tỷ lệ 60% người Mỹ ) đã thực hiê ̣n viê ̣c tim ̀ hiể u về mô ̣t sản phẩ m thơng qua internet Có từ 73% đến 87% số người nói rằ ng các nhâ ̣n xét về sản phẩ m có sự ảnh hưởng quan tro ̣ng đế n viê ̣c lựa cho ̣n mua sản phẩ m của ho ̣ Như vậy, quan điểm người khác giúp có thêm thơng tin định Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn vấn đề, ảnh hưởng lớn đến hành vi Tại Việt Nam theo báo cáo thương mại điện tử Bộ công thương công bố năm 2014 [1] loại mặt hàng mua trực tuyến đồ công nghệ điện tử chiếm tới 61%, yếu tố quan tâm mua sắm 81% người uy tín người bán hàng 64% theo thương hiệu sản phẩm; thống kê năm 2015 Google [2] người dùng internet có xu hướng theo lời khuyên trực tuyến 50% để mua đồ Việc giúp người có ý định mua tham khảo tốt ý kiến người dùng, hay giúp nhà cung cấp sản phẩm biết cộng đồng quan tâm đến sản phẩm khía cạnh nào, động lực để học viên nghiên cứu đề tài Đối với toán có nhiều cơng trình nghiên cứu ứng dụng giới thập kỷ qua đưa nhiều kết đáng ý mô tả tổng hợp số nhà nghiên cứu uy tín ngành Bing Liu [3] hay Moghaddam [4]… giới, nước đề tài nhận nhiều ý quan tâm nhà nghiên cứu năm gần đây, bật có nhóm tác giả Bảo Sơn [5] nhóm Hà Thụy [6], [7] đưa số kết mơ hình áp dụng số liệu tiếng Việt từ điển miền Tiếng Việt… Luận văn định hướng tìm hiểu phương pháp trích chọn đặc trưng khai phá quan điểm để biểu diễn đối tượng quan tâm, sở đề xuất phương pháp thử nghiệm ứng dụng hệ thống tốn trích chọn đặc trưng sản phẩm cụ thể điện thoại di động, từ liệu thu thập website diễn dàn đánh giá sản phẩm Với ý nghĩa thực tế ứng dụng thị trường nước, học viên xin đề xuất nghiên cứu đưa mơ hình ứng dụng Mơ hình bao gồm bước từ thu thập liệu, tiền xử lý liệu, đến ứng dụng thuật tốn mơ hình lan truyền kép để trích chọn đặc trưng, sử dụng phân cụm để gộp nhóm đặc trưng Cuối đưa đánh giá riêng hiệu thuật toán, liệu, kết đạt đánh giá tính khả thi ứng dụng mơ hình Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn Cấu trúc luận văn chia thành phần chính: Phần I Mơ tả tổng quan tốn khai phá quan điểm, nêu rõ vấn đề bật toán tiếp tới sâu vào toán khai phá quan điểm dựa đặc trưng, toán cần giải phương pháp đánh giá Những vấn đề nêu có giới thiệu nghiên cứu ngồi nước liên quan Phần II Mô tả cụ thể chi tiết phương pháp giải tốn trích trọn đặc trưng bật giới, phân tích đưa định ứng dụng vào mơ hình giải tốn Phần III Phát biểu tốn đưa mơ hình ứng dụng tốn trích chọn đặc trưng cho miền liệu tiếng Việt sản phẩm điện thoại di động Tiếp theo đưa kết thực nghiệm phân tích chủ quan học viên kết đạt mơ hình Phần IV Kết luận tổng kết q trình thực luận văn, khó khăn, thách thức, kết đạt định hướng hướng nghiên cứu áp dụng Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 45 Thuật toán: Học phân lớp SVM1 tập huấn luyện L Lặp lại đến ||L|| >= t* ||L U|| Sử dụng SVM1 gán nhãn tất từ tính U Chọn vector hỗ trợ s từ U làm tập liệu kiểm thử cho thuật toán kNN Sử dụng thuật toán kNN với tập mẫu huấn luyện gán nhãn lại tập liệu kiểm thử s để tập s gán nhãn MỚI L L MỚI; U U\ MỚI Học phân lớp SVM2 sử dụng L cập nhật SVM1SVM2 Sử dụng SVM2 gán nhãn tất từ tính lại U Xác định đặc trưng phổ biến: Mục đích để xác định từ tính phổ biến đánh giá bỏ tính dư thừa Bằng cách sử dụng thuật tốn FP-growth [25] tìm tập phổ biến với ngưỡng tự chọn tùy thuộc vào liệu thu thập Đặc điểm áp dụng thuật tốn FP-growth đánh giá trích chọn ứng viên tính (hay cịn gọi đặc trưng) đưa vào tập liệu đầu vào đặc trưng ứng viên đó, khơng quan tâm đến số lần xuất từ tính đánh giá hay bình luận; điều có ý nghĩa liệu tính có nhiều người quan tâm có nghĩa tần suất tính khơng phải số lần xuất từ tính tất văn mà tần suất đánh giá có nhắc đến tính 3.3 Thực nghiệm đánh giá Phần luận văn mô tả kết thực nghiệm dạng kết đầu bước mô tả phần 3.2 sau nêu phần nhận xét đánh giá kết đạt với bước theo tiêu chí khác Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 46 Cụ thể khía cạnh cần quan tâm đánh giá bao gồm thứ xem xét liệu huấn luyện thu thập được, khả mở rộng liệu này, phương pháp chạy liệu; thứ hai đánh giá thuật tốn sử dụng lan truyền kép thời gian độ phức tạp khả phù hợp với liệu cộng thêm khía cạnh cấu trúc ngữ pháp cho tiếng Anh tiếng Việt; tiếp tới đánh giá khâu gộp nhóm mơ hình hệ thống qua kết thực nghiệm; cuối đánh giá chung hệ thống cấp độ thực nghiệm đưa tính khả thi áp dụng hệ thống môi trường thực 3.3.1 Môi trường cơng cụ sử dụng Luận văn có sử dụng số framework từ điển công bố nhóm nghiên cứu như:  jsoup5 dùng để crawler liệu từ trang website có đánh giá sản phẩm  Jvntextpro để thực bước tiền xử lý tách câu, tách từ, gán nhãn từ loại cho tiếng Việt  Từ điển VNDic7, tratu.vn8  StanfordNLP9 cơng cụ phân tích xử lý ngôn ngữ tự nhiên cho tiếng Anh, dùng để tiền xử lý liệu cho tiếng Anh, giống với công cụ Jvntextpro  Vav-agrument thực nhận dạng thực thể tên cho tiếng Việt [27]  Double-propagation-target-generation mã nguồn thuật toán lan truyền kép dành cho liệu tiếng Anh10 Thực nghiệm chạy máy có cấu hình: 4GB RAM, Intel® Core ™ i3 CPU M380 @2.53GHz Sử dụng mơi trường Eclipse để lập trình http://jsoup.org/ http://jvntextpro.sourceforge.net/ Vndic.net http://www.tratu.vn http://nlp.stanford.edu/ 10 https://github.com/opener-project/double-propagation-targetgeneration/tree/master/src/main/java/org/openerproject/double_propagation2/data Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 47 3.3.2 Bước tiền xử lý liệu: Bước thu thập liệu đánh giá nhận xét người dùng dòng sản phẩm điện thoại di động Những liệu thu thập tự động từ nguồn website có uy tín tinhte.vn, vforum.vn, vnexpress cho tiếng Việt trustedreviews.com cho tiếng Anh… Cũng mục đích ứng dụng cho tiếng Việt, luận văn mô tả liệu đầu vào đầu qua bước tiếng Việt Tác giả thu thập tiếng Anh với mục đích chạy thử nghiệm với phương pháp thuật tốn có nguồn từ trước, phần để hiểu bước thuật toán, phần để xem xét khả áp dụng phần ngôn ngữ tiếng Việt Sau mô tả trình thu thập cách lập trình sử dụng framework Jsoup Trước hết với trang web có cấu trúc riêng, cần nắm cấu trúc trang web cần thu thập liệu sau lọc thơng tin dựa theo thành phần trang web Điều quan trọng cần lựa trang web có nhiều thơng tin Ví dụ với web tinhte, tác giả tìm đến mục tin đánh giá điện thoại di động (https://tinhte.vn/forums/dtpt-tin-tuc-danh-gia.367/) Tiếp đến dựa vào trang tin lọc đường link khác dẫn đến viết đánh giá dòng sản phẩm điện thoại di động riêng Dựa vào đường link tiếp tục cho lọc tự động nội dung lấy nguyên đánh giá bình luận có trang web Cuối lưu vào CSDL chung, liệu thu format dạng mô tả bảng bên tiêu đề đánh giá nhận xét đánh giá nhận xét đánh giá Ví dụ: Đánh giá iPhone 6s: Hiệu cao, tính hữu ích Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 48 đừng để vẻ ngoại hình… Thiết kế bỏ viền ngon Live photo, 3d touch cá nhân thấy khơng có hay ai dùng cho ý kiến để xúc mua hối hận Đang dùng z1, Dùng tuần bán ln, Sau q trình lọc viết không liên quan, luận văn thu thập 3300 viết đánh giá loại sản phẩm di động, bao gồm 2200 viết từ diễn đàn nước, viết trung bình có khoảng gần 10 nhận xét, 1000 tiếng Anh Trong độ dài trung bình viết đánh giá 800 từ, độ dài nhận xét khoảng gần 30 từ Đây liệu có kích cỡ trung bình Dự liệu đánh giá lưu trữ cách: thứ để gộp chung vào thư mục; thứ nhì phân bổ vào nhiều thư mục con, mục đích để tiện dụng cho việc chạy thuật toán Những liệu thu viết (post) có nội dung nhận xét (review) hay đánh giá (comment) thường có phong cách viết tự (free style) khơng có khn mẫu nào, bước tiền xử lý có áp dụng hai bước Thứ lọc tay gán nhãn số post nhập nhằng không rõ nghĩa nhận xét hay có quan điểm; bước thứ hai sử dụng thuật toán phân loại viết „bài đánh giá‟ „loại khác‟ Thực chất với số lượng post thu thập tương đối ít, luận văn áp dụng kết từ bước thứ nhất, nhiên để mở rộng quy mô liệu tương lai, luận văn đề xuất tiếp thực thêm bước tiền xử lý phân loại tự động bước hai Tiếp tới phải loại bỏ nhiễu gặp thẻ tên HTML, XML, tên hay thẻ „tags‟, chữ in hoa toàn bộ, số điện thoại, ngày tháng, biểu tượng cảm xúc, Một bước tiền xử lý nhỏ xác định thực thể tên đối tượng: cách xử dụng framework vav- agrument [27] tự động trích tên sản phẩm Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 49 Đánh giá iPhone 6s: Hiệu cao, tính hữu ích  iPhone 6s Bước sử dụng công cụ JvnTextPro để thực tách câu, tách từ gán nhãn từ loại đánh giá , với bước liệu định dạng biểu diễn sau, thứ bước tách câu, câu đánh dấu đưa dạng sau: Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo Mang vi xử lí Cortex-A9 nhất, camera iSight 12MP, Live Photos, 3D Touch nhiều kể đây, iPhone 6s gần thay đổi hoàn toàn cách mà sử dụng iPhone thường làm khứ  Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo Mang vi xử lí Cortex-A9 nhất, camera iSight 12MP, Live Photos, 3D Touch cịn nhiều kể đây, iPhone 6s gần thay đổi hoàn toàn cách mà sử dụng iPhone thường làm khứ Ở bước tách từ (Tokenization) dựa theo thuật toán Maxent [16] Vẫn mang dáng dấp thấy từ nhiều hệ iPhone trước, đừng để vẻ ngoại hình đánh lừa đây, iPhone 6s với nâng cấp cải tiến thực biến thiết bị thành quái vật thực Apple tạo Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 50  Vẫn mang dáng_dấp chúng_ta có_thể thấy từ nhiều thế_hệ iPhone_trước, đừng để vẻ ngoại_hình đánh_lừa đây,_iPhone 6s với sự_nâng_cấp cải_tiến thực_sự biến thiết_bị thành quái_vật thực_sự Apple tạo_ra Tiếp tới gán nhãn tự loại theo mục bảng 3.1 Vẫn mang dáng_dấp chúng_ta có_thể thấy từ nhiều thế_hệ iPhone_trước, đừng để vẻ ngoại_hình đánh_lừa đây,_iPhone 6s với sự_nâng_cấp cải_tiến thực_sự biến thiết_bị thành quái_vật thực_sự Apple tạo_ra  Vẫn/R mang/V dáng_dấp/N chúng_ta/P có_thể/R thấy/V từ/E nhiều/A thế_hệ/N iPhone_trước,/A nhưng/C đừng/Np để/E vẻ/N ngoại_hình/N đó/P đánh_lừa/V khi/N giờ/N đây,_iPhone/N 6s/M với/C những/L sự_nâng_cấp/N và/C cải_tiến/V mới/A đã/R thực_sự/A biến/V thiết_bị/N này/Np thành/V một/M con/Nc quái_vật/N thực_sự/A do/E Apple/Np tạo_ra./Np Tại bước gán nhãn từ loại, số khó khăn việc người dùng viết theo phong cách khơng quy, sử dụng từ viết tắt phong cách trẻ (phong cách teen) Một vấn đề lề quan tâm liệu có cần thiết thu thập với liệu lớn không thực thuật toán lan truyền kép? Những đánh giá khơng đánh giá dịng sản phẩm mà kiểu so sánh sản phẩm Tuy nhiên với mục đich trích xuất đặc trưng mức câu tổng hợp mức văn luận văn chọn tập liệu có kích cỡ trung bình khơng tổng hợp mức sản phẩm Nhưng hồn tồn sử dụng phương Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 51 pháp để áp dụng cho tập liệu cho dòng sản phẩm, yêu cầu cần lấy đủ liệu từ nhiều nguồn dịng sản phẩm 3.3.4 Trích chọn tính dựa theo thuật toán lan truyền kép Đầu bước cho tiếp vào đầu vào bước sử dụng thuật tốn lan truyền kép để trích tính (đặc trưng), tác giả sử dụng mã nguồn mở Double-propagation-target-generation để tiến hành Theo yêu cầu thuật toán đầu vào cần tập từ hạt giống để bắt đầu trình khai phá, luận văn chạy qua vài nhân khác nhau, sử dụng nhân có nhiều nhân kết không đổi, kết lựa chọn gồm nhân là: Tốt_ADJECTIVE_OPINION, lemma=tốt, pos=ADJECTIVE, type=OPINION, count=0, score=0.0 Xấu_ADJECTIVE_OPINION, lemma=xấu, pos=ADJECTIVE, type=OPINION, count=0, score=0.0] Màn_hình_ADJECTIVE_OPINION, lemma=màn_hình, pos=NOUN, type=OPINION, count=0, score=0.0] Giá_ADJECTIVE_OPINION, lemma=giá, pos= NOUN, type=OPINION, count=0, score=0.0] Sau quan sát liệu đặc trưng ẩn, luận văn xây dựng từ điển nhỏ thể từ quan điểm thường kèm với đặc trưng nào, ví dụ Đặc trƣng Từ quan điểm kèm Hình ảnh sắc nét|nhịe nhoẹt| rõ nét Kiểu dáng bắt mắt| sang trọng|thô kệch| Ứng dụng mượt mà| phong phú| đa dạng Nhạc êm tai Mạng khỏe| pin bền| trâu bị| cùi| khỏe Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 52 Thời gian để thực trích chọn tính dựa vào lan truyền lâu với môi trường chạy thực nghiệm, với thư mục liệu đầu vào khoảng gồm 1000 đánh giá chạy thời gian 10 đồng hồ, rủi ro xẩy tương đối lớn, q trình thực nghiệm luận văn chia thành file nhỏ cho chạy Từ trình thực nghiệm luận văn xem xét đến khía cạnh mở rộng liệu sau, coi hình thức chạy trực tuyến-online (thực nghiệm với liệu đầu vào đưa vào liên tục, khác với liệu đưa vào từ đầu phương pháp chạy ngoại tuyến - offline), để thực trình tập nhân đầu vào cập nhật sau lần chạy trước Tuy nhiên liệu có kích cỡ trung bình tầm 3000 viết, luận văn đưa đánh giá hiệu cải tiến này, nêu ý tưởng giải pháp Q trình thực nghiệm có tìm số từ thể quan điểm thú vị, với quan điểm tích cực có từ „bá đạo‟, „ác liệt‟, phê lòi‟,…; hay quan điểm tiêu cực „cùi bắp‟, „q bựa‟… Có thể thấy ngơn ngữ tự nhiên đa phong cách, việc tiến hành thu thập cần nhiều liệu để học Kết thực nghiệm thu 3545 tính ứng viên có 70% tính có ý nghĩa cịn lại nhiễu Sau thống kê thu kết quả: Tính Đúng Được trích xuất Khơng trích xuất Khơng 2512 1028 202 1131 Với độ xác precision 70,9%, recall 68,9% 69,9% Một số kết khía cạnh trích xuất nodeID=màn_hình_NOUN_TARGET,lemma=màn_hình, pos=NOUN,type=TARGET,count=1493,score=4.794274154847263E153] nodeID=sắc_nét_NOUN_TARGET,lemma=sắc_nét,pos=NOUN,type=TARGET, count=116,score=2.6056834741017108E154] Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 53 nodeID=camera_NOUN_TARGET,lemma=camera, pos=NOUN,type=TARGET,count=674,score=1.850962431163566E23] … Bằng bước lọc thủ công khía cạnh trích xuất được, độ nhiễu xác định chứa nhiều từ không rõ nghĩa hay ý nghĩa từ „mặt này‟, „giao dịch‟, „mơ tả‟,…và phần đáng kể lỗi tả từ viết tắt người dùng „droid‟, „net‟,… 3.3.5 Gộp nhóm tính Dựa vào thiết kế giải pháp phần 3.2.3 luận văn tiến hành gộp nhóm đặc trưng kết thu gồm 51 nhóm (khơng kể nhóm có từ đặc trưng) với định dạng đầu ra: hình dáng|trang trí|thiết kế|thân máy|biểu tượng|k`ích thước|mầu sắc|phong cách giá|đáng giá|giá cả|giá bán chng báo|volume|âm thanh|nhạc|radio|loa camera|ảnh|hình ảnh|hình chụp|ảnh chụp|ảnh|hình|độ phân giải ứng dụng|giải trí|tính #các tính xếp theo thứ tự giảm dần #tính với tần suất lớn dùng làm nhãn nhóm Một cách cảm tính tính có độ giống gần, luận văn chưa có điều kiện để thống kê kiểm chứng độ xác Tiếp tới thống kê có ý nghĩa tổng hợp tồn tập liệu thu thập cấp độ văn Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 54 Bảng 3.2 Tổng hợp tính đƣợc quan tâm Trên bảng 3.2 là thống kê tính quan tâm dựa vào tần suất xuất hiểu số đánh giá có xuất tính Kết thống kê cho thấy người dùng quan tâm nhiều đến kiểu dáng điện thoại, sau chức chụp ảnh, phần dự đoán xu hướng đặc điểm người dùng có đặc tính trẻ ưa hình thức 3.3.6 Đánh giá chung cho tồn hệ thống Đánh giá toàn hệ thống, nhiệm vụ nhỏ thu thập liệu tự động hay lọc nhiễu; sử dụng cấu trúc ngữ pháp kết hợp với cách trích xuất từ quan điểm từ tính năng; gộp nhóm từ tính năng, có đưa kết riêng, đầu vào pha sau kết pha trước nên cần quan trọng đến độ xác Và nhấn mạnh điều mức đánh giá cụ thể thống kê dừng lại mức thực nghiệm, khía cạnh đánh giá tính thi ứng dụng chạy mơi trường thực cịn cần nhiều thơng số dựa theo khảo sát có Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 55 người dùng thực doanh nghiệp hay dựa vào đặc điểm miền liệu, xu hướng liệu,… Toàn hệ thống liệu đầu vào phục vụ cho riêng miền liệu điện thoại di động, để mở rộng sang miền khác cần xây dựng số từ điển riêng cần quan sát đặc điểm liệu miền Một cách tổng quan mơ hình hệ thống tổng hợp từ mơ hình phương pháp đề xuất nhà nghiên cứu có uy tín lĩnh vực, giữ khung chức cần hiện, luận văn bổ sung số cải tiến nhỏ ghép phương pháp đưa đặc trưng riêng cho liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 56 KẾT LUẬN Trích chọn thơng tin lĩnh vực nghiên cứu có nhiều ứng dụng giới, luận văn nhánh nhỏ lĩnh vực trích chọn thuộc tính cho sản phẩm với cụ thể sản phẩm điện thoại di động Và khai thác tập liệu đánh giá người dùng trang web cộng đồng tiếng Việt Nam tinhte.vn, vforum.vn, vnexpress.vn, nước trustedreviews.com,… Luận văn nghiên cứu tổng quan lĩnh vực khai phá quan điểm, chi tiết sâu hướng nghiên cứu trích chọn đặc trưng khía cạnh, tìm hiểu số hướng thuật tốn tiêu biểu cơng bố giới với ứng dụng hiệu quả, từ việc dựa theo mơ hình luận văn tìm cách giải tốn ứng dụng vào trích chọn đặc trưng cho điện thoại di động Đây bước nhỏ toán lớn tổng hợp quan điểm, tiền đề khởi đầu, cịn nhiều hạn chế cần khắc phục việc thu thập liệu cho hiệu quả, phân loại câu khơng có nhiều ý nghĩa hay mức độ trung lập; xây dựng từ điển cho miền liệu; … Hướng tiếp tới luận văn thứ hướng tới bước xác định quan điểm tổng hợp quan điểm ý nghĩa, thứ hai mở rộng liệu cho nhiều miền chủ đề nóng như: điện tử, thời trang,… (theo thống kê mặt hàng người tiêu dùng quan tâm [1], [2]) Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 57 TÀI LIỆU THAM KHẢO Tiếng Việt (2014) "Báo cáo thương mại điện tử Việt Nam 2014", Cục Thương mại điện tử Công nghệ thông tin - Bộ Công Thương, pp 53 Tiếng Anh (2015) "The consumer barometer survey 2015", Liu B (2010) "Sentiment Analysis and Subjectivity", Handb Nat Lang Process, pp 1–38 Kennedy R.E., Yang Z., and Cohen W.B (2010) "Detecting trends in forest disturbance and recovery using yearly Landsat time series: LandTrendr Temporal segmentation algorithms", Remote Sens Environ, 114(12), pp 2897–2910 Kieu B.T and Pham S.B (2010) "Sentiment analysis for Vietnamese", Proc - 2nd Int Conf Knowl Syst Eng KSE 2010, (April), pp 152–157 Ha Q.T., Vu T.T., Pham H.T., et al (2011) "An Upgrading Feature-Based Opinion Mining Model on Vietnamese Product Reviews Quang-Thuy", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 6890(April), pp 173–185 Vu T.-T., Pham H.-T., Luu C.-T., et al (2011) "A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese", Moghaddam S and Ester M (2013) "Opinion Mining in Online Reviews: Recent Trends", Simon Fraser Univ Tutor WWW2013 Hu M and Liu B (2004) "Mining Opinion Features in Customer Reviews", 19th Natl Conf Artifical Intell, pp 755–760 10 Blair-Goldensohn S., Hannan K., McDonald R., et al (2008) "Building a sentiment summarizer for local service reviews", WWW Work NLP Inf Explos Era Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 58 11 Rao Y., Lei J., Wenyin L., et al (2014) "Building emotional dictionary for sentiment analysis of online news", World Wide Web, 17(4), pp 723–742 12 Wei W and Gulla J.A (2010) "Sentiment learning on product reviews via Sentiment Ontology Tree", ACL 2010 - 48th Annu Meet Assoc Comput Linguist Proc Conf, (July), pp 404–413 13 Wang, Hongning, Lu Y., et al (2010) "Latent aspect rating analysis on review text data: a rating regression approach", 14 Fan M and Wu G (2011) "Aspect Opinion Mining on Customer Reviews", (1), pp 27–33 15 Nguyen H.N., Van Le T., Le H.S., et al (2014) "Domain specific sentiment dictionary for opinion mining of Vietnamese text", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 8875(DECEMBER 2014), pp 136–148 16 Somprasertsri, Gamgarn, and Lalitrojwong and P (2008) "A maximum entropy model for product feature extraction in online customer reviews", 17 Lafferty J., McCallum A., and Pereira F.C.N (2001) "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", ICML ‟01 Proc Eighteenth Int Conf Mach Learn, 8(June), pp 282–289 18 Mei Q., Ling X., Wondra M., et al (2007) "Topic sentiment mixture: modeling facets and opinions in weblogs", Proc 16th Int Conf World Wide Web - WWW ‟07, pp 171 19 Qiu G., Liu B., Bu J., et al (2007) "Expanding Domain Sentiment Lexicon through Double Propagation Zhejiang Key Laboratory of Service Robot Department of Computer Science College of Computer Science University of Illinois at Chicago", Constraints, pp 1199–1204 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 59 20 Qiu G., Liu B., Bu J., et al (2011) "Opinion Word Expansion and Target Extraction through Double Propagation", Comput Linguist, 37(1), pp 9–27 21 Zhai Z., Liu B., Xu H., et al (2011) "Clustering product features for opinion mining", Proc fourth ACM Int Conf Web search data Min - WSDM ‟11, (March), pp 347 22 Zhai Z., Liu B., Xu H., et al (2011) "Constrained LDA for grouping product features in opinion mining", Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), 6634 LNAI(PART 1), pp 448–459 23 Zhai Z., Liu B., Xu H., et al (2010) "Grouping product features using semisupervised learning with soft-constraints", Proc 23rd Int Conf Comput Linguist (Coling 2010), (August), pp 1272–1280 24 Street S.M and Liu B (2009) "Extracting and Ranking Product Features in Opinion Documents", Program, 17(August), pp 1462–1470 25 Han J., Pei J., and Yin Y (2000) "Mining frequent patterns without candidate generation", ACM SIGMOD Record, 29, 1–12 26 Thelwall M., Buckley K., Paltoglou G., et al (2010) "Sentiment Strength Detection in Short Informal Text", Am Soc Informational Sci Technol, 61(12), pp 2544–2558 27 Tran P.N., Ta V.D., Truong Q.T., et al (2015) "Named Entity Recognition for Vietnamese Spoken Texts and Its Application in Smart Mobile Voice Interaction.", 170–180, Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ... Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 21 2.1 Phương pháp trích chọn đặc trưng dựa tập phổ biến 21 2.2 Phương pháp trích chọn đặc trưng. .. hướng quan điểm hay cực quan điểm? ?? Từ quan điểm: “Từ thể quan điểm người đánh giá gọi từ quan điểm? ?? Quan điểm quan điểm ẩn: ? ?Một quan điểm đặc trưng f câu chủ quan mà trực tiếp biểu đạt quan điểm. .. con: (1) trích chọn đặc trưng sử dụng từ quan điểm mối quan hệ OF-Rel, (2) trích chọn đặc trưng sử dụng đặc trưng mối quan hệ FF-Rel, (3) trích chọn từ quan điểm sử dụng đặc trưng mối quan hệ

Ngày đăng: 01/12/2020, 20:50

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan