Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC

62 362 0
Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Huyền Trang GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ PHÂN CỤM HAC KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy ThS Trần Mai Vũ HÀ NỘI - 2011 Lời cảm ơn Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, PGS-TS Hà Quang Thụy Thạc sỹ Trần Mai Vũ tận tình bảo, hướng dẫn, động viên, giúp đỡ em suốt trình thực đề tài Em xin gửi lời cảm ơn sâu sắc tới q Thầy Cơ Khoa Cơng nghệ thơng tin truyền đạt kiến thức quí báu cho em năm học vừa qua Em xin gửi lời cảm ơn tới anh chị, bạn em sinh viên nhóm “Khai phá liệu” phịng thí nghiệm KT-Sislab giúp em nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận Xin cảm ơn hỗ trợ từ đề tài QG.10.38 thời gian em thực khóa luận Con xin nói lên lịng biết ơn vơ hạn Cha Mẹ ln nguồn chăm sóc, động viên, khích lệ bước đường học vấn Cuối cùng, xin chân thành cảm ơn Anh Chị Bạn Bè, đặc biệt thành viên lớp K52CA K52CHTTT ủng hộ giúp đỡ suốt thời gian học tập giảng đường đại học thực đề tài Tôi xin chân thành cảm ơn ! Hà Nội, ngày 20 tháng 05 năm 2011 Sinh viên Phạm Huyền Trang i Tóm tắt nội dung Khai phá quan điểm dựa đặc trưng (FOM) toán khai phá quan điểm quan trọng [5, 18, 23] Đối với sản phẩm, tốn tìm đến mức câu đánh giá để phát đặc trưng sản phẩm, tạo tổng kết quan điểm đánh giá theo đặc trưng Tuy nhiên, văn đánh giá sản phẩm, khách hàng thường dùng từ cụm từ khác để nói đến đặc trưng sản phẩm Vì vậy, để tạo tổng kết có ý nghĩa, từ cụm từ coi đồng nghĩa miền sản phẩm cần nhóm vào nhóm đặc trưng [27] Dựa phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm Zhongwu Zhai cộng sự, 2010 [27], khóa luận đề xuất giải pháp gom nhóm đặc trưng đồng nghĩa đánh giá tiếng Việt dựa phân lớp bán giám sát SVM-kNN [17] phân cụm HAC Thực nghiệm miền sản phẩm điện thoại di động website bán hàng trực tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng sản phẩm đồng nghĩa tiếng Việt khóa luận đề xuất có độ đo Purity 0.68 độ đo Accuracy 0.65 Kết cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt khóa luận đề xuất triển khai có tính hiệu ii Lời cam đoan Tơi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt đánh giá sản phẩm dựa phân lớp bán giám sát SVM-kNN phân cụm HAC trình bày khóa luận thực hướng dẫn PGS TS Hà Quang Thụy ThS Trần Mai Vũ Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày 20 tháng 05 năm 2011 Tác giả Phạm Huyền Trang iii Mục lục Lời cảm ơn i  Tóm tắt nội dung ii  Lời cam đoan iii  Danh sách hình vẽ vii  Danh sách bảng biểu viii  Danh sách từ viết tắt ix  Mở đầu 1  Chương Bài tốn gom nhóm đặc trưng đồng nghĩa khai phá quan điểm khách hàng 3  1.1 Khái quát khai phá quan điểm khách hàng 3  1.1.1 Khái niệm khai phá quan điểm 3  1.1.2 Ứng dụng khai phá quan điểm 3  1.1.3 Khai phá quan điểm khách hàng đặc trưng sản phẩm 4  1.2 Bài tốn gom nhóm đặc trưng đồng nghĩa khai phá quan điểm tiếng Việt dựa đặc trưng sản phẩm 7  1.2.1 Bài toán gom nhóm đặc trưng đồng nghĩa 7  1.2.2 Một số nghiên cứu liên quan giới 9  1.2.3 Giải pháp thời 10  Tóm tắt chương 11  Chương Phân lớp bán giám sát SVM-kNN 13  2.1 Một số nội dung phân lớp bán giám sát 13  2.1.1.Khái niệm 13  2.1.2 Các phương pháp phân lớp bán giám sát điển hình 14  2.2 Phương pháp luận SVM-kNN dựa học bán giám sát 15  iv 2.2.1 Thuật toán máy vector hỗ trợ (SVM) 15  2.2.2 Thuật toán K người láng giềng gần (kNN) 18  2.2.3 Phương pháp phân lớp bán giám sát SVM-kNN 19  Tóm tắt chương hai: 24  Chương 3.Đề xuất giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động 25  3.1 Đề xuất giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC 25  3.2 Pha 1: Biểu diễn vector thể đặc trưng 27  3.2.1 Xác định ngữ nghĩa thể đặc trưng 28  3.2.2 Xác định ngữ cảnh thể đặc trưng 29  3.2.3 Biểu diễn thể đặc trưng dạng vector 29  3.3 Pha 2: Tạo tập huấn luyện cho phân lớp SVM-kNN 30  3.3.1 Quá trình phân cụm 32  3.3.2 Gán nhãn cho cụm 34  3.3.Pha 2: Phân lớp bán giám sát SVM-kNN 34  Tóm tắt chương 3: 37  Chương Thực nghiệm đánh giá 38  4.1 Môi trường công cụ sử dụng thực nghiệm 38  4.2 Xây dựng tập liệu 39  4.3 Thực nghiệm 40  4.3.1 Quá trình biểu diễn vector thể đặc trưng 40  4.3.2 Thực nghiệm tạo tập huấn luyện cho SVM-kNN 40  4.3.3 Thực nghiệm phân lớp bán giám sát SVM-kNN: 42  Tóm tắt chương 47  v Kết luận 48  Tài liệu tham khảo 49  vi Danh sách hình vẽ Hình 1: Ví dụ biểu diễn đối tượng 5  Hình 2: Ví dụ minh họa khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá Đặc trưng nhận xét khách hàng forum http://tinhte.com 6  Hình 3: Ví dụ tổng hợp quan điểm điện thoại N72 7  Hình 4: Ví dụ đặc trưng đồng nghĩa 8  Hình 5: Mặt siêu phẳng tách mẫu dương khỏi mẫu âm 16  Hình 6: Ví dụ thuật toán kNN 19  Hình 7: Minh họa vector hỗ trợ vector biên 21  Hình 8: Miêu tả khái qt mơ hình đề xuất Kunlun Li, Xuerong Luo vàMing Jin[17] 22  Hình 9: Mơ hình đề xuất gom nhóm đặc trưng đồng nghĩa 27  Hình 10: Sơ đồ phần tử trước phân cụm 31  Hình 11: Sơ đồ phần tử sau phân cụm phân cấp tích tụ từ lên – HAC 31  Hình 12: Sơ đồ so sánh kết mơ hình đề xuất với phương pháp K.Li cộng [17] 44  vii Danh sách bảng biểu Bảng Cấu hình hệ thống thử nghiệm 38  Bảng Công cụ phần mềm sử dụng 39  Bảng 3: Bảng số lượng liệu đầu vào 40  Bảng Kết thực nghiệm thuật toán HAC với giá trị ngưỡng α 41  Bảng Các thể đặc trưng cụm không đơn tương ứng 42  Bảng Kết thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi liệu gán nhãn chiếm 30% tổng số liệu 44  Bảng 7: Kết thực nghiệm s = 4, t= 0.8, k = 46  Bảng Kết thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi liệu gán nhãn chiếm 40% tổng số liệu 46  viii Như vậy, sau trình phân lớp bán giám sát SVM-kNN, liệu chưa gán nhãn gán nhãn lớp Nói cách khác, sau pha, hệ thống thu nhóm đặc trưng thể đặc trưng tương ứng Tóm tắt chương Chương khóa luận trình bày tư tưởng phương pháp đề xuất cho tốn gom nhóm đặc trưng đồng nghĩa dựa phân lớp bán giám sát SVM-kNN thuật toán phân cụm HAC Khóa luận giới thiệu chi tiết pha bước pha phương pháp đề xuất Trong chương tiếp theo, khóa luận tiến hành thực nghiệm phương pháp xây dựng đánh giá kết đạt phương pháp đề xuất 37 Chương Thực nghiệm đánh giá Dựa vào mơ hình đề xuất chương 3, khóa luận tiến hành thực nghiệm việc gom nhóm đặc trưng sản phẩm đồng nghĩa đánh giá tiếng Việt khách hàng Để làm rõ mơ hình đề xuất pha mơ hình, thực nghiệm miền sản phẩm điện thoại di động tiến hành Khóa luận tập trung đánh giá kết thực nghiệm từ pha: tạo tập huấn luyện cho SVM-kNN phân lớp SVM-kNN 4.1 Môi trường cơng cụ sử dụng thực nghiệm Cấu hình phần cứng Thành phần Chỉ số CPU 2.2 GHz Core Duo Intel RAM 1GB OS Windows7 Bộ nhớ 160GB Bảng Cấu hình hệ thống thử nghiệm Các phần mềm sử dụng STT Tên phần mềm Tác giả Nguồn Eclipse-SDK3.5-win32 http://www.eclipse.org/downloads WordSeg Phạm Đức Đăng, Trần Bình Giang, Phạm Bảo Sơn LibSVM C Chang, Lin C.-J http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 38 Weka Machine Learning http://www.cs.waikato.ac.nz/ml/weka/ Group, University of Waikato ASV Toolbox Chris Biemann, http://wortschatz,uniUwe Quasthoff, leipzig.de/~cbiemann/software/toolbox/ Gerhard Heyer and Florian Holz Bảng Công cụ phần mềm sử dụng Ngồi cơng cụ trên, chúng tơi tiến hành cài đặt module xử lý dựa ngôn ngữ Java, bao gồm package sau: - Om.Classifying: - Om.Dictionary: - Om.File: - Om.libsvm: - Om.Webpage: - File Run: 4.2 Xây dựng tập liệu Khóa luận thực nghiệm miền liệu đánh giá khách hàng miền sản phẩm điện thoại di động Tập đánh giá người dùng thu thập từ website bán hàng trực tuyến http://wwwthegioididong.com Các đánh giá có cấu trúc gồm người đánh giá, thời gian đánh giá nội dung ý kiến Tập thể đặc trưng đặc trưng trích xuất mơ hình khai phá tổng hợp quan điểm khách hàng mà xây dựng [21] Dữ liệu đầu vào Số lượng Các đánh giá khách hàng 669 comment 39 Các thể đặc trưng 152 đặc trưng Bảng 3: Bảng số lượng liệu đầu vào 4.3 Thực nghiệm Thực gom nhóm đặc trưng sản phẩm điện thoại di động đồng nghĩa tập đánh giá khách hàng 4.3.1 Quá trình biểu diễn vector thể đặc trưng - - - Trích xuất ngữ nghĩa thể đặc trưng cách tiến hành lấy định nghĩa thể đặc trưng website http://tratu.vn, chứa 36.862 từ từ điển Việt – Việt Trích xuất ngữ cảnh thể đặc trưng cách tiến hành trích xuất câu có chứa tên thể đặc trưng 669 câu đánh giá khách hàng Với thể đặc trưng, thu Tiến hành tách từ phần mềm WordSeg [11] loại bỏ từ dừng (tập từ dừng có file vnstopword.txt) Biểu diễn TFIDF để tính trọng số từ 4.3.2 Thực nghiệm tạo tập huấn luyện cho SVM-kNN Việc tạo tập huấn luyện cho SVM-kNN thực dựa phân cụm HAC kết hợp ngưỡng α Chúng thực nghiệm giá trị ngưỡng α Sau đó, lấy cụm khơng đơn tính độ xác mẫu đưa vào cụm, kết thu bảng Giá trị α Số cụm thu Tổng số mẫu Độ xác cụm 0.3 20 88 60.08% 0.4 14 72 86.98% 0.5 10 51 100% 40 0.6 34 100% 0.7 22 100% Bảng Kết thực nghiệm thuật toán HAC với giá trị ngưỡng α Nhận xét: Tại ngưỡng α = 0.4, α = 0.5, α = 0.6, α = 0.7 độ xác đạt 100% Tuy nhiên, để có tập huấn luyện tốt cho phân lớp bán giám sát SVM-kNN, ngồi độ xác cao cần có số lượng tập huấn luyện tốt Do vậy, giá trị ngưỡng α 0.5 với số mẫu thu 51, phù hợp làm tập liệu huấn luyện cho phân lớp SVMkNN cụm thu với giá trị ngưỡng α= 0.5 thể bảng Đây cụm mà khóa luận sử dụng làm tập liệu gán nhãn để huấn luyện SVM-kNN Tuy nhiên, việc gán nhãn cho lớp cho kết chưa tốt (ví dụ cụm 9, tên cụm thẻ nhớ, chưa bao quát thể cụm) STT Tên cụm Các thể đặc trưng Giá Tiền, giá, giá thành Ảnh Camera, chụp hình, hình ảnh, hình, máy ảnh, ảnh, chụp ảnh Nhạc Tai nghe, âm thanh, nghe nhạc, nhạc, loa, loa Ứng dụng Symbian, hệ điều hành, ứng dụng, tính năng, nhắn tin Bàn phím Phím, bàn phím, navi, phím navi, phím điều khiển, phím quang học, quang học Hình thức Kiểu dáng, màu, màu sắc, mẫu mã, kiểu cách,hình thức 41 Màn hình Điện dung, điện trở, hình, cảm ứng Mạng Mạng, internet, gprs, gps Thẻ nhớ Thẻ nhớ, thẻ, phụ kiện, usb, phần cứng, cấu hình 10 Phim Phim, xem phim Bảng Các thể đặc trưng cụm không đơn tương ứng 4.3.3 Thực nghiệm phân lớp bán giám sát SVM-kNN: a Dữ liệu gán nhãn chiếm 30% tổng số liệu Từ số thể đặc trưng cụm không đơn tương ứng (dữ liệu gán nhãn), thể đặc trưng nằm cụm đơn (dữ liệu chưa gán nhãn) thu được, tiến hành phân lớp bán giám sát SVM-kNN Dựa thể đặc trưng thu cụm bảng 5, tiến hành thay đổi tên nhãn “phần cứng” cho phù hợp với đặc trưng cụm, nhằm kiểm tra độ xác phân lớp SVMkNN Khóa luận sử dụng phần mềm mã nguồn mở LIBSVM [9] để áp dụng thuật toán SVM bản, phần mềm mã nguồn mở WEKA [19] để thực thi thuật toán kNN Các tham số sử dụng phân lớp bán giám sát SVM-kNN là: k – số hàng xóm gần nhất, tham số sử dụng thuật tốn kNN, t – kích thước liệu huấn luyện cần đạt so với kích thước tập tồn liệu, s – số vector hỗ trợ Thuật toán SVM bước SVM-kNN, vậy, việc chọn tham số cho SVM quan trọng, ảnh hưởng đến phân lớp SVM sau, đặc biệt tham số hàm nhân Chúng thực khảo sát độ xác SVM (bằng cách lựa chọn số lần kiểm thử chéo fold-validation 10) hàm nhân tích hợp LIBSVM hàm nhân tuyến tính, hàm nhân đa thức, hàm vịng RBF, hàm chữ S Sigmoid Kết độ xác 51.12%, 35.4%, 29.09% 32.98% Vì vậy, chúng tơi chọn hàm nhân tuyến tính cho phân lớp SVM 42 Theo K.Li cộng [17], tham số k=5, t=0.8 hiệu Do đó, chúng tơi tiến hành thực nghiệm số tham số s k=5 t = 0.8 Phương pháp đánh sử dụng dựa độ đo Entropy, Purity Accuracy tương tự [17] Gọi n tổng số thể đặc trưng Ba độ đo tính sau: Lớp thực tế Lớp dự đoán … j … m n11 … n1j … n1m … … … … … … i ni1 … nịj … nim … … … … … m nm1 … nmj … nmm E n tro py = nj m ∑ n j =1 n ij m ∑ i =1 log m ∑n i =1 ij n ij m ∑n i =1 ij m P ur ity = m ∑ j =1 nj n m m ax ∑ i i =1 n ij Accuracy = m ∑n i =1 ij ∑n i =1 ii n m A ccuracy = ∑ i =1 n ii n Kết thu bảng Ent Pur Acc s=3 1.34 0.62 0.66 s=4 1.23 0.68 0.65 43 s=5 1.29 0.66 0.68 K.Li cộng 1.24 0.69 0.68 Bảng Kết thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi liệu gán nhãn chiếm 30% tổng số liệu Nhận xét: Như vậy, lựa chọn số hàng xóm gần để phân lớp thuật tốn kNN 5, kích thước liệu huấn luyện cần đạt 0.8 số vector hỗ trợ lớp chọn cho lần lặp kết tốt nhất, với độ đo Entropy, Purity Accuracy 1.23, 0.68 0.65 Tuy độ đo Purity Accuracy có thấp so với [17] độ đo Entropy tốt so với [17] Có thể thấy kết thực nghiệm tốt so với [17] Hình 12: Sơ đồ so sánh kết mơ hình đề xuất với phương pháp K.Li cộng [17] Nhóm đặc trưng Các thể đặc trưng Gán tay Phân lớp Phân lớp sai Giá Giá cả, số tiền, túi tiền, Giá cả, số tiền, túi Tiếng, lịch mức tiền, chi phí tiền, mức tiền Ảnh Flash, đèn flash, theme, Flash, đèn flash, jpeg hình nền, jpeg 44 java, đài, ảnh động, trò chơi, game Nhạc Nhạc chuông, báo rung, tiếng, mp3, tai, đa âm, đơn âm, chuông, độ rung, rung, âm, chuông báo Mp3, nhạc chng, Chi phí, Thoại, chng, đơn âm, đa hình nền, đàm âm, tai, âm, chuông thoại, sạc báo, rung, độ rung, báo rung Ứng dụng Đài, android, nghe gọi, thoại, đàm thoại, văn phòng, game, trò chơi, radio, lịch, trình duyệt, web, danh bạ, mail, email, tiện ích, opera, từ điển, chương trình, java, đồ Phần mềm, android, nghe gọi, trình duyệt, chương trình, đồ, từ điển, tiện ích , văn phịng Bàn phím Thân phím, phím nguồn, nút, phím cảm ứng, phím nghe, navigation, phím đèn pin, phím điều khiển, trackpad Thân phím, phím hồng ngoại, đa nguồn, phím cảm ứng, điểm phímnghe, navigation, phím điều khiển, nút Hình thức Kích cỡ, kích thước, mẫu, bề ngồi, vẻ ngồi, thiết kế, màu, ngoại hình, hình dáng, vóc dáng Bề ngồi, thiết kế, vẻ Danh bạ, opera, ngồi, màu, hình dáng, cổng USB, cổng mẫu, kích cỡ, kích HDMI thước Màn hình Đa điểm, giao diện, độ Giao diện, inch, bút ngoại hình, cáp phân giải, inch, cảm biến cảm ứng, bút, độ nét, tivi, dây cáp gia tốc, độ nét, đơn sắc, độ phân giải, đơn sắc bút, bút cảm ứng Mạng Wifi, hồng ngoại, 3g, 2g 45 3g, 2g, wifi trackpad, vóc dáng, cảm biến gia tốc, xử lý, vi xử lý Mail, email, web, chip, radio Phần cứng Phim Cpu, ram, rom, dây cắm, dây cáp, pin, sạc, nắp pin, cổng USB, cáp tivi, xử lý, vi xử lý, chip, bao, nắp lưng, bao da, nhớ trong, nhớ, cổng HDMI Cpu, ram, rom, dây phím đèn pin, cắm, pin, nắp pin, bao, avi, flv, wmv, nắp lưng, bao da, mp4 nhớ trong, nhớ Phim ảnh, phụ đề, video, Phim ảnh, phụ đề, quay hình, mp4, wmv, quay hình avi,flv, ảnh động Bảng 7: Kết thực nghiệm s = 4, t= 0.8, k = b Dữ liệu gán nhãn chiếm 40% tổng số liệu Do số liệu gán nhãn làm tập huấn luyện thấp nên kết thực nghiệm chưa cao Chúng tiến hành bổ sung thêm số liệu gán nhãn, nhằm thử độ xác phương pháp phân lớp bán giám sát SVM-kNN tốn gom nhóm đặc trưng đồng nghĩa Tiếp tục thực nghiệm số tham số s, t, k với số liệu gán nhãn chiếm khoảng 40% tổng số liệu; kết thu bảng Ent Pur Acc s=3 1.23 0.69 0.68 s=4 1.11 0.71 0.7 s=5 0.77 0.70 0.72 0.94 0.76 0.75 K.Li cộng Bảng 8: Kết thực nghiệm phân lớp SVM-kNN với t= 0.8, k = liệu gán nhãn chiếm 40% tổng số liệu 46 Như vậy, số liệu gán nhãn chiếm khoảng 40% tổng số liệu việc lựa chọn số vector hỗ trợ 5, kích thước liệu huấn luyện cần đạt 0.8, số hàng xóm gần để phân lớp thuật tốn kNN độ đo Entropy, Purity Accuracy có kết tương đối khả quan (0.77, 0.7 0.72) Nhìn chung, kích thước tập liệu gán nhãn lớn cho kết cao (hình 12) Điều cho thấy tính đắn sử dụng thuật tốn phân lớp bán giám sát SVM-kNN Cuối cùng, hệ thống thu lớp liệu nằm lớp Điều có nghĩa thể đặc trưng đưa vào nhóm đặc trưng khác Tóm tắt chương Trong chương này, chúng tơi tiến hành thực nghiệm, xem xét đánh giá kết q trình thử nghiệm mơ hình gom nhóm đặc trưng đồng nghĩa tiếng Việt miền sản phẩm điện thoại di động dựa phân lớp bán giám sát SVM-kNN phân cụm HAC Qua phân tích đánh giá cho thấy tính đắn phương pháp sử dụng khóa luận 47 Kết luận Kết đạt khóa luận: Trong khóa luận này, chúng tơi xây dựng mơ hình gom nhóm đặc trưng sản phầm đồng nghĩa tiếng Việt thực nghiệm miền sản phẩm điện thoại di động sử dụng thuật toán phân cụm HAC phân lớp bán giám sát SVM-kNN dựa ngữ nghĩa ngữ cảnh thể đặc trưng Phương pháp có ưu điểm thay đổi miền sản phẩm không cần phải gán nhãn liệu tạo tập huấn luyện thủ cơng Hơn nữa, thuật tốn phân lớp bán giám sát SVM-kNN tận dụng liệu gán nhãn liệu chưa gán nhãn để học cách hiệu quả, cần lượng nhỏ liệu gán nhãn ( chiếm khoảng 30% tổng liệu) Tuy nhiên, số lượng liệu gán nhãn tạo sau thuật tốn HAC cịn ít, nên kết chưa cao Chúng tơi cài đặt, thử nghiệm ban đầu tập nhỏ thể đặc trưng cho kết tốt (Purity 0.68, Accuracy 0.65 Entropy 1.22) Khi xây dựng thêm liệu gán nhãn tay (chiếm khoảng 40% tổng liệu), độ đo Purity 0.7, Accuracy 0.72 Entropy 0.77 Định hướng tương lai: Chúng thử nghiệm, áp dụng ràng buộc mềm mà Zhongwu Zhai cộng sự, 2010 xây dựng, nhằm làm giàu tập liệu gán nhãn để có kết phân lớp tốt Áp dụng miền liệu khác, không miền sản phẩm điện thoại di động Áp dụng mơ hình gom nhóm đặc trưng đồng nghĩa vào toán khai phá tổng hợp quan điểm dựa đặc trưng thực [21] 48 Tài liệu tham khảo Tài liệu tiếng Việt: [1] Trần Thị Oanh (2006) Thuật toán self-training co-training ứng dụng phân lớp văn Khóa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN [2] Nguyễn Thị Hương Thảo (2006) Phân lớp phân cấp Taxonomy văn web ứng dụng, Khóa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN [3] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009, tr 124-125 Tài liệu tiếng Anh: [4] Andrew Brian Goldberg (2010) New directions in semi-supervised learning PhD Thesis, University of Wisconsin-Madison 2010 [5] Bing Liu (2010) Sentiment Analysis and Subjectivity Invited Chapter for the Handbook of Natural Language Processing, Second Edition March, 2010 [6] Bo Pang and Lillian Lee (2008) Foundations and Trends in Information Retrieval2(1-2), pp 1–135, 2008 [7] Blum, A., and Mitchell, T (1998).Combining labeled and unlabeled data with co-training COLT: 92–100, 1998 [8] Carenini G., R Ng and E Zwart (2005) Extracting knowledge from evaluative text Proceedings of International Conference on Knowledge Capture [9] C Chang and C.-J Lin (2010) LIBSVM: a library for support vector machines, Technical Report, Initial version: 2001 Last updated: November 16, 2010, http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version 3.0 released on September 13, 2010, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [10] Corinna Cortes, Vladimir Vapnik (1995) Support-Vector Networks, Machine Learning, 20(3): 273-297 [11] Dang Duc Pham, Giang Binh Tran, and Son Bao Pham (2009) A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags – KSE 2009 49 [12] Guo H., H Zhu, Z Guo, X Zhang and Z Su (2009) Product feature categorization with multilevel latent semantic association Proc of CIKM [13] Hao Zhang, Alexander C Berg, Michael Maire, Jitendra Malik (2006) SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category Recognitionm, CVPR (2) 2006: 2126-2136 [14] C.-W Hsu and C.-J Lin (2002) A comparison of methods for multi-class support vector machines , IEEE Transactions on Neural Networks, 13, 415-425 [15] Jagath C Rajapakse, Limsoon Wong, Raj Acharya (2006).Pattern Recognition in Bioinformatics, International Workshop, PRIB 2006 Hong Kong, China, August 20, 2006, Proceedingsof PRIB'2006 [16] T Joachims (1997) Text categorization with Support Vector Machines: Learning with many relevant features, Technical Report 23, LS VIII, University of Dortmund, 1997, http://www.joachims.org/publications/joachims_98a.ps.gz [17] Kunlun Li, Xuerong Luo and Ming Jin (2010) Semi-supervised Learning for SVM-KNN Journal of computers, 5(5): 671-678, May 2010 [18] D Marcu and A Popescu (2005) Extracting product features and opinions from reviews CICLing 2005: 88-99 [19] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H Witten (2009) The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 2009 http://www.cs.waikato.ac.nz/ml/weka/ [20] Stavrianou, A and J.-H Chauchat (2008) Opinion Mining Issues and Agreement identification in Forum Texts In Atelier Fouille des Données d’Opinions (FODOP-2008), pp 51–58 2008 [21] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011) A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, ICCCI’11 (submitted) [22] Thelwall, M (2009) MySpace comments Online Information Review, 33(1), 58 -76 [23] L Zhang and B Liu (2010) Extracting and Ranking Product Features in Opinion Documents COLING (Posters) 2010: 1462-1470 [24] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu, Zhi-Hua 50 Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37 [25] X.J Zhu (2008) Semi-supervised learning literature survey Technical Report 1530, Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI July 19, 2008 [26] Xiaojin Zhu and Andrew B Goldberg (2009) Introduction to SemiSupervised Learning Synthesis Lectures on Artificial Intelligence and Machine Learning: 9-16 2009 [27] Zhongwu Zhai, Bing Liu, Hua Xu and Peifa Jia (2010) Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints Proceedings of the 23rd International Conference on Computational Linguistics (COLING-2010), August 23-27, Beijing, China 51 ... phân lớp SVM- kNN Bộ phân lớp bán giám sát SVM- kNN học mẫu chưa gán nhãn mẫu gán nhãn Q trình phân lớp bán giám sát SVM- kNN tốn gom nhóm đặc trưng dựa sở phương pháp phân lớp bán giám sát SVM- kNN. .. đặc trưng sản phẩm tiếng Việt 3.1 Một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa phân lớp bán giám sát SVM- kNN kết hợp phân cụm HAC Hướng tiếp cận giải toán dựa phân lớp bán giám sát. .. 11 đồng nghĩa, đề xuất giải pháp gom nhóm đặc trưng ? ?đồng nghĩa? ?? sử dụng phương pháp phân lớp bán giám sát SVM- kNN kết hợp phân cụm HAC Chương giới thiệu phương pháp phân lớp bán giám sát SVM- kNN

Ngày đăng: 20/08/2014, 09:49

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan