Tìm hiểu về support vector machine cho bài toán phân lớp quan điểm

36 4.1K 17
Tìm hiểu về support vector machine cho bài toán phân lớp quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu về support vector machine cho bài toán phân lớp quan điểm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o TÌM HIỂU VỀ SUPPORT VECTOR MACHINE CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Sinh viên thực hiện: Phạm Văn Sơn Giáo viên hƣớng dẫn: Ths Nguyễn Thị Xuân Hƣơng Mã số sinh viên: 120704 HẢI PHÒNG 12/2012 MỤC LỤC MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƢƠNG 1: TÌM HIỂU VỀ SUPPORT VECTOR MACHINE 1.1 PHÁT BIỂU BÀI TOÁN 1.1.1 Trình bày tóm tắt phân lớp liệu 1.1.2 Tại lại sử dụng thuật toán SVM phân lớp liệu 1.2 THUẬT TOÁN SVM 10 1.2.1 Giới thiệu 10 1.2.2 Định nghĩa 10 1.2.3 Ý tƣởng phƣơng pháp 10 1.2.4 Nội dung phƣơng pháp 11 1.2.4.1 Cơ sở lý thuyết 11 1.2.4.2 Bài toán phân lớp với SVM 12 1.2.4.3 Bài toán nhiều phân lớp với SVM 13 1.2.4.4 Các bƣớc phƣơng pháp SVM 14 CHƢƠNG 2: BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 15 2.1 SỰ KIỆN (Facts) VÀ QUAN ĐIỂM (Opinions) 15 2.2 NHU CẦU VỀ THÔNG TIN QUAN ĐIỂM VÀ NHẬN XÉT 15 2.3 MÁY TÌM KIỂM QUAN ĐIỂM / NHẬN XÉT 17 2.4 LỊCH SỬ CỦA PHÂN TÍCH QUAN ĐIỂM VÀ KHAI THÁC QUAN ĐIỂM 18 2.5 XU HƢỚNG NGHIÊN CỨU GẦN ĐÂY 19 2.5.1 Xác định cụm từ, quan điểm 19 2.5.2 Sử dụng tính từ phó từ 20 2.5.3 Sử dụng động từ 21 2.5.4 Xác định chiều hƣớng, cụm từ, quan điểm 22 2.6 NHIỆM VỤ CỦA PHÂN TÍCH QUAN ĐIỂM 22 2.7 BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 22 2.7.1 Phân cực quan điểm mức độ phân cực 23 2.7.2 Nhiệm vụ toán phân lớp quan điểm 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài liệu 25 CHƢƠNG III: CHƢƠNG TRÌNH THỰC NGHIỆM 26 3.1 DỮ LIỆU THỬ NGHIỆM 26 3.2 CÔNG CỤ SỬ DỤNG 26 3.2.1 Công cụ sinh SRIML 26 3.2.2 Ngơn ngữ lập trình java 27 3.2.3 Công cụ phân lớp liệu SVMLight 28 3.3 Kết thực nghiệm 29 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 35 LỜI CẢM ƠN Trƣớc hết, em xin chân thành cảm ơn Trƣờng Đại học Dân Lập Hải Phịng Các Thầy, Cơ Khoa Cơng nghệ Thơng tin tạo điều kiện thuận lợi cho em suốt trình học tập làm luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn sâu sắc Cơ Nguyễn Thị Xn Hƣơng, ngƣời tận tình hƣớng dẫn em thực luận văn tốt nghiệp Cô định hƣớng cho luận văn, giúp sinh viên có mơi trƣờng học thuật để trao đổi ý tƣởng, kiến thức thu thập đƣợc qua đọc sách, tạp chí, tài liệu, qua tìm hiểu giảng, nhƣ qua mạng Inernet, đặc biệt Cô cho phép sinh viên đƣợc tiếp cận với kho tài liệu tƣơng đối đầy đủ, có tính cập nhật cao mà dày cơng sƣu tầm Em xin cảm ơn Thầy, Cô quan tâm góp ý nhận xét quý báu cho đồ án em Xin cảm ơn bạn chia sẻ góp ý cho tơi q trình hồn thành luận văn Hải Phịng, ngày… tháng… năm…… Sinh viên Phạm Văn Sơn MỞ ĐẦU Trong thời đại nay, phát triển nhƣ vũ bão công nghệ thông tin (CNTT) kéo theo phát triển nhiều lĩnh vực khác Có thể nói, CNTT làm thay đổi hình hài kinh tế giới, giúp nhân loại bƣớc bƣớc vững đƣờng kinh tế tri thức, thƣơng mại điện tử Ngày nay, ngƣời khơng cịn phải vất vả nhọc nhằn công việc thu thập dƣ liệu có trợ thủ đắc lực hệ thống máy tính mạng truyền số liệu triển khai quy mơ tồn cầu Tuy nhiên, phát triển vƣợt bậc CNTT làm tăng số lƣợng giao dịch thông tin mạng Internet cách đáng kể, đặc biệt thƣ điện tử, tin tức điện tử, Theo số liệu thống kê từ Brođer et (2008) sau khoảng đến 10 tháng lƣợng thơng tin lại tảng gấp đơi, bên cạnh tốc độ thay đổi thơng tin nhanh Hoạt động lĩnh vực đặt phải xử lý khối lƣợng thông tin đồ sộ Một yêu cầu lớn đặt chứng ta tổ chức, tìm kiếm thơng tin cách hiệu phân loại thông tin giải pháp hợp lý cho yêu cầu Nhƣng vối khối lƣợng thông tin lớn địi hỏi phải xử lý nhanh việc phân loại thủ công điều không tƣởng Hƣớng giải xây dựng giải pháp cho phép thuật toán hóa chƣơng trình hóa máy tính để tự động phân loại thông tin Trong đề tài tốt nghiệp đại học Trƣờng Đại Học Dân Lập Hải Phịng, em thực đề tài “TÌM HIỂU VỀ SUPPORT VECTOR MACHINES CHO BÀI TOÁN PHÂN LỚP QUAN ĐIỂM” Lý chọn đề tài Vấn đề phân lớp dự đoán khâu quan trọng học máy khai phá liệu, phát trí thức Kỹ thuật Support Vector Machines (SVM) đƣợc đánh giá công cụ mạnh tinh vi cho toán phân lớp phi tuyến Nhiều ứng dụng đƣợc xây dựng dựa kỹ thuật SVM hiệu Mục đích, đối tượng phạm vi nghiên cứu Trong khuôn khổ luận văn nghiên cứu phần toán phân lớp quan điểm, sở lý thuyết phƣơng pháp SVM vấn đề liên quan Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM Đƣa kỹ thuật mờ vào SVM cho phép phân chia không gian liệu cách tốt hơn, nhằm loại bỏ vùng khơng đƣợc phân lớp SVM thơng thƣờng Trình bày hƣớng áp dụng kỹ thuật SVM nhƣ cải tiến, mở rộng vào giải số tốn ứng dụng thực tiễn Trình bày tổng quan toán phân lớp quan điểm cụ thể toán phân lớp phân cực để phân chia tài liệu chứa quan điểm tích cực hay tiêu cực Tìm hiểu liệu quan điểm viết chƣơng trình thử nghiệm phân lớp phan cực tài liệu sử dụng SVM Ý nghĩa khoa học thực tiễn SVM phƣơng pháp phân lớp đại hiệu quả, nắm phƣơng pháp tạo tảng giúp việc phát triển giải pháp phân loại dự đoán , xây dựng đƣợc ứng dụng quan trọng thực tế Ứng dụng phân lớp SVM cho toán phân lớp quan điểm toán đƣợc nghiên cứu phát triển rộng rãi có ý nghĩa học thuật lẫn ứng dụng thực tế Nội dung luận văn bao gồm Chương 2: Tìm hiểu Support Vector Machine Chương 2: Bài tốn phân lớp quan điểm Chương 3: Chương trình thực nghiệm Phần Kết Luận Phần tài liệu tham khảo CHƢƠNG 1: TÌM HIỂU VỀ SUPPORT VECTOR MACHINE 1.1 PHÁT BIỂU BÀI TOÁN Support Vector Machines (SVM) kỹ thuật việc phân lớp liệu, phƣơng pháp học sử dụng không gian giả thuyết hàm tuyến tính khơng gian đặc trƣng nhiều chiều, dựa lý thuyết tối ƣu lý thuyết thống kê Trong kỹ thuật SVM không gian liệu nhập ban đầu đƣợc ánh xạ vào không gian đặc trƣng không gian đặc trƣng mặt siêu phẳng phân chia tối ƣu đƣợc xác định Ta có tập S gồm e mẫu học S = {(x1,y1), (x2,y2), (x3,y3)… ( xe,ye)} (X x Y)e với vectơ đầu vào n chiều xi ∈ Rn thuộc lớp I lớp II (tƣơng ứng nhãn y i = lớp I v y i = - lớp II) Một tập mẫu học đƣợc gọi tầm thƣờng tất nhãn Đối với liệu phân chia tuyển tính, xác định đƣợc siêu phẳng f(x) mà chia tập liệu Khí đó, với siêu phẳng nhận đƣợc ta có: f(x)≥ đầu vào x thuộc lớp dƣơng, f(x)< x thuộc lớp âm n f(x) = w.x +b = wi xi + b j yi f(xi) = yi (w.xi + b) ≥ , i=1,….,l w vector pháp tuyến n chiều b giá trị ngƣỡng Vector pháp tuyến w xác định chiều siêu phẳng f(x), giá trị ngƣỡng b xác định khoảng cách siêu phẳng gốc Hình 1: Phân tách theo siêu phẳng (w,b) khơng gian chiều tập mẫu Siêu phẳng có khoảng cách với liệu gần lớn (tức có biên lớn nhất) đƣợc gọi siêu phẳng tối ƣu Hình 2: Siêu phẳng tối ưu Mục đích đặt tìm đƣợc ngƣỡng (w,b) phân chia tập mẫu vào lớp có nhãn (lớp I) -1 (lớp II) nêu với khoảng cách lớn 1.1.1 Trình bày tóm tắt phân lớp liệu - Phân lớp liệu kỹ thuật khai phá liệu đƣợc sử dụng rộng rãi đƣợc nghiên cứu mở rộng - Mục đích: Để dự đoán nhãn phân lớp cho liệu mẫu Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu Đầu ra: Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp Phân lớp liệu dựa tập huấn luyện giá trị thuộc tính phân lớp dùng để xác định lớp cho liệu Kỹ thuật phân lớp liệu đƣợc tiến hành bao gồm bƣớc: Bước 1: Xây dựng mơ hình từ tập huấn luyện Bước 2: Sử dụng mơ hình – kiểm tra tính đắn mơ hình dùng để phân lớp liệu Bước Xây dựng mơ hình - Mỗi bộ/mẫu liệu đƣợc phân vào lớp đƣợc xác định trƣớc - Lớp bộ/mẫu liệu đƣợc xác định thuộc tính gán nhãn lớp - Tập bộ/mẫu liệu huấn luyện - tập huấn luyện - đƣợc dùng để xây dựng mơ hình - Mơ hình đƣợc biểu diễn luật phân lớp,các định cơng thức tốn học Hình 2.3: Ví dụ xây dựng mơ hình Bước 2: Sử dụng mơ hình - Phân lớp cho đối tƣợng chƣa đƣợc phân lớp - Đánh giá độ xác mơ hình Lớp biết trƣớc mẫu/bộ liệu đem kiểm tra đƣợc so sánh với kết thu đƣợc từ mơ hình Tỉ lệ xác phần trăm mẫu/bộ liệu đƣợc phân lớp mơ hình số lần kiểm tra Hình 2.4: Sử dụng mơ hình 1.1.2 Tại lại sử dụng thuật toán SVM phân lớp liệu  SVM hiệu để giải tốn liệu có số chiều lớn (ảnh liệu biểu diễn gene, protein, tế bào)  SVM giải vấn đề overfitting tốt (dữ liệu có nhiễu tách dời nhóm liệu huấn luyện ít)  Là phƣơng pháp phân lớp nhanh  Có hiệu suất tổng hợp tốt hiệu suất tính toán cao dự đoán định hƣớng tất tính từ danh sách từ quan điểm đƣợc rút cách tìm kiếm qua cụm lƣỡng cực để tìm liệu từ đồng nghĩa hay trái nghĩa có danh sách khởi đầu hay khơng Khi định hƣớng tính từ đƣợc dự đốn, đƣợc bổ sung vào danh sách khởi đầu đƣợc sử dụng để xác định định hƣớng tính từ khác Trong phƣơng pháp này, danh sách khởi đầu dần tăng lên định hƣớng tính từ đƣợc nhận dạng, ngừng gia tăng, tức qui mô danh sách khởi đầu trùng với qui mô danh sách từ quan điểm, tất định hƣớng tính từ đƣợc nhận biết trình kết thúc Những từ quan điểm thƣờng tập trung chủ yế phó từ nhận dạng xác đƣợc nhiều hai loại từ hệ thống có độ xác cao 2.5.3 Sử dụng động từ Các tính từ phó từ đóng vai trị quan trọng việc phân tích quan điểm loại từ có lợi việc nhận biết định hƣớng rút từ quan điểm nghiên cứu Tuy nhiên, loại từ khác, ví dụ nhƣ động từ đƣợc sử dụng để diễn tả cảm xúc hay ý kiến viết Nasukawa Yi (2003) xem xét bên cạnh tính từ phó từ, động từ diễn tả quan điểm hệ thống đánh giá quan điểm họ Họ phân loại động từ có liên quan đến quan điểm thành loại Loại thứ trực tiếp thể quan điểm tích cực hay tiêu cực, theo lý giải họ “beat” “X beats Y” Loại thứ hai quan điểm trực tiếp nhƣng dẫn đến quan điểm , giống nhƣ “is” “X is good” Họ sử dụ ựa mơ hình Markov (HMM) (Manning and Schutze, 1999) phân tích cú pháp nơng dựa luật (Neff et al., 2003) cho bƣớc tiền xử lý Sau họ phân tích tính phụ thuộc mặt cú pháp cụm từ tìm kiếm cụm từ có từ quan điểm mà bổ nghĩa đƣợc bổ nghĩa thuật ngữ chủ thể 21 2.5.4 Xác định chiều hƣớng, cụm từ, quan điểm Trong phân tích quan điểm, xu hƣớng từ, cụm từ trực tiếp thể quan điểm, cảm xúc ngƣời viết Phƣơng pháp để nhận biết xu hƣớng quan điểm từ, cụm từ cảm nghĩ dựa thống kê dựa từ vựng 2.6 NHIỆM VỤ CỦA PHÂN TÍCH QUAN ĐIỂM Phân tích quan điể nhiên Có hai hƣớ (Sentiment Classification : (Sentiment Extraction) : bao gồm nhiệm vụ là: - - positive, ) negative - 2.7 BÀI TOÁN PHÂN LỚP QUAN ĐIỂM Phân lớp q trình "nhóm” đối tƣợng "giống” vào "một lớp” dựa đặc trƣng liệu chúng Tuy nhiên, phân lớp hoạt động tiềm ẩn tƣ ngƣời nhận dạng giới thực, đóng vai trò quan trọng làm sở đƣa dự báo, định Phân lớp cách mô tả lớp giúp cho tri thức đƣợc định dạng lƣu trữ Khi nghiên cứu đối tƣợng, tƣợng, dựa vào số hữu hạn đặc trƣng chúng Nói cách khác, ta xem xét biểu diễn đối tƣợng, tƣợng không gian hữu hạn chiều, chiểu ứng với đặc trƣng đƣợc lựa chọn Khi đó, phân lớp liệu trở thành phân hoạch tập liệu thành tập theo tiêu chuẩn nhận dạng đƣợc Nhiệm vụ : - 22 Phân lớp câu/tài liệu chứa quan điể ực(positive) hay tiêu cực (negative (neutral) Theo Bo Pang Lillian Lee (2002) phân lớp câu/tài liệu quan điểm khơng có nhận biết từ/ cụm từ quan điểm Họ sử dụng học máy có giám sát để phân loại nhận xét phim ảnh Không cần phải phân lớp từ hay cụm từ quan điểm, họ rút đặc điểm khác quan điểm sử dụng thuật tốn Nạve Bayes (NB), Maximum Entropy (ME) Support Vector Machine (SVM) để phân lớp quan điểm Phƣơng pháp đạt độ xác từ 78, 7% đến 82, 9% Input: Output: (polarity) ) tiếp cận ngữ Phân lớp tài liệu theo hƣớng quan điểm thật vấn đề thách thức khó khăn lĩnh vự xử lý ngơn ngữ chất phức tạp ngơn ngữ ngƣời, đặc biệt đa nghĩa nhập nhằng nghĩa ngôn ngữ Sự nhập nhằng rõ ràng ảnh hƣởng đến độ xác phân lớp mức độ định Một khía cạnh thách thức vấn đề dƣờng nhƣ phân biệt với việc phân loại chủ đề theo truyền thống chủ đề đƣợc nhận dạng từ khóa đứng mình, quan điểm diễn tả cách tinh tế Ví dụ câu sau: “Làm để ngồi xem hết phim ?”khơng chứa ý có nghĩa mà rõ ràng nghĩa tiêu cực Theo đó, quan điểm dƣờng nhƣ đòi hỏi hiểu biết nhiều hơn, tinh tế 2.7.1 Phân cực quan điểm mức độ phân cực - : positive/negative/neutral : Like/ dislike/ So so - p/ thumbs down :like to win/ unlike to win Liberal/conservative / bad new 23 : / : “This laptop is great” ” => VD: “The stock prise rose” ” ” Rating inference (ordinal regression : ,… : positive, negative, neutral positive negative neutral ) Theo neutral negative negative 10% 2.7.2 Nhiệm vụ toán phân lớp quan điểm Bài toán phân lớp quan điểm đƣợc biết đến nhƣ toán phân lớp tài liệu với mục tiêu phân loại tài liệu theo định hƣớng quan điểm Đã có nhiều tiếp cận khác đƣợc nghiên cứu để giải cho loại tốn Để thực hiện, chia thành hai nhiệm vụ nhƣ sau: - Trích đặc trưng nhằm khai thác thông tin quan điểm để phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa - Xây dựng mô hình để phân lớp tài liệu 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài liệu Trong phân tích quan điểm, xu hƣớng từ, cụm từ trực tiếp thể quan điểm, cảm xúc ngƣời viết Phƣơng pháp để nhận biết xu hƣớng quan điểm từ, cụm từ cảm nghĩ dựa thống kê dựa từ vựng Với nhiệm vụ phân lớp tài liệu, có nhiều phƣơng pháp học máy thống kê đƣợc sử dụng cho mục đích này, nhƣ là: Naive Bayes, phân loại Maximum Entropy, học máy giám sát SVM, định,… Thuật toán gồm bước: Bước 1: Xác định n-gram, đặc trưng lọc qua tồn tập liệu Bước 2: Tính tốn tần số xuất n-gram tích cực, tiêu cực tính trọng số n-gram Bước 3: Chọn n-gram thỏa mãn ngưỡng có trọng số cao loại bỏ bigram khơng có ý nghĩa cho việc phân loại Bước 4: Tính tốn độ xác trình huấn luyện phân lớp 25 CHƢƠNG III: CHƢƠNG TRÌNH THỰC NGHIỆM 3.1 DỮ LIỆU THỬ NGHIỆM Trong đồ án này, sử dụng liệu từ viết đánh giá phim gồm 700 nhận xét tích cực 700 nhận xét tiêu cực Dữ liệu đƣợc cung cấp tác giả Lillian Lee (http://www.cs.cornell.edu/people/pabo/moviereview-data/) Các liệu dƣợc loại bỏ số đánh giá rút thông tin nguyên văn từ tài liệu gốc định dạng HTML, xử lý dấu chấm câu nhƣ mục từ vựng riêng biệt Chúng tập trung vào đặc trƣng dựa từ đơn cặp từ 3.2 CÔNG CỤ SỬ DỤNG 3.2.1 Công cụ sinh SRIML SRILM công cụ để xây dựng áp dụng mơ hình ngơn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ cơng cụ đƣợc phát triển “Phịng thí nghiệm nghiên cứu cơng nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mô hình ngơn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựng mơ hình ngơn ngữ, đào tạo thử nghiệm mơ hình ngơn ngữ liệu, gắn thẻ phân chia văn bản, Bộ cơng cụ SRILM có nhiều chƣơng trình con, để xây dựng mơ hình ngơn ngữ ta sử dụng chƣơng trình Ngram 26 Chƣơng trình Ngram thống kê tần số xuất cụm Ngram Kết việc thống kê đƣợc ghi lại vào tệp sử dụng chúng để xây dựng mơ hình ngơn ngữ Kết việc thống kê đƣợc ghi lại theo định dạng sau: ngram –count –ordern -interpolate -text -lm Trong đó: order n: thiết lập độ dài lớn cụm Ngram thống kê n Giá trị mặc định không thiết lập tham số n = interpolaten: với n nhận giá trị 1, 2, 3, 4, 5, 6, 7, 8, Tính tốn tần số cụm Ngram có độ dài n cách nội suy từ cụm Ngram có độ dài nhỏ text: File liệu cần thống kê tần số cụm Ngram Tệp văn chứa câu dịng Kí hiệu kết thúc bắt đầu dòng đƣợc tự động thêm vào tệp đầu vào chƣa có Các dòng trống tệp bị loại bỏ lm: xây dựng mơ hình ngơn ngữ truy hồi từ tần số vừa thống kê, sau ghi lại vào tệp fileketqua theo định dạng 3.2.2 Ngôn ngữ lập trình java Java ngơn ngữ lập trình dạng lập trình hƣớng đối tƣợng (OOP) Khác với phần lớn ngơn ngữ lập trình thơng thƣờng, thay biên dịch mã nguồn thành mã máy thông dịch mã nguồn chạy, Java đƣợc thiết kế để biên dịch mã nguồn thành bytecode, bytecode sau đƣợc mơi trƣờng thực thi (runtime environment) chạy Bằng cách này, Java thƣờng chạy nhanh ngơn ngữ lập trình thơng dịch khác nhƣ Python, Perl, PHP,… Cú pháp Java đƣợc vay mƣợn nhiều từ C & C++ nhƣng có cú pháp hƣớng đối tƣợng đơn giản tính xử lý cấp thấp 27 Một số đặc điểm bật java - Máy ảo java - Thông dịch - Độc lập - Hƣớng đối tƣợng Đa nhiệm, đa luồng 3.2.3 Công cụ phân lớp liệu SVMLight đƣợc phát triển Joachims SVMThorste nh sau: Các tính chƣơng trình - Tối ƣu hóa thuật tốn nhanh - Giải nhanh vấn đề phân loại hồi quy kết đầu đa biến - Hỗ trợ phƣơng pháp nhận dạng mẫu SVM-light bao gồm thành phần chính: - SVMTlearn - SVMTagger - SVMTeval - SVMClassicfy: kiểm thử kết Thực hiện: : svm-learn [-option] train_file model_file 28 : train_file - Tên train_file model_file: - ủ - ố - ) 3.3 Kết thực nghiệm Các bƣớc thực Bước 1: sử dụng công cụ N-gram để sinh file liệu chứa N-gram tài liệu chứa quan điểm Ở đây, sử dụng uni-gram (1-gram) Bigram (2-gram) Bước 2: Từ tập liệu này, trƣớc đƣợc sử dụng để huấn luyện kiểm thử cần qua số bƣớc lọc bỏ đặc trƣng không tốt Bƣớc thứ nhất, lọc bỏ từ vô nghĩa (stop word), ký tự đặc biệt nhƣ {! , ? , / , @ # , “, } Bƣớc lọc bỏ đặc trƣng theo tần số Những đặc trƣng có tần số xuất liệu huấn luyện thấp giá trị (đối với unigram nhỏ bigram nhỏ 7) bị loại bỏ Bƣớc cuối đƣợc thực sau gán trọng số cho đặc trƣng 29 Bước 3: Gán nhãn cho N-gram tập liệu huấn luyện để lấy thông tin phân loại: nhận xét chứa quan điểm tích cực đƣợc gán nhãn 1, nhận xét chứa quan điểm tiêu cực đƣợc gán nhãn -1 chọn Để thực phân lớp tài liệu quan điểm, chia tập liệu thành hai tập tập huấn luyện (train) tập kiểm thử (test) Tập huấn luyện gồm có 550 nhận xét tích cực 550 nhận xét tiêu cực Tập kiểm thử (test) gồm có 150 nhận xét tích cực 150 nhận xét tiêu cực Kết thực phân lớp Support Vector Machine với đặc trƣng Unigram Bigram nhƣ sau: Đặc trƣng Uni-gram Bi-gram Độ xác (Precision) 91,38 % 56,49% Độ phản hồi (Recall) 91,54% 58% Chƣơng trình trích đặc trƣng n-gram tạo liệu cho phân lớp SVM để phân lớp bình luận tích cực hay tiêu cực 30 1: Giao diện chƣơng trình 3.2: Mở file liệu đầu vào 31 3.3: Hiển thị liệu dùng để chạy Get Pos Data 3.4: Dữ liệu cho phân lớp SVM 32 3.5: Hình ảnh chạy Lệnh SVM môi trƣờng DOS 33 KẾT LUẬN Luận văn hƣớng tới mục tiêu phân lớp liệu đạt độ xác cao, xem xét đƣợc tất mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên số vấn đề chƣa hoàn chỉnh Tuy nhiên, luận văn đạt đƣợc số kết quả: Nghiên cứu trình bày sở lý thuyết phƣơng pháp học máy Trình bày phƣơng pháp SVM Đây phƣơng pháp phân lớp hiệu đƣợc nghiên cứu nhiều thời gian qua Phân tích giải pháp cho phép mở rộng cải tiến để nâng cao hiệu ứng dụng SVM: Cài đặt đƣợc số công cụ giúp đỡ cho việc xây dựng mô hình ngơn ngữ nhƣ: chuẩn hóa văn bản, tách từ ngơn ngữ Java Cài đặt đƣợc chƣơng trình để trích đặc trƣng tạo liệu cho phân lớp SVM Tìm kiếm sử dụng liệu phân lớp tài liệu chứa quan điểm Cài đặt chạy thành công mã nguồn mở Srilm môi trƣờng Linux Sử dụng công cụ mã nguồn mở SRILM để xây dựng mơ hình ngơn ngữ cho liệu đầu vào Do thời gian có hạn, nên luận văn nghiên cứu đƣợc trích đặc trƣng n-gram từ bình luận sử dụng phân lớp SVM để phân lớp bình luận tích cực hay tiêu cực Trong thời gian tới, tiếp tục nghiên cứu trích đặc trƣng khác cho toán phƣơng pháp phân lớp thống kê khác 34 TÀI LIỆU THAM KHẢO Ths Nguyễn Thị Xuân Hƣơng Ths Lê Thụy “phân tích quan điểm số hƣớng tiếp cận” Hội nghị khoa học lần thứ nhất, 2012, trƣờng ĐHDL Hải Phịng Nghiên cứu thuật tốn phân lớp nhị phân ứng dụng cho bào toán Protein Folding – Nguyễn Quang Phƣớc – Trƣờng Đại học Khoa học tự nhiên TPHCM Bo Pang and Lillian Lee Shivakumar Vaithyanathan Thumbs up Sentiment Classification using Machine Learning Techniques http://en.wikipedia.org/wiki/Support_vector_machine http://www.cs.cornell.edu http://svmlight.joachims.org/ ftp://ftp.cs.cornell.edu/pub/smart/english.stop http://www.speech.sri.com/projects/srilm/download.html 35 ... bày tổng quan toán phân lớp quan điểm cụ thể toán phân lớp phân cực để phân chia tài liệu chứa quan điểm tích cực hay tiêu cực Tìm hiểu liệu quan điểm viết chƣơng trình thử nghiệm phân lớp phan... ĐIỂM 22 2.7 BÀI TOÁN PHÂN LỚP QUAN ĐIỂM 22 2.7.1 Phân cực quan điểm mức độ phân cực 23 2.7.2 Nhiệm vụ toán phân lớp quan điểm 24 2.7.3 Xây dựng mơ hình phân lớp để phân loại tài liệu... negative 10% 2.7.2 Nhiệm vụ toán phân lớp quan điểm Bài toán phân lớp quan điểm đƣợc biết đến nhƣ toán phân lớp tài liệu với mục tiêu phân loại tài liệu theo định hƣớng quan điểm Đã có nhiều tiếp cận

Ngày đăng: 18/03/2014, 10:25

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan