Suppor vector machine

35 45 0
Suppor vector machine

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khái quát về SVM (Support vector machine).Điều chỉnh một số tham số Kernel, Chính quy, Gamma và Margin để làm cho thuật toán tốt hơn.Trình bày một số Ứng dụng của Support Vector Machine (SVM).Các kết luận về Mô phỏng thuật toán SVM liên quan đến quan điểm.Các hướng phát triển khác sử dụng công cụ Support Vector Machine (SVM).

TÌM HIỂU VỀ SUPPORT VECTOR MACHINE HÀ NỘI – 2019 MỤC LỤC 1.1 Một số khái niệm 1.2 Độ phức tạp thuật toán SVM 1.3 Điều chỉnh số tham số Kernel, Chính quy, Gamma Margin 1.3.1 Kernel 1.3.2 Chính quy 1.3.3 Gramma 1.3.4 Margin 10 Chương 2: Ứng dụng Support Vector Machine 11 2.1 Ứng dụng vào khai thác quan điểm 11 2.1.1 Khái quát chung 11 2.1.2 Phương pháp luận phương pháp nghiên cứu 12 2.2 Ứng dụng vào việc phân loại virus máy tính 13 2.2.1 Khái quát chung 13 2.2.2 Một số phương pháp phát Virus 15 2.3 Ứng dụng vào việc phân loại Email 16 2.4 Một số ứng dụng khác 18 Chương Các hướng phát triển Support vector machine 19 3.1 Sử dụng Support vector machine cho việc phân tích phần cứng máy tính 19 3.2 Sử dụng Support vector machine khai thác quan điểm liệu lớn 20 3.3 Các hướng phát triển khác sử dụng công cụ SVM 21 3.4 Mơ thuật tốn SVM hộp thư điện tử 24 3.4.1 Mô tả sở liệu 24 3.4.2 Kết thực nghiệm cho trình 26 3.5 Mơ thuật tốn SVM Virus Máy tính 28 3.5.1 Mô tả sở liệu 28 3.5.2 Kết thực nghiệm cho trình 28 3.6 Mơ thuật tốn SVM quan điểm 30 Page 3.6.1 Mô tả sở liệu 30 3.6.2 Kết thực nghiệm cho trình 31 TÀI LIỆU THAM KHẢO 34 Page Chương Khái quát Support Vector Machine Trong thời gian qua, Support Vector machines (SVM) nghiên cứu ứng dụng mạnh mẽ nhiều lĩnh vực Có thể nói việc nghiên cứu phát triển mạnh toàn giới Việt Nam Lào việc nghiên cứu tìm hiểu phương pháp cịn mẽ Trên thực tế, Support Vector Machines phương pháp học máy Vladimir Vapnik cộng xây dựng nên từ năm 70 kỉ 20 SVMs phân lớp nhị phân, để áp dụng toán phân loại đa lớp, số chiến thuật phân lớp đề xuất Ngoài ra, lĩnh vực trí tuệ nhân tạo nói riêng SVM, xuất dựa lý thuyết xác suất Tuy nhiên, thời điểm việc ứng dụng cịn hạn chế chưa có khả nghiên cứu nên chưa quan tâm nhiều Cho đến áp dụng nhiều vào lĩnh vực khác phát triển khơng ngừng khoa học kỹ thuật, làm cho giới bước sang trang sử 1.1 Một số khái niệm Có nhiều khái niệm SVM nhiều độc giả trình qua thơng tin đại chúng mạng xã hội Đây nói với nhiều định nghĩa khác nhiên mô rõ ràng cho hiểu SVM Từ việc tham khảo nguồn tài liệu nghiên cứu theo SVM khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy biệt xác định siêu phẳng tách biệt Nói cách khác, cung cấp liệu đào tạo gắn nhãn (hoặc học có giám sát), thơng thường thuật tốn đưa siêu phẳng tối ưu để phân loại, phân lớp thông tin Trong hai không gian thay Page thế, siêu phẳng đường phân chia mặt phẳng thành hai phần lớp nằm hai bên Giả sử có sơ đồ hình bên hình 1.1 Câu hỏi đặt làm phân chia chúng thành phần có điểm giống mặt phần lại điểm khác Có thể đơn giản tìm đường thẳng phân chia chúng thành phần Hình 1.1 Vẽ đường phân cách điểm chia hình trịn màu đen vng màu xanh Vâng tơi nói trên, chọn cách vẽ đoạn thẳng để cắt làm phần hình 1.2.1 Tuy nhiên sử dụng đường thẳng để cắt hình 1.2.2 Dù chọn cách cơng việc cần xét chia chúng có các khối hình giống mặt phẳng hình màu đen hình vng màu xanh Hình 1.2.1 Cắt mặt phẳng thành Hình 1.2.2 Cắt mặt phẳng thành Page Thực tế nhìn vào hình 1.2.1 1.2.2 thật dễ dàng để sử dụng nhát cắt phẩn chia chúng thành mặt phẳng Tuy nhiên thực tế khơng đơn giản Để tìm hiểu vấn đề khác đọc tiếp phần 1.2 Độ phức tạp thuật tốn SVM Như ta tìm hiểu việc sử dụng lát cắt để cắt làm phần hình trịn màu đen hình vng màu xanh đơn giản sử dụng đường thằng hay đoạn thẳng tách chúng làm phần Vậy hình mà khơng thể thể sử dụng đường thẳng để cắt hay đoạn thẳng để cắt làm Hình 1.3 Mơ điểm trục tọa độ chưa xét Nhìn vào hình 1.3 ta nhận thấy để sử dụng đường thẳng hay đoạn thẳng phân chia chúng thành phần Vậy để phân chia chúng Chúng ta tham khảo cách phân chia sau sử dụng vịng trịn hình 1.4 Page Hình 1.4 Mơ phân cách bời vịng trịn Tuy nhiên có nhiều độc giả cho cần áp dụng chuyển đổi thêm là việc xây dựng thêm trục z Trục cho phép giá trị điểm mặt phẳng z, w=x2 + y2 Trong trường hợp thao tác di chuyển khoảng điểm tức gốc z Nếu vẽ đồ thị theo trục z, thấy phân tách rõ ràng đường vễ Chúng ta hình Hình 1.5 Mơ dịch điểm trục tọa độ Bây xét thêm độ phức tạp nữa, nói việc dịch chuyển thêm tọa độ trục Z giải pháp hay Tuy nhiên, mặt phẳng có Page tới trăm hàng tỷ điểm phải dịch chuyển trục làm cho việc xử lý thêm phức tạp Chúng ta xem xét vấn đề khía cạnh khác sau để phân chia chúng thành hai mặt phẳng Hình 1.6 Mơ tả lựa chọn tốt Nhìn vào hình 1.6 đánh giá hai có lý lựa chọn, lựa chọn cách thứ họ chấp nhận số sai số hiểu ứng dụng thực, việc tìm lớp hồn hảo cho hàng triệu liệu đào tạo nhiều thời gian Nhưng mã hóa gọi tham số quy Trong phần tiếp theo, định nghĩa hai thuật ngữ tham số quy gamma Đây tham số điều chỉnh phân loại SVM Thay đổi người đạt dịng phân loại phi tuyến đáng kể với độ xác cao khoảng thời gian hợp lý Page Thật ngạc nhiên ý đến việc phân chia bời may khơng phải đốn / rút chuyển đổi lần cho tập liệu Mà việc triển khai SVM thư viện sklearn cung cấp cho có sẵn Thêm tham số kernel Nó xác định xem muốn tuyến tính tách tuyến tính Điều thảo luận phần 1.3 Điều chỉnh số tham số Kernel, Chính quy, Gamma Margin 1.3.1 Kernel Siêu mặt phẳng SVM tuyến tính thực cách chuyển đổi tốn số đại số tuyến tính Đây nơi kearn đóng vai trị Đối với nhân tuyến tính , phương trình dự đốn cho đầu vào cách sử dụng sản phẩm chấm đầu vào (x) vectơ hỗ trợ (xi) tính sau: f (x) = B (0) + sum (ai * (x, xi)) Đây phương trình liên quan đến việc tính tốn sản phẩm bên vectơ đầu vào (x) với tất vectơ hỗ trợ liệu huấn luyện Các hệ số B(0) (cho đầu vào) phải ước tính từ liệu đào tạo thuật tốn học tập Các kearn đa thức viết K (x, xi) = + sum (x * xi) ^ d mũ K (x, xi) = exp (-gamma * sum ((x - Xi²)) [1] Các hạt nhân đa thức hàm mũ tính tốn đường phân tách chiều cao Đây gọi thủ thuật kernel 1.3.2 Chính quy Page Tham số Chính quy (thường gọi tham số C thư viện sklearn python) cho biết tối ưu hóa SVM bạn muốn tránh phân loại sai mẫu ví dụ đào tạo Đối với giá trị lớn C, việc tối ưu hóa chọn siêu phẳng có biên độ nhỏ siêu phẳng thực cơng việc tốt để có tất điểm đào tạo phân loại xác Ngược lại, giá trị nhỏ C khiến trình tối ưu hóa tìm kiếm siêu phẳng tách biệt có biên lớn hơn, siêu phẳng phân loại sai nhiều điểm Các hình ảnh thể giống hình 1.6 với cách lựa chọn cách cách phần trình bày ví dụ hai tham số quy khác Cịn lại số có số phân loại sai giá trị quy thấp Giá trị cao dẫn đến kết 1.3.3 Gramma Tham số gamma xác định mức độ dựa ảnh hưởng số điểm đào tạo đạt được, với giá trị thấp có nghĩa 'xa' giá trị cao có nghĩa 'đóng' Nói cách khác, với gamma thấp, điểm cách xa đường phân cách hợp lý xem xét tính tốn cho đường phân cách Khi gamma cao có nghĩa điểm gần với đường đáng xem xét tính tốn Page Hình 3.1 Một số vấn đề nghiên cứu Virus máy tính 3.2 Sử dụng Support vector machine khai thác quan điểm liệu lớn Có thể khẳng định lĩnh vực sử dụng nghiên cứu nhiều thời gian gần Tuy nhiên, vẫn nhiều vấn đề mà đáng quan tâm để phát triển chúng nhiều Thứ nhất: Khai phá quan điểm dựa dự liệu có cấu trúc lớn Đây lĩnh vực mà người nghiên cứu, lĩnh vực lớn so với thực Tuy nhiên khơng độc giả nghiên cứu Ở Việt Nam có nhiều độc giả nghiên cứu khái thác ý kiến khách hàng mạng xã hội Những nghiên cứu mang lại nhiều điều thú vị giúp hệ sau tiếp túc nghiên cứu mở chương cho lĩnh vực khai phá liệu (Data mining) học máy Cơng cụ SVM góp phần lớn vào việc nghiên cứu phân tích liệu lĩnh vực Truy nhiên nguồn thông tin bất tận nên chưa khai thác hết vấn đề liên quan Chẳng hạn nghiên cứu ThS Nguyễn Viết Hùng khái thách quan điểm dựa mạng xã hội sử dụng ngôn ngữ tự nhiên dừng lại Page 20 câu đơn, câu ghép đơn giản Chưa thể thể độ tin cậy xét cách tổng thể mà dừng lại mức trung bình Tuy nhiên vấn đề đáng nể tác giả nghiên cứu tìm hướng mà nâng cấp tìm hiểu nhiều cho lĩnh vực khác liên quan Thứ hai: Khai phá quan điểm từ khách hàng khách hàng công ty viễn thông Lao telecom Chúng ta nghiên cứu để tìm kiếm khách hàng tiềm năng, loại khách hàng mà telecom mà đông đảo công ty khác mong muốn tìm thấy nguồn khách hàng Bởi khách hàng mang lại giá trị tích cực cho cơng ty thể tầm ảnh hưởng khả phát triển lâu dài công ty Hơn nữa, Công ty viễn thông Lao Telecom công ty lớn Lào, có khối lượng lớn liệu thông tin khách hàng liệu chi tiết gọi Những nghiên cứu ứng dụng khai phá liệu dựa việc xem xét luật kết hợp dịch vụ viễn thông khách hàng sử dụng phân lớp khách hàng việc mà nên sử dụng công cụ SVM mang lại cho có tảng phát triển nhiều ứng dụng cho tương lai Dựa vào SVM liệu khách hàng tìm để phân loại khách hàng Trong có vấn đề phổ biến, chẳng hạn công ty cần thay đổi nhà cung cấp dịch vụ vấn đề nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, doanh thu nhà cung cấp dịch vụ… 3.3 Các hướng phát triển khác sử dụng cơng cụ SVM Nhìn chung hướng phát triển dựa ứng dụng công cụ SVM chủ yếu phân loại văn Dựa thuộc tính, phân tích thuộc tính đưa cách phân loại dựa sở Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngơn ngữ Có nhiều nhiệm vụ đưa cho toán liên quan đến văn bản, tơi Page 21 trình bày vài tốn ứng dụng SVM mà tơi nêu Trong cách phân tích nghiên cứu thơng thường tốn phân loại văn việc gán tài liệu văn vào nhóm chủ đề cho trước Đây toán mà hay gặp đời sống thực tế như: phân tích quan điểm khách hàng giá thành chất lượng sản phẩm, hay nhà chuyển phân tích thị trường chứng khốn, với vấn đề chứng khoán cần phải tổng hợp nhiều tài liệu đưa dự báo, chuẩn đốn xác thị trường chứng khoán Tuy nhiên hiểu khơng thể đọc hết tất viết, báo hay tài liệu để phần loại chúng Lý khơng thể làm điều có nhiều báo, viết anh có đọc hết nhiều thời gian khơng đáp ứng u cầu cơng việc Một ví dụ cụ thể mà tơi có trình hệ thống email Trong email cần hệ thống phân tích loại bỏ spam mail hịm thư Bởi mail gửi đến nhiều thời gian để đọc lọc thứ spam mail điều làm lãng phí nhiều thời gian Cho nên cần hệ thống phân loại đâu spam mail hay đâu mail nên đọc Để giải vấn đề có rât nhiều phương pháp đưa để giải thuật tốn Nạve Bayes, định hay cơng cụ SVM Mỗi thuật tốn cho kết tốt, nhiên chọn phân loại văn theo thuật tốn Bayes sử dụng phổ biến dễ cài đặt mang nhiều rủi ro Cho nên lĩnh vực lựa chọn SVM điểm ưu sau: Thứ nhất: Hiệu giải tốn liệu có số chiều lớn Thứ hai: Trong công cụ SVM giải vấn đề overfitting la tốt dù liệu có bị nhiễm, tách rời nhóm hay liệu huấn luyện q Thứ ba: SVM cơng cụ hỗ trợ phân lớp nhanh, có hiệu suất tổng hợp tốt hiệu suất tính tốn cao Page 22 Tuy nhiên nên lưu ý bước sử dụng SVM sau: Tiền xử lý liệu: Vector số thực chưa phải số thực chuyển dạng số SVM, tránh thực thi số lớn, chúng thường co giãn liệu từ -1 đến hay từ đến Chọn hàm hạt nhân phù hợp cho tốn cụ để có kết xác cao Ln thực việc kiểm tra chéo để xác định tham số cho ứng dụng đầu vào tối ưu Sử dụng tham số cho việc huấn luyện tập mẫu kiểm thử tập liệu Test Nhìn chung có nhiều hướng để phát triển dựa công cụ SVM, ngồi cơng cụ SVM có nhiều hướng nghiên cứu để kết hợp SVM với Kernel Methods Đây phương pháp học mới, cung cấp nhiều công cụ, dựa tảng lý thuyết thống kê tối ưu toàn cục, tạo mơ hình ứng dụng chất lượng cao, chịu đựng nhiễu Tuy nhiên với kết hợp độ phức tạp cao nhiều điều dẫn đến gặp số khó khăn như: khó biên dịch kết mong muốn việc xử lý liệu kiểu số lớn Ngoài có hướng nghiên cứu SVM như:  Phân tích liệu hỗ trợ định (data analysis & decision support)  Điều trị y học (medical treatment)  Text mining & Web mining  Tin-sinh (bio-informatics)  Tài thị trường chứng khoán (finance & stock market)  Bảo hiểm (insurance) Page 23  Nhận dạng (pattern recognition) Nhìn cách tổng thể, khẳng định ứng dụng công cụ SVM để phát triển đời sống thực tế hay cho tương lai toàn giới nói chung đất nước Lào nói riêng cần thiết lĩnh vực mẽ nước CHDCND Lào Có nhiều định hướng kèo với nhiều thành cơng, ví dụ phát dạng bệnh mắc phải người Tìm nhận xét đánh giá chuẩn đốn kịp thời để phịng ngừa bệnh mắc phải thời gian tới 3.4 Mô thuật tốn SVM hộp thư điện tử 3.4.1 Mơ tả sở liệu Như tơi trình bày thư điện tự (Email) dễ hiểu khái niệm "thư rác" đa dạng: quảng cáo cho sản phẩm trang web, kiếm tiền nhanh chóng, chuỗi thư, nội dung khiêu dâm Bộ liệu thu thập [7], liệu dùng để mô tả số vấn đề sau:  Báo cáo kỹ thuật nội Hewlett-Packard  Xác định xem email định có phải thư rác hay khơng  Xấp xĩ 7% lỗi phân loại sai Thư đánh dấu thư tốt thư rá có nghĩa hộp thư khơng mong muốn Xét thuộc tình liệu gồm có: Thứ nhất: 48 thuộc tính thực [0,100] liên tục thuộc loại word_freq_ word Chiếm tỷ lệ phần trăm từ e-mail khớp với word, có nghĩa 100 * (số lần word xuất e-mail) tổng số từ e-mail Một "từ" trường hợp bất kỳ, chuỗi ký tự chữ số giới hạn không chữ số ký tự cuối chuỗi Page 24 Thứ hai: thuộc tính thực [0,100] liên tục thuộc loại char_freq_CHAR chiếm tỷ lệ phần trăm ký tự e-mail khớp với CHAR, tức 100 * (số lần xuất CHAR) tổng số ký tự e-mail Thứ ba: Một thuộc tính [1, ] thực liên tục thuộc loại capital_run_length_alusive độ dài trung bình chuỗi ký tự khơng bị gián đoạn Thứ 4: Một thuộc tính số nguyên liên tục [1, ] thuộc loại capital_run_length_longest độ dài chuỗi chữ in hoa dài không bị gián đoạn Thứ năm: Một thuộc tính số nguyên liên tục [1, ] thuộc loại capital_run_length_total tổng chiều dài chuỗi chữ in hoa không bị gián đoạn tổng số chữ in hoa e-mail Thứ sáu: Một thuộc tính danh nghĩa (ở tơi thêm vào thuộc tính class) {0,1} loại thư rác biểu thị xem e-mail có bị coi thư rác (1) hay không (0), tức e-mail thương mại không yêu cầu Các thuộc tính cụ thể là: word_freq_make word_freq_internet word_freq_addresses word_freq_font word_freq_lab word_freq_technology word_freq_original char_freq_( word_freq_our word_freq_will word_freq_you word_freq_hpl word_freq_data word_freq_direct word_freq_address word_freq_order word_freq_free word_freq_000 word_freq_labs word_freq_1999 word_freq_project char_freq_[ word_freq_over word_freq_people word_freq_credit word_freq_george word_freq_415 word_freq_cs word_freq_all word_freq_mail word_freq_business word_freq_money word_freq_telnet word_freq_parts word_freq_re char_freq_! word_freq_remove word_freq_report word_freq_your word_freq_650 word_freq_85 word_freq_meeting word_freq_3d word_freq_receive word_freq_email word_freq_hp word_freq_857 word_freq_pm word_freq_edu char_freq_$ capital_run_length_total char_freq_# capital_run_length_average capital_run_length_longest class Page 25 word_freq_table word_freq_conference char_freq_; Bảng 3.1 Các thuộc tính phân loại thư rác Tổng có 58 thuộc tính thuộc tính class gồm có hai giá trí 0, thư cịn thư rác cần loại bỏ Thuộc tính class tơi thực thêm vào liệuCó 4601 trường hợp xử lý liệu tơi 3.4.2 Kết thực nghiệm cho q trình Trong báo cáo sử dụng công cụ Weka để phân lớp, để thể rõ tính khách quan tơi so sách với thuật tốn NaiveBayes, BayesNet SVM công cụ Chúng sử dụng phép phân chia 66 - 44 tướng ứng với liệu dùng để đào tạo test Kết thực nghiệm cho ta thấy theo bảng sau: Thuật toán BayesNet NaiveBayes SVM Độ xác 89.51 % 91.43 % 92.90 % Độ sai phạm 10.49 % 8.57 % 7.10 % Bảng 3.2 Bảng kết so sánh thực nghiệm Thư rác Ngồi tơi sử dụng Cross-validation để thực vịng lặp cho thuật tốn, sử dụng thông số cho lần 10 lần thuật tốn tơi thu kết bảng sau: BayesNet Thuật toán NaiveBayes SVM 10 10 10 Độ xác 89.24 % 88.85 % 90.33 % 90.15 % 92.13 % 92.15 % Độ sai phạm 10.76 % 11.15 % 9.67 % 9.85 % 7.84 % 7.85 % Bảng 3.3 Bảng kết so sánh thực nghiệm Thư rác Thực nghiệm cho thấy sử dụng thuật toán SVM kết tốt so với hai thuật tốn cịn lại Các thuật tốn đề khơng có sai lệch đáng kể thức vòng lặp hay 10 lần tướng ứng với bảng Tuy nhiên có vấn đề tơi sử dụng hai phếp phân lớp khác cho kết tương đương không sai lệnh nhiều Chúng ta nhìn thấy bảng thứ với bảng thứ hai sử dụng phép phân chia 66 – 44 vịng lặp Page 26 cho kết SVM tương ứng 92.90 92.15 hai thông số không sai số nhiều Do thuật tốn có điểm khác biệt nên ma trận nhầm lẫn thuật toán thể thông số khác nhau, cụ thể thể qua hình sau Hình 3.2 Ma trận nhầm lẫn thuật tốn SVM Hình 3.3 Ma trận nhầm lẫn thuật tốn NaiveBayes Hình 3.4 Ma trận nhầm lẫn BayesNet Page 27 3.5 Mô thuật tốn SVM Virus Máy tính 3.5.1 Mơ tả sở liệu Để có sở liệu cho kiểm nghiệm này, thu thập sở liệu 45 máy tính truy xuất từ máy tính quản lý, liệu truy xuất lấy từ ngày 29 đến ngày 31 tháng năm 2019 phần mềm Symantec Bộ liệu tơi xây dựng với múc đích dùng để xây dựng tập liệu đào tạo nên có điều chỉnh so với gốc để phục vụ cho q trình nghiên cứu Tơi xây dựng tạo liệu với tập tin đặt trainingVirusComputer.csv Nội dung chi tiết tệp tin mô tả sau: Bộ liệu mà xử lý gồm có thuộc tính có 1000 trường hợp Các thuộc tính gồm Event Time, Severity, Host Name, Category, Event Source, Event Description Như hiểu virus xuất nơi, mà sử dụng máy tính nơi sớm hay muộn xuất dạng virus công đến máy tính Chính điều dẫn tới nhiều khả khơng thể có phần mềm chu toàn để bảo tối đa cho máy tính chúng ta, chưa kể phải cập nhật thưởng xuyên kiểm tra, theo dõi phần mềm mang lại hiệu cao Như tơi nói liệu thu thập hệ thống quản lý phần mềm Symantec cúng chưa hồn tồn xác thực cao, để mơ nhiều tơi cần thu thập phần mềm khác nữa, ví tơi vận dụng đề dùng tập đào tạo, có thời gian thu thập thêm từ nhiều nguồn khác, từ tơi tối ưu cho mơ Tuy nhiên mục địch báo cáo muốn cho bạn đọc hiểu SVM hỗ trợ phân lớp tập liệu tôi, cho thấy SVM thực lĩnh vực phong phú đa dạng 3.5.2 Kết thực nghiệm cho trình Trong báo cáo tơi mơ hai thuật tốn NaiveBayes SVM công cụ với tập liệu đào tạo mà tạo Tôi sữ dụng Use training set để kiểm thử cho tập liệu tôi, liệu cần phải thực tiền xử lý trước, nhiên dễ nên tơi khơng trình chi tiết mà chuyển qua phần training cho kết Page 28 thực nghiệm hai thuật toán trên, kết thực nghiệm cho thấy sau: Thuật tốn Độ xác NaiveBayes 69.7 % SVM 76.8 % Độ sai phạm 30.3 % 23.2 % Bảng 3.4 Bảng kết kiểm nghiệm theo Virus máy tính Nhìn chung thấy thuật tốn SVM ln tốt thuật tốn NaiveBayes khơng liệu mà lĩnh vực thư rác nêu Để hiểu tham khảo độ nhập nhằn hai thuật tốn mơ sau: Hình 3.5 Ma trận nhầm lẫn thuật tốn NaiveBayes Hình 3.6 Ma trận nhầm lẫn thuật tốn SVM Page 29 Nhìn chung thuật tốn đề có ưu điểm nhực điểm riêng, điều dễ thấy nhìn vào ma trận nhập nhằn hai thuật toán Lưu ý đâu liệu thu thập nên chưa đủ để xây dựng liệu tối ưu cho kỹ thuật, để làm điều bạn đọc thu thập thêm nguồn khác 3.6 Mô thuật tốn SVM quan điểm 3.6.1 Mơ tả sở liệu Có nhiều liệu khái thác quan điểm, luận án Ths Nguyễn Viết Hùng có sử dụng liệu [8], liệu Giáo sư Bing Liu [9] Tuy nhiên báo cáo tơi, tơi xin trình bày liệu gần gủi với thay liệu phức tạp Giáo sư Đó liệu TicTacToa, liệu thường sử dụng trò chơi, mà thơng thường người việt nam hay cịn gọi ca rô Bộ liệu thu thập từ [10] Bộ liệu gần gủi với phù hợp cho nghiên cứu khai phá liệu nói riêng khai thác quan điểm nói chung Thực tế liệu cho biết quan điểm người với lỗi khác ván cờ mà người sử dụng, quản điểm người đánh nước Bộ liệu thu thập gồm có mười thuộc tính có thuộc tính Class, thuộc tính cho biết ý tích cực tiêu cực, có nghĩa điều cho thấy khả nêu quan điểm chơi sai thể bàn cờ ca rô Tuy nhiên thuộc tích cịn lại thể giá trị cụ thể hình sau: Page 30 Hình 3.7 Các thuộc tính bàn cờ ca rơ Ngồi 10 thuộc tính kể trên, liệu trình bày gồm 958 trường hợp khác Mỗi trường hợp cho hiểu quy trình khác khau Các giá trị thuộc tính nhận ba giá trị x, o, b để thể chất 3.6.2 Kết thực nghiệm cho q trình Đối với tập dataset tơi nêu tiến hành mô tương tự, việc sữ dụng thuật toán SVM sử dụng thuật toán khác để so sánh với SVM Giá trị thể bảng phía Đầu tiên tơi dùng tập liệu cho Use training set thuật tốn NaiveBayes, BayesNet, SVM tơi thu kết sau: Thuật toán BayesNet NaiveBayes SVM Độ xác 69.833 % 69.833 % 98.3299 % Độ sai phạm 30.167 % 30.167 % 1.6701 % Bảng 3.5 Bảng kết kiểm nghiệm theo khai phá quan điểm Tiếp đến sử dụng Cross-validation với cho thuật tốn với 10 lần tơi thu kết sau: Page 31 BayesNet Thuật toán NaiveBayes SVM 10 10 10 Độ xác 69.94 % 69.42 % 69.73 % 69.62 % 98.33 % 98.33 % Độ sai phạm 30.06 % 30.58 % 30.27 % 30.38 % 1.67 % 1.67 % Bảng 3.5 Bảng kết kiểm nghiệm theo khai phá quan điểm thứ Sau sử dụng phép phân chia 66 – 44 cho thuật toán trên, kết mà tơi thu sau: Thuật tốn BayesNet NaiveBayes SVM Độ xác 71.1656 % 71.1656 % 99.0798 % Độ sai phạm 28.8344 % 28.8344 % 0.9202 % Bảng 3.6 Bảng kết kiểm nghiệm theo khai phá quan điểm thứ hai Ứng với thuật toán tơi thu ma trận nhầm lẫn tương ứng Các ma trận thể độ nhập nhằn thuật toán Cụ thể ma trận thể sau: Trong mô này, hai thuật toán BayesNet NaiveBayes cho kết nhau, điều hiển nhiên kết ma trận cho hai thuật tốn hồn tồn giống nhau, cụ thể hình Bảng 3.8 Ma trận nhầm lẫn thuật toán BayesNet NaiveBayes Đối với thuật toán SVM so sánh kết thực nghiệm khác hồn tồn với hai thuật tốn BayesNet NaiveBayes, kết mơ thể Page 32 ma trận nhầm lẫn khác biệt so với hai thuật tốn cịn lại Ma trận thể hình sau: Bảng 3.9 Ma trận nhầm lẫn thuật toán BayesNet NaiveBayes Page 33 TÀI LIỆU THAM KHẢO [1] https://machinelearningmastery.com/ [2] Phan Thị Thu Hồng, Đoàn Thị Thu Hà, Nguyễn Thị Thủy, Ứng dụng phân lớp ảnh chụp phương pháp SVM, Tạp chí khóa học phát triển 2013, tập 11 số 7:1045-1052 [3] ThS Nguyễn Viết Hùng, Luận văn “Khai thác quan điểm bình luận tiếng anh mạng xã hội sử dụng phương pháp xử lý ngôn ngữ tự nhiên” - 2016 [4] Hu, M and Liu, B - Mining Opinion Features in Customer Reviews In Proceedings of 19th National Conference on Artificial Intelligence (AAAI) pp.755761, 2004 [5] Thorsten Joachims Making large-scale SVM learning practical In Bernhard Scholkopf and Alexander Smola, editors, “Advances in Kernel Methods Support Vector Learning,” pp.44–56, 1999 [6].https://helda.helsinki.fi/bitstream/handle/10138/289742/Kajava_Kaisla_Pro_gra du_2018.pdf?sequence=2&isAllowed=y [7] https://archive.ics.uci.edu/ml/datasets/spambase [8] https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets [9] https://www.cs.uic.edu/~liub/ [10] https://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame Page 34

Ngày đăng: 13/07/2020, 16:00

Hình ảnh liên quan

Giả sử chúng ta cĩ sơ đồ như hình bên dưới hình 1.1. Câu hỏi đặt ra là làm thế nào chúng ta cĩ thể phân chia chúng thành 2 phần cĩ điểm giống nhau trên cùng  một mặt và phần cịn lại là các điểm khác - Suppor vector machine

i.

ả sử chúng ta cĩ sơ đồ như hình bên dưới hình 1.1. Câu hỏi đặt ra là làm thế nào chúng ta cĩ thể phân chia chúng thành 2 phần cĩ điểm giống nhau trên cùng một mặt và phần cịn lại là các điểm khác Xem tại trang 5 của tài liệu.
Như ta đã tìm hiểu ở trên việc sử dụng lát cắt để cắt ra làm 2 phần đối với hình trịn màu đen và hình vuơng màu xanh là cực kỳ đơn giản vì chúng ta chỉ sử dụng  một đường thằng hay một đoạn thẳng là chúng ta cĩ thể tách chúng làm 2 phần - Suppor vector machine

h.

ư ta đã tìm hiểu ở trên việc sử dụng lát cắt để cắt ra làm 2 phần đối với hình trịn màu đen và hình vuơng màu xanh là cực kỳ đơn giản vì chúng ta chỉ sử dụng một đường thằng hay một đoạn thẳng là chúng ta cĩ thể tách chúng làm 2 phần Xem tại trang 6 của tài liệu.
Hình 1.5. Mơ phỏng dịch điểm trên trục tọa độ - Suppor vector machine

Hình 1.5..

Mơ phỏng dịch điểm trên trục tọa độ Xem tại trang 7 của tài liệu.
Hình 1.6. Mơ tả sự lựa chọn tốt nhất - Suppor vector machine

Hình 1.6..

Mơ tả sự lựa chọn tốt nhất Xem tại trang 8 của tài liệu.
Các hình ảnh thể hiện giống như hình 1.6 với cách lựa chọn cách 1 và cách ở phần trình bày trên là ví dụ về hai tham số chính quy khác nhau - Suppor vector machine

c.

hình ảnh thể hiện giống như hình 1.6 với cách lựa chọn cách 1 và cách ở phần trình bày trên là ví dụ về hai tham số chính quy khác nhau Xem tại trang 10 của tài liệu.
Hình 1.8. Mơ phỏng giá trị của giới hạn tốt, xấu - Suppor vector machine

Hình 1.8..

Mơ phỏng giá trị của giới hạn tốt, xấu Xem tại trang 11 của tài liệu.
Hình 2.1 Mơ hình phân loại bằng SVM - Suppor vector machine

Hình 2.1.

Mơ hình phân loại bằng SVM Xem tại trang 14 của tài liệu.
Hình 2.2. Mối liên quan đến Virus Máy tính - Suppor vector machine

Hình 2.2..

Mối liên quan đến Virus Máy tính Xem tại trang 15 của tài liệu.
Bảng 3.1 Các thuộc tính phân loại thư rác - Suppor vector machine

Bảng 3.1.

Các thuộc tính phân loại thư rác Xem tại trang 27 của tài liệu.
Hình 3.2 Ma trận nhầm lẫn của thuật tốn SVM - Suppor vector machine

Hình 3.2.

Ma trận nhầm lẫn của thuật tốn SVM Xem tại trang 28 của tài liệu.
Hình 3.5 Ma trận nhầm lẫn của thuật tốn NaiveBayes - Suppor vector machine

Hình 3.5.

Ma trận nhầm lẫn của thuật tốn NaiveBayes Xem tại trang 30 của tài liệu.
Bảng 3.5 Bảng kết quả kiểm nghiệm theo khai phá quan điểm thứ nhất Sau cùng tơi sử dụng phép phân chia 66 – 44 cho các thuật tốn như trên, kết  quả mà tơi thu được như sau:  - Suppor vector machine

Bảng 3.5.

Bảng kết quả kiểm nghiệm theo khai phá quan điểm thứ nhất Sau cùng tơi sử dụng phép phân chia 66 – 44 cho các thuật tốn như trên, kết quả mà tơi thu được như sau: Xem tại trang 33 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan