Bài thuyết trình thuật toán máy hỗ trợ vector (support vector machine SVM)

Thông tin tài liệu

Thuật toán máy hỗ trợ vector (support vector machine-SVM) Người hướng dẫn:CN.Vũ Tiến Thành Sinhviên :Đinh thị Hương Lớp : k52CA Nội dung I.Phát biểu toán 1.Trình bày tóm tắt phân lớp liệu 2.Tại lại sử dụng thuật toán SVM để phân lớp liệu? II Thuật toán máy hỗ trợ vector(SVM) Định nghĩa Mục đích Mô hình giải thuật 4.Các câu hỏi 5.Giải 6.Transductive support vector machine(TSVM) III.Ứng dụng SVM I.Phát biểu toán: 1.Trình bày tóm tắt phân lớp liệu - Phân lớp liệu kỹ thuật khai phá liệu sử dụng rộng rãi nghiên cứu mở rộng - Mục đích: Để dự đoán nhãn phân lớp cho liệu mẫu - Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu - Đầu ra:Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp - Kỹ thuật phân lớp liệu tiến hành bao gồm bước: Bước 1: Xây dựng mô hình từ tập huấn luyện Bước 2: Sử dụng mô hình – kiểm tra tính đắn mô hình dùng để phân lớp liệu Bước Xây dựng mô hình - Mỗi bộ/mẫu liệu phân vào lóp xác định trước - Lớp bộ/mẫu liệu xác định thuộc tính gán nhãn lớp - Tập bộ/mẫu liệu huấn luyện-tập huấn luyện – dùng để xây dựng mô hình - Mô hình biểu diễn luật phân lớp,các định công thức toán học Bước 2: Sử dụng mô hình - Phân lớp cho đối tượng chưa phân lớp - Đánh giá độ xác mô hình + Lớp biết trước mẫu/bộ liệu đem kiểm tra so sánh với kết thu từ mô hình + Tỉ lệ xác phần trăm mẫu/bộ liệu phân lớp mô hình số lần kiểm tra - Các thuật toán phân lớp liệu phổ biến: + Thuật toán định + Thuật toán SVM + Thuật toán phân lớp Bayes + Thuật toán phân lớp K người láng giềng gần 2.Tại lại sử dụng thuật toán SVM phân lớp liệu? - SVM hiệu để giải toán liệu có số chiều lớn(ảnh liệu biểu diễn gene,protein, tế bào) - SVM giải vấn đề overfitting tốt (dữ liệu có nhiễu tách dời nhóm liệu huấn luyện ít) - Là phương pháp phân lớp nhanh - Có hiệu suất tổng hợp tốt hiệu suất tính toán cao 5.Trả lời: a.Có thể mở rộng mô hình SVM để xử lý trường hợp cho phép lỗi tồn tại,khi siêu phẳng tốt cho phép tồn số lỗi đào tạo liệu? - giả sử có số liệu âm vượt giới hạn,những điểm thể số lượng lỗi tồn mặt phẳng phân cách có lề cực đại - phương pháp lề mềm sử dụng để mở rộng toán SVM siêu phẳng cho phép số liệu nhiễu tồn - Phương pháp lề mềm (softmargin) sử dụng cách đưa thêm biến nới lỏng đo độ phân lớp sai cho liệu x: thỏamãn ràng buộc ξi tính khoảng cách từ lớp liệu bị lỗi đến hàm f(xn).do tổng giá trị biến tạm so sánh với giá trị hàm cực tiểu ban đầu Vd minh họa liệu bị nhiễu b.Có thể mở rộng mô hình SVM tình trường hợp liệu không phân chia tuyến tính? - SVM ban đầu thuật toán phân lớp tuyến tính,nhờ áp dụng hàm kernel, thuật toán tìm siêu phẳng không gian phi tuyến đặc trưng biến đổi uu ruu r - Mở rộng uu r xi yithông qua hàm ánh xạ uu r tích vô hướng không gian H lớn φcho ( xi )biến xi chí vô hạn chiều,theo đẳng thức giữ Trong đẳng thức,khi có tích vô hướng uu ruu r ta tính tích vô hướng chúng xi phép yi thông qua biến đổi vectors uu r uu r φ ( xi).φ ( yi ) gọi hàm kernel - Hàm kernel sử dụng để xác định nhiều quan hệ đầu vào không tuyến tính - Đối với hàm kernel tuyến tính ta xác định nhiều hàm bậc hai hàm mũ - Trong năm gần ,nhiều nghiên cứu sâu vào nghiên cứu kernel khác cho phân lớp SVM cho nhiều thống kê thử nghiệm khác c.Có thể thiết kế thuật giải cho việc tìm siêu phẳng phân cách có lề cực đại cho hàng ngàn hay hàng triệu thực thể không? - Một trở ngại ban đầu SVM hiệu việc tính toán - Tuy nhiên vấn đề giải thành công + Cách tiếp cận :chia vấn đề tối ưu hóa lớn thành vấn đề nhỏ cho cuối gồm vài biến lựa chọn cẩn thận để tối ưu hóa đạt hiệu cao.Quá trình lặp lặp lại tất vấn đề tối ưu hóa triển khai thành công +Một cách tiếp cận gần xem xét vấn đề nghiên cứu SVM tìm bao đóng nhỏ tập mẫu liệu Với mẫu liệu này,khi ánh xạ vào không gian n chiều,đại diện tập gốc sử dụng để xây dựng bao đóng xấp xỉ nhỏ tập mẫu liệu.Phương pháp đạt hiệu cao.ta sử dụng máy core-vector để phân lớp hàng triệu liệu vài giây 5.Transductive support vector machine (TSVM) - Là mở rộng support vector machine chuẩn với liệu chưa gán nhãn - Mục tiêu tìm gán nhãn liệu chưa gán nhãn, cho tồn biên tuyến tính có lề cực đại liệu gán nhãn ban đầu liệu chưa gán nhãn -Giả sử có L mẫu gán nhãn U mẫu chưa gán nhãn gọi tập U - Cực tiểu hóa theo biến ( mục tiêu: ) hàm đáp ứng đk : C C* tham số người dùng thiết lập,có ý nghĩa cân độ lớn lề với ví dụ bị phân lớp sai ví dụ chưa gán nhãn -Ban đầu dùng phân lớp học quy nạp gán nhãn cho ví dụ tập U sau nâng cấp nghiệm cách đổi lại nhãn cho ví dụ tập U L bị gán sai huấn luyện lại,nó lặp * * C không nhỏ thua tham số ngườiC +dùng −C* Ví dụ minh họa TSVM - liệu gán nhãn,siêu phẳng có phân cách lề cực đại đường chấm chấm, - với liệu chưa gán nhãn(các điểm đen)thì siêu phẳng có phân cách lề cực đại đường thẳng màu đen III.Ứng dụng SVM: Sử dụng phân loại nhận dạng - Trong việc nhận dạng chữ viết tay tiếng Việt +Dựa sở thành phần liên thông ảnh,phân tập ký tự tiếng Việt thành nhóm (box,dạng chữ rời,dạng chữ liên tục) tách ký tự có dấu thành phần rời +Sau xây dựng máy phân lớp SVM để nhận dạng cho phần chữ phần dấu + Kết thực nghiệm cho thấy mô hình nhận dạng có độ xác tương đối cao - Trong nhận dạng mặt người : +Giai đoạn huấn luyện: ảnh mẫu vector hóa x= { X ,K , X 900 } dùng phương pháp PCA để rút trích đặc trưng thành vector y ={Y1 ,K , Y100 } đưa vào huấn luyện SVM +Giai đoạn nhận dạng:Mẫu cần nhận dạng vector hóa rút trích sau đưa vào nhận dạng SVM để xác định lớp cho mẫu - Phân tích vi ảnh protein subcelluar location + Ảnh đầu vào tiền xử lý thông qua thuật giải khử nhiễu, điều chỉnh tự động cường độ sáng + Thuật giải MRF [9] áp lên ảnhnhằm thực segmentation để phân biệt rõ phần nhân phần khác ảnh +Biến đổi mô tả phần áp ảnh đầu vào với tối đa tỉ lệ phân rã khác + Bước phân lớp thực với thuật giải SVM đa tỉ lệ cho phù hợp với tính chất đa phân giải hệ số sau biến đổi Tài liệu tham khảo: - tài liệu tham khảo chính: [3] Xindong Wu, Vipin Kumar, J.Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg, Top 10 algorithms in data mining, Knowl Inf Syst (2008) - [CV95] Corinna Cortes, Vladimir Vapnik (1995) SupportVector Networks, Machine Learning, 20(3): 273-297 - http://en.wikipedia.org/wiki/Support_vector_machine - Nguyễn Thị Hương Thảo, Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Hà Quang Thụy (2007) Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt, Baos cao FAIR 07, Nha Trang - http://en.wikipedia.org/wiki/Regression_analysis - http://en.wikipedia.org/wiki/Supervised_learning - http://www.slideshare.net/khuongquynh/bai-4phan-lop-presentation - http://en.wikipedia.org/wiki/Statistical_classification Xin chân thành cảm ơn! ... dung I.Phát biểu toán 1 .Trình bày tóm tắt phân lớp liệu 2.Tại lại sử dụng thuật toán SVM để phân lớp liệu? II Thuật toán máy hỗ trợ vector( SVM) Định nghĩa Mục đích Mô hình giải thuật 4.Các câu... tra - Các thuật toán phân lớp liệu phổ biến: + Thuật toán định + Thuật toán SVM + Thuật toán phân lớp Bayes + Thuật toán phân lớp K người láng giềng gần 2.Tại lại sử dụng thuật toán SVM phân... tốt hiệu suất tính toán cao II .Thuật toán SVM 1.Định nghĩa: - Là phương pháp dựa tảng lý thuyết thống kê nên có tảng toán học chặt chẽ để đảm bảo kết tìm tối ưu - Là thuật toán học giám sát (supervied

Ngày đăng: 04/03/2017, 15:38

Xem thêm: Bài thuyết trình thuật toán máy hỗ trợ vector (support vector machine SVM), Bài thuyết trình thuật toán máy hỗ trợ vector (support vector machine SVM), Tại sao lại sử dụng thuật toán SVM trong phân lớp dữ liệu?, III.Ứng dụng của SVM: Sử dụng trong phân loại và nhận dạng

Bài thuyết trình thuật toán máy hỗ trợ vector (support vector machine SVM)

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Slide 1

Nội dung chính

I.Phát biểu bài toán: 1.Trình bày tóm tắt về phân lớp dữ liệu

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

2.Tại sao lại sử dụng thuật toán SVM trong phân lớp dữ liệu?

Slide 11

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

Slide 17

Slide 18

Slide 19

Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan