Nghiên cứu async smote một giải pháp cho phân lớp dữ liệu mất cân bằng

50 353 0
Nghiên cứu async smote   một giải pháp cho phân lớp dữ liệu mất cân bằng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI  ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI  ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Đặng Xuân Thọ HÀ NỘI, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án kết nghiên cứu cá nhân Các số liệu tài liệu trích dẫn luận án trung thực Kết nghiên cứu không trùng với công trình công bố trước Tôi chịu trách nhiệm với lời cam đoan Hà Nội, ngày tháng năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh LỜI CẢM ƠN Để hoàn thành luận văn này, em xin bày tỏ lòng kính trọng biết ơn sâu sắc đến TS Đặng Xuân Thọ, tận tình hướng dẫn, động viên giúp đỡ em suốt thời gian thực đề tài Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội tạo điều kiện thuận lợi cho em học tập nghiên cứu thời gian qua Cuối cùng, em xin gửi lòng biết ơn đến người thân gia đình bạn bè dành cho em khích lệ, động viên giúp đỡ em suốt trình học tập Mặc có nhiều cố gắng để thực luận văn, trình thực tránh khỏi thiếu sót hạn chế Rất mong nhận thông cảm ý kiến đóng góp thầy cô giáo bạn Em xin chân thành cảm ơn! Hà Nội, ngày… tháng … năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT PHẦN – MỞ ĐẦU .5 PHẦN – NỘI DUNG Chương 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU .9 1.1 Tổng quan khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Ứng dụng khai phá liệu 11 1.2 Phân lớp liệu 12 1.2.1 Phân lớp liệu gì? 12 1.2.2 Một số kỹ thuật phân lớp liệu chuẩn .13 1.3 Phân cụm liệu .18 1.3.1 Phân cụm liệu gì? 18 1.3.2 Một số kỹ thuật phân cụm liệu chuẩn 19 Chương 2: THUẬT TOÁN DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30 2.3.1 Điều chỉnh liệu thuật toán DE (Differential Evolution oversampling) 30 2.3.2 Kỹ thuật làm liệu sử dụng phân cụm 31 2.3.3 Thuật toán 33 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM 36 3.1 Các tiêu chí đánh giá 36 3.1.1 Ma trận nhầm lẫn 36 3.1.2 F-Measure 37 3.1.3 G-mean .37 3.1.4 Đường cong ROC độ đo AUC .37 3.2 Dữ liệu thiết lập thực nghiệm .38 3.2.1 Dữ liệu 38 3.2.2 Thiết lập thực nghiệm .38 3.3 Kết thực nghiệm đánh giá 39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC HÌNH VẼ Hình 1.1 – Các bước trình KDD .10 Hình 1.2 – Vị trí khai phá liệu tiến trình định 10 Hình 1.3 – Quá trình xây dựng mô hình phân lớp 12 Hình 1.4 – Quá trình phân lớp liệu 13 Hình 1.5 – Cây định cho tiến trình lựa chọn phương tiện vận chuyển 15 Hình 1.6 – Phân lớp liệu với K-NN .16 Hình 1.7 – Phân lớp liệu SVM 17 Hình 1.8 – Phân cụm liệu .18 Hình 1.9 – Quá trình phân cụm liệu .19 Hình 1.10 – Hai phương pháp phân cụm phân cấp 21 Hình 1.11 – Khả tới trực mật độ (directly density-reachable) 22 Hình 1.12 – Khả tới theo mật độ (density-reachable) .22 Hình 1.13 – Kết nối dựa mật độ 22 Hình 2.1 – Biểu đồ tỷ lệ lớp thiểu số lớp đa số số liệu 25 Hình 2.2 – Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số .26 Hình 2.3 – Sinh thêm phần tử nhân tạo thuật toán SMOTE 27 Hình 2.4 – Loại bỏ phần tử lớp đa số 29 Hình 2.5 – Minh họa phân cụm tập liệu cân 32 Hình - Quá trình thực 10-Fold Cross Validation .39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 – Ma trận nhầm lẫn 36 Bảng - Một số liệu sử dụng cho thực nghiệm 38 Bảng 3 - Phân lớp liệu sử dụng thuật toán DE-SVM 40 Bảng 4– Phân lớp liệu sử dụng thuật toán DEC-SVM 40 Bảng 5– Bảng so sánh hiệu phân lớp .40 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải CSDL Cơ sở liệu KDD Knowledge Discovery in Databases SVM Support Vector Machine K – NN K – Nearest Neighbor SMOTE DBSCAN DEC – SVM DE - SVM Synthentic Minority Over-sampling Technique Density-Based Spatial Clustering of Applications with Noise Differential Evolution Clustering hybrid resampling SVM algorithm Differential Evolution over-sampling SVM algorithm PHẦN – MỞ ĐẦU Lý chọn đề tài Hiện nay, công nghệ thông tin lĩnh vực có tầm quan trọng sức ảnh hưởng lớn tới nhiều mặt đời sống Trong năm gần đây, công nghệ thông tin gặt hái nhiều thành công mang tính đột phá hỗ trợ hữu hiệu cho lĩnh vực khác Cùng với phát triển xã hội, vấn đề khai thác xử lý thông tin ngày trọng đóng vai trò định thành công số lĩnh vực Trong lượng thông tin toàn cầu ngày gia tăng ngày phong phú, kỹ thuật Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệu phân lớp liệu, phân lớp liệu liệu cân toán cần trọng Phân lớp liệu kỹ thuật dựa vào mô hình phân lớp với nhãn lớp cho mô hình đó, dự đoán nhãn lớp đối tượng liệu Mô hình phân lớp xây dựng dựa tập liệu huấn luyện, với đối tượng liệu mới, ta đặt vào lớp cụ thể cách so sánh thuộc tính với định nghĩa xây dựng cho lớp tập liệu huấn luyện Tuy nhiên, liệu thu thực tế ngày xuất nhiều tập liệu cân bằng, nghĩa tập liệu tồn lớp có nhiều phần tử lớp khác Lớp có nhiều phần tử ta gọi lớp đa số, lớpphần tử ta gọi lớp thiểu số Sự chênh lệch số lượng lớp đa số lớp thiểu số làm cho việc phân lớp mẫu thuộc lớp thiểu số bị giảm hiệu Tỷ lệ cân tập liệu cao việc phát mẫu lớp thiểu số khó khăn Ví dụ điển hình cho cân liệu kể đến toán chẩn đoán bệnh y học, nghĩa xác định người có bệnh hay không [17] Hay toán phát gian lận, cụ thể gian lận thẻ tín dụng hay gian lận cước di động [17]… Thông thường toán này, lớp cần quan tâm lại lớp thiểu số (lớp người mắc bệnh, lớp người có khả gian lận thẻ tín dụng, …) Việc xác định nhãn cho lớp thiểu số điều cần thiết, nhãn lớp nhỏ chẩn đoán sai hậu đem đến không nhỏ Hiện nay, có nhiều giải pháp hữu hiệu cho toán phân lớp tập liệu cân Để giải toán này, có hai cách tiếp cận chủ yếu: tiếp cận dựa mức độ liệu tiếp cận dựa mức độ thuật toán Tiếp cận dựa mức liệu nghĩa điều chỉnh phân bố liệu lớp cho hạn chế không bị cân để đưa vào áp dụng cho thuật toán phân lớp chuẩn [17] Có nhiều cách điều chỉnh liệu như: sinh thêm phần tử cho lớp thiểu số, loại bỏ phần tử lớp đa số, kết hợp hai phương pháp [17] Tiếp cận dựa mức độ thuật toán nghĩa điều chỉnh thuật toán phân lớp chuẩn cho áp dụng với liệu cân đạt hiệu cao Trong hai cách tiếp cận nêu trên, quan tâm tới giải pháp sinh thêm phần tử cho lớp thiểu số Một thuật toán điều chỉnh liệu dựa giải pháp phải kể đến thuật toán SMOTE (2002) [14].Thuật toán SMOTE điều chỉnh liệu cách với phần tử thuộc lớp thiểu số thực sinh thêm phần tử nhân tạo phần với láng giềng Một số thuật toán khác cải tiến dựa thuật toán SMOTE đạt hiệu với liệu cân như: thuật toán Borderline-SMOTE (2005) [9], thuật toán Safe-Level-SMOTE (2009) [3] Tuy nhiên, với phong phú ngày gia tăng thông tin đặc thù tập liệu hầu hết không giống nhau, giải pháp hữu hiệu cho tập liệu Trong luận văn này, nghiên cứu thuật toán điều chỉnh liệu cho toán phân lớp liệu cân – thuật toán DEC (a novel Differential Evolution Clustering hybrid resampling) công bố vào năm 2010 nhóm tác giả Leichen Chen, Zhihua Cai, Lu Chen Qiong Gu [1] Thuật toán kết hợp phương pháp sinh thêm phần tử cho lớp thiểu số sử dụng kỹ thuật phân cụm K-means để loại bỏ bớt phần tử thừa, nhiễu liệu Ban đầu, với mẫu thuộc lớp thiểu số, thuật toán tạo mẫu đột biến từ hai số láng giềng gần nhất, sau sử dụng thuật toán di truyền để sinh C E A B F D Positiv e Negative Hình 2.5 – Minh họa phân cụm tập liệu cân Nếu tất mẫu cụm có nhãn lớp (tức là positive negative), ta tiến hành loại bỏ mẫu thừa nhiễu Ví vụ với cụm F có chứa tất mẫu negative, ta thực theo bước sau: ‒ Xác định ngưỡng tương đồng (0,1] ‒ Tính ̅ theo công thức (3) ∑ ̅ ‒ Tìm mẫu trung tâm ̅ ‒ Tính độ tương đồng ngưỡng tương đồng (3) gần ̅ mẫu ̅ theo (4) Nếu lớn bị loại khỏi ∑ √ ∑ (4) ∑ Ngưỡng tương đồng nhỏ nhiều mẫu bị loại bỏ Trong đó: , số lượng mẫu cụm thứ , độ tương đồng 32 thuộc tính thứ k mẫu 2.3.3 Thuật toán Sau sử dụng thuật toán DEC để điều chỉnh liệu, ta sử dụng thuật toán SVM để phân lớp cho cho tập liệu huấn luyện tạo nên mô hình phân lớp Giả mã thuật toán DEC-SVM sau [1]: DEC-SVM(N, m, K, s, T) Input: Số mẫu lớp thiểu số N, số thuộc tính m, số cụm K, ngưỡng tương đồng s, số lượng DE T% Output: Mô hình huấn luyện Void DEC-SVM() { /******** Sinh thêm mẫu DE ********/ st = 0; G = int(N*T%); //số mẫu lớp thiểu số tạo For (t = 0; t [22] Nguyễn Văn Chức Thuật toán K-Láng giềng gần (K-Nearest Neighbors) [23] Đỗ Thanh Nghị Phương pháp học Bayes Bayesian classification [24] Đỗ Phúc Bài giảng khai phá liệu < http://123doc.org/document/1590244giao-trinh-khai-pha-du-lieu.htm?page=4 > [25] Hà Quang Thụy Bài giảng nhập môn Khai phá liệu [26] Nguyễn Văn Tuấn Diễn giải nghiên cứu tiên lượng: ROC (Receiver Operating Characteristic) [27] Đường cong ROC [28] Sự cần thiết quy trình nghiên cứu quy trình khám phá tri thức – Khai phá liệu 46 ... DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30... hiệu phân lớp Phạm vi nghiên cứu - Lý thuyết tổng hợp khai phá liệu - Các kỹ thuật phân lớp /phân cụm liệu - Các phương pháp phân lớp liệu cân - Các tiêu chí đánh giá hiệu phân lớp - Nghiên cứu ngôn... đích nghiên cứu luận văn : - Giới thiệu toán phân lớp liệu cân số phương pháp giải toán - Trình bày thuật toán DEC điều chỉnh liệu cho toán phân lớp liệu cân Khách thể đối tƣợng nghiên cứu - Một

Ngày đăng: 13/06/2017, 14:44

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan