Nghiên cứu phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Thông tin tài liệu

Phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khát khao tri thức của con người. Các nhà nghiên cứu bị thu hút bởi nhiều hướng tiếp cận khác nhau trongphân lớp dữ liệu như: Học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistisc)… Kết quả là những ứng dụng vô cùng hữu ích trong thực tế ở các lĩnh vực thương mại, ngân hàng, maketing, bảo hiểm, y tế, giáo dục… ra đời.

MỤC LỤC PHẦN 1: MỞ ĐẦU PHẦN 2: NỘI DUNG CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN LỚP DỮ LIỆU 1.1 Phân lớp liệu 1.1.1 Phân lớp liệu 1.1.2 Quá trình phân lớp liệu 1.1.3 Ứng dụng phân lớp liệu 11 1.2 Phân lớp liệu cân 13 1.2.1 Dữ liệu cân 13 1.2.2 Đặc trưng liệu cân 14 1.3 Một số toán phân lớp liệu chuẩn 16 1.3.1 Cây định (Decision tree) 16 1.3.2 Mạng Bayes (Naïve Bayes) 18 1.3.3 K-láng giềng gần (K-nearest neighbor) 19 1.3.4 Máy vectơ hỗ trợ (Support Vector Machine) 20 CHƯƠNG 2: PHƯƠNG PHÁP MỚI DỰA TRÊN ĐƯỜNG BIÊN VÀ VÙNG AN TOÀN NÂNG CAO HIỆU QUẢ PHÂN LỚPDỮ LIỆU MẤT CÂNG BẰNG 24 2.1 Các phương pháp tiếp cận toán phân lớp liệu cân 24 2.1.1 Phương pháp tiếp cận mức độ liệu 24 2.1.2 Phương pháp tiếp cận mức độ thuật toán 26 2.1.3 Học dựa chi phí (Cost-sensitive learning) 27 2.2 Phương pháp loại bỏ ngẫu nhiên phần tử an toàn lớp đa số - Random Safe Undersampling (RSU) 28 2.2.1 Ý tưởng 28 2.2.2 Thuật toán Random Safe Undersampling 30 2.3 Phương pháp sinh thêm ngẫu nhiên phần tử biên lớp thiểu số Random Border Oversampling (RBO) 33 2.3.1 Ý tưởng 33 2.3.2 Thuật toán Random Border Oversampling 34 2.4 Phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu cân – Random Safe Undersampling & Random Border Oversampling (RSU_RBO) 37 CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM 39 3.1 Các tiêu chí đánh giá 40 3.2 Dữ liệu 42 3.3 Kết thực nghiệm 43 PHẦN 3: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 51 DANH MỤC CÁC CHỮ VIẾT TẮT KNN K-nearest neighbor RO Random Oversampling RU Random Undersampling RBO Random Border Oversampling RSO Random Safe Oversampling RSU Random Safe Undersampling RSU_RBO Random Safe Undersampling - Random Safe Oversampling SMV Support Vector Machine DANH MỤC BẢNG Bảng Dữ liệu huấn luyện Bảng Dữ liệu cần phân lớp 10 Bảng Ví dụ phân lớp định 17 Bảng Ma trận nhầm lẫn 40 Bảng Dữ liệu chuẩn từ UCI 43 Bảng Thống kê số phần tử 48 DANH MỤC HÌNH ẢNH Hình Quá trình huấn luyện Hình Quá trình phân lớp liệu 11 Hình Phân lớp liệu định 17 Hình Phân lớp liệu phương pháp KNN 20 Hình Ví dụ phân lớp liệu SMV 21 Hình Đường biên SMV 22 Hình Minh họa kỹ thuật phân lớp SMV 22 Hình Xác định phần tử an toàn lớp đa số 32 Hình Xác định phần tử biên lớp thiểu số 36 Hình 10 Q trình thực thuật tốn RBO_RSU 39 Hình 11 Biểu đồ so sánh G-mean liệu Yeast 45 Hình 12 Biểu đồ so sánh G-mean liệu Glass 45 Hình 13 Biểu đồ so sánh G-mean liệu Breast-p 46 Hình 14 Biểu đồ so sánh G-mean liệu Pima 47 PHẦN 1: MỞ ĐẦU Phân lớp liệu đã, phát triển mạnh mẽ trước khát khao tri thức người Các nhà nghiên cứu bị thu hút nhiều hướng tiếp cận khác trongphân lớp liệu như: Học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistisc)… Kết ứng dụng vơ hữu ích thực tế lĩnh vực thương mại, ngân hàng, maketing, bảo hiểm, y tế, giáo dục… đời Trong mô hình phân lớp, thuật tốn nhân tố chủ đạo Do cần xây dựng thuật tốn có độ xác cao, thực thi nhanh, kèm với khả mở rộng để thao tác với tập liệu ngày lớn Đã có nhiều thuật tốn phân lớp cơng bố như: Cây định (decision tree), Nạve Bayes, k-hàng xóm gần (k-nearest neighbor), máy véc tơ hỗ trợ (Support Vector Machine) [20]… Đây thuật toán chuẩn đạt hiệu tốt trường hợp phân lớp có liệu không cân Tuy nhiên, hiệu thuật tốn loại liệu có chênh lệch lớn số lượng lớp lại không đạt mong muốn Trong trường hợp liệu cân bằng, phân lớp chuẩn có khuynh hướng bị áp đảo lớp đa số bỏ qua lớp thiểu số Tầm quan trọng khiến cho nhiều nhà nghiên cứu nhận việc cân nguyên nhân gây không tối ưu việc phân lớp Và hầu hết thuật toán xử lý tập liệu bị cân cao Chính vậy, u cầu đặt cần tăng tính hiệu xác thuật toán phân lớp liệu cân Có nhiều phương pháp đề xuất để giải vấn đề cân lớp nhằm tăng hiệu việc phân lớp liệu [21] Tuy nhiên, phương pháp phổ biến đơn giản để xử lý vấn đề tiền xử lý liệu cách sinh ngẫu nhiên phần tử lớp thiểu số loại bỏ ngẫu nhiên phần tử lớp đa số, tạo tương đồng số lượng phần tử, làm giảm bớt tính cân liệu Vì vậy, lựa chọn đề tài “Nghiên cứu phương pháp dựa đường biên vùng an toàn nâng cao hiệu phân lớp liệu cân bằng” làm hướng nghiên cứu chính.Luận văn giới thiệu liệu cân bằng, phân lớp liệu cân bằng, giải thuật chuẩn Random Oversampling Random Undersampling Từ cải tiến đề xuất phương pháp mới dựa khái niệm đường biên vùng an toàn để nâng cao hiệu phân lớp liệu cân bằng: Random Safe Undersamping - Random Border Oversampling Luận văn gồm chương: Chương 1: Trình bày tổng quan phân lớp liệu, liệu cân thuật toán phân lớp chuẩn Chương 2: Trình bày hướng tiếp cận tốn phân lớp liệu cân bằng, phương pháp để sinh thêm phần tử lớp thiểu số loại bỏ phần tử lớp đa số cách ngẫu nhiên Đồng thời đề xuất phương pháp vừa sinh thêm phần tử biên lớp thiểu số vừa loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên làm giảm cân liệu, tăng hiệu phân lớp Chương 3: Trình bày độ đo đánh giá phân lớp liệu cân bằng, phương pháp tiến hành thực nghiệm, liệu thực nghiệm kết thực nghiệm Trên sở so sánh, đánh giá hiệu thuật toán PHẦN 2: NỘI DUNG CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN LỚP DỮ LIỆU 1.1 Phân lớp liệu 1.1.1 Phân lớp liệu Phân lớp liệu (classification) hướng nghiên cứu khai phá liệu Thực tế đặt nhu cầu từ sở liệu với nhiều thơng tin ẩn người trích rút định nghiệpmột cách xác nhanh chóng Phân lớp q trình phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai[8] Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước.Ví dụ mơ hình phân lớp dự báo thời tiết cho biết thời tiết ngày mai mưa, hay nắng dựa vào thơng số độ ẩm, sức gió, nhiệt độ,… ngày hơm ngày trước Hay nhờ luật xu hướng mua hàng khách hàng siêu thị, nhân viên kinh doanh sách đắn lượng mặt hàng chủng loại bày bán… Đầu vào toán phân lớp tập mẫu phân loại trước, đầu vào mô tả số thuộc tính Các thuộc tính dùng để mơ tả mẫu gồm loại: Thuộc tính rời rạc thuộc tính liên tục Trong số thuộc tính rời rạc, thuộc tính đặc biệt phân lớp (class), mà giá trị gọi nhãn lớp.Thuộc tính liên tục nhận giá trị có thứ tự, ngược lại, thuộc tính rời rạc nhận giá trị khơng có thứ tự.Ngồi ra, thuộc tính nhận giá trị khơng xác định.Nhiệm vụ trình phân lớp liệu gán nhãn cho mẫu liệu.Một mơ hình mơ tả liệu dùng để xác định nhãn lớp cho mẫu không nằm tập mẫu ban đầu 1.1.2 Quá trình phân lớp liệu Quá trình phân lớp liệu gồm hai giai đoạn [22]:  Giai đoạn huấn luyện(learning) Giai đoạn huấn luyện nhằm xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước Đầu vào q trình tập liệu có cấu trúc mơ tả thuộc tính tạo từ tập giá trị thuộc tính Mỗi giá trị gọi chung phần tử liệu (data tuple), mẫu (sample), ví dụ (example), đối tượng (object), ghi (record) hay trường hợp (case)…Đầu bước thường quy tắc phân lớp dạng luật dạng if - then, định, công thức logic, hay mạng nơron Bảng ví dụ liệu huấn luyện, liệu có thuộc tính: Tên, Giới tính, Tuổi, Thu nhập, Mua máy tính Trong đó, Mua máy tính thuộc tính lớp Tên Giới tính Tuổi Thu nhập Hùng Nam 19 1.200.000 Khơng Kiên Nam 33 2.500.000 Có Hà Nữ 50 3.200.000 Không Hà Nam 40 1.600.000 Không Tuấn Nam 30 4.200.000 Có Hoa Nữ 23 1.750.000 Khơng Huệ Nữ 35 5.000.000 Khơng Mua máy tính Bảng Dữ liệu huấn luyện Quá trình huấn luyện thực thuật toán phân lớp, thuật toán thực học liệu huấn luyện để từ trích rút thơng tin xác định mơ hình mơ tả liệu.Mơ hình quy tắc, luật hay cơng thức tốn học mơ tả lớp.Thuật tốn phân lớp cốt lõi q trình học, thuật tốn phân lớp tốt hiệu gán nhãn đạt độ xác cao Thuật tốn phân lớp Dữ liệu huấn luyện Tên Giới tính Tuổi Hùng Kiên Hà Hà Tuấn Hoa Huệ Nam Nam Nữ Nam Nam Nữ Nữ 19 33 50 40 30 23 35 Thu nhập 1.200.000 2.500.000 3.200.000 1.600.000 4.200.000 1.750.000 5.000.000 Mơ hình phân loại Mua máy tính Khơng Có Khơng Khơng Có Khơng Khơng IF gioitinh = “Nam” AND thunhap > 2.000.000 THEN return = “YES” Hình Quá trình huấn luyện Các bước xây dựng mơ hình phân lớp: - Mỗi bộ/ mẫu liệu phân vào lớp xác định trước - Lớp bộ/ mẫu liệu xác định thuộc tính gán nhãn lớp - Tập bộ/ mẫu liệu huấn luyện - tập huấn luyện - dùng để xây dựng mơ hình - Mơ hình biểu diễn luật phân lớp, định cơng thức tốn học Ví dụ hình 1, mơ hình phân lớp khách hàng có mua máy tính hay khơng phải thoả mãn điều kiện: Nếu khách hàng có giới tính Nam thunhập lớn 2.000.000đồng người CĨ mua máy tính Vậy dựa vào mơ hình phân lớp khách hàng, nhân viên kinh doanh biết khách hàng có mua máy tính hay khơng  Giai đoạn phân lớp (classification) Giai đoạn phân lớp sử dụng mô hình xây dựng giai đoạn huấn luyện để phân lớp liệu Tên Giới tính Tuổi Thu nhập Bách Nam 27 3.800.000 ??? Hương Nữ 25 2.900.000 ??? Mua máy tính Bảng Dữ liệu cần phân lớp Trong giai đoạn này, liệu kiểm tra độc lập với liệu huấn luyện trước sử dụng để đánh giá.Việc sử dụng mơ hình phục vụ cho việc phân lớp liệu tương lai phân lớp cho đối tượng chưa biết đến Trước sử dụng mơ hình phải đánh giá tính xác mơ hình Ta thực phân lớp mẫu liệu liệu kiểm tra, từ xác định xem có phần tử liệu phân lớp phân tử liệu bị phân lớp sai Nếu độ xác mơ hình chấp nhận mơ hình sử dụng để phân lớp cho liệu tương lai liệu chưa biết nhãn Hình mơ tả q trình phân lớp liệu dựa vào mơ hình xây dựng giai đoạn huấn luyện Như vậy, liệu khách hàng có tên Bách, giới tính Nam có mức thu nhập 3.800.000 đồng thoả mãn điều kiện nên gán nhãn YES (có mua máy tính) Mơ hình 10 Negative Negative Classification Algorithm Negative Synthetic Synthetic Positive Positive Model Positive Data training New Data training Hình 10 Q trình thực thuật tốn RBO_RSU Nhìn vào vẽ ta thấy, phần tử tập liệu huấn luyện kiểm tra nhãn lớp Nếu phần tử thuộc lớp đa số, tức nhãn lớp phần tử “Negative” thuật tốn RSU thực hiện, phần tử an toàn phát loại bỏ ngẫu nhiên Lúc này, số lượng phần tử lớp đa số giảm đáng kể Ngược lại, phần tử xét thuộc lớp thiểu số, nhãn phần tử “Positive” thực thuật toán RBO, tức phần tử thiểu số biên nhân cách ngẫu nhiên Sau đó, thuật tốn mơ hình phân loại thực tập liệu huấn luyện vừa tạo CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM 39 3.1 Các tiêu chí đánh giá Khơng thể khẳng định phương pháp phân hoàn toàn xác, phương pháp có độ sai lệch dù nhiều hay Vì vậy, việc đưa độ đo để đánh giá hiệu thuật tốn phân lớp giúp xác định thuật toán hiệu hay chưa hiệu Từ áp dụng thuật tốn vào việc phân lớp Phân lớp đánh giá tương đối ma trận nhầm lẫn sau [21]: Positive thực tế Negative thực tế Dự đoán Positive TP FN Dự đoán Negative FP TN Bảng Ma trận nhầm lẫn Trong bảng 3, dòng bảng nhãn lớp dự đoán đối tượng, cột bàng nhãn lớp thực tế đối tượng.Tiêu biểu, nhãn lớp phân lớp thiểu số gọi postive, nhãn lớp phân lớp đa số gọi negative.TP số phần tử có nhãn lớp thực tế Positive mơ hình phân lớp dự đoán Positive FP số phần tử có nhãn lớp thực tế Negative mơ hình phân lớp dự đốn Positive.FN số phần tử có nhãn lớp thực tế Positive mơ hình phân lớp dự đốn Negative.TN số phần tử có nhãn lớp thực tế negative mơ hình phân lớp dự đốn Negative Một số độ đo định nghĩa dựa ma trận nhầm lẫn[21]: - Giá trị tiên đoán Positive: 𝑃𝑃 𝑣𝑎𝑙𝑢𝑒 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = - Giá trị tiên đoán Negative: 40 𝑇𝑃 (𝑇𝑃 + 𝐹𝑃) 𝑁𝑃 𝑣𝑎𝑙𝑢𝑒 = 𝑇𝑁 (𝑇𝑁 + 𝐹𝑁) - Giá trị Accuracy: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (TP + TN) (TP + FP + TN + FN) - Tỉ lệ phần tử Positive phân loại đúng: 𝑇𝑃𝑟𝑎𝑡𝑒 = 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑁) - Tỉ lệ phần tử Negative phân loại đúng: 𝑇𝑁𝑟𝑎𝑡𝑒 = 𝑇𝑁 (𝑇𝑁 + 𝐹𝑃) - Tỉ lệ phần tử Positive bị phân loại sai: 𝐹𝑃𝑟𝑎𝑡𝑒 = 𝐹𝑃 𝑇𝑁 + 𝐹𝑃 - Tỉ lệ phần tử Negative bị phân loại sai: 𝐹𝑁𝑟𝑎𝑡𝑒 = 𝐹𝑁 𝑇𝑃 + 𝐹𝑁 Trước đây, phân lớp liệu mà khơng có cân lớp, người ta thường vào độ xác (accuracy) dự đoán liệu kiểm tra Nhưng xuất trường hợp liệu cân bằng, giả sử tỉ lệ lớp đa số chiếm (khoảng 1%) tổng số liệu việc nhận dạng phần tử liệu thiểu số lại đóng vai trò quan trọng Với thuật tốn phân lớp tốt nhận dạng 99% liệu lớp đa số nhận dạng khoảng 0-10% liệu lớp thiểu số, nghĩa độ xác mơ hình phân lớp cao lại nhận dạng phần tử lớp thiểu số Do đó, độ xác khơng thích hợp để đánh giá hiệu mơ hình phân lớp mà liệu có cân Vì vậy, số độ đo đề xuất dùng để đánh giá cho trường hợp phân lớp liệu cân như: F-measure, G-mean 41 F-measure (hay F-value) độ đo dùng chủ yếu đánh giá hiệu phân lớp liệu cân F-measure xác định công thức sau[6]: (1 + 𝛽 ) ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 𝛽 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 F-measure biểu diễn hài hòa hai giá trị Recall Precision.Nếu hai giá trị cao F-measure cao.Giá trị  biểu diễn tầm quan trọng tương đối Precision Recall Nếu chọn =1 nghĩa hai giá trị xem Khi độ đo F-measure gọi F-1: 𝐹−1= ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 Khi biểu diễn hai lớp quan tâm, giá trị positive dự đoán (TPrate) giá trị Negative dự đoán (TNrate) dự đoán cao đồng thời.G-mean xác định dựa vào hai giá trị TPrate TNrate: 𝐺 − 𝑚𝑒𝑎𝑛 = √𝑇𝑃𝑟𝑎𝑡𝑒 ∗ 𝑇𝑁𝑟𝑎𝑡𝑒 G-mean độ đo biểu diễn hiệu phân lớp hai lớp thiểu số lớp đa số Nếu tỉ lệ phân lớp phần tử hai lớp cao giá trị G-mean cao Như vậy, thuật tốn phân lớp khơng làm cho hiệu nhận dạng lớp thiểu số cao giá trị G-mean khơng cao nghĩa mơ hình xây dựng dùng để nhận dạng phần tử Và phần thực nghiệm, sử dụng độ đo G-mean để đánh giá hiệu phân lớp thuật tốn 3.2 Dữ liệu 42 Chúng tơi tiến hành thực nghiệm liệu cân Yeast, Glass, Breat-p, Pima từ kho liệu chuẩn quốc tế UCI [2] Bảng thông tin số liệu luận văn sử dụng trình thực nghiệm: Têndữ liệu Sốphần tử Sốthuộc tính Tỉ lệ cân Yeast 1484 1:29 Glass 213 1:6 Breast-p 197 32 1:3 Pima 768 1:2 Bảng Dữ liệu chuẩn từ UCI Các liệu bảng liệu có cân lớp Dữ liệu gán nhãn hai lớp, lớp đa số gán nhãn Negative thiểu số gán nhãn Positive Trong đó: Bộ liệu Pima có tỉ lệ cân thấp 1:2; Bộ liệu Breast-p, liệu Glass có tỉ lệ cân 1:3, 1:6; Và liệu Yeast có tỉ lệ cân lớn 1:29 3.3 Kết thực nghiệm Để đánh giá hiệu thuật tốn mới, tơi tiến hành cài đặt chạy chương trình ngơn ngữ lập trình Perl [14] R Thực nghiệm liệu cân từ kho liệu chuẩn UCI Với liệu, chạy 20 lần 10-fold cross validation để chia liệu thành 10 ngẫu nhiên Trong 10 liệu có liệu sử dụng làm liệu kiểm tra (test data), liệu lại sử dụng làm liệu huấn luyện (training data) Trong đó, liệu huấn luyện để xây dựng mơ hình phân lớp Còn liệu kiểm tra để đánh giá hiệu mơ hình phân lớp Như vậy, q trình học kiểm tra thực 10 lần 43 Giả sử, lần thực thứ i, 𝑆𝑖 tập liệu kiểm tra, tập lại tạo thành tập liệu huấn luyện Độ xác tồn số phân lớp từ 10 lần lặp chia cho tổng số mẫu tập liệu ban đầu Để đánh giá kết thực nghiệm, sử dụng ngôn ngữ Perl chạy 20 lần 10-folds cross validation để đánh giá kết cách khách quan, tiếp tiến hành chạy thuật toán RSU, RBO, RSU_RBO đánh giá hiệu phân lớp thu dựa vào thuật tốn SMV Tơi thực đánh giá hiệu phân lớp dựa độ đo G-mean Mỗi giá trị G-meanthu trung bình cộng 20 giá trị (mỗi giá trị G-mean lần chạy 10-fold), để việc so sánh xem G-mean phương pháp phân lớp cao chúng tơi sử dụng kiểm định t-test Kiểm định t-test trả lại nghiệm trị số xác suất p-value (probability value).Nếu p-value kiểm định nhỏ 0.05 ta nói hai giá trị trung bình khác biệt có ý nghĩa thống kê.Ngược lại, p-value kiểm định lớn 0.05 kết luận kiểm định khơng có khác biệt[17] Đối với thuật tốn chương 2, tơi thực với tham số sinh thêm phần tử NPOS 100%, 200%, 300%, 400%, 500%, …,800% (với phần tử xét, ta sinh thêm tương ứng 1,2,3,4,…,8 phần tử ngẫu nhiên với láng giềng nó) Các biểu đồ so sánh giá trị G-mean liệu sau thực thuật toán là: Original (chạy với liệu gốc khơng sử dụng thuật toán điều chỉnh liệu nào), RO, RU, RSU, RSO RSU_RBO Sau cài đặt, thống kê kết quả, tơi thực đánh giá hiệu thuật tốn liệu sau: 44 80 70 Original 60 RO 50 RU 40 RSO 30 RSU 20 RSU_RBO 10 Hình 11 Biểu đồ so sánh G-mean liệu Yeast Bộ liệu Yeast với số phần tử 1484, áp dụng thuật tốn RSU_RBO giá trị G-mean thu 74.86% cao so với phương pháp sử dụng thuật tốn RO có giá trị G-mean 69.31%, phương pháp sử dụng thuật tốn RU có giá trị G-mean 46.52%, phương pháp sử dụng thuật tốn RSO có giá trị G-mean 30.69%, phương pháp sử dụng thuật tốn RSU có giá trị Gmean 41.00% phương pháp chạy liệu gốc Original có giá trị Gmean 18.85% 87 Original 86,5 RO 86 RU RSO 85,5 RSU 85 RSU_RBO 84,5 Hình 12 Biểu đồ so sánh G-mean liệu Glass 45 Bộ liệu Glass với số phần tử 213, áp dụng thuật tốn RSU_RBO thìG-mean thu 86.79% cao so với phương pháp sử dụng thuật tốn RO có giá trị G-mean 85.03%,phương pháp sử dụng thuật tốn RU có giá trị G-mean 86.18%, phương pháp sử dụng thuật tốn RSO có giá trị G-mean 86.79%, phương pháp sử dụng thuật toán RSU có giá trị Gmean 85.99% phương pháp chạy liệu gốc có giá trị G-mean 85.06% 70 65 60 Original 55 RO 50 RU RSO 45 RSU 40 RSU_RBO 35 30 Hình 13 Biểu đồ so sánh G-mean liệu Breast-p Bộ liệu Breast-p với số phần tử 197, áp dụng thuật tốn RSU_RBO giá trị G-mean thu 66.42% cao hẳn so với phương pháp sử dụng thuật tốn RO có giá trị G-mean 64.97%, phương pháp sử dụng thuật tốn RU có giá trị G-mean 58.26%, phương pháp sử dụng thuật toán RSO có giá trị G-mean 36.26%, phương pháp sử dụng thuật tốn RSU có giá trị G-mean 57.20% phương pháp chạy liệu gốc Original có giá trị G-mean 35.5% 46 78 76 74 Original 72 RO 70 RU 68 RSO 66 RSU 64 RSU_RBO 62 60 Hình 14 Biểu đồ so sánh G-mean liệu Pima Bộ liệu Pima với số phần tử 768, áp dụng thuật tốn RSU_RBO giá trị G-mean thu 75.45% cao so với phương pháp sử dụng thuật tốn RO có giá trị G-mean 74.08%, phương pháp sử dụng thuật toán RU có giá trị G-mean 74.61%, phương pháp sử dụng thuật tốn RSO có giá trị G-mean 73.66%, phương pháp sử dụng thuật tốn RSU có giá trị Gmean 73.46% phương pháp chạy liệu gốc có giá trị G-mean 69.21% Các biểu đồ so sánh hiệu phân lớp liệu thuật toán SVM trước sau điều chỉnh liệu thuật toán RO, RU, RSO, RSU RSU_RBO.Kết cho thấy, sau điều chỉnh thuật toán RSU_RBO, hiệu phân lớp có tăng lên, điển hình liệu Yeast Breast-p tăng lên cách đáng kể Dưới bảng thống kê số lượng phần tử an toàn thuộc lớp đa số tỉ lệ số phần tử an toàn thuộc lớp đa số so với số phần tử đa số liệu: 47 Tên liệu Yeast Glass Breast-p Pima Tổng số phần tử 1484 213 197 768 Số Số Số Số positive negative positive negative biên an toàn (A) (B) (C) (D) 51 1433 33 1419 28 185 184 46 151 40 138 268 500 114 421 Tỉ lệ C/A (%) Tỉ lệ D/B (%) 64.7 7.1 87 42.5 99 99.5 91.4 84.2 Bảng Thống kê số phần tử Nhìn vào bảng 6, ta dễ dàng nhận thấy liệu, riêng Glass có tỉ số positive biên tổng số positive nhỏ (7.1%) tức tổng số positive toàn liệu, số positive biên nhỏ Điều cho thấy, thuật toán RSU_RBO cho hiệu phân lớp cao liệu có số positive biên lớn có số lượng negative an tồn cao Tóm lại, thuật tốn RSU_RBO thực việc sinh thêm phần tử positive biên thuộc lớp thiểu số, đồng thời loại bỏ phần tử negative an toàn lớp đa số cách ngẫu nhiên Làm vậy, thuật tốn khơng làm giảm số phần tử lớp negative, mà làm tăng số phần tử positive cách khoa học, tạo nên cân liệu, đạt hiệu phân lớp cao liệu định 48 PHẦN 3: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Việc học từ liệu cân điều quan trọng vấn đề học máy Một phương pháp trực tiếp để giải vấn đề cân phân bố cân đối tượng lớp, hiệu chứng minh số nghiên cứu [8] Tuy nhiên, có số chứng cho thấy việc tái cân phân bố lớp khơng có nhiều ảnh hưởng đến hiệu suất việc phân lớp, kể từ số hệ thống học tập không nhạy cảm Theo số nghiên cứu, số liệu không bị ảnh hưởng vấn đề cân lớp Có ý kiến cho rằng, vấn đề cân lớp không trực tiếp gây cân lớp, hơn, cân lớp mang lại phân đoạn nhỏ, gây suy giảm Mặc dù xu hướng đặc điểm tối đa trình cảm ứng giải vấn đề cân lớp phân lớp cân có hiệu lớp thiểu số, phương pháp có hiệu cần thiết Các nghiên cứu phân đoạn nhỏ đặc biệt, số liệu tiêu chuẩn cho mức độ phân đoạn nhỏ cần thiết Kể từ học máy ứng dụng điều khiển khoa học vấn đề cân lớp, thực để khám phá giải pháp cụ thể cho ứng dụng đặc biệt quan trọng có giá trị cho nhiều người nghiên cứu, hiểu biết liệu tốt nhiều kiến thức miền xác định hữu ích q trình Mất cân liệu vấn đề thách thức thuật toán học máy Khi học từ liệu cân cao, hầu hết phân loại bị choáng ngợp mẫu lớp đa số Vấn đề quan tâm có nhiều ứng dụng quan trọng thực tế Các nhà nghiên cứu giới thiệu nhiều phương pháp để đối phó với vấn đề Có nhiều hướng tiếp cận giải vấn đề có hướng tiếp cận dựa cách sinh 49 thêm phần tử ngẫu nhiên dựa vào cấp độ an toàn phân lớp thiểu số, nhằm giảm bớt cân số lượng hai lớp thiểu số lớp đa số Với mục tiêu nghiên cứu tìm phương pháp để làm tăng tính hiệu việc phân lớp liệu cân bằng, luận văn sâu nghiên cứu đưa thuật toán mới: Random Safe Undersampling – Random Border Oversampling áp dụng thử nghiệm liệu lấy từ kho liệu chuẩn UCI Những kết đạt luận văn: - Khái quát số vấn đề liệu cân bằng, phân lớp liệu cân phương pháp tiếp cận - Nghiên cứu phương pháp điều chỉnh mẫu phương pháp sinh thêm loại bỏ phần tử ngẫu nhiên, từ cải tiến thành thuật toán Sinh thêm phần tử biên ngẫu nhiên cho lớp thiểu số loại bỏ phần tử an toàn lớp đa số cách ngẫu nhiên.Đây thuật toán cải tiến từ thuật tồn Random Oversampling Random Undersampling Thơng qua việc sinh thêm phần tử thiểu sốbiên loại bỏ phần tử đa số an tồn, thuật tốn tạo khả khai phá sở liệu có kích thước lớn, nâng cao hiệu tính tốn, làm giảm mức độ cân liệu, đồng thời làm tăng độ xác kết phân lớp liệu Tuy nhiên, hạn chế mặt thời gian kiến thức nên luận văn chưa sâu vào nghiên cứu chưa đạt hiệu cao tất liệu UCI Trên sở nghiên cứu kết đạt được, tơi nhận thấy có nhiều vấn đề cần tiếp tục nghiên cứu việc kết hợp việc sinh thêm loại bỏ phần tử cách ngẫu nhiên với phương pháp khác: BoderlineSMOTE; Add-Boder-SMOTE… phát triển thuật toán theo hướng ngược lại Random Safe Oversampling - Random Border Undersampling để đạt hiệu cao việc giải vấn đề cân lớp 50 TÀI LIỆU THAM KHẢO [1] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 [2] A.&Newman, D.J: UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science, 2007 [3] Chawla, N., Japkowicz, N., Kolcz, “Special Issue on Learning from Imbalanced Data Sets”, Sigkdd Exploration, Volume 6, Issue 1, 2004 [4] C Bunkhumpornpat, K Sinapiromsaran, and C Lursinsap, “SafeLevel-SMOTE: Safe-Level-Synthetic Minority Over-Sampling TEchnique,” PAKDD, vol 13, pp 475–482, 2009 [5] Dustin Boswell, “Introduction to Support Vector Machines”, August 6, 2002 [6] E a Garcia, “Learning from Imbalanced Data,” IEEE Trans Knowl Data Eng., vol 21, no 9, pp 1263–1284, Sep 2009 [7] Fabricio Voznika, Leonardo Viana, “Data mining classification”, University of Washington, 2014 [8] J Han, M Kamber, and J Pei, Data mining: Concepts and Techniques, Third Elsevier, 2012 [9] John Shafer, Rakesh Agrawal, Manish Mehta SPRINT - A Scalable Paralllel lassifier for Data mining In Predeeings of the 22 nd International Conference on Very [10] Haibo He, Member, IEEE and Edwardo A Garcia, “Learning from Inbalanced Data”, IEEE Transaction on knowledge and data engineering, Vol 21, No 9, September 2009 51 [11] H Han, W Wang, and B Mao, “Borderline-SMOTE  : A New Over-Sampling Method in,” ICIC, pp 878–887, 2005 [12] Nguyễn Thị Hồng, Nguyễn Mạnh Cường, Đặng Xuân Thọ Addborder-SMOTE: Phương pháp sinh thêm phần tử liệu cân bằng, Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 164 (10-2014) [13] N V Chawla, K W Bowyer, and L O Hall, “SMOTE  : Synthetic Minority Over-sampling Technique,” J Artiﬁcial Intell Res., vol 16, pp 321– 357, 2002 [14] R L.Schwartz, T Phoenix, and B d Foy, Learning Perl, Fifth O’reilly, 2008 [15] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas, “Handling imbalanced datasets: A review”, GEST International Transactions on Computer Science and Engineering, Vol 30, 2006 [16] Xinjian Guo, Yilong Yin, Cailing Dong, Gongping Yang, Guangtong Zhou,“On the Class Imbalance Problem”, 2008 Fourth Int Conf Nat Comput., vol 4, 2008 [17] W HR, A B, B P, and G F, “What doctors know about statistics?,” Stat Med., vol 6, pp 3–10, 1987 [18] Xu-Ying Liu, Jianxin Wu, and Zhi-Hua Zhou, Senior Member, IEEE Exploratory Undersampling for Class- Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 2006, 965-969 [19] X Guo, Y Yin, C Dong, G Yang, and G Zhou, “On the Class Imbalance Problem,” 2008 Fourth Int Conf Nat Comput., vol 4, pp 192–201, 2008 [20] X Wu, V Kumar, J Ross Quinlan, J Ghosh, Q Yang, H Motoda, G J McLachlan, A Ng, B Liu, P S Yu, Z.-H Zhou, M Steinbach, D J 52 Hand, and D Steinberg, “Top 10 algorithms in data mining,” Knowl Inf Syst., vol 14, no 1, pp 1–37, Dec 2007 [21] Y Sun, A K C Wong, and M S Kamel, “Classification of imbalanced data: A review,” Int J Pattern Recognit Artiﬁcial Intell., vol 23, no 4, pp 687–719, 2009 [22] The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Datamining-Concepts and Techniques, Chapter 7-Classification and Prediction, Series Editor Morgan Kaufmann Publishers, August 2000 53

Ngày đăng: 20/02/2019, 08:39

Xem thêm: Nghiên cứu phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Nghiên cứu phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan