Học bán giám sát trong mạng nơron min-max mờ cho phân cụm dữ liệu với rút trích luật quyết định

10 46 0
Học bán giám sát trong mạng nơron min-max mờ cho phân cụm dữ liệu với rút trích luật quyết định

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết này đề xuất một mạng nơron min-max mờ cải tiến cho vấn đề phân cụm dữ liệu với phương pháp học bán giám sát. Mô hình đề xuất sử dụng phương pháp lan truyền nhãn trong quá trình huấn luyện gọi là MSS-FMM. Một số mẫu trong tập dữ liệu huấn luyện được gán nhãn là thông tin bổ trợ được sử dụng trong phương pháp phân cụm bán giám sát.

Nghiên cứu khoa học công nghệ HỌC BÁN GIÁM SÁT TRONG MẠNG NƠRON MIN MAX MỜ CHO PHÂN CỤM DỮ LIỆU VỚI RÚT TRÍCH LUẬT QUYẾT ĐỊNH Vũ Đình Minh1*, Nguyễn Dỗn Cường2 Tóm tắt: Bài báo đề xuất mạng nơron min-max mờ cải tiến cho vấn đề phân cụm liệu với phương pháp học bán giám sát Mơ hình đề xuất sử dụng phương pháp lan truyền nhãn trình huấn luyện gọi MSS-FMM Một số mẫu tập liệu huấn luyện gán nhãn thông tin bổ trợ sử dụng phương pháp phân cụm bán giám sát Nghiên cứu kiểm chứng tập liệu công bố tập liệu bao gồm 320 bệnh nhân đến khám điều trị viêm gan mạn bệnh viện Thái Nguyên Các kết thực nghiệm so sánh với kết thực nghiệm mạng nơron min-max mờ đưa nhà nghiên cứu khác Giải pháp nâng cao đáng kể độ đo Accuracy phân loại Từ khóa: Mạng nơron min-max mờ; Phân cụm; Có giám sát; Không giám sát; Bán giám sát ĐẶT VẤN ĐỀ Mơ hình mạng nơron min-max mờ (FMNN) đề xuất Simpson Học FMNN gồm học có giám sát áp dụng cho tốn phân lớp liệu [11] học khơng giám sát áp dụng cho toán phân cụm liệu [12] FMNN biểu diễn liệu hyperbox mờ Sự kết hợp logic mờ khả học mạng nơron điểm mạnh FMNN xử lý thơng tin khơng chắn Do đó, mạng FMNN ứng dụng nhiều lĩnh vực hệ chuyên gia, dự báo, điều khiển Tuy nhiên, hiệu suất FMNN bị phụ thuộc lớn vào giới hạn kích thước tối đa hyperbox Nếu max lớn, dẫn tới số lượng hyperbox nhỏ, dẫn đến hiệu suất giảm Ngược lại max bé mơ hình tính tốn bị q khớp (overfitting) Đặc biệt, tập liệu có kích thước cụm liệu khơng đồng hiệu FMNN bị giảm nhiều Cho đến nay, có nhiều nghiên cứu nhằm nâng cao hiệu FMNN đề xuất, hầu hết tập trung vào cải tiến trình điều chỉnh kích thước hyperbox [2], [3], [4], [6], [7], [9], [10], [15] Bên cạnh đó, vài nghiên cứu cải tiến FMNN sử dụng phương pháp học bán giám sát đề xuất [5], [8], [13] Trong báo này, chúng tơi đề xuất mơ hình cải tiến sử dụng thuật toán học bán giám sát để phân cụm liệu phát triển từ mơ hình SS-FMM [13] Mơ hình đề xuất sử dụng phương thức học bán giám sát với phần liệu gán nhãn mẫu liệu đầu vào Các đóng góp bao gồm (i) số mẫu gán nhãn hơn, (ii) khơng tạo hyperbox có đặc tính mới, (iii) thực lần duyệt qua mẫu liệu (iv) sử dụng tất mẫu trình đào tạo, (v) giảm số lượng hyperbox để tối ưu FMNN Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 17 Công nghệ thông tin Các phần báo gồm: phần giới thiệu mạng nơron min-max mờ, cắt tỉa hyperbox rút trích luật định Phần trình bày giải pháp đề xuất chúng tơi, phần đưa kết thực nghiệm so sánh với phương pháp khác, phần cuối kết luận MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ VỚI KẾT XUẤT LUẬT 2.1 Mạng nơron max mờ FMNN [12] mạng nơron hai lớp: lớp đầu vào FA bao gồm n nút (n kích thước vector đầu vào); lớp đầu FB bao gồm m nút, nút tương ứng với hyperbox Thuật toán học bao gồm trình điều chỉnh mở rộng/co lại hyperbox, thuật toán học FMNN bao gồm bước: tạo mở rộng hyperbox, kiểm tra chồng lấn hyperbox, co lại hyperbox có chống lấn Các bước 1-3 thực mẫu đầu vào 2.2 Cắt tỉa hyperbox sử dụng GA Để cắt tỉa hyperbox có số sử dụng thấp, mạng nơron min-max mờ sử dụng giải thuật di truyền (GA) [14] Quá trình chung hoạt động di truyền thực sau: Khởi tạo: Khởi tạo quần thể ban đầu cách sinh ngẫu nhiên chuỗi nhị phân bao gồm tất hyperbox Chọn lọc: Chọn cặp từ chuỗi ban đầu với xác suất lựa chọn theo giá trị tối thiểu hàm mục tiêu cho cá thể quần thể Tạo quần thể mới: Tạo quần thể cách lai ghép chéo từ cá thể có chọn lọc, đồng thời tạo đột biến quần thể theo xác suất định Thay ngẫu nhiên: Các cá thể quần thể sinh thay cho cá thể quần thể cũ cách thay ngẫu nhiên cá thể cũ cá thể với giá trị hàm mục tiêu lớn Điều kiện dừng: Nếu điều kiện dừng thỏa giải thuật dừng lại, khơng quay lại bước 2.3 Rút trích luật định từ mạng nơron - max mờ Mỗi hyperbox sử dụng để kết xuất thành luật định “if…then” Các giá trị max định lượng thành mức Q khoảng [0,1] tương đương số phân vùng mờ quy tắc định lượng [1] Các luật if…then mờ định nghĩa theo (1): Rule R j : If x p1 is Aq and  x pn is Aq Then x pis C j 18 (1) V Đ Minh, N D Cường, “Học bám sát mạng nơron … rút trích luật định.” Nghiên cứu khoa học công nghệ với xp mẫu vào n chiều, Aq giá trị tiền đề, Cj cụm thứ jth ĐỀ XUẤT THUẬT TỐN CẢI TIẾN Mơ hình đề xuất MSS-FMM (Modified SS-FMM) (Hình 1), sử dụng giải thuật di truyền cắt tỉa hyperbox có số thấp kết xuất luật định Hình mơ tả sơ đồ thuật toán học MSS-FMM, liệu vào mẫu liệu nhãn tập huấn luyện Các mẫu liệu có nhãn đưa vào trước, mẫu liệu khơng có nhãn đưa vào sau MSS-FMM gán nhãn cho tất hyperbox tạo mạng từ mẫu khơng có nhãn sau kết thúc trình lần duyệt qua mẫu liệu Dữ liệu vào Mở rộng siêu hộp Kiểm tra chồng lấn Điều chỉnh chồng lấn Gán nhãn cho hyperbox Huấn luyện mạng nơron max mờ Cắt tỉa hyperbox Kết xuất luật Hình Mơ hình MSS-FMM với kết xuất luật định Tập liệu huấn luyện D gồm m cặp {Ah,dl}, Ah mẫu vào thứ h, dl  {0,1,2, ,p} nhãn kèm mẫu đầu vào, Ah kèm với dl = coi mẫu huấn luyện khơng có nhãn Thuật toán học MSS-FMM gán nhãn cho mẫu chưa gán nhãn, tạo gán nhãn cho hyperbox Với mẫu vào khơng có nhãn, thuật tốn học xem xét khả năng: 1) Nếu mẫu vào thỏa mãn điều kiện ràng buộc mở rộng (2), điều chỉnh điểm min, max hyperbox theo (3), (4), gán nhãn mẫu theo nhãn hyperbox n  max  w ji , ahi    v ji , ahi    n i 1    max  w   ,a  v new  v old ji ji , ahi i  1, 2, , n wnew ji i  1, 2, , n old ji hi (2) (3) (4) 2) Nếu mẫu vào không thỏa mãn điều kiện ràng buộc mở rộng (2), tạo hyperbox Hnew xem xét khă năng: 2.1) Nếu tồn Bj thỏa mãn (5) Gán nhãn cho Hnew theo nhãn Bj, thêm hyperbox Hnew vào tập B Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 19 Công nghệ thông tin Bắt đầu {Ah,dl}D Có hyperbox chứa Ah? s Nhãn dl=0? đ đ Mở rộng hyperbox s Tạo hyperbox Bj mới; B = B{Bj} Tạo hyperbox Gp mới; G = G{Gp} Có chồng lấn hyperbox? s Gán nhãn cho hyperbox theo nhãn Ah đ Co lại hyperbox s Tất liệu vào hết? đ Chọn hyperbox Gp  G Tính tâm liệu (Cp) hyperbox Gp ; Tìm độ thuộc lớn Cp hyperbox BjB; Gán nhãn cho Gp theo Bj G = G\{Gp} ; B = B{Gp} Khơng hyperbox G? y Kết thúc Hình Sơ đồ thuật tốn học MSS-FMM   max E A , B  j  1, , q   h j (5) với E A , B  xác định theo công thức (6): h j E A , B    h j n n   i 1 c ji  ahi  (6) cji tính theo công thức (7): c ji  20 v ji  w ji (7) V Đ Minh, N D Cường, “Học bám sát mạng nơron … rút trích luật định.” Nghiên cứu khoa học công nghệ 2.2) Nếu không tồn Bj thỏa mãn (5) Gán nhãn cho Hnew 0, thêm Hnew vào tập G 3) Sau kết thúc trình duyệt lần qua mẫu, thuật tốn học tính tâm liệu hyperbox GpG theo (8): c pi  N N a ji  j 1 (8) với cpi tâm hyperbox Gp theo chiều thứ i, N tổng số mẫu thuộc hyperbox Gp, aji chiều thứ i mẫu aj Với hyperbox Gp, tìm hyperbox Bj có độ thuộc tương ứng với cp theo (9) Gán nhãn cho hyperbox Gp nhãn hyperbox có độ thuộc lớn nhất, chuyển Gp sang tập B b j  Ah ,V j , Wj   n  1  f  ahi  w ji ,    f  v ji  ahi ,   n i 1  (9) THỰC NGHIỆM 4.1 Dữ liệu thực nghiệm Các thực thực nghiệm tiến hành tập liệu Aggregation, Flame, Pathbased, Spiral, Jain, R15, Iris, Thyroid, Wine từ kho liệu học máy UCI liệu bệnh nhân đến khám điều trị xơ gan (Cirrhosis) thu thập bệnh viện Gang thép Thái Nguyên bệnh viện Đa khoa TW Thái Nguyên Thông tin tập liệu bảng Bảng Thông tin tập liệu thực nghiệm TT 10 11 Data Flame Jain Spiral Aggregation Pathbased R15 Iris Thyroid Wine Cirrhosis Số mẫu 240 373 312 788 317 600 150 215 178 320 Số đặc tính 2 2 2 13 Số nhóm 2 15 3 Tập liệu Cirrhosis gồm 320 bệnh nhân đến khám điều trị bệnh rối loạn men gan gồm nhóm: nhóm gồm 150 hồ sơ bệnh nhân khơng bị xơ gan; nhóm gồm 170 hồ sơ bệnh nhân chẩn đốn xơ gan thơng tin thuộc tính đầu vào cho thực nghiệm bao gồm: Tuổi, men AST, men ALT, tiểu cầu 4.2 Thực nghiệm đánh giá Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 21 Công nghệ thông tin 4.2.1 Thực nghiệm liệu chuẩn Các tham số bao gồm:  = 10, β = 0.99,  = 0.9 Sử dụng phương pháp kiểm tra chéo “k-fold”, với k = 10 để đánh giá Bảng biểu diễn kết thực nghiệm tập liệu từ UCI MSSFMM Acc độ đo Accuracy tập liệu, NoH tổng số hyperbox, max giới hạn kích thước tối đa hyperbox Bảng Kết thực nghiệm tập liệu chuẩn Tập liệu max Aggregation Flame Jain Sprial Pathbased R15 Iris Thyroid Wine 0.015 0.015 0.03 0.02 0.02 0.015 0.015 0.005 0.015 Tỉ lệ mẫu có nhãn/tổng số mẫu 10% 90% Acc (%) NoH max Acc (%) NoH 99.37 160 0.015 99.87 157 98,75 47 0.015 99,58 45 100 42 0.03 100 43 100 63 0.02 100 62 97,81 65 0.02 99,04 64 99 150 0.015 99,33 150 96,00 80 0.015 96,67 80 90,32 163 0.01 97,68 162 77,61 140 0.01 95,00 139 Hình Mơ kết thực nghiệm tập liệu Flame Hình mơ kết thực nghiệm tập liệu Flame với số mẫu tập liệu huấn luyện 10%, 50%, 90% Kết thực nghiệm cho thấy MSS-FMM có kết tốt, đạt 100% tập liệu Jain Sprial, đạt 99% với Aggregation, Flame, Pathbased 96% với tập lại Khi tăng giá trị max, độ đo Accuracy giảm Độ đo Accuracy giảm giảm tỉ lệ mẫu có nhãn tập liệu huấn luyện giảm dần 22 V Đ Minh, N D Cường, “Học bám sát mạng nơron … rút trích luật định.” Nghiên cứu khoa học công nghệ Bảng so sánh kết thực nghiệm tập liệu Thyroid thay đổi tỉ lệ mẫu có nhãn Kết cho thấy MSS-FMM tốt so với GFMM [5] RFMN [8] tương đương với SS-FMM [13] Bảng So sánh kết thực nghiệm MSS-FMM với phương thức khác 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % GFMM (%) 71.5 74.7 75.4 77.9 87.9 91.7 92.6 94.5 95.84 RFMN (%) 74.1 76.9 87.9 88.0 91.6 92.6 94.4 95.7 96.3 SS-FMM (%) 90.3 94.4 95.8 96.3 97.6 97.6 97.6 97.2 97.6 MSS-FMM (%) 90.3 92.2 95.8 96.3 96.3 96.7 97.6 97.6 97.6 Tập liệu Bảng so sánh kết thực nghiệm MSS-FMM với số phương thức khác tập liệu Thyroid, Wine, Iris Kết cho thấy MSS-FMM tốt so với FMM-CF[9], FMM-GA [14] tương đương với SS-FMM [13] Bảng So sánh kết thực nghiệm MSS-FMM với phương thức khác Tập liệu max FMNN (%) Thyroid Wine Iris 0.02 0.015 0.02 81.92 91.67 92.81 FMMCF (%) 87.76 91.11 92.16 FMM-GA (%) SS-FMM (%) 92.63 93.33 95.42 94.46 96.11 96.00 MSSFMM (%) 93.86 96.11 96.00 4.2.2 Thực nghiệm sở liệu bệnh nhân Trong thực nghiệm, phương pháp đánh giá kết theo thống kê để tính trung bình bao gồm số: Giá trị dự đoán (Acc), độ nhạy (AccSe), độ đặc hiệu (AccSp), giá trị dự đoán âm (NPV), giá trị dự đoán dương (PPV) Bảng kết so sánh số thực FMNN, FMM-CF, FMM-GA, SS-FMM MSS-FMM MSS-FMM có kết tốt so với FMM-CF, FMM-GA, FMNN tương đương với SS-FMM Bảng Thống kê kết giá trị dự báo Thuật toán FMNN FMM-CF FMM-GA SS-FMM MSS-FMM Acc (%) 85.94 91.56 95.00 95.94 95.31 AccSe (%) AccSp (%) PPV (%) 88.82 88.00 88.82 91.33 90.00 91.33 95.83 95.33 95.83 95.91 95.33 95.91 95.32 94.67 95.32 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 NPV (%) 83.02 91.84 94.08 95.97 95.30 23 Công nghệ thông tin Bảng biểu diễn luật tạo thành rút trích từ hyperbox với giới hạn kích thước max = 0.09, tổng số hyperbox 12 tương ứng với 12 luật Với A1, A2, A3, A4 đặc tính C kết chẩn đốn: có bệnh, khơng có bệnh Bảng Rút trích luật định If Luật A1 A2 A3 A4 If Then (C) Luật A1 Then A2 A3 A4 (C) R1 3-5 4-5 4-5 R7 2-3 3 R2 4-5 4 4-5 R8 4-5 3 3-4 R3 3-4 3 4-5 R9 2-3 2 R4 2-3 3 3-4 R10 1-2 2 R5 4-5 3 3-4 R11 2-4 2 R6 3-4 3 R12 4-5 2 KẾT LUẬN Bài báo trình bày mơ hình mạng nơron phân cụm liệu min-max mờ MSS-FMM cải tiến từ mơ hình SS-FMM MSS-FMM sử dụng phương pháp học bán giám sát với phương pháp lan truyền nhãn Các kết thực nghiệm cho thấy MSS-FMM có kết tốt FMNN, FMM-CF, FMM-GA Tuy nhiên, để đạt hiệu suất tốt MSS-FMM đòi hỏi thời gian kinh nghiệm việc “thử sai” nhiều lần để xác định tham số điều chỉnh Ngoài ra, việc xác định kích thước giới hạn chung cho tất cụm (hyperbox) ngưỡng  vấn đề cần phải xem xét, thực tế kích thước mật độ liệu cụm liệu khơng gian đầu vào hồn tồn khác Đây hướng nghiên cứu cần xem xét TÀI LIỆU THAM KHẢO [1] Carpenter, G A., & Tan, A H (1995) "Rule extraction: From neural architecture to symbolic representation" Connection Science, 7(1), 3-27 [2] Chaudhari, B M., Patil, R S., Rane, K P., & Shinde, U B (2010, August) Online Signature Classification Using Modified Fuzzy Min-Max Neural Network with Compensatory Neuron Topology In International Conference on Contemporary Computing (pp 467-478) Springer, Berlin, Heidelberg [3] Davtalab, R., Dezfoulian, M H., & Mansoorizadeh, M (2014) Multi-level fuzzy min-max neural network classifier IEEE transactions on neural networks and learning systems, 25(3), 470-482 [4] Davtalab, R., Parchami, M., Dezfoulian, M H., Mansourizade, M., & Akhtar, B (2012, February) M-FMCN: modified fuzzy min-max classifier using 24 V Đ Minh, N D Cường, “Học bám sát mạng nơron … rút trích luật định.” Nghiên cứu khoa học cơng nghệ compensatory neurons In Proceedings of the 11th WSEAS international conference on Artificial Intelligence, Knowledge Engineering and Data Bases(pp 77-82) World Scientific and Engineering Academy and Society (WSEAS) [5] Gabrys, B., & Bargiela, A (2000) General fuzzy min-max neural network for clustering and classification IEEE transactions on neural networks, 11(3), 769-783 [6] Mohammed, M F., & Lim, C P (2015) An enhanced fuzzy min–max neural network for pattern classification IEEE transactions on neural networks and learning systems, 26(3), 417-429 [7] Nandedkar, A V., & Biswas, P K (2009) A granular reflex fuzzy min–max neural network for classification IEEE Transactions on Neural Networks, 20(7), 1117-1134 [8] Nandedkar, A V., & Biswas, P Κ (2008) Reflex Fuzzy Min Max Neural Network for Semi-supervised Learning Journal of Intelligent Systems, 17(13), 5-18 [9] Quteishat, A., & Lim, C P (2008, September) Application of the fuzzy minmax neural networks to medical diagnosis In International Conference on Knowledge-Based and Intelligent Information and Engineering Systems (pp 548-555) Springer, Berlin, Heidelberg [10] Seera, M., Lim, C P., Ishak, D., & Singh, H (2012) Fault detection and diagnosis of induction motors using motor current signature analysis and a hybrid FMM–CART model IEEE transactions on neural networks and learning systems, 23(1), 97-108 [11] Simpson, P K (1992) Fuzzy min-max neural networks I Classification IEEE transactions on Neural Networks, 3(5), 776-786 [12] Simpson, P K (1993) Fuzzy min-max neural networks-part 2: Clustering IEEE Transactions on Fuzzy systems, 1(1), 32-45 [13] Vu, D M., Nguyen, V H., & Le, B D (2016, December) Semi-supervised Clustering in Fuzzy Min-Max Neural Network In International Conference on Advances in Information and Communication Technology (pp.541-550) Springer International Publishing [14] Wang, J., Lim, C P., Creighton, D., Khorsavi, A., Nahavandi, S., Ugon, J., & Freischmidt, A (2015) "Patient admission prediction using a pruned fuzzy min–max neural network with rule extraction" Neural Computing and Applications, 26(2), 277-289 [15] Zhang, H., Liu, J., Ma, D., & Wang, Z (2011) Data-core-based fuzzy min– max neural network for pattern classification IEEE transactions on neural networks, 22(12), 2339-2352 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 25 Công nghệ thông tin ABSTRACT SEMI-SUPERVISED LEARNING IN FUZZY MIN-MAX NEURAL NETWORK FOR CLUSTERING WITH RULE EXTRACTION This paper proposes a modified fuzzy min-max neural network for data clustering with semi-supervised learning The proposed model combines both unsupervised and supervised learning methods during training called MSSFMM Some samples in the training data set are labeled as supplementary information used in the semi-supervised clustering method Our study was validated on published data sets and the dataset included 320 patients who came for the treatment and treatment of chronic hepatitis in Thai Nguyen hospitals The experimental results were compared with the experimental results of the fuzzy min-max neural networks proposed by other researchers Our solution has dramatically improved the classification accuracy Keywords: Fuzzy min-max neural network; Clustering; Unsupervised; Supervised; Semi-supervised Nhận ngày 29 tháng 06 năm 2018 Hoàn thiện ngày 04 tháng 10 năm 2018 Chấp nhận đăng ngày 05 tháng 11 năm 2018 Địa chỉ: Trường Cao đẳng Công nghiệp Thái Nguyên; Viện Khoa học Công nghệ quân * Email: vmc802@gmail.com 26 V Đ Minh, N D Cường, “Học bám sát mạng nơron … rút trích luật định.” ... Rút trích luật định từ mạng nơron - max mờ Mỗi hyperbox sử dụng để kết xuất thành luật định “if…then” Các giá trị max định lượng thành mức Q khoảng [0,1] tương đương số phân vùng mờ quy tắc định. .. bày mơ hình mạng nơron phân cụm liệu min-max mờ MSS-FMM cải tiến từ mơ hình SS-FMM MSS-FMM sử dụng phương pháp học bán giám sát với phương pháp lan truyền nhãn Các kết thực nghiệm cho thấy MSS-FMM... Các luật if…then mờ định nghĩa theo (1): Rule R j : If x p1 is Aq and  x pn is Aq Then x pis C j 18 (1) V Đ Minh, N D Cường, Học bám sát mạng nơron … rút trích luật định. ” Nghiên cứu khoa học

Ngày đăng: 11/02/2020, 18:53

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan