Đề tài: Mạng kohonen và ứng dụng cho việc đánh giá trình độ học vấn của các dân tộc tỉnh yên bái

0 33 0
Đề tài: Mạng kohonen và ứng dụng cho việc đánh giá trình độ học vấn của các dân tộc tỉnh yên bái

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mạng nơron nhân tạo nói chung, mạng KOHONEN nói riêng đã và đang được nghiên cứu, ứng dụng mạnh mẽ và thành công ở nhiều lĩnh vực trong những năm gần đây, là công cụ tốt trong việc giải quyết các bài toán như: hợp và phân lớp đối tượng, phân cụm dữ liệu,...Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết các bài toán này. Mạng nơron SOM được giáo sư Teuvo Kohonen của trường đại học Helsinki Phần Lan phát triển vào những năm 80 của thế kỷ 20 9. Đây là mạng truyền thẳng sử dụng thuật học cạnh tranh, không giám sát có khả năng phân cụm dữ liệu với một lượng lớn dữ liệu đầu vào.

LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tơi, khơng chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa công bố cơng trình khác Thái Ngun, tháng năm 2016 Học viên thực Đặng Trung Kiên LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Lê Bá Dũng người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ em suốt q trình học Tơi xin gửi lời cảm ơn tới Ban Giám đốc Sở Giáo dục Yên Bái tạo điều kiện thuận lợi cho tơi tham gia khóa học suốt q trình hồn thành luận văn Và cuối tơi xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè người ủng hộ, động viên tạo điều kiện giúp đỡ để tơi có kết ngày hôm Thái Nguyên, tháng năm 2016 Học viên Đặng Trung Kiên i MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC i THUẬT NGỮ TIẾNG ANH iii MỞ ĐẦU Chương 1: MẠNG NƠRON VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1.1 Cấu trúc mơ hình mạng Nơron 1.1.1 Mơ hình nơron sinh học 1.1.2 Cấu trúc mơ hình nơron nhân tạo 1.2 Mạng Nơron Kohonen toán phân cụm liệu 1.2.1 Giới thiệu mạng Kohonen (SOM - Self Organizing Maps) 1.2.2 Bài toán phân cụm liệu 10 Chương 2: PHÂN CỤM DỮ LIỆU BẰNG MẠNG KOHONEN 16 2.1 Thuật toán phân cụm liệu 16 2.2 Một số thuật toán phân cụm liệu 17 2.2.1 Thuật toán phân cụm phân cấp 17 2.2.2 Thuật toán phân cụm phân hoạch (Thuật toán K-means) 18 2.2.3 Thuật toán phân cụm dựa mật độ (Thuật toán DBSCAN) 22 2.2.4 Thuật toán phân cụm dựa lưới (Thuật toán STING) 24 2.2.5 Các thuật tốn phân cụm dựa mơ hình (Thuật tốn EM) 25 2.3 Thuật toán phân cụm mạng Kohonen 26 2.3.1 Cấu trúc mạng nơron Kohonen 26 2.3.2 Thuật toán phân cụm mạng Kohonen 27 2.4 Phân cụm mạng Kohonen 31 2.4.1 Khởi tạo mạng Kohonen (SOM) 31 2.4.2 Huấn luyện mạng Kohonen 32 2.4.3 Tỉ lệ học 32 2.4.4 Cập nhật lại trọng số 33 ii 2.4.5 Xác định nơron chiến thắng 34 Chương 3: ỨNG DỤNG MẠNG KOHONEN (SOM) TRONG PHÂN TÍCH ĐÁNH GIÁ TRÌNH ĐỘ HỌC VẤN CÁC DÂN TỘC Ở TỈNH N BÁI 35 3.1 Mơ tả tốn 35 3.1.1 Khái quát điều kiện tự nhiên, tình hình kinh tế-xã hội giáo dục tỉnh Yên Bái 35 3.1.2 Trình độ học vấn 36 3.2 Thu thập liệu 37 3.3 Mạng Kohonen cho phân tích đánh giá trình độ học vấn dân tộc tỉnh Yên Bái 42 3.3.1 Cấu trúc mạng 42 3.3.2 Giới thiệu công cụ SOM Toolbox 42 3.3.3 Chuẩn bị liệu 48 3.3.4 Mơ hình mạng Kohonen 49 3.3.5 Chương trình ứng dụng mơ hình mạng Kohonen 51 3.3.6 Kết sau huấn luyện mơ hình mạng Kohonen 52 3.3.7 Đánh giá kết 57 Tài liệu tham khảo 64 iii THUẬT NGỮ TIẾNG ANH SOM (Self-Organizing Maps) Mạng nơron tự tổ chức PE (Processing element) Phần tử xử lý U-matrix (unified distance matrix) Ma trận thống khoảng cách EM (Expectation maximization) Thuật toán tối đa hóa MST (Minimum spanning tree) Thuật tốn tối thiểu mở rộng BMU (Best - Matching unit) Đơn vị phù hợp DBSCAN (Density Based Spatial Phân cụm liệu dựa không gian mật độ ứng dụng với nhiễu Clustering of Applications with Noise) iv CÁC HÌNH VẼ, BẢNG BIỂU TRONG LUẬN VĂN Hình 1.1 Một nơron sinh học Hình 1.2 Sự liên kết nơron Hình 1.3 Mơ hình nơron nhân tạo Hình 1.4 Đồ thị dạng hàm truyền Hình 1.5 Ví dụ phân cụm liệu 11 Hình 1.6 Ví dụ phân cụm nhà dựa khoảng cách 12 Hình 1.7 Ví dụ phân cụm ngơi nhà dựa kích cỡ 13 Hình 2.1 Các chiến lược phân cụm phân cấp 17 Hình 2.2 Các thiết lập để xác định ranh giới cụm ban đầu 129 Hình 2.3 Tính tốn trọng tâm cụm 20 Hình 2.4 Hình dạng cụm khám phá thuật tốn DBSCAN 23 Hình 2.5 Một dạng mạng nơron Kohonen 27 Hình 2.6 Phần tử nơron chiến thắng BMU 28 Hình 2.7 Các vùng lân cận 28 Hình 3.1 Thuật tốn phân cụm trình độ học vấn dân tộc tỉnh Yên Bái 51 Hình 3.2 Giao diện chương trình 52 Hình 3.3 Hình ảnh phân cụm trình độ học vấn dân tộc 53 Hình 3.4 Hình ảnh cụm theo lớp dân tộc 54 Hình 3.5 Hình ảnh phân cụm trình độ học vấn nữ dân tộc 55 Hình 3.6 Hình ảnh cụm theo lớp nữ dân tộc 56 Bảng 3.1 Trình độ học vấn dân tộc 38 Bảng 3.2 Trình độ học vấn nữ dân tộc 40 MỞ ĐẦU Mạng nơron nhân tạo nói chung, mạng KOHONEN nói riêng nghiên cứu, ứng dụng mạnh mẽ thành công nhiều lĩnh vực năm gần đây, công cụ tốt việc giải toán như: hợp phân lớp đối tượng, phân cụm liệu, Nó thay hiệu cơng cụ tính tốn truyền thống để giải toán Mạng nơron SOM giáo sư Teuvo Kohonen trường đại học Helsinki Phần Lan phát triển vào năm 80 kỷ 20 [9] Đây mạng truyền thẳng sử dụng thuật học cạnh tranh, khơng giám sát có khả phân cụm liệu với lượng lớn liệu đầu vào Phân cụm có ý nghĩa quan trọng hoạt động người sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trường [1] phân cụm liệu sử dụng bước tiền xử lí cho thuật toán khai phá liệu khác phân loại mơ tả đặc điểm, có tác dụng việc phát cụm Với tư cách chức khai phá liệu, phân tích phân cụm sử dụng cơng cụ độc lập chuẩn để quan sát đặc trưng cụm thu bên phân bố liệu tập trung vào tập riêng biệt cụm để giúp cho việc phân tích đạt kết Hiện có nhiều thuật tốn đưa để áp dụng cho toán phân cụm, nhiên giải thuật có ưu, nhược điểm riêng Dựa đặc tính mạng nơron Kohonen việc lựa chọn giải thuật cho tốn phân cụm dựa tập liệu trình độ học vấn phổ thông dân tộc tỉnh Yên Bái hướng mới, có nhiều hứa hẹn Qua phân tích cho thấy phân cụm dựa tập liệu trình độ học vấn phổ thông dân tộc tỉnh Yên Bái Điều có ý nghĩa quan trọng cơng tác quản lý, giúp cho ngành giáo dục đào tạo thấy tồn cảnh trình độ học vấn dân tộc vùng miền tỉnh, qua có đánh giá xác trình độ học vấn dân tộc, khu vực tỉnh để từ đưa định hướng phát triển giáo dục dân tộc vùng miền tỉnh cho phù hợp Ngồi ra, việc phân cụm giúp định hướng cơng tác xố mù chữ, phổ cập giáo dục tiểu học, phổ cập giáo dục trung học sở đạt kết bền vững Như vậy, nội dung nghiên cứu đề tài giải bước đầu vấn đề khai phá liệu, có vai trị đóng góp quan trọng việc nâng cao hiệu cho bước phân tích liệu phía sau Được gợi ý thầy hướng dẫn nhận thấy tính thiết thực vấn đề em chọn đề tài: “Mạng Kohonen ứng dụng cho việc đánh giá trình độ học vấn dân tộc tỉnh Yên Bái” Phương pháp nghiên cứu tìm hiểu mạng Nơron Kohonen qua tài liệu, báo viết mạng SOM sử dụng công cụ SOM Toolbox để huấn luyện mạng SOM phân cụm liệu Nội dung luận văn gồm có chương: Chương 1: Tìm hiểu cấu trúc, mơ hình mạng Nơron, mạng Nơron Kohonen, toán phân cụm liệu Chương 2: Giới thiệu số thuật toán phân cụm phổ biến Trong chương trình bày mạng SOM: Giới thiệu cấu trúc SOM, thuật toán SOM, sử dụng SOM phân cụm liệu Chương 3: Ứng dụng mạng Nơron Kohonen đánh giá trình độ học vấn dân tộc tỉnh Yên Bái 3 Chương : MẠNG NƠRON VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU 1.1 Cấu trúc mơ hình mạng Nơron 1.1.1 Mơ hình nơron sinh học Phần tử xử lý mạng nơron sinh học nơron, phần tử chia làm bốn thành phần sau: dendrites, soma, axon, synapses - Dendrites: phần nhận tín hiệu đầu vào - Soma: hạt nhân - Axon: phần dẫn tín hiệu xử lý - Synapses: đường tín hiệu điện hóa giao tiếp nơron Kiến trúc sở não người có vài đặc tính chung Một cách tổng qt, nơron sinh học nhận đầu vào từ nguồn khác nhau, kết hợp chúng với nhau, thực thi tổ hợp phi tuyến chúng kết cuối đầu Hình 1.1 mối quan hệ bốn phần tử nơron sinh học Hình 1.1 Một nơron sinh học Một nơron sinh học có số chức vậy, ta nhận thấy khả xử lý thông tin yếu Để có khả xử lý thơng tin hồn hảo não người, nơron phải kết hợp trao đổi thơng tin với Ta hình dung sơ đồ liên kết, trao đổi thông tin hai nơron hình 1.2 Hình 1.2 Sự liên kết nơron 1.1.2 Cấu trúc mơ hình nơron nhân tạo Mơ hình tốn học mạng nơron sinh học đề xuất McCulloch Pitts [1], [2], thường gọi nơron M-P, ngồi cịn gọi phần tử xử lý ký hiệu PE (Processing Element) Mơ hình nơron có m đầu vào x1, x2, , xm, đầu yi sau: Hình 1.3 Mơ hình nơron nhân tạo Giải thích thành phần bản: - Tập đầu vào: Là tín hiệu vào nơron, tín hiệu thường đưa vào dạng vector m chiều - Tập liên kết (các trọng số): Mỗi liên kết thể trọng số (thường gọi trọng số liên kết) Trọng số liên kết tín hiệu vào thứ j cho nơron i thường ký hiệu wij Thông thường trọng số khởi tạo ngẫu nhiên thời điểm khởi tạo mạng cập nhật liên tục trình học mạng - Bộ tổng (Hàm tổng): Thường dùng để tính tổng tích đầu vào với trọng số liên kết - Ngưỡng: Ngưỡng thường đưa vào thành phần hàm truyền - Hàm truyền: Hàm dùng để giới hạn phạm vi đầu nơron Nó nhận đầu vào kết hàm tổng ngưỡng cho Thông thường, phạm vi đầu nơron giới hạn đoạn [0,1] [-1,1] Các hàm truyền đa dạng, hàm tuyến tính phi tuyến Việc lựa chọn hàm truyền tùy thuộc vào toán kinh nghiệm người thiết kế mạng - Đầu ra: Là tín hiệu đầu nơron, với nơron có tối đa đầu 6 Về mặt tốn học, cấu trúc nơron i mô tả cặp biểu thức sau: n yi  f (net i   i ) net i   wij x j j 1 Trong đó: x1, x2, …xm tín hiệu đầu vào, cịn wi1, wi2,…,wim trọng số kết nối nơron thứ i, neti hàm tổng, f hàm truyền,  i ngưỡng, yi tín hiệu đầu nơron Như vậy, tương tự nơron sinh học, nơron nhân tạo nhận tín hiệu đầu vào, xử lý (nhân tín hiệu với trọng số liên kết, tính tổng tích thu gửi kết đến hàm truyền), cho tín hiệu đầu (là kết hàm truyền)  Hàm truyền có dạng sau: 1 y 0 x0 x0 - Hàm bước - Hàm giới hạn chặt (hay gọi hàm bước)  y  sgn( x)    - x0 x0 Hàm bậc thang x 1 1  y  sgn( x)   x  x  0 x0  - Hàm ngưỡng đơn cực y - 1  e  x với λ>0 Hàm ngưỡng hai cực y 1  e  x với λ>0  Đồ thị dạng hàm truyền biểu diễn sau: Hình 1.4 Đồ thị dạng hàm truyền 1.2 Mạng Nơron Kohonen toán phân cụm liệu 1.2.1 Giới thiệu mạng Kohonen (SOM - Self Organizing Maps) Trong kiểu khác mạng nơron, mạng nơron Kohonen giống với mạng nơron sinh học cấu tạo lẫn chế học Mạng nơron nhân tạo lần giới thiệu Kohonen vào năm 1982, biết đến ánh xạ đặc trưng tự tổ chức (SOM) Ánh xạ tự tổ chức Kohonen cịn biết đến mơ hình đơn giản mạng nơron, người ta thường gọi mạng nơron Kohonen Mạng nơron Kohonen (hay nơron tự tổ chức) mơ hình hóa cách hoạt động não người, đơn giản Chúng ta nhận số ý tưởng cách não lưu trữ hình ảnh cách nhận dạng hình ảnh Cách xử lý thơng tin mạng nơron khác thường quan tâm đến giá trị dấu hiệu thông tin đầu vào, chưa quan tâm khai thác mối liên hệ có tính chất cấu trúc lân cận vùng liệu mẫu, hay tồn thể khơng gian Nhưng mạng nơron Kohonen quan tâm đến yếu tố Tự tổ chức mạng nơron chủ đề hút mạng nơron Một mạng nơron luyện để tìm quy luật tương quan, giá trị nhập vào dự đoán kết Các nơron mạng thơng qua q trình luyện cạnh tranh để nhận nhóm đối tượng đầu vào tương đương Mục đích việc luyện mạng nơron Kohonen nhận dạng nhóm vector đầu vào loại Việc thi hành mạng nơron Kohonen thay thuật tốn tương ứng mà dễ dàng thi hành, ln sử dụng ứng dụng mạng nơron Kohonen Chúng ta gọi thuật tốn thuật toán mạng nơron tự tổ chức (Kohonen, 1988) hay ánh xạ tự tổ chức SOM Ý tưởng đáng ý thuật toán ánh xạ đặc trưng topo tự tổ chức nhằm bảo toàn trật tự xếp mẫu không gian biểu diễn nhiều chiều sang khơng gian với mảng nơron có số chiều nhỏ hơn, thường hai chiều Đây phép chiếu phi tuyến đem lại “ánh xạ đặc trưng” hai chiều, sử dụng việc phát phân tích đặc trưng không gian đầu vào Ta hiểu điều bảo toàn cấu trúc đặc trưng Trong mạng nơron Kohonen, vector tín hiệu đầu vào gần ánh xạ sang nơron lân cận mạng Kỹ thuật SOM áp dụng thành công số lĩnh vực nhận dạng, phân cụm liệu, dự đoán chuỗi khai phá liệu, [8, 9] Mẫu nhận dạng ảnh, âm văn bản, Có thể xem SOM lớp điển hình, đơn giản mạng nơron Kohonen Mạng luyện khơng có thầy hướng dẫn, kiểu luyện mà nơron tự xoay xở với liệu mẫu mà có khơng có “Ơng thầy” gợi ý cần luyện theo hướng Tự khám phá quan hệ quan tâm, ví dụ dạng (patterns), đặc trưng (features) từ liệu vào (input data) sau chuyển thành (outputs) Như thực chất: mạng tự tổ chức (hay mạng nơron Kohonen) Mạng noron Kohonen mạng có khả sử dụng kinh nghiệm khứ để thích ứng với biến đổi mơi trường (khơng dự báo trước) Loại mạng thuộc nhóm hệ học, thích nghi khơng cần có tín hiệu đạo từ bên 9 Trong phần trình bày số quy trình luyện tham số luyện khơng có thầy sau: Mơ hình Mạng có n nơron PEi , i=1, 2, , n Cái chúng y i , i=1, 2, , n Có m tín hiệu vào {x1, x2, , xm},wij trọng số liên kết từ xj với PEi Gọi s(x), s(y) hàm chuyển tín hiệu, giả thiết hàm đơn điệu không giảm liên tục dạng hàm Sigmoid Phương thức biến đổi trọng số gọi luật luyện Hebb, quy tắc luyện đơn giản theo dạng Hebb cho phương trình: wij'  dwij (t ) dt   wij  si ( y i ).s j ( x j ) Bây ta xét số trường hợp riêng: - Quy tắc luyện cạnh tranh (Competitive Learning Rule - Grossberg 1969, Rumelhart 1986) wij'  si ( y i )( s j ( x j )  wij ) si ( yi )  - Nếu dùng ,  e  cyi s j (xj )  xj c  ta thu : Quy tắc luyện cạnh tranh tuyến tính (the Linear competitive learning rule) wij'  si ( y i )( x j  wij ) Trường hợp riêng quan trọng quy tắc “ thắng lấy tất - the winner - take all learning rule “ Kohonen, giải thích để hiểu qua tốn phân cụm tập mẫu X   x , x , , x p  thành n cụm, với n cho Kí hiệu x Rm, w i  ( w i , w i , , w im )  R m , α hệ số học Tại vòng lặp k, quy tắc luyện gồm bước: 10 Bước 1: Bước tìm khớp (matching) - tìm nơron tạm gọi nơron thắng (theo nghĩa gần mẫu nhất), sử dụng công thức sau: y  max( y1 y m )  x.w , (Phương pháp tính tích vơ hướng) x Bước 2: Tính tốn sai số điều chỉnh trọng số Ký hiệu ej sai số cột thứ j, wij biểu diễn cho cột thứ j ma trận trọng số w, sai số tính theo công thức sau: ej = ||x-wij|| Nếu tổng sai số chưa nằm mức cho phép, ta điều chỉnh trọng số theo công thức: wijk 1  wijk   ( xi  wijk ) với k =1,…,m Khi mẫu đưa tới mạng Kohonen, nơron chọn nơron thắng (winner) (nơron thích hợp theo nghĩa mà ta đặt ra) Nơron thắng liệu đầu từ mạng Kohonen Thông thường, nơron thắng tương ứng với nhóm liệu đưa vào mạng Kohonen Mạng Kohonen huấn luyện chế độ khơng có giám sát Sử dụng mạng Kohonen này, liệu phân loại thành cụm 1.2.2 Bài toán phân cụm liệu 1.2.2.1 Khái niệm Phân cụm liệu kỹ thuật Data mining nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thông tin, tri thức cho việc định [5] Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết khơng quan tâm đến để đổi lấy liệu đơn giản hóa Hay ta hiểu “Phân cụm liệu trình tổ chức đối tượng thành nhóm mà đối tượng nhóm tương tự theo tính chất đó, đối tượng khơng tương tự tính chất nhóm khác” [5] 11 Phân cụm liệu q trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng có thầy Khơng giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ Ngồi phân cụm liệu cịn sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác phân loại mô tả đặc điểm, có tác dụng việc phát cụm Như vậy, phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho đối tượng cụm “tương tự” (Similar) với đối tượng cụm khác “không tương tự” (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định Chúng ta thấy điều với ví dụ đơn giản sau: Hình 1.5: Ví dụ phân cụm liệu Trong trường hợp này, dễ dàng xác định cụm dựa vào liệu cho; tiêu chí “tương tự” để phân cụm trường hợp khoảng cách: hai nhiều đối tượng thuộc nhóm chúng “đóng gói” 12 theo khoảng cách định Điều gọi phân cụm dựa khoảng cách Một kiểu khác phân cụm liệu phân cụm liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc nhóm có định nghĩa khái niệm chung cho tất đối tượng Nói cách khác, đối tượng nhóm phải phù hợp với theo miêu tả khái niệm định nghĩa, theo biện pháp đơn giản tương tự 1.2.2.2 Mục tiêu phân cụm liệu Mục tiêu phân cụm liệu để xác định nhóm nội bên liệu khơng có nhãn Nhưng để định tạo thành cụm tốt Nhưng làm để định tạo nên phân cụm liệu tốt ? Nó hiển thị khơng có tiêu chuẩn tuyệt đối “tốt nhất” mà độc lập với mục đích cuối phân cụm liệu Do đó, mà người sử dụng phải cung cấp tiêu chuẩn, theo cách mà kết phân cụm liệu phù hợp với nhu cầu họ cần Ví dụ, quan tâm đến việc tìm kiếm đối tượng đại diện cho nhóm đồng “các cụm tự nhiên” mơ tả thuộc tính khơng biết chúng việc tìm kiếm nhóm hữu ích phù hợp việc tìm kiếm đối tượng bất thường liệu (cá biệt, ngoại lệ, nhiễu) Hình 1.6: Ví dụ phân cụm ngơi nhà dựa khoảng cách 13 Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu Nhiễu hiểu đối tượng liệu khơng xác, khơng tường minh đối tượng liệu khuyết thiếu thơng tin số thuộc tính Một kỹ thuật xử lí nhiễu phổ biến việc thay giá trị thuộc tính đối tượng nhiễu giá trị thuộc tính tương ứng Ngồi ra, dị tìm đối tượng ngoại lai hướng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tượng liệu khác thường so với liệu sở liệu, tức đối tượng liệu không tuân theo hành vi mơ hình liệu nhằm tránh ảnh hưởng chúng tới trình kết phân cụm Hình 1.7: Ví dụ phân cụm ngơi nhà dựa kích cỡ Theo nghiên cứu đến thời điểm chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc sở liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc sở liệu, với cách thức biểu diễn khác có tương ứng thuật tốn phân cụm phù hợp Vì phân cụm liệu 14 vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực khai phá liệu 1.2.2.3 Ứng dụng phân cụm liệu Kỹ thuật phân cụm áp dụng nhiều lĩnh vực như: - Thương mại: Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ công ty để giúp công ty có chiến lược kinh doanh hiệu hơn; - Sinh học: Phân nhóm động vật thực vật dựa vào thuộc tính chúng; - Thư viện: Theo dõi độc giả, sách, dự đoán nhu cầu độc giả…; - Bảo hiểm, tài chính: Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đoán xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds); - WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);… - Quy hoạch thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý…nhằm cung cấp thông tin cho quy hoạch đô thị - Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm 1.2.2.4 Các yêu cầu phân cụm Phân cụm thách thức lĩnh vực nghiên cứu chỗ ứng dụng tiềm chúng đưa yêu cầu đặc biệt chúng Sau yêu cầu phân cụm khai phá liệu: - Thuật toán phải hiệu thời gian chạy phải tăng tuyến tính theo kích thước liệu - Thuật toán phải xử lý áp dụng với sở liệu nhiều nhiễu, phức tạp bao gồm liệu không gian, phi không gian, liệu số, phi số, 15 kiểu nhị phân, liệu định danh, hạng mục, thích nghi với kiểu liệu hỗn hợp - Thuật tốn phải có khả xác định với cụm với hình dáng bao gồm cụm có hình dáng lồng nhau, cụm có hình dạng lõm, hình cầu, hình que… - Tối thiểu lượng tri thức cần cho xác định tham số đầu vào Do giá trị đầu vào thường thường ảnh hưởng lớn đến thuật toán phân cụm phức tạp để xác định giá trị vào thích hợp với sở liệu (CSDL) lớn - Thuật toán phải thực với thứ tự đầu vào liệu Nói cách khác kết thuật toán nên độc lập với liệu đầu vào - Thuật tốn khơng địi hỏi tri thức CSDL từ người dùng - Thuật toán phải làm việc với CSDL chứa nhiều lớp đối tượng liệu phức tạp có tính chất khác - Thuật tốn phải thích nghi với liệu đa chiều: Thuật tốn có khả áp dụng hiệu cho liệu có số chiều khác - Thuật tốn phải dễ hiểu, dễ cài đặt khả thi: Người sử dụng chờ đợi kết phân cụm dễ hiểu, dễ lý giải dễ sử dụng Nghĩa là, phân cụm cần giải thích ý nghĩa ứng dụng rõ ràng Việc nghiên cứu để ứng dụng đạt mục tiêu quan trọng gây ảnh hưởng tới lựa chọn phương pháp phân cụm 16 Chương : PHÂN CỤM DỮ LIỆU BẰNG MẠNG KOHONEN 2.1 Thuật toán phân cụm liệu Phân cụm liệu kỹ thuật sử dụng quan sát đối tượng, mục đích để tổ chức tập đối tượng cụ thể trừu tượng vào nhóm, cụm phân biệt Bài tốn phân cụm thường thực nội dung thông tin thành phần thuộc cụm để định nghĩa trước lớp Vì lý mà cơng việc phân cụm thường nhìn mắt học máy không giám sát, phương pháp học mà ta cho trước mẫu gồm đối tượng cần tìm cấu trúc đáng quan tâm liệu nhóm lại liệu giống Thuật tốn phân cụm phát triển cho kết tốt với loại tập hợp liệu, thất bại cho kết với liệu loại khác Mặc dù có nhiều nỗ lực để tiêu chuẩn hóa thuật tốn thực tốt tất trường hợp tình nhiên chưa đạt kết mong muốn Nhiều thuật toán phân cụm đề xuất, thuật toán có giá trị riêng điểm yếu riêng khơng thể làm việc cho tất tình thực tế Phân cụm trình phân vùng liệu thiết lập thành nhóm dựa đặc điểm tương tự Đây vấn đề quan trọng học khơng giám sát Nó thực cơng việc với cấu trúc tìm kiếm liệu không dán nhãn Để thực tốt thuật tốn phân cụm cần phải có điều kiện: - Khả mở rộng - liệu phải mở rộng không đưa kết sai - Thuật tốn phân cụm phải có khả giải với loại thuộc tính khác - Thuật tốn phân cụm phải tìm cụm liệu với hình dạng khác - Thuật tốn phân cụm không bị ảnh hưởng nhiễu giá trị ngoại lệ - Kết thu giải thích sử dụng để hiểu biết tối 17 đa thông số đầu vào - Thuật tốn phân cụm phải có khả giải tập liệu đa chiều 2.2 Một số thuật toán phân cụm liệu 2.2.1 Thuật toán phân cụm phân cấp Phương pháp xây dựng phân cấp sở đối tượng liệu xem xét Nghĩa xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến kỹ thuật là: hịa nhập nhóm, thường gọi tiếp cận (Bottom-Up); phân chia nhóm, thường gọi tiếp cận (Top-Down) - Phương pháp “dưới lên” (Bottom up): Phương pháp bắt đầu với đối tượng khởi tạo tương ứng với cụm riêng biệt, sau tiến hành nhóm đối tượng theo độ đo tương tự (như khoảng cách hai trung tâm hai nhóm) [4], [5], [6], q trình thực tất nhóm hịa nhập vào nhóm (mức cao phân cấp) điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận sử dụng chiến lược ăn tham trình phân cụm Hình 2.1: Các chiến lược phân cụm phân cấp - Phương pháp “trên xuống” (Top Down): Bắt đầu với trạng thái tất đối tượng xếp cụm Mỗi vịng lặp thành cơng, cụm tách thành cụm nhỏ theo giá trị phép đo độ tương tự đối tượng cụm, điều kiện dừng thỏa mãn [4], [5], [6] Cách tiếp cận sử dụng chiến lược chia để trị q trình phân 18 cụm Thuật tốn: Cho X={x1,x2…xn} tập hợp điểm liệu Bước 1: Bắt đầu với phân chia nhóm có mức L(0) = dãy số m = Bước 2: Tìm khoảng cách tối thiểu cụm cụm biểu diễn cặp (r), (s) theo công thức d[(r),(s)]=min d[i,j] nhỏ so với cụm Bước 3: Tăng số thứ tự m=m+1 Hợp cụm (r) (s) vào cụm hình thành m cụm Thiết lập mức nhóm L (m)=d[(r),(s)] Bước 4: Cập nhật ma trận khoảng cách D cách xóa hàng cột tương ứng với cụm (r) (s) thêm hàng cột tương ứng với cụm thành lập Khoảng cách cụm ký hiệu (r,s) cụm cũ (k) định nghĩa d[(k),(r,s)] = min(d[(k),(r)],d[(k),(s)]) Bước 5: Nếu tất điểm liệu cụm dừng lại khơng lặp lại từ bước Thực tế áp dụng, có nhiều trường hợp kết hợp hai phương pháp phân cụm phân hoạch phân cụm phân cấp, nghĩa kết thu phương pháp phân cấp cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch phân cụm phân cấp hai phương pháp phân cụm liệu cổ điển, có nhiều thuật toán cải tiến dựa hai phương pháp áp dụng phổ biến khai phá liệu 2.2.2 Thuật toán phân cụm phân hoạch (Thuật toán K-means) Kỹ thuật phân hoạch tập hợp liệu có n phần tử thành k nhóm xác định số cụm thiết lập Số cụm thiết lập đặc trưng lựa chọn trước Phương pháp tốt cho việc tìm cụm hình cầu khơng gian Euclidean Ngoài ra, phương pháp phụ thuộc vào khoảng cách điểm để lựa chọn điểm liệu có quan hệ gần với điểm khác điểm liệu khơng có quan hệ có 19 quan hệ xa so với điểm khác Tuy nhiên, phương pháp khơng thể xử lí cụm có hình dạng kỳ quặc cụm có mật độ điểm dầy đặc Các thuật toán phân hoạch liệu có độ phức tạp lớn xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm liệu, phải tìm kiếm tất cách phân hoạch Chính vậy, thực tế thường tìm giải pháp tối ưu cục cho vấn đề cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm để hướng dẫn cho trình tìm kiếm phân hoạch liệu Như vậy, ý tưởng thuật toán phân cụm phân hoạch tối ưu cục sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm [2] Điển hình phương pháp tiếp cận theo phân cụm phân hoạch thuật toán như: K_means, K-medoids, CLARA (Clustering Large Applications), CLARANS (Clustering Large Applications based on RAndomized Search) Thuật toán k-mean Thuật toán dựa độ đo khoảng cách đối tượng liệu đến phần tử trung tâm cụm chứa Hình 2.2 Các thiết lập để xác định ranh giới cụm ban đầu Thuật toán k-means lấy tham số đầu vào k phân chia tập n đối tượng vào k cụm kết độ tương đồng cụm cao độ tương đồng cụm thấp Độ tương đồng cụm đo đánh giá giá trị 20 trung bình đối tượng cụm, quan sát “trọng tâm” cụm Giải thuật xử lý sau: trước tiên lựa chọn ngẫu nhiên k đối tượng, đối tượng đại diện cho trung bình cụm hay tâm cụm Đối với đối tượng lại, đối tượng ấn định vào cụm mà giống dựa khoảng cách đối tượng trung bình cụm Sau tính lại trung bình cụm cho cụm Xử lý lặp lại hàm tiêu chuẩn hội tụ Bình phương sai số thường dùng làm hàm tiêu chuẩn hội tụ, định nghĩa sau : Với x điểm không gian đại diện cho đối tượng cho trước, mi trung bình cụm Ci (cà x mi đa chiều) Tiêu chuẩn cố gắng cho kết k cụm đặc, riêng biệt tốt Hình 2.3 Tính tốn trọng tâm cụm Thuật toán k-means bao gồm bước sau : Đầu vào : Số cụm k hàm E 21 Đầu : Các cụm C[i] (1 ≤ i ≤ k) với hàm tiêu chuẩn E đạt giá trị tối thiểu Begin Bước : Khởi tạo Chọn ngẫu nhiên k tâm {mj}kj=1 ban đầu không gian Rd (d số chiều liệu) Mỗi cụm đại diện tâm cụm Bước 2: Tính tốn khoảng cách Đối với điểm xi(1 ≤ i ≤ n), tính tốn khoảng cách tới trọng tâm mj(1 ≤ j ≤ k) Sau tìm trọng tâm gần điểm nhóm chúng vào nhóm gần Bước 3: Cập nhật lại trọng tâm Đối với 1≤ j ≤ k, cập nhật trọng tâm cụm mj cách xác định trung bình cộng vectơ đối tượng liệu Bước 4: Gán lại nhóm đối tượng vào nhóm gần dựa trọng tâm nhóm Điều kiện dừng: Lặp lại bước trọng tâm cụm khơng thay đổi End Thuật tốn k-means chứng minh hội tụ có độ phức tạp tính tốn O(tkn) với t số lần lặp, k số cụm, n số đối tượng tập liệu vào Thông thường k

Ngày đăng: 04/08/2020, 21:01

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan