Khóa luận tốt nghiệp toán học: Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu

38 517 1
Khóa luận tốt nghiệp toán học: Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Sau một thời gian học tập, nghiên cứu và triển khai đề tài: “Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu”, đến nay tôi đã hoàn thành đề tài nghiên cứu của mình. Tôi xin bày tỏ tấm lòng biết ơn sâu sắc nhất tới thầy giáo Thạc sỹ Nguyễn Duy Hiếu người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình tôi thực hiện đề tài nghiên cứu khoa học này. Tôi cũng chân thành cảm ơn tới lãnh đạo Nhà trường, Ban chủ nhiệm Khoa cùng các thầy cô giáo đã giúp đỡ, tạo điều kiện để tôi có cơ hội nghiên cứu, học tập và hoàn thành đề tài nghiên cứu này. Do hạn chế về trình độ chuyên môn và thời gian thực hiện nên đề tài không tránh khỏi những thiếu sót, rất mong nhận được sự góp ý của thầy cô để tôi có thể hoàn thành tốt nhất đề tài nghiên cứu này. Tôi xin chân thành cảm ơn Sơn

1 LỜI CẢM ƠN Sau một thời gian học tập, nghiên cứu và triển khai đề tài: “Tính toán mờ trong mạng Kohonen và ứng dụng phân cụm dữ liệu”, đến nay tôi đã hoàn thành đề tài nghiên cứu của mình. Tôi xin bày tỏ tấm lòng biết ơn sâu sắc nhất tới thầy giáo - Thạc sỹ Nguyễn Duy Hiếu người thầy đã trực tiếp hướng dẫn tôi trong suốt quá trình tôi thực hiện đề tài nghiên cứu khoa học này. Tôi cũng chân thành cảm ơn tới lãnh đạo Nhà trường, Ban chủ nhiệm Khoa cùng các thầy cô giáo đã giúp đỡ, tạo điều kiện để tôi có cơ hội nghiên cứu, học tập và hoàn thành đề tài nghiên cứu này. Do hạn chế về trình độ chuyên môn và thời gian thực hiện nên đề tài không tránh khỏi những thiếu sót, rất mong nhận được sự góp ý của thầy cô để tôi có thể hoàn thành tốt nhất đề tài nghiên cứu này. Tôi xin chân thành cảm ơn! Sơn la, tháng 5 năm 2014 Sinh viên Hoàng Khánh Linh 2 MỤC LỤC PHN M U 7 1. Lý do ch tài 7 2. M nhim v nghiên cu 7 ng nghiên cu 7 4. Phm vi nghiên cu 7 u 7 6. Cu trúc c tài 7 TNG QUAN V MÔ HÌNH M-RON 8 1.1. M-ron nhân to 8 1.1.1. M-ron nhân to là gì? 8 1.1.2 Cu trúc và mô hình ca m-ron nhân to 8 1.1.3 Cu tc làm vic ca m-ron 10 1.1.4. Các kiu m-ron 12 c 16 1.2.1. Khái Nim 16 1.2.2. Hc có giám sát 16 1.2.3. Hc không giám sát 17 1.2.4. Hc na giám sát 18 1.2.5. Hng 18 LÝ THUYT TP M 19 2.1. Tp m 19 2.1.1. Khái nim tp rõ 19 2.1.2. Khái nim tp m 19 2.2. S m 21 2.2.1. nh  m 21 2.2.2. S m  21 2.2.3. S m tam giác 21 2.2.4. S m hình thang 22 3 2.2.5. S m hình chuông(Gauss) 22 2.3. Bin ngôn ng 22 2.4. B gii m 24 2.4.1. y max 24 2.4.2. y trng tâm 24 2.4.3. y trung bình tâm 24  THUT SOM VÀ BÀI TOÁN PHÂN CM D LIU 25 c v SOM 25 3.2.  25 3.3. Thut toán phân cm s dng SOM 26 3.4. Ví d minh ha thut toán 27 NG DNG MINH HA 32 4.1. Mô t d liu 32 4.2. La chn ngôn ng lp trình và h qun tr  d liu 32 4t thut toán 32 t thut toán 32 4.3.2. ng dng 36 KT LUN 37 1. Kt lun 37 ng nghiên cu phát tri tài 37 TÀI LIU THAM KHO 38 4 DANH SÁCH HÌNH VẼ -ron nhân to 8  th các dng hàm truyn 10 Hình 3: M-ron ba lp 11 Hình 4: Mt s dng m-ron 13 Hình 5 Cu trúc ca mng Hopfield 14 Hình 6: Cu trúc ca BAM 15 Hình 7:  th hàm thuc µ A(x) 20 Hinh 8: S m tam giác 22 Hinh 9: S m hình thang 22 Hình 10: S m hình chuông 22 Hình 1 th biu din mi quan h gia nhi c thuc 23 Hình 12: Kin trúc ca SOM 26 Hình 13: Kin 26  mng Kohonen cho ví d trên 29 Hình 15: Giao din chính c 33 Hình 16: Sau khi phân cm hoàn tt 34 Hinh 17: D liu 34 Hinh 18: Kt qu phân cm - Cm 1 35 Hình 19: Kt qu phân cm - Cum 2 35 Hinh 20: Kt qu phân cm - Cum 3 36 5 DANH MỤC BẢN BIỂU Bng 1: S m ng buying 28 Bng 2: S m ng maint 28 Bng 3: S m ng lug_boot 28 Bng 4: S m ng safety 28 Bng 5: D liu vào ca ví d 28 Bng thông tin trong CSDL 32 6 DANH MỤC TỪ VIẾT TẮT SOM Self Organizing Maps ANN Artificial Neural Network PE Processing Element MDP Markov Decision Process PCDL Phân cm d liu CSDL  d liu 7 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Ph      (SOM: Self-    -ron-ron vào và -ron -ron  -ron -ron  -ron   ,  ,   .              ,                           (Control Engineering),      (Kohonen, 1989), robotics (Ritter et al., 1989),  (Oja, 1992),      (Fort, 1988),   (Kohonen, 1984), -   (Biomedical Sciences and Chemistry),        (Financial Analysis)  (Natural Language Processing). 2. Mục đích, nhiệm vụ nghiên cứu - Tìm hiu m-ron và k thut SOM. - Trin khai ng dng s dng k thut SOM vào phân cm d liu. 3. Đối tƣợng nghiên cứu - Mng -ron và k thut Self Organizing Map (SOM). 4. Phạm vi nghiên cứu - Nghiên cu k thut SOM và s d phân cm d liu. - ng dng th nghim. 5. Phƣơng pháp nghiên cứu - Nghiên cu lý thuyt và xây dng mô hình ng dng cho bài toán thc t - Thu thp s liu thc t  th nghim trên mô hình - Xây d nghim 6. Cấu trúc của đề tài  tài gm ba phn: - Phn 1: Phn m u - Phn 2: Phn ni dung c tài gm 4  Tng quan v mô hình mng -ron t tp m 3: K thut SOM và bài toán phân cm d liu 4ha - Phn 3: Kt lung nghiên cu phát tri tài 8 CHƢƠNG 1 TỔNG QUAN VỀ MÔ HÌNH MẠNG NƠ-RON 1.1. Mạng nơ-ron nhân tạo 1.1.1. Mạng nơ-ron nhân tạo là gì? Định nghĩa: Mng -ron nhân to (Artificial Neural Network - ANN) gi tt là mng -ron là mt mô hình x lý thông tin phng theo cách thc x lý thông tin ca các h -ron sinh hc to lên t mt s ng ln các phn t (gi là phn t x lý hay -ron) kt ni vi nhau thông qua các liên kt (gi là trng s liên kt) làm vic nt th thng nh gii quyt mt v c th  Mt mng -ron nhân tc cu hình cho mt ng dng c th (nhn dng mu, phân loi d liu ) thông qua mt quá trình hc t tp các mu hun luyn. V bn cht hc chính là quá trình hiu chnh trng s liên kt gia các -ron. 1.1.2 Cấu trúc và mô hình của một nơ-ron nhân tạo Mô hình toán hc ca mng -ron sinh h xut bi McCulloch và c gi là -ron M-c gi là phn t x lý và c ký hiu là PE (Processing Element). Mô hình -ron u vào x 1 , x 2 , , x m và mu ra y i  Hình 1. Mô hình -ron nhân to Gii thích các thành phn: Tu vào: Là các tín hiu vào ca -ron, các tín hic i dng mt vector m chiu. Tp các liên kt (các trng s): Mi liên k c th hin bi mt trng s c gi là trng s liên kt). Trng s liên kt gia tín hiu vào th j cho n- ron i c ký hiu là w ij ng các trng s c khi to ngu nhiên  thm khi to mc cp nht liên tc trong quá trình hc mng. 9 B tng (Hàm t tính tng cu vào vi trng s liên kt ca nó. t thành phn ca hàm truyn. Hàm truy gii hn phu ra ca mi -ron. Nó nhn u vào là kt qu ca hàm tng, phu ra ca mi -ron c gii hn [0,1] hoc [-1,1]. Các hàm truyn rng, có th là các hàm tuyn tính hoc phi tuyn. Vic la chn hàm truyn tùy thuc vào tng bài toán và kinh nghim ci thit k mng. u ra: Là tín hiu ra ca mt -ron, vi mi -ron s có tu ra. V mt toán hc, cu trúc ca mt -ron c mô t bng cp biu thc sau: )( iii netfy   và j n j iji xwnet    1 T 1 , x 2  m là các tín hiu vào, còn w i1 , w i2  im là các trng s kt ni ca -ron th i, net i là hàm tng, f là hàm truyn, i  là mng, y i là tín hiu ra ca -ron.  -ron sinh hc, -ron nhân tn các tín hiu u vào, x lý (nhân các tín hiu này vi trng s liên kt, tính tc ri gi kt qu n hàm truyn), và cho mt tín hi u ra (là kt qu ca hàm truyn). * Hàm truyn có th có các dng sau: c       00 01 xkhi xkhi y (1.1) Hàm gii hn cht       01 01 )sgn( xkhi xkhi xy (1.2) Hàm bc thang          00 10 11 )sgn( xkhi xkhix xkhi xy (1.3) c x     e y 1 1 v (1.4) ng hai cc 10 1 1 2     x  e y v (1.5) *  th các dng hàm truyn c biu di Hình 2:  th các dng hàm truyn 1.1.3 Cấu tạo và phƣơng thức làm việc của mạng nơ-ron Da trên nhng -ron  mc trên, ta có th hình dung mng -ron t h truyt và x lý tín hic tính truyt ca -ron phn lc tính truy Khi liên ku vào/ra ca nhiu -ron vc mt mng - ron, vic ghép ni các -ron trong mng vi nhau có th là theo mt nguyên tc bt k. Vì mng -ron là mt h truyt và x lý tín hiu, nên có th phân bit các loi -ron khác nhau, các -ron u vào nhn thông tin t ng bên ngoài khác vi các -ron c ni vi các -ron khác trong mc phân bit vi nhau qua vector hàm trng s  u vào w. Nguyên lý cu to ca mng -ron bao gm nhiu lp, mi lp bao gm nhiu -ron có cùng chng. Hình 3 là mô hình hong ca mt mng - ron 3 lp vi 8 phn t -ron. Mu vào là x 1 , x 2 , x 3 u ra y 1 , y 2 . Các tín hin 3 -ron u vào, 3 -ron này làm thành lu vào ca mng. Các -ron trong lc gi là -ron u ra ca các [...]... Cho mẫu thứ 2 vào và việc tính toán tƣơng tự… cho đến hết các mẫu Sau đó các mẫu đƣợc đƣa vào lặp lại cho đến khi trọng số không đổi thì đừng 31 CHƢƠNG 4 ỨNG DỤNG MINH HỌA 4.1 Mô tả dữ liệu Đối với đề tài này, tôi đã xem xét áp dụng thuật toán PCDL (Phân cụm dữ liệu) sử dụng mạng Kohonen đối với dữ liệu mờ là dữ liệu về đánh giá ô tô đƣợc lấy trên kho dữ liệu chuẩn chuyên dùng cho học máy Trong phạm vi... ghi Nhìn chung ứng dụng đã đáp ứng đƣợc yêu cầu minh họa cho tính toán mờ trong mạng Kohonen và áp dụng vào bài toán phân cụm dữ liệu Kết quả phân cụm đƣợc minh họa nhƣ các hình trên Nói chung, kết quả phân cụm khá tốt, các sản phẩm có thông tin bán hàng tƣơng đồng nhau đƣợc xếp cùng một nhóm Tuy nhiên, việc phân cụm của chúng tôi còn một số hạn chế cần đƣợc hoàn thiện hơn: cần mở rộng dữ liệu có nhiều... bài toán Các hình ảnh minh họa cài đặt thuật toán, giả sử chọn số cụm k=3: Hình 15: Giao diện chính của chƣơng trình 33 Hình 16: Sau khi phân cụm hoàn tất Hinh 17: Dữ liệu ban đầu 34 Hinh 18: Kết quả phân cụm - Cụm 1 Hình 19: Kết quả phân cụm - Cum 2 35 Hinh 20: Kết quả phân cụm - Cum 3 4.3.2 Đánh giá ứng dụng Trong khuôn khổ đề tài chúng tôi đã tiến hành thử nghiệm thuật toán phân cụm sử dụng mạng Kohonen. .. tài, phần ứng dụng chỉ mang tính chất thử nghiệm và minh họa cho thuật toán để xem xét tính hiệu quả của thuật toán đối với dữ liệu mờ Tôi xin đề suất sử dụng dữ liệu gồn 1728 bản ghi với các thông tin: buying, maint, doors, persons, lug_boot, safety Trong đó, các thuộc tính khi sử dụng vào phân cụm đƣợc mờ hóa theo số mờ tam giác đã nêu trong ví dụ ở phấn 3.4 4.2 Lựa chọn ngôn ngữ lập trình và hệ quản... dữ liệu có nhiều bản ghi hơn và thử nghiệm phân cụm với CSDL khác (VD: cho ngƣời dùng chọn CSDL và trƣờng phân cụm) Ứng dụng đƣợc viết thành nhiều class với chức năng riêng biệt tạo cơ sở cho việc phát triển mô hình hóa tính toán sau này (phân cụm trên các CSDL khác nhau) Ứng dụng không biểu diễn đƣợc dữ liệu dƣới dạng trực quan bằng hình vẽ Do dữ liệu để phân cụm là dữ liệu 6 chiều, hiện tại chƣa có... học máy, sử dụng cả dữ liệu đã gán nhãn và chƣa gán nhãn để huấn luyện - điển hình là một lƣợng nhỏ dữ liệu có gán nhãn cùng với lƣợng lớn dữ liệu chƣa gán nhãn Học nửa giám sát ứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều đƣợc gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi đƣợc sử dụng kết hợp với một chút dữ liệu có gán... mờ cho trƣờng maint * lug_boot Mức đánh giá Số mờ tƣơng ứng small (1,4,7) med (4,7,10) big (7,10,10) Bảng 3: Số mờ cho trƣờng lug_boot * safety Mức đánh giá Số mờ tƣơng ứng low (1,4,7) med (4,7,10) high (7,10,10) Bảng 4: Số mờ cho trƣờng safety Giả sử, yêu cầu phân các chiếc xe làm 3 cụm Mô hình: dùng mạng Kohonen có 6 nơ-ron đầu vào tƣơng ứng với 6 thuộc tính của dữ liệu và 3 nơ-ron đầu ra tƣơng ứng. .. thiệu bởi C von der Malsburg năm 1973 và đƣợc phát triển bởi T Kohonen (Phần Lan) năm 1982 nên còn đƣợc gọi là Kohonen Network Kỹ thuật SOM đã đƣ ợc áp dụng thành công trong một số lĩnh vực nhƣ nh ận dạng, phân cụm dữ liệu, dự đoán chuỗi và khai phá dữ liệu, Mẫu đƣợc nhận dạng có thể là ảnh, âm thanh hoặc văn bản, SOM sử dụng cạnh tranh mềm (soft) để gom cụm dữ liệu Có nghĩa là, ngoài việc cập nhật... input vector và các neurons 25 Hình 12: Kiến trúc của SOM Sau đây là kiến trúc đơn giản của SOM gồm 2 neurons ở lớp output layer Input vector gồm 4 chiều và weight matrix wij (i=1 4 và j=1 2) nhƣ sau (hình 1): Hình 13: Kiến trúc SOM đơn giản 3.3 Thuật toán phân cụm sử dụng SOM Trong mạng Kohonen, số nơ-ron vào bằng số chiều của không gian vào(số trƣờng cảu dữ liệu) , số nơ-ron ra bằng số cụm cần phân chia... thức mạng, mạng có thể giải quyết các vấn đề một cách đúng đắn Đó có thể là vấn đề ứng dụng rất khác nhau, đƣợc giải quyết chủ yếu dựa trên sự tổ chức hợp nhất giữa các thông tin đầu vào của mạng và các đáp ứng đầu ra Mạng nơ-ron có nhiệm vụ là hoàn chỉnh hoặc hiệu chỉnh các thông tin thu đƣợc không đầy đủ hoặc bị tác động của nhiễu, đƣợc ứng dụng trong lĩnh vực hoàn thiện mẫu, trong đó có một ứng dụng .   (1.7). Quá trình này c tip tc, bao g y (1) = a(wx (0) ) x (2) = a(w (T) y (1) ) y (3) = a(wx (2) ) x (4) = a(w (T) y (3) )  y (k-1) = a(wx (k-2) )

Ngày đăng: 31/10/2014, 09:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan