Mô hình nơ ron và các kiến trúc mạng

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐÀO TẠO SAU ĐẠI HỌC BÁO CÁO CHUYÊN ĐỀ Đề tài: Mô hình nơ-ron và các kiến trúc mạng. Hà Nội, tháng 2/2012 Giảng viên hướng dẫn : TS. Lê Dũng Học viên cao học : Chu Thế Huy Nguyễn Đình Nhất Nguyễn Văn Quân Lớp : 11BKTTT1 Trang 1 “Neural Network Design” Martin T. Hagan, Howard B. Demuth, Mark Beale Thomson Learning, 1996. Chapter 2: Neuron Model and Network Architectures. Chương II: MÔ HÌNH NƠ-RON VÀ CÁC KIẾN TRÚC MẠNG. Trong chương I chúng tôi đã trình bày một cách đơn giản hóa các nơ-ron sinh học và mạng nơ-ron. Bây giờ chúng tôi sẽ giới thiệu các mô hình toán học đơn giản của nơ ron và sẽ giải thích cách mà các nơ-ron này kết nối với nhau để tạo thành các kiến trúc mạng. Chúng tôi cũng sẽ minh họa hoạt động cơ bản của các mạng này thông qua một số ví dụ đơn giản. Các khái niệm và kí hiệu đã giới thiệu trong chương này sẽ được sử dụng xuyên suốt cuốn sách này. Chương này không bao gồm tất cả các kiến trúc sẽ được sử dụng trong cuốn sách này, nhưng sẽ trình bày các khối kiến trúc cơ bản. Các kiến trúc phức tạp hơn sẽ được giới thiệu và thảo luận ở các chương sau. Tuy vậy, có khá nhiều chi tiết được trình bày ở đây. Xin lưu ý rằng độc giả không cần thiết phải nhớ tất cả các chi tiết cụ thể trong chương này trong lần đọc đầu tiên. Thay vào đó, coi đó như là một ví dụ giúp bạn khởi đầu và một nguồn tài nguyên mà bạn có thể xem lại. Trang 2 Lý thuyết và Các ví dụ. Mạng nơ-ron là khái niệm mới mẻ, đến nỗi mà các ký hiệu chuẩn và các kiến trúc đặc trưng cho chúng chưa được thiết lập vững chắc. Ngoài ra, các tờ báo và những cuốn sách về mạng nơ-ron có nguồn gốc từ nhiều lĩnh vực đa dạng, bao gồm ngành kỹ thuật, vật lý, tâm lý học và các ngành toán học, cùng nhiều tác giả có xu hướng sử dụng vốn từ vựng riêng cho lĩnh vực đặc biệt của họ. Điều này dẫn tới hậu quả là nhiều sách báo trong lĩnh vực này khó đọc, và các khái niệm được đưa ra làm phức tạp hơn bản chất của chúng. Đây là một sự hổ thẹn, nó đã kìm hãm sự ra đời của những ý tưởng mới. Trong cuốn sách này chúng tôi đã cố gắng sử dụng các ký hiệu chuẩn dễ hiểu có thể, để làm sạch và giữ lại các nội dung đơn giản giảm đi những sự khó khăn. Đặc biệt chúng tôi đã cố xác định các cách thức thực hiện và sử dụng chúng nhất quán. Các hình minh họa, các phương trình toán học và các văn bản thảo luận về hình minh họa và phương trình toán học sẽ sử dụng theo cách ký hiệu: Các đại lượng vô hướng – các chữ nghiêng nhỏ: a,b,c Vectors – các chữ nhỏ đậm không nghiêng: a,b,c Các ma trận – các chữ hoa nét đậm không nghiêng: A,B,C Thêm vào đó kí hiệu liên quan tới các kiến trúc mạng sẽ được giới thiệu khi bạn đọc chương này. Một danh sách đầy đủ các ký hiệu mà chúng tôi sử dụng xuyên suốt cuốn sách được cho ở phụ lục B, do đó bạn có thể xem ở đó nếu bạn băn khoăn. Trang 3 I. Mô hình Nơ-ron. 1. Nơ-ron Đơn Đầu Vào. Một nơ-ron đơn đầu vào được minh họa ở hình 2.1. Đại lượng đầu vào p được nhân với trọng số w để tạo thành wp, sau đó được gửi tới bộ cộng. Một đầu vào khác, 1, được nhân với một gia trị ngưỡng b và sau đó được chuyển tới bộ cộng. Đầu ra của bộ cộng là n, được xem như là net input, đi tới một hàm chuyển f, hàm chuyển này sản xuất ra đại lượng nơ-ron a. ( Một vài tác giả sử dụng “hàm kích hoat” thay cho hàm chuyển và offset thay cho giá trị ngưỡng). Nếu chúng ta liên hệ mô hình đơn giản này với nơ-ron sinh học mà chúng ta đã thảo luận trong chương 1, thì trọng số w tương ứng với cường độ của khớp thần kinh, thân tế bào được tượng trưng bởi bộ cộng và hàm chuyển, đầu ra nơ-ron a tương ứng với tín hiệu thần kinh (axon). Hình 2.1: Nơ Ron đơn đầu vào.  p b w a n f input s General Neuron a = f(wp+b) Trang 4 Đầu ra của nơ-ron được tính như sau: a = f(wp+b). Nếu, ví dụ, w =3, p = 2 và b = -1.5, thì ta có: a = f(3(2) – 1.5) = f(4.5) Thực tế thì đầu ra phụ thuộc vào đặc thù của hàm chuyển mà ta chọn. Chúng ta sẽ thảo luận về hàm chuyển ở các phần sau. Giá trị ngưỡng giống như là trọng số của đầu vào có giá trị hằng 1. Tuy nhiên, nếu bạn không muốn có một giá trị ngưỡng trong một nơ-ron riêng của bạn, nó có thể được bỏ qua. Chúng ta sẽ xem ví dụ của vấn đề này trong chương 3,7 và 14. Chú ý rằng w và b là các đại lượng vô hướng có thể điều chỉnh được để phù hợp với nơ-ron. Điển hình là hàm chuyển được chọn lựa bởi người thiết kế và sau đó các tham số w và b sẽ được điều chỉnh bởi một vài quy tắc học, vậy mà đầu vào/đầu ra nơ-ron liên hệ đáp ứng một vài mục đích riêng biệt (xem chương 4 giới thiệu về quy tắc học). Như đã miêu tả trong các mục, chúng ta có các hàm chuyển khác nhau cho các mục đích khác nhau. 2. Các hàm chuyển Hàm chuyển trong hình 2.1 có thể là một hàm tuyến tính hay phi tuyến của n. Một hàm chuyển đặc trưng được chọn để đáp ứng một số đặc điểm ký thuật của vấn đề mà nơ-ron cố gắng giải quyết. Một loạt các hàm chuyển được trình bày trong cuốn sách này. Có 3 hàm hay được sử dụng nhất sẽ được trình bày dưới đây. Hàm chuyển hard limit, đươc biểu diễn bên trái của hình 2.2, giá trị đầu ra của nơ-ron là 0 nếu đối số hàm nhỏ hơn 0, hay là 1 nếu đối số của hàm lớn hơn hay bằng 0. Chúng ta sẽ sử dụng hàm này để tạo ra các nơ-ron phân loại đầu vào thành hai loại khác biệt nhau. Nó sẽ được dùng rộng rãi hơn trong chương 4. Trang 5 Đồ thị bên phải hình 2.2 minh họa đặc tính đầu vào/ đầu ra của một nơ ron đơn đầu vào sử dụng một hàm chuyển hard limit. Tại đây, chúng ta có thể thấy ảnh hưởng của trọng số và ngưỡng. Chú ý rằng một biểu tượng của hàm chuyển này được biểu diễn ở giữa hai đồ thị trong hình minh họa. Các biểu tượng sẽ thay thế ký hiệu f trong các biểu đồ mạng để biểu diễn hàm chuyển đặc trưng đang được sử dụng. Đầu ra của một hàm chuyển tuyến tính bằng với đầu vào của nó: a = n, (2.1) như được minh họa trong hình 2.3. Những nơ-ron với hàm chuyển này được dùng nhiều trong các mạng ADALINE, mạng này sẽ được thảo luận trong chương 10. a n 1 1 0 1 1 0 a p wb / a = hardlim(n) a = hardlim(wp+b) Hard Limit Transfer Function Single-Input hardlim neuron Hình 2.2: Hàm chuyển Hard Limit. Trang 6 Đầu ra a với đầu vào p của một nơ-ron tuyến tính đơn đầu vào với một ngưỡng được thể hiện bên phải hình minh họa 2.3. Hàm chuyển log-xichma được biểu diễn trong hình 2.4. Hàm chuyển này nhận đầu vào (đầu vào có thể có bất kì giá trị nào giữa dương vô cùng và âm vô cùng) và nén thành đầu ra nằm trong khoảng 0 đến 1, theo biểu thức: 1 1 n a e    (2.2) a a pn 1 1 1 b 0 0 wb / a=purelin(n) a=purelin(wp+b) Linear Tranfer Function Single-Input purelin Neuron Hình 2.3: Hàm chuyển tuyến . a a n p 1 1 1 1 0 0wb / a = logsig(n) a = logsig(wp+b) Log-Sigmoid Tranfer Function Single-Input logsig Neuron Hình 2.4: Hàm chuyển Log-xichma. Trang 7 Hàm chuyển log-xichma thường được dùng trong các mạng đa tầng mà được huấn luyện sử dụng thuật toán hồi quy, một phần bởi vì hàm này là hàm vi phân (xem chương 11). Hầu hết các hàm chuyển đã sử dụng trong cuốn sách này được tóm tắt trong bảng 2.1. Tất nhiên, bạn có thể định nghĩa những hàm chuyển khác thay vì những hàm có trong bảng 2.1 nếu bạn muốn. Bảng 2.1: Các hàm chuyển. Trang 8 3. Nơ-ron đa đầu vào. Thông thường, một nơ-ron có nhiều hơn một đầu vào. Một nơ-ron với R đầu vào được biểu diễn trong hình 2.5. Các đầu vào riêng lẻ 1 2 3 , , , ., R p p p p được đánh trọng số theo các phần tử R wwww ,13,12,11,1 , .,,, của ma trận trọng số W. Nơ-ron có một giá trị ngưỡng b, được cộng với các trọng số đầu vào để tạo thành đầu vào n: n = 11,1 pw + 22,1 pw + … + RR pw ,1 + b. (2.3) Biểu thức này có thể được viết ở dạng ma trận: n = Wp + b, (2.4) ma trận W cho trường hợp nơ-ron đơn đầu vào chỉ có duy nhất một hàng. Bây giờ đầu ra nơ-ron có thể được viết như sau: a = f(Wp + b). (2.5) f 1 p 2 p 3 p R p 1,1 w R w ,1  a b 1 . . . Inputs Multiple-input Neuron Hình 2.5: Nơ-ron Đa đầu vào. a=f(Wp+b) n Trang 9 May mắn thay, những mạng nơ-ron thường có thể được miêu tả với các ma trận. Kiểu của biểu thức ma trận này sẽ được dùng xuyên suốt cuốn sách. Thật không có lợi nếu bạn ghét những phép toán ma trận và vec-tơ. Chúng ta sẽ xem lại các chủ đề này ở chương 5 và 6, và chúng ta sẽ đưa ra nhiều ví dụ và đưa ra các giải thuật cho các vấn đề đã giải quyết. Chúng ta vừa mới thông qua một quy ước cụ thể trong việc phân các chỉ số của các phần tử trong ma trận trọng số. Chỉ số đầu tiên cho biết nơ-ron nào cho trọng số đó. Chỉ số thứ hai cho ta biết nguồn tín hiệu cung cấp tới nơ-ron. Như vậy, các chỉ số trong 2,1 w nói lên rằng trọng số của nguồn (đầu vào) thứ 2 kết nối tới nơ- ron đầu tiên. Tất nhiên, quy ước này sẽ có lợi hơn nhiều nếu có nhiều hơn một nơ- ron, sẽ gặp trường hợp này trong phần sau của chương này. Chúng ta muốn vẽ những mạng với nhiều nơ-ron, mỗi nơ-ron lại có nhiều đầu vào. Hơn thế nữa, chúng ta có nhiều hơn một tầng các nơ-ron. Bạn có thể tưởng tượng một mạng sẽ xuất hiện phức tạp thế nào nếu tất cả các đường kẻ được vẽ. Nó sẽ tốn rất nhiều mực, khó đọc, và quá nhiều chi tiết như vậy có thể che khuất đi những đặc điểm chính. Vì vậy chúng ta sẽ dùng một ký hiệu rút gọn. Một nơ-ron đa đầu vào dùng ký hiệu này được biểu diễn như trong hình 2.6. W b f + 1R 1 R1 11 n a 11 1 R Input Multiple-Input Neuron a = f(Wp+b) Hình 2.6: Nơ-ron với R đầu vào, ký hiệu được rút gọn. 11 p

Ngày đăng: 23/12/2013, 15:48

Xem thêm: Mô hình nơ ron và các kiến trúc mạng , Mô hình nơ ron và các kiến trúc mạng

Mô hình nơ ron và các kiến trúc mạng

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan