Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

MỤC LỤC DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC CÁC KÝ HIỆU xv CHƢƠNG GIỚI THIỆU 1.1 Tổng quan đề tài 1.1.1 Khái niệm học củng cố .1 1.1.2 Lịch sử phát triển RL điều khiển .2 1.2 Động cơ, mục tiêu nhiệm vụ nghiên cứu .5 1.2.1 Sự cần thiết phải nghiên cứu học củng cố điều khiển 1.2.2 Tính cấp thiết đề tài 1.2.3 Mục tiêu nghiên cứu 1.2.4 Nhiệm vụ nghiên cứu 1.3 Đối tượng, phạm vi phương pháp nghiên cứu .9 1.3.1 Đối tượng phạm vi nghiên cứu 1.3.2 Phương pháp nghiên cứu .11 1.4 Những đóng góp luận án mặt khoa học 11 1.4.1 Về mặt lý thuyết 11 1.4.2 Về mặt thực tiễn 12 1.5 Bố cục luận án 13 CHƢƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14 2.2 Lý thuyết học củng cố 14 2.3 Các giải thuật học củng cố kinh điển .16 2.3.1 Giải thuật VI (Value Iteration) 16 2.3.2 Giải thuật PI (Policy Iteration) 17 2.3.3 Giải thuật Q-Learning 18 2.4 Xấp xỉ hàm RL 19 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm RL 19 2.4.2 Yêu cầu xấp xỉ hàm RL 20 2.5 Các loại xấp xỉ hàm RL, so sánh đánh giá 21 vii 2.6 Thuộc tính NN truyền thẳng lớp 21 2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm .22 2.8 Tóm tắt 25 CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27 3.1 Học củng cố điều khiển tối ưu 28 3.1.1 Mô tả toán 28 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28 3.2 Phân tích thiết kế giải thuật học củng cố OADP 31 3.2.1 Cấu trúc điều khiển luật cập nhật tham số online .31 3.2.2 Giải thuật OADP 34 3.2.3 Phân tích ổn định hội tụ giải thuật OADP 35 3.3 Mô phỏng, so sánh đánh giá 36 3.4 Tóm tắt 41 CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố điều khiển thích nghi bền vững 43 4.1.1 Mô tả toán 43 4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44 4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46 4.2 Giải thuật ORADP 48 4.2.1 Cấu trúc điều khiển luật cập nhật tham số 48 4.2.2 Giải thuật ORADP 52 4.3 Phân tích ổn định hội tụ giải thuật ORADP 54 4.4 Mô phỏng, so sánh đánh giá 55 4.5 Tóm tắt 59 CHƢƠNG ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến WMR 63 5.2 Mô hình WMR thực nghiệm 67 5.3 Giải thuật ORADP áp dụng cho WMR 72 5.4 Mô 74 5.4.1 Quỹ đạo tham chiếu .75 5.4.2 Thiết lập tham số học 76 viii 5.4.3 Kết mô 76 5.5 Thực nghiệm .80 5.6 Tóm tắt 86 CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88 6.1 Lý thuyết đồ thị mô hình hợp tác nhiều hệ phi tuyến MIMO .89 6.1.1 Đồ thị truyền thông phân tán 89 6.1.2 Động học nút 90 6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91 6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95 6.2.1 Học củng cố điều khiển hợp tác 95 6.2.2 Cấu trúc điều khiển luật cập nhật ORADP mở rộng .95 6.2.3 Giải thuật ORADP mở rộng 100 6.2.4 Phân tích ổn định hội tụ giải thuật ORADP mở rộng 101 6.3 Điều khiển hệ thống robot bầy đàn giải thuật ORADP mở rộng 101 6.3.1 Mô hình hệ thống robot bầy đàn 102 6.3.2 Áp dụng giải thuật kết mô 105 6.4 Tóm tắt 109 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 111 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 114 TÀI LIỆU THAM KHẢO 114 PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL 126 PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1 134 PHỤ LỤC C CHỨNG MINH ĐỊNH LÝ 3.2 136 PHỤ LỤC D CHỨNG MINH CÁC ĐỊNH LÝ VÀ BỔ ĐỀ 140 PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3 145 PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4 146 PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT 151 PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2 154 ix DANH MỤC CÁC HÌNH VẼ Hình 1.1 Minh họa học củng cố Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm điều khiển tối ưu .4 Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm điều khiển tối ưu 𝐻∞ Hình 2.1 Nguyên lý qui hoạch động Bellman hàm đánh giá tối ưu .16 Hình 3.1 Cấu trúc điều khiển OADP sử dụng NN 34 Hình 3.2 Trạng thái hệ thống trình học online sử dụng OADP AC2NN 38 Hình 3.3 Sự hội tụ trọng số NN sử dụng OADP AC2NN .38 Hình 3.5 OADP AC2NN: Hàm đánh giá tối ưu xấp xỉ 39 Hình 3.4 OADP AC2NN: (a) Sai số hàm đánh giá tối ưu xấp xỉ tối ưu lý thuyết; (b) Sai số luật điều khiển tối ưu xấp xỉ tối ưu lý thuyết .39 Hình 3.6 Hội tụ trọng số NN giải thuật OADP với giá trị khởi tạo không 40 Hình 3.7 Trọng số NN giải thuật AC2NN không hội tụ giá trị tối ưu giá trị khởi tạo trọng số không 40 Hình 4.2 Cấu trúc điều khiển ORADP sử dụng NN 52 Hình 4.3 Sự hội tụ trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN 56 Hình 4.4 ORADP AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ tối ưu lý thuyết 57 Hình 4.5 ORADP AC3NN: a) Sai số luật điều khiển tối ưu xấp xỉ tối ưu lý thuyết; b) Sai số luật nhiễu tối ưu xấp xỉ tối ưu lý thuyết 57 Hình 4.6 Sự ổn định không hội tụ trọng số NN giải thuật AC3NN với giá trị khởi tạo không 58 Hình 4.7 Sự ổn định hội tụ trọng số NN giải thuật ORADP với giá trị khởi tạo không .59 Hình 5.1 Mô hình robot di động dạng xe (WMR) .63 Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68 Hình 5.3 Mô hình hệ thống thị giác đa chiều robot .69 Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70 Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy 70 Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR .73 Hình 5.7 Lịch trình thay đổi khối lượng robot trình điều khiển 75 Hình 5.8 Lịch trình thay đổi mô men quán tính robot trình điều khiển .76 Hình 5.9 Sự hội tụ trọng số NN trình học điều khiển 77 Hình 5.11 Sai số bám vị trí: a) Toàn trình; b) Sau hội tụ 79 Hình 5.12 Quỹ đạo 𝑥, 𝑦 trình học điều khiển: a) 𝑥; b) 𝑦 79 x Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80 Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn trình; b) Sau hội tụ 81 Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn trình; b) Sau hội tụ 81 Hình 5.17 Mô men điều khiển tối ưu: a) Toàn trình; b) Sau hội tụ 81 Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn trình; b) Sau hội tụ .82 Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 robot so với tham chiếu 85 Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài 85 Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển .85 Hình 6.1 Đồ thị truyền thông đối tượng phi tuyến 89 Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến .100 Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng .105 Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 107 Hình 6.5 Chất lượng bám vị trí đội hình: a) Sai số bám; Quỹ đạo bám x-y 107 Hình 6.7 Đồng hóa vị trí y qua giai đoạn: a) Ban đầu; b) Hội tụ 108 Hình 6.8 Đồng hóa hướng  qua giai đoạn: a) Ban đầu; b) Hội tụ 108 Hình 6.9 Sai số bám vận tốc robot: a) Vận tốc dài; b) Vận tốc quay 109 Hình 6.10 Đồng hóa vận tốc dài qua giai đoạn: a) Ban đầu; b) Hội tụ 109 Hình 6.11 Đồng hóa vận tốc quay qua giai đoạn: a) Ban đầu; b) Hội tụ 110 Hình 6.12 Mô men điều khiển đội hình robot sau hội tụ: a) Sau 100s; b) Hội tụ 110 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần nút 126 Hình A.2 Cấu trúc mạng MLP lớp ẩn, đơn vị ngõ 127 Hình A.3 Cấu trúc mạng RBF 129 Hình A.4 Cấu trúc mạng RARBF .130 Hình A.5 Sai số bình phương trung bình ngõ xấp xỉ ngõ mong muốn hai mạng MLP có số đơn vị ẩn khác .133 Hình A.6 Sai số bình phương trung bình ngõ xấp xỉ ngõ mong muốn nhóm mạng CMAC 133 Hình A.7 Sai số bình phương trung bình ngõ xấp xỉ ngõ mong muốn nhóm mạng RBF .133 Hình G.1 Tập mẫu ngõ vào đo không gian ảnh 151 Hình G.2 Tập mẫu ngõ mong muốn đo không gian thực 151 Hình G.3 Kết huấn luyện RBF so với mẫu mong muốn 152 Hình G.4 Ngõ RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .152 xi DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU Giải thuật 2.1 VI 16 Giải thuật 2.2 PI 17 Giải thuật 2.3 Q-Learning 18 Giải thuật 2.4 ADP sử dụng hai NN cập nhật 23 Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng 23 Giải thuật 2.6 ADP sử dụng ba NN cập nhật 24 Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng 25 Giải thuật 3.1 OADP 34 Giải thuật 4.1 ORADP 53 Giải thuật 5.1 ORADP áp dụng cho WMR 74 Giải thuật 6.1 ORADP mở rộng 100 Bảng 3.1 So sánh tiêu chất lượng OADP AC2NN 38 Bảng 3.2 Chỉ tiêu chất lượng trọng số NN khởi tạo không .40 Bảng 4.1 So sánh tiêu chất lượng ORADP AC3NN 57 xii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt (A)NN ANRBF Thuật ngữ tiếng anh (Artificial) Neural Network Giải thích Mạng thần kinh (nhân tạo), viết tắt NN luận án Adaptive Normalized Radial NN có hàm sở xuyên tâm chuẩn Basis Function hóa thích nghi Cấu trúc điều khiển Actor-Critic học AC Actor-Critic củng cố gồm hai NN: Mạng critic xấp xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ADP2NN ADP with two NNs Cấu trúc điều khiển ADP với hai NN ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN NN actor đóng vai trò điều khiển ANN Actor Neural Network ARE Algebraic Riccati Equation Phương trình đại số Riccati Cerebellar Model NN dựa theo mô hình tiểu não CMAC cấu trúc AC Articulation Controller NN critic đóng vai trò xấp xỉ hàm đánh giá CNN Critic Neural Network COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB Hamilton-Jacobi-Bellman HJI Hamilton-Jacobi-Isaacs IDP Incremental Dynamic Programming LS Least Square LQR Linear Quadratic Regulation MIMO Multi Input-Multi Output cấu trúc AC Qui hoạch động tăng cường: phương pháp xấp xỉ nghiệm ARE online cho hệ tuyến tính trước ma trận trạng thái Phương pháp bình phương tối thiểu Điều khiển tối ưu tuyến tính dạng toàn phương Hệ thống nhiều đầu vào nhiều đầu xiii ML Machine Learning Học máy MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp Normalized Radial Basis NN có hàm sở xuyên tâm chuẩn Function hóa NRBF OADP Online Adaptive Dynamic Programming Qui hoạch động thích nghi online: giải thuật học củng cố đề xuất luận án để tìm luật điều khiển tối ưu online Qui hoạch động thích nghi bền vững ORADP Online Robust Adaptive online: giải thuật học củng cố đề Dynamic Programming xuất luận án để tìm luật điều khiển tối ưu thích nghi bền vững online Kích thích hệ thống cách thêm nhiễu PE Persistence of Excitation vào véc tơ tín hiệu vào/ra PE điều kiện để tham số hội tụ nhận dạng điều khiển thích nghi Giải thuật học củng cố sử dụng số PI Policy Iteration RL Reinforcement Learning Học củng cố RBF Radial Basis Function NN có hàm sở xuyên tâm Resource Allocating Radial NN có hàm sở xuyên tâm cấp phát Basis Function động Single Input-Single Output Hệ thống ngõ vào ngõ RARBF SISO bước lặp để xấp xỉ luật điều khiển tối ưu Sai phân tạm thời: giải thuật cập nhật tham TD Temporal Difference số dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng học củng cố UUB Uniform Ultimate Boun-ded Bị chặn tới hạn VI Value Iteration WMR Wheeled Mobile Robot ZDGT Zero-sum Differential Game Theory Giải thuật học củng cố sử dụng số bước lặp để xấp xỉ hàm đánh giá tối ưu Robot di động dạng xe Lý thuyết trò chơi sai phân tổng không ứng dụng lý thuyết điều khiển tối ưu 𝐻∞ xiv DANH MỤC CÁC KÝ HIỆU ℝ Tập số thực ℝ𝑛 Không gian tọa độ thực (không gian Euclide) 𝑛 chiều ℝ𝑛×𝑚 Tập ma trận có kích thước 𝑛 × 𝑚 chứa phần tử số thực Ω𝑥 Tập đóng (Ω𝑥 ⊆ ℝ ) bao quanh gốc: 𝑥 ∈ Ω𝑥 𝑥 lân cận quanh điểm cân 𝑥0 𝑛 Chuẩn véc tơ 𝑥 𝑥 𝑥 ∞ 𝐴 𝐴 Chuẩn vô véc tơ 𝑥 Chuẩn ma trận 𝐴 ∞ Chuẩn vô ma trận 𝐴 𝜕𝑉(𝑥) 𝜕𝑥 𝑉𝑥 𝑥 Gradient hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 = ⊗ Tích Kronecker,  X  Y   X T  Y T ,   X  Y     X   Y  X    Y  , T X Y ma trận 𝛽 đại lượng vô hướng 𝐼𝑛 Ma trận đơn vị có chiều 𝑛 × 𝑛 𝟏 𝟏 = 1, … ,1 𝑇 ∈ ℝ𝑛 Diag(αi ) Ma trận đường chéo chứa phần tử αi 𝐿2 0,∞ Không gian Banach, ∀𝑑 ∈ 𝐿2 0,∞ ∞ 𝑑 𝑑𝑡 < ∞ sub 𝑥(𝑡) Cận nhỏ (cận đúng) 𝑥(𝑡) inf 𝑥(𝑡) Cận lớn (cận đúng) 𝑥(𝑡) 𝑊 Ma trận trọng số NN 𝑤𝑖 Trọng số NN đơn vị ẩn thứ 𝑖 đơn vị (một ngõ ra) 𝑤𝑖𝑗 Trọng số NN kết nối ngõ đơn vị 𝑖 ngõ vào đơn vị 𝑗 𝑛𝑖 , 𝑛𝑕 Lần lượt số lượng nút lớp vào, số lượng nút lớp ẩn NN 𝜙(𝑥) Véc tơ hàm tác động NN 𝑉 𝑥 Hàm đánh giá 𝑉 ∗ (𝑥) Hàm đánh giá tối ưu 𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển ngõ vào điều khiển tối ưu 𝑑 Véc tơ nhiễu hệ thống 𝑥 Véc tơ tín hiệu trạng thái hệ thống 𝑥0 Véc tơ trạng thái hệ thống thời điểm 𝑡 = xv 𝑦 Véc tơ ngõ hệ thống 𝐽 Hàm tiêu chất lượng hệ thống 𝜆𝑚𝑖𝑛 𝐴 Trị riêng nhỏ ma trận 𝐴 (𝐴 ∈ ℝ 𝜆𝑚𝑎𝑥 𝐴 Trị riêng lớn ma trận 𝐴 (𝐴 ∈ ℝ 𝑄 𝑥 Hàm xác định dương, cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 𝑄 𝑥 = ⟺ 𝑥 = 𝑄 Ma trận trọng số xác định dương 𝑅 Ma trận trọng số đối xứng, xác định dương 𝑏1 , 𝑟1 , 𝑙 Bề rộng, bán kính bánh xe khoảng cách từ tâm đến trục bánh sau robot di động 𝜏, 𝜏𝑚 Véc tơ mô men điều khiển mô men nhiễu robot di động 𝑛×𝑛 𝑛×𝑛 xvi ) ) 𝜕𝑉 + 𝜕𝑥 𝑇 𝑔𝑅−1 𝑔𝑇 𝜕𝑉 ≤0 𝜕𝑥 Tiếp theo, giả sử luật điều khiển 𝑙1 𝑥 = 𝑅−1 𝑔𝑇 𝜕𝑉 𝜕𝑥 sử dụng, hệ thống (D.13) biến đổi tương đương thành (D.11) Từ (D.15), hệ thống (D.13) có độ lợi 𝐿2 nhỏ 𝛾 (Bổ đề 4.1) Giả sử hàm 𝑉𝑎 𝑥 (D.15) khả vi liên tục, ta có nghiệm 𝑉1 𝑥 ≥ 0, với 𝑉1 𝑥 ≤ 𝑉(𝑥), khả vi liên tục thỏa phương trình: 𝜕𝑉1 𝜕𝑥 𝑇 𝑓 + 𝑔𝑙1 𝜕𝑉1 + 4𝛾 𝜕𝑥 𝑇 𝑘 𝑥 𝑘 𝑥 𝜕𝑉1 + 𝑕𝑇 𝑥 𝑕 𝑥 + 𝑙1 𝑥 𝜕𝑥 𝑇 𝑅 (D.16) =0 Biến đổi (D.16) ta có: 𝜕𝑉1 𝜕𝑥 𝑇 𝑇 𝜕𝑉1 𝜕𝑉1 𝑓 − 𝑔𝑅−1 𝑔𝑇 + 2 𝜕𝑥 4𝛾 𝜕𝑥 + 𝜕𝑉1 𝜕𝑥 𝑇 𝑔𝑅−1 𝑔𝑇 𝑘 𝑥 𝑘 𝑥 𝑇 𝜕𝑉1 + 𝑕𝑇 𝑥 𝑕 𝑥 𝜕𝑥 (D.17) 𝜕𝑉1 ≤0 𝜕𝑥 𝜕𝑉1 𝜕𝑥 Tiếp tục, giả sử luật điều khiển 𝑙2 𝑥 = 𝑅−1 𝑔𝑇 sử dụng, hệ thống (D.13) tương đương hệ thống (D.11) có 𝑉2 𝑥 ≥ Theo (D.15), hệ thống (D.13) có độ lợi 𝐿2 nhỏ 𝛾 (Bổ đề 4.1) Giả sử hàm 𝑉𝑎 𝑥 (D.15) khả vi liên tục, ta có nghiệm 𝑉2 𝑥 ≥ 0, với 𝑉2 𝑥 ≤ 𝑉1 (𝑥), khả vi liên tục thỏa: 𝜕𝑉2 𝜕𝑥 𝑇 𝑓 + 𝑔𝑙2 𝜕𝑉2 + 4𝛾 𝜕𝑥 𝑇 𝑘 𝑥 𝑘 𝑥 𝑇 𝜕𝑉2 + 𝑕𝑇 𝑥 𝑕 𝑥 + 𝑙2 𝑥 𝜕𝑥 𝑅 (D.18) =0 Cứ tiếp tục, ta có chuỗi hàm khả vi liên tục sau: 𝑉 𝑥 ≥ 𝑉1 𝑥 ≥ 𝑉2 𝑥 ≥ ⋯ ≥ 𝑉𝑖 𝑥 ≥ ⋯ ≥ (D.19) Với 𝑉𝑖 𝑥 thỏa: 𝜕𝑉𝑖 𝜕𝑥 𝑇 𝜕𝑉𝑖 𝜕𝑉𝑖 𝑓 − 𝑔𝑅−1 𝑔𝑇 + 2 𝜕𝑥 4𝛾 𝜕𝑥 + 𝜕𝑉𝑖 𝜕𝑥 𝑇 𝑔𝑅−1 𝑔𝑇 𝑇 𝑘 𝑥 𝑘 𝑥 𝑇 𝜕𝑉𝑖 + 𝑕𝑇 𝑥 𝑕 𝑥 𝜕𝑥 (D.20) 𝜕𝑉𝑖 ≤0 𝜕𝑥 Từ (D.19) ta có: 𝑉 ∗ 𝑥 = lim𝑖→∞ 𝑉𝑖 𝑥 ≥ Giả sử 𝑉 ∗ 𝑥 khả vi liên tục, ta có 𝑉 ∗ 𝑥 nghiệm phương trình (4.6), nghiệm không âm nhỏ Theo bổ đề 4.1, với chuỗi luật điều khiển 𝑙𝑖 𝑡 = − 𝑅 −1 𝑔 𝑥 𝑇 𝜕𝑉𝑖 (𝑥) 𝜕𝑥 , ∀𝑖 = 1,2, , bảo đảm hệ kín có độ lợi 𝐿2 trì ổn định tiệm cận Ω𝑥 143 Điều phải chứng minh D.5 Chứng minh Bổ đề 4.2 Thay (4.21) (4.22) vào (4.14), sử dụng (4.9), biến đổi, ta Hamilton tối ưu: 𝑇 𝐻 𝑥, 𝑢∗ , 𝑑 ∗ , 𝑉𝑥∗ = 𝑄 𝑥 + 𝑉𝑥∗ 𝑓 𝑥 − 𝑉𝑥∗ 𝑇 𝑔 𝑥 𝑅−1 𝑔 𝑥 𝑇 𝑉𝑥∗ (D.21) ∗𝑇 + 𝑉𝑥 𝑘 𝑥 𝑘 𝑇 𝑥 𝑉𝑥∗ = 4𝛾 ∗ Nếu 𝑉 𝑥 ≥ thỏa phương trình HJI (D.21), từ phương trình (4.14), (D.21), biến đổi ta có: 𝐻 𝑥, 𝑢, 𝑑, 𝑉𝑥∗ = 𝐻 𝑥, 𝑢∗ , 𝑑 ∗ , 𝑉𝑥∗ + 𝑢 − 𝑢∗ 𝑇 𝑅 𝑢 − 𝑢∗ − 𝛾 𝑑 − 𝑑 ∗ = 𝑢 − 𝑢∗ 𝑇 𝑅 𝑢 − 𝑢∗ − 𝛾 𝑑 − 𝑑 ∗ 𝑇 𝑇 𝑑 − 𝑑∗ 𝑑 − 𝑑∗ Áp dụng 𝑢∗ (4.21) 𝑑 ∗ (4.22) cho 𝐻 𝑥, 𝑢, 𝑑, 𝑉𝑥∗ , ta có: −𝛾 𝑑 − 𝑑 ∗ 𝑇 𝑑 − 𝑑 ∗ ≤ ≤ 𝑢 − 𝑢∗ 𝑇 𝑅 𝑢 − 𝑢∗ Hay 𝐻 𝑥, 𝑢∗ , 𝑑, 𝑉𝑥∗ ≤ 𝐻 𝑥, 𝑢∗ , 𝑑 ∗ , 𝑉𝑥∗ ≤ 𝐻 𝑥, 𝑢, 𝑑 ∗ , 𝑉𝑥∗ Đó điều kiện (4.23) Điều phải chứng minh 144 PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3 Chứng minh Định lý 4.3: Từ (4.31), với 𝑇 = 𝑇𝑃 , ta có: 𝑡+𝑇𝑃 𝑄(𝑥) + 𝑢𝑇 𝑅𝑢 − 𝛾 𝑑 𝑇 𝑑 𝑑𝜏 = 𝑒𝐻 − ∆𝜙 𝑇 𝑥 𝑊 (E.1) 𝑡 Thay (E.1) vào (4.36) ý 𝑊 = −𝑊 , 𝜎 = ∆𝜙 𝑥 , ta có: 𝜎 𝜎 𝑊 = −𝛼1 𝑇 𝜎 𝑇 𝑊 + 𝛼1 𝑇 𝑒 𝜎 𝜎+1 𝜎 𝜎+1 𝐻 (E.2) 𝜎 = −𝛼1 𝜎𝜎 𝑇 𝑊 + 𝛼1 𝑒𝐻 𝑚 𝑚 = 𝜎 𝑇 𝜎 + Chọn hàm Lyapunov sau: 𝐿(𝑡) = −1 𝛼 𝑡𝑟(𝑊 𝑇 𝑊 ) (E.3) 𝑡𝑟 toán tử 𝑡𝑟𝑎𝑐𝑒 Sử dụng (E.2), đạo hàm 𝐿 xác định bởi: 𝜀𝐻 𝐿 = −𝑡𝑟 𝑊 𝑇 𝜎(𝜎 𝑇 𝑊 − ) 𝑚 (E.4) Triển khai (E.4), ta có: 𝐿 = −𝑡𝑟 𝑊 𝑇 𝜎𝜎 𝑇 𝑊 + 𝑡𝑟 𝑊 𝑇 𝜎 𝐿 ≤ − 𝜎𝑇𝑊 𝜀𝐻 ≤ − 𝜎𝑇𝑊 𝑚 𝜎𝑇𝑊 − 𝜀𝐻 𝑚 + 𝜎𝑇𝑊 𝜀𝐻 𝑚 (E.5) Từ (E.5) ta có 𝐿 < nếu: 𝜎 𝑇 𝑊 > 𝜀𝐻𝑚𝑎𝑥 > 𝜀𝐻 𝑚 (E.6) Chú ý 𝑚 > Vậy 𝐿(𝑡) giảm điều kiện (E.6) thỏa mãn Điều chứng tỏ 𝜎 𝑇 𝑊 𝑇 bị chặn hay 𝜎 𝑇 𝑊 𝑇 < 𝜀𝐻𝑚𝑎𝑥 Đặt 𝑦 = 𝜎 𝑇 𝑊 , sử dụng Bổ đề B.1, xét phương trình động học sai số xấp xỉ (E.2) có dạng phương trình (B.1) với ngõ bị chặn 𝑦 < 𝜀𝐻𝑚𝑎𝑥 (theo chứng minh trên) Sử dụng Bổ đề B.2 ta có sai số xấp xỉ trọng số NN hội tụ hàm mũ đến tập sai số thặng dư: 𝑊 (𝑡) ≤ 𝛽2 𝑇 + 2𝛿𝛽2 𝛼1 𝜀𝐻𝑚𝑎𝑥 𝛽1 Điều phải chứng minh 145 (E.7) PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4 Chứng minh Định lý 4.4: Xét luật cập nhật (4.42) 𝑊𝑅𝐵 Chọn hàm Lyapunov sau: 𝑡+𝑇 𝐿 𝑡 = 𝑡 𝛼2 𝑥 𝑇 𝑥𝑑𝜏 + 𝑊 𝑇 𝑡 𝑊 (𝑡) (F.1) Đạo hàm (F.1) ta có: 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑥𝑑𝜏 + 𝑊 𝑇 𝑊 𝐿= (F.2) 𝑡 Điều kiện âm (4.42) biến đổi thành: 𝑇 𝑥 𝑥 − 𝑥𝑡𝑇 𝑥𝑡 = 𝑡+𝑇 𝑡+𝑇 𝑡+𝑇 𝑡+𝑇 𝑇 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 ≤ 𝑥 𝑥 𝑑𝜏 = 𝑡 (F.3) 𝑡 Sử dụng (4.25), ta có: 1 𝑄 𝑥 = −𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑊 𝑇 𝜙𝑥 𝐺𝜙𝑥𝑇 𝑊 − 𝑊 𝑇 𝜙𝑥 𝐾𝜙𝑥𝑇 𝑊 − 𝜀𝐻𝐽𝐼 4 (F.4) Với luật điều khiển xấp xỉ (4.39) và luật nhiễu xấp xỉ (4.33), ta biến đổi 𝜎 (4.44): 𝑡+𝑇 𝜎= 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 𝑡 𝑡+𝑇 𝜙𝑥 𝑓 𝑥 − 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑡+𝑇 𝜙𝑥 𝑓 𝑥 − 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 − 𝑊 = 𝑡 = 𝑡 𝑡+𝑇 = 𝑡 (F.5) 𝑑𝜏 1 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + (𝐺 − 𝐾)𝜀𝑥 + 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 2 Thay (F.4) (F.5) vào (4.42) với ý 𝑊 = −𝑊 , 𝑊1 = −𝑊1 , để ý luật tối ưu (4.21) (4.22), động học sai số sinh luật cập nhật (4.42) viết thành: 𝑊1 = 𝛼1 − 𝑚 𝑡+𝑇 𝑡 1 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + (𝐺 − 𝐾)𝜀𝑥 + 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 2 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 × 𝑡 1 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐺 − 𝐾 𝜀𝑥 + 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 (F.6) +𝜀𝐻𝐽𝐼 𝑑𝜏 𝑚 = 𝜎 𝑇 𝜎 + Thay (F.6), động học (4.1) vào (F.2) áp dụng luật (4.39) 146 (4.40), để ý luật tối ưu (4.21) (4.22), ta có: 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 𝐿= 𝑡 𝑡+𝑇 𝛼1 − 𝑚 ∗ 𝑊 𝜙𝑥 𝑡 ∗ 𝑡+𝑇 𝛼1 − 8𝑚2 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑇 𝑇 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑊 𝜙𝑥 𝐺 − 𝐾 𝑡 (F.7) 𝑡+𝑇 3𝛼1 − 4𝑚2 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑊 𝑇 𝜙𝑥 𝑡 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 × 𝑡 𝛼1 − 𝑚 𝑡+𝑇 𝑇 𝑊 𝜙𝑥 𝑡 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 ∗ 𝑡+𝑇 ∗ 𝜀𝐻𝐽𝐼 𝑑𝜏 𝑡 Từ biểu thức (F.3), dễ thấy tồn số không âm 𝜆0 , cho: 𝑡+𝑇 𝐿= 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 ≤ 𝑡 −𝛼2 𝜆0 𝑥 𝑑𝜏 (F.8) 𝑡 Thay 𝜀𝐻𝐽𝐼 từ (4.26) (F.8) vào (F.7), tính tổng bình phương theo số hạng 𝑡+𝑇 𝑡+𝑇 𝑇 𝑊 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝑡 𝑡 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 ta có: 𝑡+𝑇 𝐿 = −𝛼2 𝜆0 𝑡 + 𝛼1 𝐴 𝑥 𝑑𝜏 − +𝐶 𝑚 2 𝛼1 𝐵2 − +𝐶 𝑚 3𝛼1 𝐵2 − +𝐴 𝑚 9𝛼1 𝛼1 2𝛼1 𝐴 − 𝐵 + 𝐶 4𝑚2 64𝑚2 𝑚2 𝑡+𝑇 ≤ −𝛼2 𝜆0 𝑥 𝑑𝜏 + 𝑡 (F.9) 9𝛼1 𝛼1 2𝛼1 𝐴 − 𝐵 + 𝐶 4𝑚2 64𝑚2 𝑚2 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐴= 𝑡 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝐵= (F.10) 𝑡 𝑡+𝑇 𝜀𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐶= 𝑡 147 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 Sử dụng chuẩn cho (F.10), thuộc tính xấp xỉ hàm (4.24) với tính chất 4.1, 4.2 giả thiết 4.7, ta có: 𝐶 ≤ 𝜆23 𝐴 𝑡+𝑇 𝑑𝜏 , 𝑡 ≤ 𝜆12 𝑡+𝑇 𝑡 𝑊 𝑑𝜏 𝜆1 = 𝜙𝑥𝑚𝑎𝑥 2 , − 𝐵 𝑡+𝑇 𝑡 ≤ −𝜆22 𝑊 𝑑𝜏 , 𝐺𝑚𝑎𝑥 − 𝐾𝑚𝑖𝑛 𝜀𝑥𝑚𝑎𝑥 + 𝜇 , 𝜆2 = 𝛼1 × 𝜙𝑥𝑚𝑖𝑛 𝐺𝑚𝑖𝑛 − 𝐾𝑚𝑎𝑥 , 𝜆3 = 𝜀𝑥𝑚𝑎𝑥 𝜇 + 𝐺𝑚𝑎𝑥 − 𝐾𝑚𝑖𝑛 𝜀𝑥𝑚𝑎𝑥 Sử dụng bất đẳng thức tích phân cho 𝐵 , ta có − 𝐵 ≤− 𝜆 22 𝑇2 𝑡+𝑇 𝑡 𝑊 𝑑𝜏 Thay 𝐴 , 𝐵 𝐶 vào (F.9), ta có: 𝑡+𝑇 𝐿 ≤ −𝜇0 𝑡+𝑇 𝑥 𝑑𝜏 − 𝜇2 𝑡 𝑊 𝑡 2 𝑑𝜏 𝜇1 − 2𝜇2 𝜇0 = 𝛼2 𝜆0 , 𝜇1 = 𝛼1 3𝜆1 /2𝑚 , 𝜇2 = 𝛼1 𝜆2 /8𝑇𝑚 𝜇12 + 𝜇3 + 4𝜇2 (F.11) 𝜇3 = 2𝛼1 𝑇𝜆3 /𝑚 𝐿 < 0, nếu: 𝑡+𝑇 𝑡 𝜇12 𝑥 𝑑𝜏 ≥ 𝜇 + = 𝑏𝑥 𝜇0 4𝜇2 𝑡+𝑇 𝑊 𝑑𝜏 ≥ 𝑡 (F.12) 𝜇12 𝜇1 𝜇3 + + = 𝑏𝑊 𝜇2 4𝜇2 2𝜇2 (F.13) Tiếp tục cho trường hợp lại luật cập nhật (4.42) có xét đến 𝑊𝑅𝐵 Chọn hàm Chọn hàm Lyapunov sau: 𝐿 𝑡 = 1 𝛼2 𝑥 𝑇 𝑥 + 𝑊 𝑇 𝑊 + 𝛼2 𝛼3 𝑉𝑎 (𝑥) 2 (F.14) 𝑉𝑎 (𝑥) nghiệm không âm phương trình HJI (4.6) thỏa bất đẳng thức (D.10) Đạo hàm (F.14), áp dụng luật (4.39) (4.40) cho 𝑥 , thêm số hạng 𝑊𝑅𝐵 từ luật cập nhật (4.42), sử dụng (F.6) với ý kết (F.9), để ý (4.13), ta có: 2 𝑡+𝑇 𝛼2 𝑇 𝜇1 𝑇 𝑇 𝐿 = 𝛼2 𝑥 𝑓 𝑥 − 𝑥 𝐺 − 𝐾 𝜙𝑥 𝑊 − 𝜇2 𝑊 𝑑𝜏 − + 𝜇3 2𝜇2 𝑡 (F.15) 𝜇12 + − 𝑄(𝑥) − 𝑢 2𝑅 + 𝛾 𝑑 4𝜇2 𝑄(𝑥) = 𝑥 𝑇 𝑄1 𝑥, với 𝑄1 ma trận bán xác định dương Theo giả thiết 4.5, số hạng (F.15) bị chặn 𝛼2 𝑥 𝑇 𝑓 𝑥 ≤ 𝛼2 𝛼 𝑥 (F.15) thỏa điều kiện − 𝛼2 𝑥 𝑇 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 ≤ 𝜆5 𝑥 Số hạng thứ hai với 𝜆5 = × 𝜙𝑚𝑎𝑥 𝑊 Từ bất đẳng thức (F.15) viết thành: 148 𝛼2 𝐺𝑚𝑎𝑥 + 𝐾𝑚𝑖𝑛 𝑡+𝑇 𝐿 ≤ −𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝑥 + 𝜆5 𝑥 − 𝜇2 𝑊 2 𝑑𝜏 𝑡 𝜇1 − 2𝜇2 (F.16) 𝜇12 + 𝜇3 + + 𝜇6 4𝜇2 𝜇6 = 𝛾 𝑑𝑚𝑎𝑥 (Giả thiết 4.6) Sử dụng bất đẳng thức tích phân cho (F.16): 𝑡+𝑇 𝐿 ≤ −𝜇4 𝑥 + 𝜇5 𝑥 − 𝜇2 𝑊 2 𝑑𝜏 𝑡 𝜇1 − 2𝜇2 𝜇12 + 𝜇3 + + 𝜇6 4𝜇2 (F.17) 𝜇4 = 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α > 0, 𝜇5 = 𝜆5 , 𝛼3 chọn cho: 𝛼3 > 𝛼 (F.18) 𝜆𝑚𝑖𝑛 𝑄1 Phương trình (F.17) biến đổi thành: 𝜇5 𝑥 − 2𝜇4 𝐿 ≤ −𝜇4 𝜇52 + − 𝜇2 4𝜇4 𝑡+𝑇 𝑊 𝑡 2 𝑑𝜏 𝜇1 − 2𝜇2 𝜇12 + 𝜇3 + 4𝜇2 (F.19) + 𝜇6 Từ (F.19), ta có 𝐿 < nếu: 𝑥 ≥ 𝑡+𝑇 𝑊 𝑑𝜏 ≥ 𝑡 𝜇52 𝜇12 + 𝜇3 + + 𝜇6 = 𝑏𝑥 𝜇4 4𝜇4 4𝜇2 𝜇12 𝜇52 𝜇1 𝜇3 + + + 𝜇6 + = 𝑏𝑊 𝜇2 4𝜇2 4𝜇4 2𝜇2 (F.20) (F.21) Theo (F.12), (F.20) (F.13), (F.21), dễ thấy 𝑥 sai số xấp xỉ NN 𝑊 làm cho 𝐿 vượt biên tập đóng, 𝑏𝑥 = max 𝑏𝑥 , 𝑏𝑥 , 𝑏𝑊 = max 𝑏𝑊 , 𝑏𝑊 , luật cập nhật (4.42) làm 𝐿 ≤ Như vậy, theo Định lý Lyapunov mở rộng [74] toàn trạng thái hệ kín sai số xấp xỉ NN bị chặn UUB Để chứng minh khả hội tụ hàm đánh giá xấp xỉ, ta lấy hiệu hai biểu thức (4.24) (4.33), sử dụng chặn ý (F.13) (F.21) ta có: 𝑉∗ − 𝑉 ≤ 𝑊 𝜙 + 𝜀 ≤ 𝑏𝑊 𝜙𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 = 𝜀𝑉 (F.22) Để chứng minh hội tụ luật điều khiển luật nhiễu ta lấy hiệu biểu thức (4.21) với (4.22), biểu thức (4.39) với (4.40), sử dụng chặn ý (F.13) (F.20) ta có: 149 𝜎 𝑅 𝑏𝑊 𝜙𝑥𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 𝑔𝑚𝑎𝑥 = 𝜀𝑢 𝑚𝑖𝑛 𝑑∗ − 𝑑 ≤ 𝑏𝑊 𝜙𝑥𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 𝑘𝑚𝑎𝑥 = 𝜀𝑑 2𝛾 𝑢∗ − 𝑢 ≤ 𝜆𝑚𝑖𝑛 𝑅 giá trị riêng nhỏ ma trận 𝑅 Điều phải chứng minh 150 (F.23) (F.24) PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT Để ánh xạ nội suy tọa độ tâm vật mốc từ không gian thị giác đa chiều (pixel) sang không gian thực (cm), mạng RBF học off-line sau sử dụng Tập mẫu vào mong muốn (625×625 điểm) dùng để huấn luyện RBF trình bày Hình G.1 G.2, tập ngõ vào điểm đo không gian ảnh (pixel) biểu diễn điểm tọa độ tâm vật mốc hệ trục OXY gắn liền với robot, tương ứng với tập ngõ mong muốn biểu diễn điểm tọa độ tâm vật mốc hệ trục OXY đo không gian thực (cm) dụng cụ đo thực tế Y(pixel) 150 100 y (pixel) 50 01 X(pixel) -50 -100 -150 -150 -100 -50 50 100 150 x (pixel) Hình G.1 Tập mẫu ngõ vào đo không gian ảnh Y(cm) 200 150 100 y (cm) 50 01 -50 X(cm) -100 -150 -200 -200 -150 -100 -50 50 100 150 200 x (cm) Hình G.2 Tập mẫu ngõ mong muốn đo không gian thực 151 Y(cm) 200 x-y (Maãu) x-y (RBF) 150 100 50 01 -50 X(cm) -100 -150 -200 -200 -100 100 200 Hình G.3 Kết huấn luyện RBF so với mẫu mong muốn Y(pixel) 150 Maãu RBF 100 y (pixel) 50 01 X(cm) -50 -100 -150 -200 -100 100 200 x (cm) Hình G.4 Ngõ RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) Y(cm) 200 Maãu RBF 150 100 y (cm) 50 01 X(pixel) -50 -100 -150 -200 -150 -100 -50 50 100 150 x (pixel) Hình G.5 Ngõ RBF huấn luyện biểu diễn theo Y(cm)-X(pixel) 152 không gian thực (cm) Tâm hàm tác động RBF chọn tập mẫu ngõ vào Ngõ mạng xác định 𝑧 = 𝛷𝑇 𝑊, 𝑊 ∈ ℝ625×2 ma trận trọng số 𝛷 ∈ ℝ625×2 véc tơ hàm tác động biểu diễn tổng khoảng cách (pixel) từ mẫu ngõ vào đến phần tử tập tâm hàm tác động Hình G.3, G.4 G.5 trình bày kết ngõ từ RBF huấn luyện so với ngõ mong muốn, H G.3 biểu diễn ánh xạ ngõ RBF so với ngõ mong muốn tập mẫu theo hệ trục X-Y (cm), Hình G.4 biểu diễn ngõ (cm) theo trục X so với ngõ vào (pixel) theo trục Y RBF so với tập mẫu, Hình G.5 biểu diễn ngõ vào (pixel) theo trục Y so với ngõ (cm) RBF so với tập mẫu Với ma trận trọng số cuối cùng, RBF huấn luyện có khả nội suy phi tuyến tất vị trí lại tâm vật mốc so với tâm robot thị trường quan sát hệ thống thị giác đa chiều 153 PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2 Chứng minh: Xét hàm Lyapunov sau: 𝐿𝑖 𝑡 = 𝛼2 Đạo hàm 𝐿𝑖 𝑡 , ta có: 𝑡+𝑇 𝑡 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 + trace 𝑊𝑖𝑇 𝑊𝑖  (K.1) 𝑡+𝑇 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 + 𝑊𝑖𝑇 𝑊𝑖 𝐿 𝑖 𝑡 = 𝛼2 (K.2) 𝑡 𝑇 𝑇 Trước tiên xét luật cập nhật (6.35) thỏa điều kiện 𝑒𝑖(𝑡+𝑇) 𝑒𝑖(𝑡+𝑇) ≤ 𝑒𝑖𝑡𝑇 𝑒𝑖𝑡𝑇 , nghĩa bỏ qua 𝑊𝑅𝐵𝑖 , ta có: 𝑡+𝑇 𝑇 𝑇 𝑒𝑖(𝑡+𝑇) 𝑒𝑖(𝑡+𝑇) − 𝑒𝑖𝑡𝑇 𝑒𝑖𝑡𝑇 𝑡+𝑇 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 =2 𝑡 𝑡 × 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − Thay 𝑄𝑖 (𝑒𝑖 ) từ (6.25) vào (6.33), ta có: 𝑄𝑖 𝑒𝑖 = −𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑒𝑖𝑇 𝐹𝑒𝑖 + (𝑕𝑖 + 𝑧𝑖 =2 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 (K.3) 𝑑𝜏 ≤ 𝑇 𝑕𝑖 + 𝑧𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝑇 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 (K.4) − ℰ𝐻𝐽𝐼𝑖 Biến đổi 𝜎𝑖 từ (6.38) thành: 𝑡+𝑇 𝜎𝑖 = 𝑡 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 + 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑇 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ (K.5) 𝑗 ∈ℕ𝑖 1 𝑇 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 2 ∀𝑘 = {𝑖, 𝑗: 𝑖 ∈ 𝑁, 𝑗 ∈ ℕ𝑖 }, 𝑊𝑘 = 𝑊𝑘 − 𝑊𝑘 sai số xấp xỉ NN Thay (K.4) + (K.5) vào (6.35), để ý 𝑊𝑖 = −𝑊𝑖 , ta có: 𝛼1𝑖 𝑡+𝑇 𝑊𝑖 = − 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑚𝑖 𝑡 1 𝑇 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 2 𝑗 ∈ℕ𝑖 𝑡+𝑇 𝑇 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ 𝑡 1 𝑇 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ 𝑗 ∈ℕ𝑖 154 (K.6) 1 𝑇 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 + ℰ𝐻𝐼𝐽𝑖 𝑑𝜏 𝑚𝑖 = 𝜎𝑖𝑇 𝜎𝑖 + Thay động học nút 𝑖 dẫn từ (6.13) áp dụng +𝐾𝑗 𝑑𝑗∗ + luật (6.31) (6.32) vào luật cập nhật (6.35), để ý biểu thức (K.6): 𝑡+𝑇 𝛼2𝑖 𝑒𝑖𝑇 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝐿𝑖 = 𝑡 𝑡+𝑇 𝛼1𝑖 − 𝑚𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑡 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + − 𝑗 ∈ℕ𝑖 𝑕 + 𝑧𝑗 𝑗 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 𝑗 ∈ℕ𝑖 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑑𝜏 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 𝛼1𝑖 𝑑𝜏 − 𝑊𝑖𝑇 8𝑚𝑖2 𝑡 × 𝜙𝑒𝑖 − 𝑕𝑖 + 𝑧𝑖 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑗 ∈ℕ𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝑡 𝐺𝑗 𝑢𝑗∗ 𝑎𝑖𝑗 + 𝐾𝑗 𝑑𝑗∗ 𝑗 ∈ℕ𝑖 × 𝐺𝑖 − 𝑇 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑡 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑕𝑖 + 𝑧𝑖 𝑑𝜏 𝐺𝑗 − 𝑇 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑗 ∈ℕ𝑖 × 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 + 𝑕𝑗 + 𝑧𝑗 − 𝑇 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝑡+𝑇 3𝛼1𝑖 4𝑚𝑖2 − 𝛼1𝑖 𝑑𝜏 − 𝑚𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 𝛼1𝑖 − 2𝑚𝑖2 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑡 𝑕𝑖 + 𝑧𝑖 (K.7) 𝑡+𝑇 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑡 𝑡+𝑇 𝑑𝜏 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝑡 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 𝑡+𝑇 − 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑇𝑒𝑗 𝑊𝑗 𝑑𝜏 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝑡 Từ (K.3) dễ thấy có số dương 0 cho: 𝑡+𝑇 𝑒𝑖𝑇 𝐹𝑒𝑖 + (𝑕𝑖 + z𝑖 𝛼2𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝑡 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 𝑑𝜏 (K.8) 𝑗 ∈ℕ𝑖 𝑡+𝑇 ≤ −𝛼2𝑖 𝜆0 𝑒𝑖 𝑑𝜏 𝑡 Biến đổi (K.7) dạng tổng bình phương: 𝑡+𝑇 𝐿𝑖 = 𝑡 𝛼1𝑖 − 𝑚𝑖 𝛼2𝑖 𝑒𝑖𝑇 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝐴 +𝐶 2 𝐵 + +𝐶 𝐵 +3 +𝐴 155 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 − 𝐴2 + 𝐵 − 2𝐶 49 64 𝑑𝜏 (K.9) Trong (K.9) số hạng định nghĩa: 𝑡+𝑇 𝑇 𝑡 × 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + 𝑡+𝑇 𝑇 𝑊𝑖 𝜙𝑒𝑖 𝐵= 𝑡 𝐺𝑖 𝑢∗𝑖 + 𝐾𝑖 𝑑∗𝑖 + 𝑊𝑖 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐴= 𝑕 + 𝑧𝑗 𝑗 𝑕𝑖 + 𝑧𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 − 𝑖 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑎𝑖𝑗 𝑗∈ℕ𝑖 𝑑𝜏 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝑇 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑡+𝑇 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝐶= 𝑡 Sử dụng chuẩn bất đẳng thức tích phân Cauchy-Schwarz ta có: 𝑡+𝑇 𝐴 ≤ 𝜆12 𝑊𝑖 𝑑𝜏 , 𝑡 𝑡+𝑇 − 𝐵 𝜆2 𝑊𝑖 𝑑𝜏 + ≤− 𝜆3 𝑊 𝑖 𝑡 𝑡 𝑡+𝑇 ≤− 2 𝜆2 𝑊𝑖 𝑑𝜏 𝑡 𝑡+𝑇 ≤− 𝑡+𝑇 𝐶 𝜆3 𝑊 𝑖 ≤− 𝜆22 𝑊𝑖 𝑑𝜏 , 𝑇2 𝑡 ≤ ℰ2𝐻𝐽𝐼𝑖 𝑇2 𝑡 𝑎𝑖𝑗 𝛾𝑖𝑚𝑎𝑥 + 𝐾𝑖𝑚𝑎𝑥 , 𝜆3 = 𝑗 ∈ℕ𝑖 𝑡+𝑇 𝜆1 = 𝜙𝑒𝑖𝑚𝑎𝑥 𝐹𝑚𝑎𝑥 + 𝑕𝑖 + 𝑧𝑖 𝛾𝑖𝑚𝑎𝑥 + 𝑗 ∈ℕ𝑖 𝑊𝑗 𝑑𝜏 𝑡 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 ≤ 𝑡+𝑇 2 𝑊𝑗 𝑑𝜏 − 𝜆2 𝑊𝑖 𝑑𝜏 𝑡 𝑡+𝑇 2 𝑕𝑗 + 𝑧𝑗 𝑕𝑖 + 𝑧𝑖 𝐺𝑗𝑚𝑎𝑥 − 𝐾𝑗𝑚𝑖𝑛 𝜀𝑒𝑗𝑚𝑎𝑥 , 𝑎𝑖𝑗 𝜙𝑒𝑗𝑚𝑎𝑥 𝑕𝑗 + 𝑧𝑗 𝐺𝑖𝑚𝑎𝑥 − 𝐾𝑖𝑚𝑖𝑛 𝜀𝑒𝑖𝑚𝑎𝑥 + 𝜆2 = 𝜙𝑒𝑖𝑚𝑖𝑛 𝑕𝑖 + 𝑧𝑖 𝐺𝑖𝑚𝑖𝑛 − 𝐺𝑗𝑚𝑎𝑥 − 𝐾𝑗𝑚𝑖𝑛 Thay (K.8) 𝐴 , 𝐵 , 𝐶 định nghĩa vào (K.9), ta có: 𝑡+𝑇 𝑒𝑖 𝑑𝜏 − 𝜇2 𝐿𝑖 ≤ −𝜇0 𝑡+𝑇 𝑡 𝑊𝑖 𝑑𝜏 𝑡 𝜇1 − 𝜇2 𝜇12 + 𝜇3 + 4𝜇2 (K.10) với 𝜇0 = 𝛼2 𝜆0 , 𝜇1 = 𝛼1 𝜆1 2𝑚𝑖 , 𝜇2 = 𝛼1 𝜆2 8𝑇𝑚𝑖 , 𝜇3 = 2𝛼1 𝑇ℰ𝐻𝐽𝐼𝑖𝑚𝑎𝑥 𝑚𝑖 𝐿𝑖 (K.10) âm nếu: 𝑡+𝑇 𝑡 𝜇21 𝑒𝑖 𝑑𝜏 ≥ 𝜇 + = 𝑏𝑒𝑖 𝜇0 4𝜇2 (K.11) 𝑡+𝑇 𝑊𝑖 𝑑𝜏 ≥ 𝑡 𝜇2 𝜇1 𝜇3 + + = 𝑏𝑊 𝑖 2𝜇2 2𝜇2 156 (K.12) Vậy theo (K.11) (6.49) ta thấy, trạng thái hệ kín 𝑒𝑖 𝑊𝑖 làm cho 𝐿𝑖 vượt qua biên giới ổn định luật cập nhật (6.35) làm cho đạo hàm 𝐿𝑖 Từ đó, theo Định lý Lyapunov mở rộng [74], ổn định UUB hệ thống Định lý chứng minh Để chứng minh hàm đánh giá hội tụ, trừ (6.26) (6.30), để ý đến (6.49), ta có: 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 = 𝑏𝑣𝑖 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 Tương tự, để chứng minh ngõ vào điều khiển ngõ vào ước lượng nhiễu xấu nhất, ta 𝑉𝑖∗ − 𝑉𝑖 ≤ 𝑊𝑖 𝜙𝑒𝑖 + 𝜀𝑒𝑖 ≤ trừ cặp biểu thức (6.23) với (6.31) (6.24) với (6.32) ta có: 𝑢𝑖∗ − 𝑢𝑖 ≤ 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 𝑕𝑖 + 𝑧𝑖 𝜎𝑚𝑖𝑛 𝑅𝑖 𝐺𝑖𝑚𝑎𝑥 = 𝑏𝑢𝑖 Và 𝑑𝑖∗ − 𝑑𝑖 ≤ 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 𝑕𝑖 + 𝑧𝑖 𝐾𝑖𝑚𝑎𝑥 2𝜌𝑖2 = 𝑏𝑑𝑖 𝑏𝑣𝑖 , 𝑏𝑢𝑖 𝑏𝑑𝑖 số dương Một cách tương tự, ta chứng minh ổn định hội tụ trường hợp có mặt 𝑊𝑅𝐵𝑖 luật cập nhật (6.35) Ta có điều phải chứng minh 157 [...]... 1.2.3 Mục tiêu nghi n cứu Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghi n cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng các yêu cầu: 1 Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp) 2 Bảo đảm được hệ kín ổn định bền vững 3 Tối... của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghi n cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm Đối tượng thực nghi m nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững. .. động học nội không biết trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghi n cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2) 1.3.2 Phương pháp nghi n cứu Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về RL, luận án phân tích ưu nhược điểm của từng giải thuật, ... đến sai số bám động học, động lực học và năng lượng điều khiển 12 b) Mở rộng giải thuật ORADP cho bài toán điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến MIMO (1.3): - Thành lập đồ thị truyền thông phân tán với mỗi nút đặc trưng cho động học phi tuyến MIMO (1.3) Mở rộng giải thuật ORADP điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến - Ứng dụng giải thuật điều khiển để đồng bộ hóa... động thích nghi kinh điển Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống b) Nghi n cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử... khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau: - Phân tích và thiết kế cấu trúc điều khiển - Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm - Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín 4 Chương 5: Mô phỏng và thực nghi m robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững 5 Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững. .. điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69] Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125] Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển. .. ổn định cho toàn hệ thống c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến (𝑖𝑖) Mô phỏng và thực nghi m trên đối tượng robot di động dạng xe d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng... mục tiêu chính trong luận án này 1.2 Động cơ, mục tiêu và nhiệm vụ nghi n cứu 1.2.1 Sự cần thiết phải nghi n cứu học củng cố trong điều khiển Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghi n cứu quan tâm Các... và chứng minh (Định lý 3.2) b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết Các điểm mới trong giải thuật ORADP được thể hiện như sau: - Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ hàm được sử ... động học nội trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghi n cứu giải thuật học củng cố điều khiển hợp tác thích nghi bền vững phát triển mở rộng tảng giải thuật điều khiển. .. ổn định hệ thống, không sử dụng luật điều khiển luật cập nhật tham số Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghi n cứu giải thuật học củng cố điều khiển thích nghi bền vững phát... vụ nghi n cứu Để đạt mục tiêu nghi n cứu, khuôn khổ luận án, số nhiệm vụ cấp thiết đặt sau: a) Nghi n cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa cấu trúc qui hoạch động thích

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan