当前位置:   article > 正文

强化学习6——神经网络基础知识_强化学习神经网络

强化学习神经网络

一、概念及性质

1.1 概念

人工神经网络(简称神经网络,Neural Network)是模拟人脑思维方式的数学模型。神经网络控制是将神经网络与控制理论相结合而发展起来的智能控制方法。它已成为智能控制的一个新的分支,为解决复杂的非线性、不确定、不确知系统的控制问题开辟了新途径。典型神经网络有如下三种:

                       (a)前向网络                                                 (b)反馈网络                                          (c)自组织网络

                                                                                 图1 三种典型神经网络

1.2 特征

神经网络具有以下几个特征:

(1)能逼近任意非线性函数;

(2)信息的并行分布式处理与存储;

(3)可以多输入、多输出;

(4)便于用超大规模集成电路(VISI)或光学集成电路系统实现,或用现有的计算机技术实现;

(5)能进行学习,以适应环境的变化。

1.3 神经网络算法

目前神经网络的学习算法有多种,按有无导师分类,可分为有导师学习(Supervised Learning)、无导师学习(Unsupervised Learning)和再励学习(Reinforcement Learning)等几大类。

                                         

                                                                          图2 有导师指导的神经网络学习

在有导师的学习方式中,网络的输出和期望的输出(即导师信号)进行比较,然后根据两者之间的差异调整网络的权值,最终使差异变小,如图2所示。

                                                         

                                                                              图3 无导师指导的神经网络学习

在无导师的学习方式中,输入模式进入网络后,网络按照一种预先设定的规则(如竞争规则)自动调整权值,使网络最终具有模式分类等功能,如图3所示。

                                               

强化学习是介于上述两者之间的一种学习方式。

1.4  神经网络控制的研究领域

(1)基于神经网络的系统辨识

① 将神经网络作为被辨识系统的模型,可在已知常规模型结构的情况下,估计模型的参数。

②利用神经网络的线性、非线性特性,可建立线性、非线性系统的静态、动态、逆动态及预测模型,实现系统的建模和辨识。

(2)神经网络控制器

神经网络作为控制器,可对不确定、不确知系统及扰动进行有效的控制,使控制系统达到所要求的动态、静态特性。

(3)神经网络与其他算法相结合

将神经网络与专家系统、模糊逻辑、遗传算法等相结合,可设计新型智能控制系统。

(4)优化计算

在常规的控制系统中,常遇到求解约束优化问题,神经网络为这类问题的解决提供了有效的途径。

目前,神经网络控制已经在多种控制结构中得到应用,如PID控制、模型参考自适应控制、前馈反馈控制、内模控制、预测控制、模糊控制等。

二、基于梯度下降的权值调整策略

2.1  Delta学习规则

假设误差准则函数为

                                                                       

式中,d_{p}代表期望的输出(导师信号);y_{p}为网络的实际输出,yp=f(WTXp)\boldsymbol{W}为网络所有权值组成的向量,即

                                                                        

X_{p}为输入模式,即

                                                        

式中,训练样本数为p=1,2,\cdots,P

神经网络学习的目的是通过调整权值\boldsymbol{W},使误差准则函数最小。可采用梯度下降法来实现权值的调整,其基本思想是沿着E的负梯度方向不断修正\boldsymbol{W}值,直到E达到最小,这种方法的数学表达式为

                                                         

其中

                                                      

令网络输出为\theta _{p}=\boldsymbol{W}^{T}\boldsymbol{X}_{p},则

                                                             

                         

W的修正规则为

                                                

上式称为Delta学习规则,又称误差修正规则。

Hebb学习规则和Delta学习规则都属于传统的权值调节方法,而一种更先进的方法是通过Lyapunov稳定性理论来获得权值调节律的。

三、BP神经网络

                                              

                                                              

                                                                             

3.1 特点

BP网络具有以下几个特点:

(1)BP网络是一种多层网络,包括输入层、隐层和输出层;

(2)层与层之间采用全互连方式,同一层神经元之间不连接;

(3)权值通过Delta学习算法进行调节;

(4)神经元激发函数为S函数;

(5)学习算法由正向传播和反向传播组成;

(6)层与层的连接是单向的,信息的传播是双向的。

 

四、RBF神经网络

4.1 基本概念

                                                      

                                            

 

                                           

RBF网络的学习过程与BP网络的学习过程类似,两者的主要区别在于各使用不同的作用函数。BP网络中隐层使用的是Sigmoid函数,其值在输入空间中无限大的范围内为非零值,因而是一种全局逼近的神经网络;而RBF网络中的作用函数是高斯基函数,其值在输入空间中有限范围内为非零值,因而RBF网络是局部逼近的神经网络。

 

4.2 基于RBF网络的函数逼近

RBF网络可对任意未知非线性函数进行任意精度的逼近。在控制系统设计中,采用RBF网络可实现对未知函数的逼近。

                               

例如,为了估计未知函数f(x),可采用如下RBF网络算法进行逼近

                                                            

式中,\boldsymbol{x}为网络输入,i表示输入层节点,j为隐含层节点,\boldsymbol{h}=[h_{1},h_{2},h_{3}, \cdots ,h_{n}]^{T}为隐含层的输出,W为理想权值,\varepsilon为网络的逼近误差,εεN

在控制系统设计中,可采样RBF网络对未知函数f进行逼近。一般可采用系统状态作为网络的输入,网络输出为

                                                        

式中,\hat{\boldsymbol{W}}为估计权值。

在实际的控制系统设计中,为了保证网络的输入值处于高斯基函数的有效范围,应根据网络的输入值实际范围确定高斯基函数中心点坐标向量\boldsymbol{c}值;为了保证高斯基函数的有效映射,需要将高斯基函数的宽度\boldsymbol{b}取适当的值。\hat{\boldsymbol{W}}的调节是通过闭环的Lyapunov函数的稳定性分析中进行设计的。

 

五、仿真实例

5.1 问题描述

考虑如下简单非线性系统

                                                                  \dot{x}_{1}=x_{2} \\ \dot{x}_{2}=f(x)+u                              (1)

其中f(x)未知。

位置指令为x_{d},则误差及其变化率为

                                                          e=x_{1}-x_{d},\dot{e}=x_{2}-\dot{x}_{d}                    (2)

定义误差函数为

                                                                   s=ce+\dot{e},c> 0                      (3)

                                     \dot{s}=c\dot{e}+\ddot{e}=c\dot{e}+\dot{x}_{2}-\ddot{x}_{d}=c\dot{e}+f(x)+u-\ddot{x}_{d}           

由(3)可知,如果s\rightarrow 0,则 e\rightarrow 0 \quad and \quad \dot{e}\rightarrow 0。         

5.2 控制设计

由于RBF的万能逼近特性,可采用RBF神经网络逼近f(x)

                                                      h_{j}(x)=exp\left ( \frac{\left \| \boldsymbol{x}-c_{j} \right \|^{2}}{2b_{2}^{j}} \right )\\ f(x)=\boldsymbol{W}^{*T}h(x)+\varepsilon

f(x)的近似值如下:  

                                                                \hat{f}(\boldsymbol{x})=\hat{\boldsymbol{W}}^{T}\boldsymbol{h}(\boldsymbol{x})     

其中,h(x)为高斯函数输出,\hat{\boldsymbol{W}}为网络权值的估计值。

由于

                           f(x)f^(x)=WTh(x)+εW^Th(x)=W~Th(x)+ε

其中,\tilde{\boldsymbol{W}}=\hat{\boldsymbol{W}}-\boldsymbol{W}^{*}

定义李亚普洛夫函数

                                                            V=\frac{1}{2}s^{2}+\frac{1}{2\gamma }\tilde{\boldsymbol{W}}^{T}\tilde{\boldsymbol{W}}

                            

设计控制律为

                                                            

                                        

\eta > \left | \varepsilon \right |_{max},自适应率为

                                                      

                                                       

5.3 结果与分析

系统仿真图如下:

                 

1. 系统模型

  1. function [sys,x0,str,ts]=s_function(t,x,u,flag)
  2. switch flag,
  3. %Initialization
  4. case 0,
  5. [sys,x0,str,ts]=mdlInitializeSizes;
  6. case 1,
  7. sys=mdlDerivatives(t,x,u);
  8. %Outputs
  9. case 3,
  10. sys=mdlOutputs(t,x,u);
  11. %Unhandled flags
  12. case {2, 4, 9 }
  13. sys = [];
  14. %Unexpected flags
  15. otherwise
  16. error(['Unhandled flag = ',num2str(flag)]);
  17. end
  18. %mdlInitializeSizes
  19. function [sys,x0,str,ts]=mdlInitializeSizes
  20. sizes = simsizes;
  21. sizes.NumContStates = 2;
  22. sizes.NumDiscStates = 0;
  23. sizes.NumOutputs = 3;
  24. sizes.NumInputs = 2;
  25. sizes.DirFeedthrough = 0;
  26. sizes.NumSampleTimes = 0;
  27. sys=simsizes(sizes);
  28. x0=[0.15;0];
  29. str=[];
  30. ts=[];
  31. function sys=mdlDerivatives(t,x,u)
  32. ut=u(1);
  33. f=10*x(1)*x(2);
  34. sys(1)=x(2);
  35. sys(2)=f+ut;
  36. function sys=mdlOutputs(t,x,u)
  37. f=10*x(1)*x(2);
  38. sys(1)=x(1);
  39. sys(2)=x(2);
  40. sys(3)=f;

2. 控制器

  1. function [sys,x0,str,ts] = spacemodel(t,x,u,flag)
  2. switch flag,
  3. case 0,
  4. [sys,x0,str,ts]=mdlInitializeSizes;
  5. case 1,
  6. sys=mdlDerivatives(t,x,u);
  7. case 3,
  8. sys=mdlOutputs(t,x,u);
  9. case {2,4,9}
  10. sys=[];
  11. otherwise
  12. error(['Unhandled flag = ',num2str(flag)]);
  13. end
  14. function [sys,x0,str,ts]=mdlInitializeSizes
  15. global b c lama
  16. sizes = simsizes;
  17. sizes.NumContStates = 5;
  18. sizes.NumDiscStates = 0;
  19. sizes.NumOutputs = 2;
  20. sizes.NumInputs = 4;
  21. sizes.DirFeedthrough = 1;
  22. sizes.NumSampleTimes = 1;
  23. sys = simsizes(sizes);
  24. x0 = 0.1*ones(1,5);
  25. str = [];
  26. ts = [0 0];
  27. c=0.5*[-2 -1 0 1 2;
  28. -2 -1 0 1 2];
  29. b=3.0;
  30. lama=10;
  31. function sys=mdlDerivatives(t,x,u)
  32. global b c lama
  33. xd=sin(t);
  34. dxd=cos(t);
  35. x1=u(2);
  36. x2=u(3);
  37. e=x1-xd;
  38. de=x2-dxd;
  39. s=lama*e+de;
  40. W=[x(1) x(2) x(3) x(4) x(5)]';
  41. xi=[x1;x2];
  42. h=zeros(5,1);
  43. for j=1:1:5
  44. h(j)=exp(-norm(xi-c(:,j))^2/(2*b^2));
  45. end
  46. gama=1500;
  47. for i=1:1:5
  48. sys(i)=gama*s*h(i);
  49. end
  50. function sys=mdlOutputs(t,x,u)
  51. global b c lama
  52. xd=sin(t);
  53. dxd=cos(t);
  54. ddxd=-sin(t);
  55. x1=u(2);
  56. x2=u(3);
  57. e=x1-xd;
  58. de=x2-dxd;
  59. s=lama*e+de;
  60. W=[x(1) x(2) x(3) x(4) x(5)];
  61. xi=[x1;x2];
  62. h=zeros(5,1);c
  63. for j=1:1:5
  64. h(j)=exp(-norm(xi-c(:,j))^2/(2*b^2));
  65. end
  66. fn=W*h;
  67. xite=1.50;
  68. %fn=10*x1+x2; %Precise f
  69. ut=-lama*de+ddxd-fn-xite*sign(s);
  70. sys(1)=ut;
  71. sys(2)=fn;

 

3. 绘图

  1. close all;
  2. figure(1);
  3. subplot(211);
  4. plot(t,x(:,1),'r',t,x(:,2),'b');
  5. xlabel('time(s)');ylabel('position tracking');
  6. subplot(212);
  7. plot(t,cos(t),'r',t,x(:,3),'b');
  8. xlabel('time(s)');ylabel('speed tracking');
  9. figure(2);
  10. plot(t,f(:,1),'r',t,f(:,3),'b');
  11. xlabel('time(s)');ylabel('f approximation');

仿真结果如下

             

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/926173
推荐阅读
相关标签
  

闽ICP备14008679号