赞
踩
自适应动态规划(Adaptive Dynamic Programming,ADP)是一种优化控制方法,用于解决动态系统中的最优控制问题。它通过近似动态规划(Approximate Dynamic Programming)的方式来逼近系统的最优控制策略。
逐步推导自适应动态规划(ADP)算法在离散时间线性二次型调节器(LQR)问题中的应用。
考虑一个离散时间线性系统:
其中,
目标是最小化以下无穷时间范围内的二次型成本函数:
其中,
动态规划(DP)方法通过求解贝尔曼方程来找到最优策略。贝尔曼方程为:
其中,是从状态开始的最优成本函数。
假设值函数具有二次型形式:
其中,P 是一个对称正定矩阵。
在这种假设下,贝尔曼方程变为:
对控制输入 求导并设置导数为零,得到最优控制输入:
为了迭代更新值函数矩阵 P,可以使用梯度下降方法。具体地,在每次迭代中,根据当前策略计算状态和成本,然后更新 P:
其中, 是学习率。
为了确保矩阵 在计算控制输入时的可逆性,可以加入正则化项
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。