赞
踩
目录
上一篇介绍了策略、值函数和贝尔曼方程。强化问题的求解就是学习一个能够取得长期(或总体)回报最大化的策略。
本篇我们接着介绍最优策略、最优值函数以及贝尔曼最优方程,最优策略代表能够得到最优值函数解的策略,求解贝尔曼最优方程可以得到最优策略。
本文中公式编号(,)中第2部分表示对应公式在原书中的编号(如果在原书中有的话)。
对于有限马尔科夫决策过程,我们可以对最优策略给出一个精确的定义。两个策略基于它们的值函数进行优劣排序:
拥有最大值函数的策略就被称为最优策略(optimal policy),可能有多个最优策略,统称为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。