当前位置:   article > 正文

强化学习笔记:最优策略、值函数与贝尔曼最优方程_最优策略函数

最优策略函数

目录

1. 前言

2. 最优策略、值函数

3. 贝尔曼最优方程

4. 贝尔曼最优方程求解

5. 理想很丰满现实很残酷


1. 前言

        上一篇介绍了策略、值函数和贝尔曼方程。强化问题的求解就是学习一个能够取得长期(或总体)回报最大化的策略。

        本篇我们接着介绍最优策略、最优值函数以及贝尔曼最优方程,最优策略代表能够得到最优值函数解的策略,求解贝尔曼最优方程可以得到最优策略。

        本文中公式编号(,)中第2部分表示对应公式在原书中的编号(如果在原书中有的话)。

2. 最优策略、值函数

        对于有限马尔科夫决策过程,我们可以对最优策略给出一个精确的定义。两个策略基于它们的值函数进行优劣排序:

        \pi' \geq \pi \Leftrightarrow v'_\pi(s) \geq v_\pi(s), \; \forall s \in \mathcal{S} \qquad\cdots(1)

        拥有最大值函数的策略就被称为最优策略(optimal policy),可能有多个最优策略,统称为

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/729925
推荐阅读
相关标签