强化学习笔记：最优策略、值函数与贝尔曼最优方程_最优策略函数

作者：Cpp五条 | 2024-06-17 06:07:31

踩

最优策略函数

1. 前言

上一篇介绍了策略、值函数和贝尔曼方程。强化问题的求解就是学习一个能够取得长期（或总体）回报最大化的策略。

本篇我们接着介绍最优策略、最优值函数以及贝尔曼最优方程，最优策略代表能够得到最优值函数解的策略，求解贝尔曼最优方程可以得到最优策略。

本文中公式编号(,)中第2部分表示对应公式在原书中的编号（如果在原书中有的话）。

对于有限马尔科夫决策过程，我们可以对最优策略给出一个精确的定义。两个策略基于它们的值函数进行优劣排序：

$\pi' \geq \pi \Leftrightarrow v'_\pi(s) \geq v_\pi(s), \; \forall s \in \mathcal{S} \qquad\cdots(1)$

拥有最大值函数的策略就被称为最优策略(optimal policy)，可能有多个最优策略，统称为

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/729925