赞
踩
策略迭代算法和值函数迭代算法
大家如果不了解马尔科夫决策过程可以先阅读这篇文章:https://blog.csdn.net/qq_33302004/article/details/115027798
上一篇文章中介绍了马尔科夫决策过程(MDP),也介绍了状态值函数和行为-状态值函数的计算方法。由此我们已经完成了对强化学习问题的建模过程,我们知道强化学习就是寻找一个最优策略 π \pi π,保证一个已知的MDP ( S , A , P , r , γ ) (S, A, P, r, \gamma) (S,A,P,r,γ)的累计回报期望最大,也就是:
π = arg max π ∫ R ( τ ) p π ( τ ) d τ \pi = \argmax_\pi \int {R(\tau)p_\pi(\tau)} d\tau π=πargmax∫R(τ)pπ(τ)dτ
我们把已知状态转移概率 P P P的问题有模型问题,把未知 P P P的问题叫做无模型问题,由此最优化MDP的方法可分为基于模型的动态规划方法和基于无模型的强化学习方法,如下图所示:
由图中可知,这两种方法都包括策略迭代算法、值函数迭代算法、策略搜索算法。本文将介绍基于模型的策略迭代算法和值函数迭代算法。
先不考虑策略迭代或者值函数迭代的概念,来回顾一下我们要解决的问题。在序贯决策问题中,我们知道全部的状态S、可以采用的全部动作A,还知道在状态S下采用动作A会转移到什么状态S‘(P),以及对应的反馈R和损失因子 γ \gamma γ。我们现在我们需要考虑两个问题:
我们手上有两个武器,状态值函数和行为-状态值函数:
ν π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a ν π ( s ′ ) ) \nu_\pi(s) = \sum_{a\in A} \pi(a|s) \left( R_s^a + \gamma\sum_{s' \in S}P_{ss'}^a\nu_\pi(s') \right)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。