赞
踩
参考网址:https://datawhalechina.github.io/joyrl-book/#/ch9/main
基于价值(Value-based)和基于策略(Policy-based)是强化学习中两种常见的方法。以下是它们各自的优缺点:
1.收敛性较好:基于价值的方法通常更容易收敛到全局最优解,尤其在状态空间较小的情况下。
2.广泛适用:可以适用于离散和连续的状态和动作空间,包括处理高维状态空间的问题。
1.难以处理连续动作空间: 在处理连续动作空间时,需要采用额外的技巧,如使用函数逼近器(如深度神经网络)。
2.探索-利用问题:基于价值的方法对于探索-利用问题敏感,可能会陷入局部最优解。
3.高方差:基于价值的方法通常都是通过采样的方式来估计价值函数,这样会导致估计的方差很高,从而影响算法的收敛性。训练过程中存在高方差,使得训练不够稳定,可能需要采取一些技术手段进行缓解。
4.训练不稳定: 对于深度强化学习,训练可能不够稳定,容易受到样本相关性和非平稳性的影响。
1.直接生成动作:基于策略的方法直接生成动作,无需显式计算值函数,对于处理连续动作空间更为直接。
2.探索-利用平衡:由于是直接生成策略,可以更好地处理探索-利用平衡问题,对于探索更有灵活性。
1.收敛性不如基于价值的方法:相对于基于价值的方法,基于策略的方法在找到全局最优解上可能更为困难。
2.对高维状态空间挑战较大:处理高维状态空间时,基于策略的方法通常需要更多的样本和计算资源。
在选择使用基于价值还是基于策略的算法时,通常取决于具体的问题要求、状态空间和动作空间的性质,以及对训练稳定性和收敛性的需求。一些算法,如深度确定性策略梯度(DDPG)和通用策略优化(TRPO,PPO),尝试结合两者的优点。
马尔可夫链是一个随机过程,其中未来状态的条件概率只依赖于当前状态,而与过去状态无关。在这样的马尔可夫链中,存在一个平稳分布,也称为马尔可夫平稳分布。以下是马尔可夫平稳分布(Markov Stationary Distribution)需要满足的条件:
从任意状态出发,可以通过有限步骤到达任何其他状态。这确保了系统是遍历的,不会陷入不可到达的状态。
马尔可夫链不能有周期性,即不能存在一个正整数的最小公倍数,使得从某一状态出发,经过整数倍的步骤后回到原状态。非周期性确保了分布不会在某些状态之间来回循环。
马尔可夫链的任意状态都可以通过有限步骤到达任何其他状态。这保证了链是遍历的,而不是分散成多个不相连的子系统。
任何正常返态(recurrent state)的平稳分布概率必须是1。正常返态是指在有限步骤内必然返回的状态。
当马尔可夫链满足以上条件时,它会收敛到一个唯一的平稳分布。这个平稳分布表示在长时间内,马尔可夫链的状态概率分布趋于稳定,不再随时间变化。这样的平稳分布在许多应用中都具有重要的性质和应用。
“平稳分布,顾名思义就是指在无外界干扰的情况下,系统长期运行之后其状态分布会趋于一个固定的分布,不再随时间变化。已经跑过一些强化学习实战的读者们也会发现,每次成功跑一个算法,奖励曲线都会收敛到一个相对稳定的值,只要环境本身不变,哪怕换一种算法,奖励曲线也会收敛到一个相对稳定的值,除非我们改动了环境的一些参数比如调奖励等,这就是平稳分布的概念。”——JoyRLBook_9.4.1平稳分布
对于不同的问题,这个问题的答案可能是不同的。
以下是一些影响REINFORCE 算法和 Q-learning 算法训练速度的因素:
总体而言,不同问题和场景可能更适合使用其中一种算法。在实践中,选择算法通常取决于问题的性质、可用的数据和计算资源。
在强化学习中,确定性策略和随机策略是两种不同的决策方式,它们的区别主要体现在对于给定状态s下选择动作a的方式上。
区别总结:
(1)确定性策略直接指定在给定状态下应该选择的动作,是一个确定的映射。
(2)随机策略在给定状态下以概率分布的方式选择动作,引入了随机性,使得在相同状态下可能选择不同的动作。
在实际应用中,选择确定性策略还是随机策略通常取决于问题的性质和具体的需求。确定性策略在某些情况下更容易理解和解释,而随机策略则允许更灵活的行为和更好的探索性质。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。