当前位置:   article > 正文

马尔科夫决策过程,强化学习,深度强化学习,Q-learning 入门 一看就懂_动态马尔可夫决策和深度强化学习

动态马尔可夫决策和深度强化学习
  • 马尔科夫性:即无后效性,下一个状态只和当前状态有关而与之前的状态无关。
  • 马尔科夫过程:马尔科夫过程是随机过程的一种。可以理解为,在满足马尔科夫性质的条件下,状态与状态之间的转换过程即为马尔科夫过程。这个过程只有状态和状态转移概率,是不涉及动作的。
  • 马尔科夫决策过程:考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
  • 强化学习:是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值
    这几者的区别详见:https://zhuanlan.zhihu.com/p/80884389
  1. 马尔科夫决策推荐两篇文章
  1. 强化学习及其经典算法——Q-learning(文章中结合了实例,容易理解)
  1. 强化学习如何解决问题以及适合解决什么样的问题?
  1. 从强化学习到深度强化学习(注意经验池和目标网路)
    深度强化学习(DRL) = 强化学习(RL) + 深度学习(DL)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/468848
推荐阅读
相关标签
  

闽ICP备14008679号