盐析白兔

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

马尔科夫决策过程，强化学习，深度强化学习，Q-learning 入门一看就懂_动态马尔可夫决策和深度强化学习

作者：盐析白兔 | 2024-04-22 13:50:33

赞

踩

动态马尔可夫决策和深度强化学习

马尔科夫性：即无后效性，下一个状态只和当前状态有关而与之前的状态无关。
马尔科夫过程：马尔科夫过程是随机过程的一种。可以理解为，在满足马尔科夫性质的条件下，状态与状态之间的转换过程即为马尔科夫过程。这个过程只有状态和状态转移概率，是不涉及动作的。

马尔科夫决策过程：考虑了动作策略的马尔科夫过程，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。
强化学习：是依靠环境给予的奖惩来学习的，因此对应的马尔科夫决策过程还包括奖惩值
这几者的区别详见：https://zhuanlan.zhihu.com/p/80884389

马尔科夫决策推荐两篇文章

强化学习及其经典算法——Q-learning（文章中结合了实例，容易理解）

强化学习如何解决问题以及适合解决什么样的问题？

如何解决问题：https://blog.csdn.net/broadview2006/article/details/79076736
解决什么问题：序贯决策问题
https://blog.csdn.net/songyunli1111/article/details/84453457

从强化学习到深度强化学习（注意经验池和目标网路）
深度强化学习(DRL) = 强化学习(RL) + 深度学习(DL)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/468848

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号