当前位置:   article > 正文

揭秘深度强化学习-6状态空间过大之神经网络来帮忙_强化学习状态空间很大

强化学习状态空间很大

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

DQN

上回书咱们说到,当状态和动作很小时,我们可以用表结构来记录Q值。

再捡起我们的打砖块游戏,它的环境中的状态,可以被定义为平板位置,球的位置和方向,每个独立砖块的存在性。然而,这个直觉性的表示方法对于每个游戏都是不同的。我们是否可以提出一个更通用的适用于所有游戏的方法呢?很显然,我们可以选择屏幕像素,它们包含了关于游戏的所有相关信息,除了球的方向和速度,这通过屏幕两个连续的帧就同样可以获得。

如果我们要应用DeepMind在论文中提到的对于屏幕预处理的方法——获取我们屏幕最后的信息,挑战尺寸为84*84并且转换为256灰度级——我们将会有256×84×84×4≈1067970256848441067970 种可能的游戏状态。这太多了,Q表装不下了,整个宇宙的已知原子数目也没那么多!也许有人争辩说许多状态永远不可能出现,我们可以将它视为分散表结构仅包含已经发生过的状态。即便如此,想要遍历训练这个表可能会花费很长很长的时间。我们有更理想的方法,就是我们并不是全覆盖,而是对于从未访问过的状态依然有一个

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/809988
推荐阅读
相关标签
  

闽ICP备14008679号