赞
踩
看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看
原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/
上回书咱们说到,当状态和动作很小时,我们可以用表结构来记录Q值。
再捡起我们的打砖块游戏,它的环境中的状态,可以被定义为平板位置,球的位置和方向,每个独立砖块的存在性。然而,这个直觉性的表示方法对于每个游戏都是不同的。我们是否可以提出一个更通用的适用于所有游戏的方法呢?很显然,我们可以选择屏幕像素,它们包含了关于游戏的所有相关信息,除了球的方向和速度,这通过屏幕两个连续的帧就同样可以获得。
如果我们要应用DeepMind在论文中提到的对于屏幕预处理的方法——获取我们屏幕最后的信息,挑战尺寸为84*84并且转换为256灰度级——我们将会有256×84×84×4≈1067970
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。