赞
踩
本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
Q 表只能解决少量状态的问题,如果状态数量上涨,那我们面对的可能性呈现指数上涨,这样的话Q表格就没有这个处理能力了
比如:
Q表格不行的时候,我们可以采用:值函数(Q函数)近似
Q表格的作用在于:输入状态和动作,输出Q值
那我们可以用一个 “带参数” 的 Q 函数来进行替代: q π ( s , a ) ≈ q ^ ( s , a , w ) q^π(s,a)\ \approx\ \hat{q}(s,a,\textbf{w}) qπ(s,a) ≈ q^(s,a,w)
不同的近似方式:
Q表格方法的缺点:
值函数近似的优点:
神经网络可以逼近任意连续的函数
DQN 是使用神经网络解决强化学习问题最经典的算法
该算法由谷歌的 DeepMind 团队在 2015 年提出
《Human-level control through deep reinforcement learning》这篇论文被发表在了 Nature 杂志上
通过高维度的输入信息(像素级别的图像),使用了神经网络的 DQN 在 49 个 Atari 游戏中,有 30 个超越了人类水平
使用神经网络代替Q表格以后:
神经网络中由于引入了非线形函数,比如 “relu”
所以在理论上,无法证明训练之后一定会收敛
于是 DQN 提出两大创新,使得训练更有效率,也更稳定
作用:
问题来源:
解决方案:
Off-Policy 在经验回放中的作用:
优点:
作用:
问题来源:
解决方法:
Model:
引入神经网络的问题解决:
Agent:
分为 model,algorithm,agent 这 3 个部分
总体抽象来说:
PARL 常用的 API:
PARL 里面打印日志的工具:
PARL 的 API 文档地址:
https://parl.readthedocs.io/en/latest/model.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。