赞
踩
主要内容为题主在学习机器学习时记录的内容
强化学习是让智能体 agent 在环境 environment 中学习,根据环境的状态 state,执行动作 action ,并根据环境的反馈 reward (奖励)来指导更好的动作。
举例:
核心主要为两部分和三要素,如图。
再举一个常见的游戏(是我的毕业论文呜呜呜)
在Flappy Bird游戏中,agent-小鸟的状态空间为:生、死、以及垂直速度,动作为:拍打起跳、不拍打,奖励为通过管道+1、死亡-1000.
从超级强大的阿尔法狗,到简单的Flappy Bird,都可以使用强化学习作为自学习与玩家对抗比较的方式。因为游戏中有较为明显的环境、状态空间、奖励、动作,因此非常适合强化学习训练。
走迷宫游戏:
在个性化推荐方面,强化学习也有着用武之地。
对于一个个性化界面,它的环境就是新闻可用列表以及屏幕前的你,而它的奖励就是用户点击则+reward,跳过或者离开则-reward,而它最终的智能体就是这个拥有了强大的推荐能力的APP。
对于股票,它的state就是股票的历史曲线,它的action就是买入和卖出,奖励就是最后对收益。
监督学习、机器学习、非监督学习、深度学习,这么多学习的关系到底是啥,请看下面这个图:
监督学习:
监督学习处理的是认知,主要用来判断是什么。
非监督学习:
强化学习:
强化学习关注的是决策,要怎么做。
value-based:
主要是确定性策略,代表的方法有:Sarsa、Q-learning、DQN。
policy-based:
将策略函数化,一条策略走到底,通过最后的结果判断策略的好坏。主要是随机性策略,代表方法为 Policy gradient。
GYM是仿真平台,也是Python的开源库,主要用于搭训练环境,测试算法的优劣。
一般要放在一个while循环中,不停的输出一个action给step,step函数返回reward跟observation给agent。
PARL是百度开发的强化学习算法框架,它的实现主要分为三部分,Model、Algorithm、Agent。
后面的学习使用中我们会经常使用到这个框架。github链接
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。