赞
踩
过去一年碌碌无为,浅浅的研究了下计算机视觉相关的内容,某日突发奇想,想尝试将强化学习引入计算机视觉中,介入视觉的匹配等问题中。过去也简单了解了RL相关的内容,但还是太浅了。暑期参加了RL China的短期培训中,收获颇丰,可惜课程时间太短,没有很好的消化,一直像找个机会整理下RL相关的内容。现结合Easy RL,动手强化学习两部书籍及配套视频、资料,做个类似笔记的blog,既做到了整理,又做到了分享的工作。请各位多多指教
提示:以下是本篇文章正文内容,下面案例可供参考
状态的理解是有两层的:其一是关于历史的函数,可以理解成由过去得到的现在,其二是agent观测到的环境部分。
策略(Policy):是学习智能体在特定时间的行为方式。是从状态到行为的映射。
确定性策略:函数表示
随机策略:条件概率表示
奖励(Reward):立即感知到什么是好的,一般情况下就是一个标量
价值函数(Value function):长期而言什么是好的
价值函数是对于未来累计奖励的预测,用于评估给定策略下,状态的好坏
价值和奖励也很怪异,建议各位直接记英文;reward是及时的,而value是一个长时间的,两者的关系应该是一个个时刻的reward构成了value。
这里不能将value和reward理解成一个相似的东西。当前reward较大不能代表value较好。比如如果一个孩子由一对有精神缺陷的父母教导,可能在某一时刻,自残反而是reward较大的,但是从value的角度来看,又是较差的。
model-based RL:模型可以被环境所知道,agent可以直接利用模型执行下一步的动作,而无需与实际环境进行交互学习。
比如:围棋、迷宫
model_free RL:真正意义上的强化学习,环境是黑箱
比如Atari游戏,需要大量的采样
来源:伯禹人工智能学院——强化学习简介课程下陈铭城的学习笔记
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。