赞
踩
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学
强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做出最优决策:
《Reinforcement Learning: An Introduction》书中指出
One of the challenges that arise in reinforcement learning, and not in other kinds of learning, is the trade-off between exploration and exploitation.
Another key feature of reinforement learning is that it explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment.
《Reinforcement Learning: An Introduction》书中指出
非监督学习主要是为了挖掘无标签数据之间的内部关联(如聚类问题),RL则是为了最大化奖励
Reinforce learning is also different from what machine learning researchers call unsupervised learning, which is typically about finding structure hidden in collections of unlabeled data.
数据:人脸图片
可以没有观测,但是必须有奖励!!!奖励是RL区别于其他机器学习的标志特征。
RL奖励假设:所有的目标都可以表示为最大化期望累计回报
【如果一个问题不满足奖励假设,就不能用强化学习解决!】
场景 | +奖励 | -奖励 |
---|---|---|
无人机和无人车控制 | 按预定轨迹运行 | 碰撞或翻车 |
下围棋 | 赢了 | 输了 |
Atari游戏 | 得分增加 | 得分减少 |
机械臂控制 | 抓住东西 | 没抓住东西 |
只有正奖励,或只有负奖励,也可以。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。