当前位置:   article > 正文

强化学习浅谈_强化学习优点

强化学习优点

一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。
  机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比,强化学习具有如下特点,
  (1) 没有“supervisor”,只有“reward”信号;
  (2) 反馈信号有时间延迟;
  (3) 处理的是序列数据,而不是独立同分布数据;
  (4) 学习体的“action”影响其后续的数据输入。

agent-environment交互机制

强化学习任务包含了两大主体,Agent和Environment,这里的Agent就是学习者,同时也是决策者。学习者通过和环境进行交互来实现目标,交互过程的框图表示如下,


  从图中可以看出,这是一个序列化过程,在时刻t,学习体基于当前状态 S i S_{i} Si发出动作 A t A_{t} At,环境做出回应,生成新的状态 S t + 1 S_{t+1} St+1和对应的回报 R t + 1 R_{t+1} R
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/739212
推荐阅读
相关标签
  

闽ICP备14008679号