赞
踩
一直对强化学习很感兴趣,毕业前那会也尝试着去学习,但因为当时感觉强化学习的公式晦涩难懂,没能坚持下去。最近因工作需要,又重新开始啃强化学习的知识,发现有了新的体会,故在此记录一下,以便以后随时翻看查阅。
机器学习包含了三大分支,有监督学习(或半监督)、无监督学习和强化学习。同前两者相比,强化学习具有如下特点,
(1) 没有“supervisor”,只有“reward”信号;
(2) 反馈信号有时间延迟;
(3) 处理的是序列数据,而不是独立同分布数据;
(4) 学习体的“action”影响其后续的数据输入。
强化学习任务包含了两大主体,Agent和Environment,这里的Agent就是学习者,同时也是决策者。学习者通过和环境进行交互来实现目标,交互过程的框图表示如下,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。