赞
踩
一、基本理解
强化学习与其他机器学习不同之处为:
◼ 没有教师信号,也没有label,只有reward。
◼ 反馈有延时,不是能立即返回。
◼ 数据是序列化的,数据与数据之间是有关的,而不是i.i.d的;
◼ agent执行的动作会影响之后的数据。
四、强化学习的关键要素
强化学习的关键要素有:environment, reward,action 和 state。有了这些要素我们 就能建立一个强化学习模型。
强化学习解决的问题是,针对一个具体问题 得到一个最优的policy(策略),使得在该 策略下获得的return(长期回报)最大。
所谓的policy其实就是一系列action,也就是 sequential data。
四、强化学习的模型:
Agent与环境的交互接口包括行动(Action)、即 时奖励(Reward)和状态(State)。
五、奖励与动作
reward
◼ reward通常都被记作Rt,表示第t个time step的返回奖励值。所有强化学习都是基于reward假设的。
◼ reward是一个标量。
◼ 注意:回报(return)是奖励(reward)的累积。
action
◼ action是来自于动作空间,agent对每次所处的 state用以及上一状态的reward确定当前要执行什 么action。
◼ 执行action要达到最大化期望reward,直到最终 算法收敛,所得的policy就是一系列action的 sequential data。
六、状态与策略
state
◼ 就是指当前agent所处的状态。
policy
◼ policy就是指agent在特定状态下的行为依据,是从state到action的映射。
◼ 分为确定策略和与随机策略。
◼ 确定策略:就是某一状态下的确定动作a=π(s)
◼ 随机策略:以概率来描述,即某一状态下执行 这一动作的概率:π(a|s)=P[At=a | St=s]。
策略有两种
把用来指导个体产生与环境进行实际交互行 为的策略称为:行为策略;
◼ 实际采样的策略
把用来评价状态或行为价值的策略(或者待优化的策略)称为:目标策略。
强化学习的学习过程
RL采用的是边获得样例边学习的方式
◼ 在获得样例之后更新自己的模型,
◼ 利用当前的模型来指导下一步的行动,
◼ 下一步的行动获得reward之后再更新模型, ◼ 不断迭代重复直到模型收敛。
在这个过程中,非常重要的一点在于“在已 有当前模型的情况下,如果选择下一步的行 动才对完善当前的模型最有利”。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。