赞
踩
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互,评价函数对动作进行评价,智能体获得不同奖赏,然后不断改进行为。
主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是结束时获得最多奖赏。
agent,环境状态,行动,奖励,有了这四个元素可以建立一个强化学习模型,强化学习解决的问题是,针对一个具体问题得到一个最优的policy,使得在该策略下获得的reward最大,这里的policy就是指一系列action。
reward表示第t个time step的返回奖赏值。
action是agent根据所处的state以及上一状态的reward选择的action。
state就是指当前agent所处的状态。
policy是指agent的行为,即从state到action的映射,分为确定策略和与随机策略,确定策略就是某一状态下的确定动作, 随机策略用概率来描述,即某一状态下执行这一动作的概率。
1.强化学习与其他机器学习范式不同,强化学习不同于监督学习和非监督学习;
2.不存在监督者,没有人指导,是一个试错的过程,只有根据奖励信号,判断对错;
3.反馈是延迟的,并不是即时的;
4.当前时间很重要;
5.机器人的每一部行动都会影响它所接受的数据。
智能体从环境中得到一个初始状态S0,采取一个动作A0,环境得到智能体动作后从S0变成S1,并给予智能体一个R1奖赏,智能体根据reward采取动作A1,然后环境接着改变S2······
智能体-环境交互总体来说就是智能体采取行动影响环境,然后根据环境的反馈,改进动作。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。