当前位置:   article > 正文

强化学习(一)_简答题:强化学习是智能体以“试错”的方式学习,通过与环境进行交互获得的奖赏

简答题:强化学习是智能体以“试错”的方式学习,通过与环境进行交互获得的奖赏

理解强化学习问题

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互,评价函数对动作进行评价,智能体获得不同奖赏,然后不断改进行为。

主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是结束时获得最多奖赏。

强化学习基本概念

agent,环境状态,行动,奖励,有了这四个元素可以建立一个强化学习模型,强化学习解决的问题是,针对一个具体问题得到一个最优的policy,使得在该策略下获得的reward最大,这里的policy就是指一系列action。 

reward表示第t个time step的返回奖赏值。

action是agent根据所处的state以及上一状态的reward选择的action。

state就是指当前agent所处的状态。

policy是指agent的行为,即从state到action的映射,分为确定策略和与随机策略,确定策略就是某一状态下的确定动作, 随机策略用概率来描述,即某一状态下执行这一动作的概率。

与其他机器学习的区别

1.强化学习与其他机器学习范式不同,强化学习不同于监督学习和非监督学习;
2.不存在监督者,没有人指导,是一个试错的过程,只有根据奖励信号,判断对错;
3.反馈是延迟的,并不是即时的;
4.当前时间很重要;
5.机器人的每一部行动都会影响它所接受的数据。

理解智能体-环境交互 

智能体从环境中得到一个初始状态S0,采取一个动作A0,环境得到智能体动作后从S0变成S1,并给予智能体一个R1奖赏,智能体根据reward采取动作A1,然后环境接着改变S2······

智能体-环境交互总体来说就是智能体采取行动影响环境,然后根据环境的反馈,改进动作。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/305425
推荐阅读
相关标签
  

闽ICP备14008679号