强化学习(一)_简答题:强化学习是智能体以“试错”的方式学习,通过与环境进行交互获得的奖赏

作者：我家自动化 | 2024-03-24 23:18:28

踩

简答题:强化学习是智能体以“试错”的方式学习,通过与环境进行交互获得的奖赏

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互，评价函数对动作进行评价，智能体获得不同奖赏，然后不断改进行为。

主要包含四个元素，agent，环境状态，行动，奖励, 强化学习的目标就是结束时获得最多奖赏。

agent，环境状态，行动，奖励，有了这四个元素可以建立一个强化学习模型，强化学习解决的问题是，针对一个具体问题得到一个最优的policy，使得在该策略下获得的reward最大，这里的policy就是指一系列action。

reward表示第t个time step的返回奖赏值。

action是agent根据所处的state以及上一状态的reward选择的action。

state就是指当前agent所处的状态。

policy是指agent的行为，即从state到action的映射，分为确定策略和与随机策略，确定策略就是某一状态下的确定动作, 随机策略用概率来描述，即某一状态下执行这一动作的概率。

1.强化学习与其他机器学习范式不同，强化学习不同于监督学习和非监督学习；
2.不存在监督者，没有人指导，是一个试错的过程，只有根据奖励信号，判断对错；
3.反馈是延迟的，并不是即时的；
4.当前时间很重要；
5.机器人的每一部行动都会影响它所接受的数据。

智能体从环境中得到一个初始状态S0，采取一个动作A0，环境得到智能体动作后从S0变成S1，并给予智能体一个R1奖赏，智能体根据reward采取动作A1，然后环境接着改变S2······

智能体-环境交互总体来说就是智能体采取行动影响环境，然后根据环境的反馈，改进动作。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/305425