强化学习基础理论_强化学习理论

作者：羊村懒王 | 2024-03-24 23:36:08

踩

强化学习理论

知识结构

在这里插入图片描述

定义

强化学习（Reinforcement learning），与监督学习，无监督学习是类似的，是一种统称的学习方式。它主要利用智能体与环境进行交互，从而学习到能获得良好结果的策略。与有监督学习不同，强化学习的动作并没有明确的标注信息，只有来自环境的反馈的奖励信息，它通常具有一定的滞后性，用于反映动作的“好与坏”。

参考资料：
https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0

基础理论

基本概念

4 个主要概念：环境状态（S）、动作（A）和奖惩（R），转移函数（P）。
机器感知到的环境描述构成环境状态（S），机器采取的动作构成了动作空间（A），潜在的转移函数（P）使环境从当前的状态转移到另一个状态，在转移到另一个状态的同时，环境根据潜在的奖励函数（R）反馈给机器一个奖赏。（遵循马尔可夫决策过程 MDP）。
环境状态（S）：反映了环境的状态特征，在时间戳
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/305510