当前位置:   article > 正文

强化学习基础理论_强化学习理论

强化学习理论

知识结构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

定义

强化学习(Reinforcement learning),与监督学习,无监督学习是类似的,是一种统称的学习方式。它主要利用智能体与环境进行交互,从而学习到能获得良好结果的策略。与有监督学习不同,强化学习的动作并没有明确的标注信息,只有来自环境的反馈的奖励信息,它通常具有一定的滞后性,用于反映动作的“好与坏”。

参考资料:
https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0

基础理论

基本概念

  • 4 个主要概念:环境状态(S)、动作(A)和奖惩(R), 转移函数(P)。
    机器感知到的环境描述构成环境状态(S),机器采取的动 作构成了动作空间(A),潜在的转移函数(P)使环境从当前 的状态转移到另一个状态,在转移到另一个状态的同时,环境根据潜在的奖励函数(R)反馈给机器一个奖赏。(遵循马尔可夫 决策过程 MDP)。

  • 环境状态(S):反映了环境的状态特征,在时间戳

    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/305510?site
推荐阅读
相关标签