当前位置:   article > 正文

强化学习reinforcement learning_强化学习模型图

强化学习模型图

强化学习入门到精通

提示:我会不定期更新我的所有文章,我会把我学习过程中觉得不错的内容不定时添加进去,希望大家可以收藏,或许每次看到更新的内容都有不同的理解。我会发布(深度学习&强化学习&深度强化学习&联邦学习的内容)
第一章 强化学习基本概念



前言

强化学习又称为再励学习或评价学习,采用类似于人类和动物学习中的试错机制,通过不断获取外部环境的反馈信息优化调整计算模型或动作行为,实现对序贯决策问题的优化求解。由于外部环境反馈信息的形式和内容比样本数据更加灵活广泛且可以在线获取,故强化学习具有非常广泛的应用前景,被认为是一种最接近人类学习行为的学习方法。


提示:以下是本篇文章正文内容,下面案例可供参考

一、强化学习基本内容

1. 强化学习结构图

结构图如下:

图片来源“汪荣贵教授”
图片来源“汪荣贵教授”

2. 基本概念

1.状态值函数也就是 策略π(状态映射到行为,通俗讲:本质上,策略函数是表示在每个状态执行什么行为;最终目标是找到在每个状态指定正确行为的最优策略,从而使得奖励最大化)
2.状态值函数:执行策略后状态的值,确定了策略π下从状态s开始的期望回报。
3.状态~行为值函数(Q函数):
4.值函数,Q函数的贝尔曼方程 通过它来求解最优策略

二、已知模型&未知模型

1.已知模型

已知模型强化学习(即已知转移概率和奖励概率):动态规划求解:值迭代 策略迭代两算法求解贝尔曼方程
未知模型强化学习(不知道转移概率和奖励概率):蒙特卡罗方法,未知环境最优策略 适合情景任务,情景过长不行
时间差分,属于未知模型


总结

目前更新暂不完善,但我会一直更新下去。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/381213
推荐阅读
相关标签
  

闽ICP备14008679号