当前位置:   article > 正文

强化学习论文阅读笔记(一)——强化学习研究综述_高阳_元强化学习研究综述(绿色低碳机器学习研究与应用)

元强化学习研究综述(绿色低碳机器学习研究与应用)

 

强化学习研究综述_高阳

目录

强化学习研究综述_高阳

一、与其他机器学习对比

二、分类

三、最优搜索型强化学习算法

四、经验强化型强化学习算法

五、部分感知

六、函数估计

七、多Agent强化学习

八、符号学习和强化学习偏差

九、强化学习应用


一、与其他机器学习对比

  • vs 监督学习:无需训练集,在线学习
  • vs 规划技术:无需构造复杂的状态图,强调行为与环境交互
  • vs 自适应控制技术:有共同奖赏函数形式,不要求确定动态系统模型

二、分类

  • 最优搜索型:获得最优策略,选择搜索未知状态和动作,长期性
  • 经验强化型:获得策略性能改善,利用以获得的可以产生高回报的动作状态,短期性
  • 面对环境:马尔可夫型&非马尔可夫型
  • 面临任务:非顺序型任务&顺序型任务

非顺序型:动作获取环境奖赏,不影响后继动作和状态

顺序型:动作影响未来状态和未来奖赏

三、最优搜索型强化学习算法

环境为马尔可夫型,顺序型强化学习:马尔可夫决策过程建模

T函数和R函数未知

采用技术:迭代技术调整当前状态和下一状态的值函数估值

  • 模型无关法:不学习马尔可夫决策模型知识(T函数和R函数),直接学习最优策略

       TD算法(蒙特卡罗思想+动态规划思想)

       ①无需系统模型,从Agen

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/1011355
推荐阅读
相关标签
  

闽ICP备14008679号