当前位置:   article > 正文

吴恩达笔记——强化学习_吴恩达强化学习

吴恩达强化学习

奖励机制:

Q(s,a)=R(s)+γmaxQ(s',a')

用NN来训练,得到最佳的Q:

第一步是随机产生一个Q,用来得到作为trainingset的x和y,然后把x和对应的y输入到NN中

 

改良NN:

第一种:把输出层从一个神经元变成跟action个数一样的神经元数量

第二种:贪婪搜索

 epsilon的尝试要从高开始逐渐降低,比如从1到0.01

第三种:mini batch训练 减少训练时间 ——这个也可以作为普通NN的训练方法以减小训练时间

第四种:软更新   不直接Set Q=Qnew,而是:

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/658374
推荐阅读
相关标签
  

闽ICP备14008679号