赞
踩
奖励机制:
Q(s,a)=R(s)+γmaxQ(s',a')
用NN来训练,得到最佳的Q:
第一步是随机产生一个Q,用来得到作为trainingset的x和y,然后把x和对应的y输入到NN中
改良NN:
第一种:把输出层从一个神经元变成跟action个数一样的神经元数量
第二种:贪婪搜索
epsilon的尝试要从高开始逐渐降低,比如从1到0.01
第三种:mini batch训练 减少训练时间 ——这个也可以作为普通NN的训练方法以减小训练时间
第四种:软更新 不直接Set Q=Qnew,而是:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。