赞
踩
G是看到st后采取at之后获取的收益总和,但是这个值是一个分布值,在不同的episode中可能波动会很大。如果有足够的数据的话,这不是一个问题,当数据不足的时候,那么模型的波动会很大,希望用期望值来代替采样(当前的)值。就是说,训练一个network,输入为s输出为奖励的期望值。
V是态势评估,Q是引导选择。
就是说,现在用两个网络来计算之前波动的系数。Q用来表征当前的选择有多哈,V表征均值,这样就有正有负。难点在于需要同时train两个网络,如何简化呢?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。