赞
踩
给定一个state,如何找到一个action,使得这个action带来的reward最大?
网络定义
Actor和critic分别是两个结构不同神经网络。
(其实,它们还各有一个与自身结构相同,但是参数权值不同的孪生网络。一个记为eval_net,一个记为target_net。所以一共是四个网络)
A c t o r Actor Actor:输入(state),输出(action)
C r i t i c Critic Critic:输入(state, action),输出(reward),即这里的Q值
前向传播过程
将 s t a t e state state传给Actor,然后获取Actor输出的 a c t i o n action action值即可。
网络更新过程:
更新Critic:
C r i t i c Critic Critic的更新,就是计算出 r e w a r d reward reward关于 C r i t i
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。