赞
踩
1.基本概念
Actor Critic 为类似于Policy Gradient 和 Q-Learning 等以值为基础的算法的组合。
a. 其中Actor 类似于Policy Gradient,以状态s为输入,神经网络输出动作actions,并从在这些连续动作中按照一定的概率选取合适的动作action。
b. Critic 类似于 Q-Learning 等以值为基础的算法,由于在Actor模块中选择了合适的动作action,通过与环境交互可得到新的状态s_, 奖励r,将状态 s_作为神经网络的输入,得到v_,而原来的状态s通过神经网络输出后得到v。
c. 通过公式$ \ td_{error}= r+\gamma v_{-} \ - v$得到状态之间的差 t d e r r o r td_{error} tderror,最后通过状态s,动作action,以及误差 t d e r r o r td_error tde
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。