赞
踩
PPO是基于AC网络架构实现的。
PPO有一个Actor网络,Actor输入的维度为state_dim,即状态维数,输出维度为action_dim,意义是每个action的高斯策略的均值,另外,Actor网络还有action_dim个标准差参数,这样在输入一个state后,每个动作都对应一个一维的高斯分布。
PPO有一个Critic,Critic网络是用来拟合状态值函数 v π ( s ) =
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。