不正经

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

浅析强化学习Proximal Policy Optimization Algorithms(PPO)_ppo网络结构

作者：不正经 | 2024-06-09 21:47:09

赞

踩

ppo网络结构

Actor-Critic网络

PPO是基于AC网络架构实现的。

Actor网络

PPO有一个Actor网络，Actor输入的维度为state_dim，即状态维数，输出维度为action_dim，意义是每个action的高斯策略的均值，另外，Actor网络还有action_dim个标准差参数，这样在输入一个state后，每个动作都对应一个一维的高斯分布。
在这里插入图片描述

Critic网络

PPO有一个Critic，Critic网络是用来拟合状态值函数

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/695906

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号