weixin_40725706

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

SAC、LSTM、PPO、DDPG_lstm-sac

作者：weixin_40725706 | 2024-03-01 05:59:33

赞

踩

lstm-sac

一、SAC算法

知乎Flood Sung
感觉学习SAC前，有必要把基础知识好好学习学习啊，比如书本教材什么的

链接中的公式（10）好像有问题，应该是Q(st, at)，而不是Qsoft(st, at)；而且log前面似乎不应该再乘上系数阿尔法

论文Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor颇有些都不懂啊…先硬着头皮读完，然后读一读、跑一跑代码试试看。

另外，不能跑偏了主题，要时刻记得：此时学习SAC是为了比较当前算法的优劣，重点仍然是根据“环境”来解决问题，要尽快出成果！

二、LSTM算法

三、PPO

https://www.jianshu.com/p/f4d383b0bd4c

https://blog.csdn.net/weixin_41045354/article/details/104132049

四、DDPG

https://www.jianshu.com/p/22cdc0d9fa13
https://github.com/yanpanlau/DDPG-Keras-Torcs
https://blog.csdn.net/kenneth_yu/article/details/78478356

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/171477

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号