如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法_如何选择ddpg ppo

作者：从前慢现在也慢 | 2024-08-21 05:54:38

踩

如何选择ddpg ppo

赶时间请直接看加粗的四种算法，它们占据不同的生态位，请根据实际任务需要去选择他们，在强化学习的子领域（多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法）：

离散动作空间推荐：Dueling DoubleDQN（D3QN）
连续动作空间推荐：擅长调参就用 TD3，不擅长调参就用 PPO 或 SAC，如果训练环境 Reward function 都是初学者写的，那就用 PPO

没入门深度强化学习的人请按顺序学习以下算法：

入门深度学习 / 机器学习，用多层全连接层跑一下 MNIST 数据集
入门深度学习 / 深度学习框架，用卷积网络跑一下 MNIST-fashion 数据集
入门经典强化学习 Q-learning，离散状态、离散动作
入门深度强化学习 DQN（Deep Q-learning），连续状态、离散动作
入门深度强化学习 DDPG（Deep DPG），连续状态，连续动作
入门后，可以先从 TD3、SAC 和 PPO 三种算法开始用起

用于入门的算法只能用来入门，实际做项目不要使用，至少也要用加粗的算法，尽管它们不是 2021 的 SotA（State of the Art 最高水准的算法），但已经足够好用且不至于太复杂**。**一些性能卓越但是复杂的算法，我会写在下面。为了方便你们了解强化学习的子领域，我会列举突出研究成果，并写上短介绍。若

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/1010400