赞
踩
在单个智能体与部分可观测环境的交互过程一般使用部分可观测马尔可夫决策过程(partial observable MDP,POMDP)133][134][13]进行建模,其挑战来自部分观测难以恢复环境实际所处的马尔可夫状态,而马尔可夫性是强化学习的关键假设。在多智能体问题中,如果每个智能体观测到环境的局部信息,并且根据局部信息进行决策,这类问题称为去中心化POMDP问题(decentralized POMDP, Dec-POMDP)[136][137][138]。
训练阶段能够使用全局状态信息,而执行阶段各智能体仅仅使用自身的局部观测进行决策,称为“集中式训练分布式执行”(关于为什么采取这种方式,知乎一个很好的回答:知乎)
特点:
(代码详解请看博客:博客链接)
总的来说,MADDPG和MAPPO在actor和critic网络设计上的主要区别在于:
QMix是一种基于值分解的多智能体强化学习算法,适用于需要智能体之间高度协调的合作环境。它通过将每个智能体的局部Q值函数与一个混合函数相结合,来学习全局Q值函数。
VDN是QMix的前身,通过分解全局值函数为每个智能体的局部值函数来处理多智能体环境。它在某些情况下可能不如QMix表现好,但结构更简单,易于理解。
MADDPG (Multi-Agent Deep Deterministic Policy Gradient)。MADDPG是DDPG算法在多智能体环境中的扩展,适用于连续动作空间。它在多个智能体系统中表现出色,尤其在智能体需要独立学习策略的场景中。
MAPPO (Multi-Agent Proximal Policy Optimization)MAPPO是基于PPO算法的多智能体版本,适用于离散和连续动作空间,策略优化稳定。它在需要智能体之间协作和竞争的复杂环境中表现良好。
COMA (Counterfactual Multi-Agent Policy Gradients)COMA是一种考虑了其他智能体行为的策略梯度方法,通过计算反事实的奖励来估计每个智能体的贡献。它特别适用于需要智能体之间相互依赖和协作的环境。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。