当前位置:   article > 正文

MARL——多智能体强化学习特点与架构总结

MARL——多智能体强化学习特点与架构总结

1. 特点概述

1) 多智能体系统中,每个agent未必能观测到所有的状态信息,此时智能体i得到的观测 o i o^{i} oi通常不等于状态 S S S
2) 智能体动作选择互相影响。
3) 需要通信机制。

2. 3种框架

完全分布式

这种算法框架和单智能体强化学习一样,每个个体都根据自身观测进行训练学习。个体之间没有交流。
这种效果通常不好,因为没有考虑智能体动作选择互相影响的关系。
在这里插入图片描述

集中式训练,集中式执行 (完全集中式)

存在一种中央控制器(相当于一个中心/全知节点),能够拿到所有agent的观测、奖励函数等,获得所有信息进行训练,执行时根据训练好的策略(不同智能体的策略参数可能不同),传给每个agent,由agent执行。
这种架构每个智能体上没有策略网络,需要花时间与中心节点进行通信与同步。
在这里插入图片描述
在这里插入图片描述

集中式训练,分布式执行

每个agent上都有自己的网络,中央控制器有 n n n个价值网络。中央控制器的价值网络是全知的,能够根据所有agent的观测和动作进行评判,针对其所对应的agent传回来的奖励 r i r_i ri进行训练更新。执行的时候,每个agent根据自身网络执行即可。
这是目前其最主流的训练方式。这种训练模式的主要思想是允许在训练阶段在智能体之间进行信息交流,以帮助智能体学习更好的策略。通过共享信息,智能体可以更好地理解环境和其他智能体的行为,并相应地调整其策略。
在这里插入图片描述
在这里插入图片描述

!!! 以上内容参考王树森老师的宝藏讲解视频

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/953722
推荐阅读
相关标签
  

闽ICP备14008679号