赞
踩
系统里的agents数量大于1,agents彼此之间不是独立的
除非agent之间是独立的,否则单一agent的RL方法不适合MARL
每个agent都有一个action,转移到下一个状态取决于所有智能体的动作
每个agent都有一个reward,reward不仅取决于这个agent的动作,也取决于所有其他agent的动作。在完全合作中,每个agent的奖励都是一样的,在完全竞争中,奖励是相反的。
时刻t,每个agent都有一个reward,因此也有对应的return
每个agent都有自己的策略网络,有些场景下策略是可交换的,即共享一个策略,比如自动驾驶策略相同,有些场景下策略不可交换,比如足球中前锋和门将代表不同的角色,策略也不同。
某时刻某个agent的奖励取决于当前状态和所有其他agents的动作。状态的转移本身就存在不确定性,动作是根据策略随机选择的,回报取决于所有未来的状态和未来的动作,因此回报也存在不确定性。
状态值函数是回报的期望,回报是奖励的期望,而奖励取决于所有agents的动作,动作是基于策略随机选择。因此某时刻某个agent的状态值函数取决于所有agents的策略参数。如果一个agent改变了它的策略,所有其它agents的状态值函数都会改变。
比如在足球比赛中,前锋改进了策略,其他人的策略不变,他的团队的状态值函数也会增加,对面的球员状态值函数会减少。
对于单智能体策略的学习,当目标函数停止增加时则收敛。对于多个智能体的学习则使用纳什均衡(Nash Equilibrium),对于每个agent,当其它agent的策略不变时,它改变策略不会获得更高的回报。纳什均衡下能实现收敛,因为每个agent都没有改变的动力。
之前的单一智能体梯度策略更新的方法不再适用于MARL。如果在MARL,每个agent都只更新自己的策略网络,而策略更新的目标函数取决于所有agent的参数,因此会出现以下情况:对于agent1,已经找到了最优参数,然后agent2改变了它的策略,agent1的目标函数也会改变,找到的最优策略就不在是最优的,又需要重新学习更新,如此往复难以实现收敛,因此需要设计针对多智能体的RL方法。
MARL有三种结构:
在智能体系统中,一个智能体可能会或者不会观测到完整的状态,如果是完全可观察(Full observation),各智能体的观察值等同于状态,如果是部分可观察(Partial observation),每个智能体的观察值不等同于状态。
Fully Decentralized是去中心化训练和执行,每个智能体都有自己的观察值和奖励用来学习自己的策略,智能体之间没有交流。以actor critic方法为例,每个智能体都有独立的策略网络和值网络,两个网络的输入输出都是基于自己观察的局部状态信息,智能体之间不会共享观察值和动作,和单一智能体学习方式是一样的,前文已经阐述过这种方式不可行。
Fully centralized是中心化训练和中心化执行,智能体将所有信息都发送给中央控制器,控制器会为所有智能体做决策。
用Centralized Actor-Critic方法说明上述过程:在某时刻t,定义a为n个智能体的动作集合,o为n个智能体的观测集合,中央控制器(central controller)会获取到a,o和所有的奖励,控制器有n个策略网络和n个值网络,分别对应到每个智能体。每个策略网络输入是整体观测集合,输出对应智能体的动作。每个值网络输入是整体观测集合和整体动作集合,输出对应智能体策略值函数。中央控制器分别使用PG和TD更新所有的AC网络。在执行时,控制器会给予观测集合和n个策略网络随机采样n个动作给n个智能体。
这种方式缺点在于:所有智能体都要同时将观测值传给中央控制器,控制器再统一返回给每个智能体一个动作,智能体和控制器之间的通信和同步比较耗时,难以实现实时决策。
Centralized Training with Decentralized Execution在训练时使用中央控制器,在执行时弃用控制器。每个智能体有自己的策略网络,中央控制器有n个价值网络。也就是critic的更新是中央控制器负责,而actor的更新是各个智能体负责。
从上面描述可知,Centralized Training with Decentralized Execution即能保证训练的稳定性,也能保证执行的快速。
共同点:n个智能体,n个actor,n个critic
不同点:actor和critic的网络输入不同,训练方式不同
所有actor和critic网络参数是否共享要考虑智能体是否可交换,比如在无人驾驶中每台车都可以是一样的策略,在机器人足球赛中,各个角色的策略都不同,是不能实现参数共享的。
相关论文:
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。