赞
踩
来源:《自动化学报》,作者梁星星等
摘 要 近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多Agent 系统的研究与应用中,仍存在诸多困难和挑战,以StarCraft II 为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q 网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时,从多Agent 深度强化学习中通信过程的角度对现有的多Agent 深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3 种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent 深度强化学习中的一些关键问题,并分析了多Agent 深度强化学习的研究热点和发展前景.
关键词 多Agent 系统,深度学习,深度强化学习,通用人工智能
强化学习(Reinforcement learning,RL) 是机器学习的一个子领域,学习如何将场景(环境状态)映射到动作的策略,以获取能够反映任务目标的最大数值型奖赏信号,即在给定的环境状态下,决策选择何种动作去改变环境,使得获得的收益最大[1].同监督式的机器学习过程不同,在强化学习过程中Agent1不被告知应该采用哪个动作,而是通过不断与环境交互,从而试错学习到当前任务最优或较优的策略.这一学习范式能够有效地解决在自然科学、社会科学以及工程应用等领域中存在的序贯决策问题.在强化学习的发展历史中,强化学习和神经网络的结合已有较长的历史[2],但是在复杂序列决策问题中始终没有显著的突破.然而,随着深度学习(Deep learning,DL) 在复杂数据驱动任务中展现出的卓越性能[3-4],一种融合了深度学习强大的特征表示能力和强化学习高效策略搜索能力的学习范式-深度强化学习(Deep reinforcement learning,DRL) 逐渐引起学者的广泛关注,DRL 是将DL 引入到RL,将深度神经网络引入到RL 的值函数、策略函数或者环境模型的参数估计中.DRL 在游戏、机器人、自然语言处理等问题中,取得了令人瞩目的成果[5-12].AlphaGo 的主要贡献者David Silver 更是将现代人工智能定义为RL+DL[13],即DRL 才是人工智能的理想范式[14].赵冬斌等[7] 认为人工智能将会是各国竞相争夺的下一科技高地.
伴随着DRL 在一些复杂单Agent 任务中的有效应用,人们又将DRL 的研究成果转移到了多Agent 系统(Multi-agent system,MAS) 的应用中,以期获得同样的突破.MAS 由一组利用传感器感知共享环境的自治、交互的Agent 组成,每个Agent独立地感知环境,根据个人目标采取行动,进而改变环境[15].在现实世界中,存在许多MAS 的实例,例如资源调度管理[16]、拥塞处理[17-19]、通信传输[20]、自动驾驶[21]、集群规划[22-25] 等.
多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中应用的研究分支,理论基础源于DRL.虽然将DRL 应用于MAS 中有着许多研究,但据我们所知,尚没有关于多Agent DRL 研究的综述性报告,赵冬斌等[7] 对DRL 以及围棋的发展进行了综述,但其出发点、综述角度以及内容安排与本文有较大不同,如表1 所示.本文在对近些年国内外的研究现状进行分析与研究后,从MADRL 设计与实践的角度出发,对这一领域进行归纳总结.
本文首先对DRL 进行基本的介绍,从策略表现的角度对当前DRL 的两个主要方向,即深度Q 网络和深度策略梯度的发展进行了描述.在第2 节,我们首先分析了DRL 与MAS 的关系,描述了DRL与MAS 结合的优势与挑战; 同时我们利用部分可观测的马尔科夫决策过程对MADRL 问题进行了模型设计,用以表达MAS 的数学过程; 之后,根据当前DRL 的实现结构以及多Agent 在DRL 实现中通信过程的发生阶段,将现有MADRL 划分为全通信集中决策、全通信自主决策以及欠通信自主决策等三类,对每类决策架构的当前研究现状进行讨论分析,对面向多Agent 学习的开放训练平台进行介绍; 在第3 节,针对现有MADRL 仍面临的一些关键问题,从MADRL 的学习训练框架、样本增强、鲁棒性研究以及对手建模等方面进行研究,提出了当前MADRL 可能发展的方向; 在第4 节,对全文进行总结.
深度强化学习的学习框架是20 世纪90 年代提出的强化学习,由强化学习与深度学习结合发展而来,是机器学习的重要分支.在这一学习范式中,Agent 通过与环境的交互,不断调整策略,进而实现最大化累计奖赏值的目标.强化学习利用马尔科夫决策过程(Markov decision process,MDP) 对序贯决策问题进行数学定义.
定义1 (马尔科夫决策过程). MDP 由一个五元组〈S,A,R,T,γ〉 定义,其中,S 表示由有限状态集合组成的环境;A 表示可采取的一组有限动作集;状态转移函数T :S×A →Δ(S) 表示将某一状态-动作对映射到可能的后继状态的概率分布,Δ(S) 表示状态全集的概率分布,对于状态s,s′∈S 以及a∈A,函数T 确定了采取动作a 后,环境由状态s 转移到状态s′ 的概率; 奖赏函数R(s,a,s′) 定义了状态转移获得的立即奖赏;γ 是折扣因子,代表长期奖赏与立即奖赏之间的权衡.
表1 与已发表相关论文的研究异同
Table 1 Research′s similarities and differences
与一般的MDP 不同,面向强化学习的MDP中包含感知函数Z :s →z,如图1 所示.在完全观测环境下,Agent 获取完全真实的环境状态,即z=s (在对单Agent 讨论时,真实观测和真实状态通常不予区分).在学习过程中,RL 中的Agent在多个离散时间步同环境进行交互,在时间步t,Agent 从环境中接收状态空间S 中的状态st,根据策略π(at|st),从可选动作空间A 中选择动作at执行,作用于环境,环境根据自身动态性(奖赏函数R(s,a,s′) 和状态转移函数T=P(st+1|st,at)),转移到下一状态st+1,并返回一个标量的奖赏值rt+1(奖赏值是针对下一时刻的奖赏,因而下标是t+1).当环境所处的状态为终止状态或交互达到最大时间步,一次试验结束,进入下一次试验.返回值Rt=是一个带折扣γ ∈(0,1]的累计奖赏值.Agent 的目标是最大化每个状态值的累积奖赏期望值,即
图1 MDP 示意图
Fig.1 Diagram of MDP
经典的强化学习策略学习方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).当求解问题的状态空间和动作空间规模较小时,往往采用基于表格法的强化学习.表格法将全部的状态值V(s) 或者状态-动作值Q(s,a) 存入到一个带索引的表格中,决策时按指定索引查询状态或状态-动作值,并根据贪婪原则选择动作.在更新过程中,依据一次试验的结果,按索引对参与的状态/状态-动作值以及相关的状态-动作值进行更新.在现实世界中,我们以期解决的问题的状态/动作空间是连续且庞大的[1].在这种情况下,表格法由于容量有限,很难对所有值进行存储,因而在实际操作中应用范围较窄,难以进行扩展.为了降低计算资源和存储资源的开销以及提高决策效率,我们需要通过近似的方法对状态/状态-动作值进行估计.这类算法的应用场景更为广泛,是当前强化学习研究的主要趋势.在近似法强化学习中,根据学习目的以及选择动作的依据,即是否利用状态值/状态-动作值函数的策略贪婪地选择动作,分为两类:函数近似方法和策略梯度方法.在文献[7] 中的第2 节中,对上述方法进行了概述,本文不再赘述.
与基本的强化学习方法相比,DRL 将深度神经网络作为函数近似和策略梯度的近似函数.虽然使用深度神经网络解决强化学习问题缺乏较好的理论保证,但深度神经网络的强大表现力使得DRL 的结果远超预期.在DRL 中,DL 同函数近似结合发展成为了深度Q 学习,而策略梯度则发展为深度策略梯度.
在深度Q 网络(Deep Q-network,DQN)[6,26]提出之前,强化学习与神经网络(Neural network,NN) 的结合遭受着不稳定和发散等问题的困扰.DQN 做了3 处改进,使用经历重放和目标网络稳定基于DL 的近似动作值函数; 使用端到端方法,利用卷积神经网络(Convolutional neural network,CNN) 将原始图片和游戏得分作为输入,使模型仅需较少的领域知识; 训练了可变的网络,其结果在多个任务中表现良好,超越人类专业玩家[14],如图2所示,利用最近的4 帧视频图片作为状态的描述,通过两层卷积层,一层全连接层输出Agent 可选动作的值估计,采用ε 贪婪选择执行动作.DQN 的网络参数更新方式为
其中,Q(st,at;θt) 表示t 时刻,状态-动作值估计;rt+1+γmaxaQ(st+1,a;θ-) 是作为临时的目标Q 值,用于稳定神经网络的学习,θ- 表示目标网络的参数,γ 表示奖赏的折扣率;θt 表示正在同环境交互的网络的参数,α 表示神经网络的学习率.
标准Q 学习利用max 操作符使得目标值过高估计,Van Hasselt 等[27] 提出了Double DQN 用于平衡值估计.在利用时序差分(Temporal difference,TD) 算法对目标Q 值进行更新时,后继状态的动作选择来自于当前网络Q,而评估则来自于目标网络将式(1) 中的替换为
图2 DQN 架构
Fig.2 Framework of DQN
为了消除强化学习转移样本间的相关性,DQN使用经历重放机制,即在线存储和均匀采样早期交互的经历对神经网络进行训练.然而均匀采样方法忽略了经历的重要性,Schaul 等[28] 提出了优先经历重放,利用TD error 对经历的重要性进行衡量,对重要性靠前的经历重放多次,进而提高学习效率.
此外,在DQN 的模型结构方面,也有着较大的改进.Wang 等[29] 设计了竞争网络结构(Dueling network),在Q 网络输出层的前一隐藏层输出两个部分,一部分估计了状态值函数V(s),另一部分估计了相关动作的优势函数A(s,a),在输出层将二者相加进而估计动作值函数Q(s,a)=V(s)+A(s,a).这一结构使得Agent 在策略评估过程中能够更快地做出正确的动作.Hausknecht 等[30] 将循环神经网络(Recurrent neural network,RNN) 引入DQN中,提出了深度循环Q 网络(Deep recurrent Qnetwork,DRQN) 模型,在部分可观测的强化学习任务中,性能超越了标准DQN.Sorokin 等[31] 提出了基于软硬注意力机制的DQN,使用深度注意力RNN 对同任务相关的单元进行了重点关注.Hessel等[32] 对现有DRL 中的6 种扩展DQN 算法进行了比较,根据各改进对性能提升的贡献,提出了集成多种最优改进的组合版Rainbow 算法.Srouji 等[33]提出结构控制网络(Structured control net,SCN),将深度神经网络分解成为两部分:线性控制模块和非线性控制模块,然后分别对获得的编码进行处理,并将结果进行加和,非线性控制模块进行全局控制而线性模块对其进行补充.
策略是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射.DQN 算法主要应用于离散动作的空间任务,面对连续动作空间的任务,基于策略梯度的DRL 算法能获得更好的决策效果.
连续动作空间的策略梯度算法分为随机策略梯度算法(Stochastic policy gradient,SPG)[1] 和深度确定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35] .
SPG 假设在连续控制问题研究中,策略选择具有随机性,服从某种分布(如高斯分布),在策略执行过程中依概率进行动作选择.SPG 计算式为πθ(a|s)=P[a|s,θ],表示在状态为s 时,动作符合参数为θ 的概率分布,如高斯分布πθ(a|s)=表示Agent 采取的动作服从均值为μ(s,θ)、方差为σ(s,θ)2 的正态分布.在SPG 算法中,即使在相同的状态,每次所采取的动作也可能是不同的.该算法的梯度计算为
其
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。