当前位置:   article > 正文

华为诺亚方舟郝建业:深度强化学习的三大挑战

强化学习用于决策分析的挑战有哪些

智源导读:近年来,深度强化学习技术在游戏人工智能领域、推荐系统、搜索系统、网络优化、供应链优化、自动驾驶和芯片设计等领域取得了大量成果。

华为诺亚方舟决策与推理实验室郝建业近期在北京智源大会上发表了题为《深度强化学习的挑战及落地》的主题演讲。在演讲中,郝建业博士指出,深度强化学习当前存在的挑战主要有三个方面:(1)奖励信号难以设计;(2)强化学习算法学习效率较低;(3)模型泛化能力弱。

整理:任黎明

排版:马瑞军

郝建业博士,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目10余项,研究成果荣获ASE2019、DAI2019、CoRL2020最佳论文奖等,同时在游戏AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

01

奖励信号挑战

强化学习算法难以学到正确的监督或协作信号以得到期望的目标或奖励收益,解决该挑战的方法有:(1)通过双水平优化奖励参数自动地添加奖励修正,引导强化学习智能体获得优异的学习策略,最大化真实环境下的奖励;(2)按照时序分配奖励,基于路径将多智能体的总体Q值分配给每个智能体。

 

图1:奖励信号难以设计

02

算法学习效率挑战

目前,强化学习算法学习效率较低,可以通过先验知识提升新任务的学习效率解决该挑战,主要的方法有:(1)策略迁移,从多任务中形成自适应策略迁移,用前k个任务的策略自适应地选择第k+1个任务的策略,提升新任务的策略学习效率;(2)价值函数迁移,在环境交互中,确定估计策略的位置,并根据策略更新及其新策略值,不断地进行策略的近似评估和泛化迭代,实现新任务中进行未知策略位置的知识迁移,以提升策略迭代的效率;(3)环境动态迁移,在黑盒神经网络中利用交互作用数据拟合和估计模型生成虚拟数据提升强化学习策略的性能,基于此,郝建业提出了基于模型强化学习的环境动力学解耦架构,可以自动的将动作维度解耦为不同的部分,再通过解耦预测模型将每个部分建立为子模型,最后将所有的子模型聚合输出新任务的状态和奖励。

图2:强化学习学习效率低

03

模型泛化能力挑战

模型泛化能力弱的问题可以通过深度强化学习促使决策多样性的方法解决,为此,郝建业提出了基于演化-深度强化学习框架。在演化架构中,将深度强化学习作为新算子融入该架构,生成多种差异化较大的策略,应用于多目标优化提升新任务的多样性。该架构可应用于软件测试提升探索的效率以及游戏行为的多样化生成。此外,郝建业还将该框架应用于路口交互、窄道会车、高速换直等强交互的自动驾驶仿真器场景,通过演化学习技术实现强交互场景社会车辆行为真实多样,提升仿真真实性,解决多车交互博弈任务中,现有模拟器仿真场景交互能力与实际差异太大的问题。

 

图3:强化学习泛化性能弱

同时,郝建业指出当下深度强化学习的主要应用有三个方面:(1)5G网络优化-多频段参数优化;(2)供应链优化;(3)芯片3D-IO布线优化。

04

5G网络优化应用

5G网络优化-多频段参数优化的难度在于:(1)网络复杂度急剧加深,如中国移动10+频段,组网场景50+种;(2)网络中待优化参数空间巨大(400+);(3)邻域小区间在水平或垂直方向相互影响,需协同优化;(4)传统方法依靠人工优化,增益和效率无法保障。为解决上述问题,郝建业提出了基于专家经验的多智能体强化学习方法,将显性业务知识嵌入到神经网络中,降低探索空间实现垂直水平多小区间协同优化,以及通过Geom-GCN的全局Critic网络设计,更好地实现小区间协同,研究结果表明该方法可将模型的性能提升15%左右。

05

供应链优化应用

在供应链优化问题中,郝建业提出了基于强化学习的分层优化架构,在给定投递中任务中,通过最优化派单和车辆行驶路线,在满足交付和运输约束的前提下,实现运输成本的最小化。在取货任务中,郝建业设计了基于分层强化学习的动态取送货优化算法,上层通过学习的方式快速对动态问题进行分割;针对每个静态问题,下层则采用学习的方式对当前的解进行快速局部搜索得到近似最优解。通过实际生产数据集的测试结果表明了该方法求解质量高、运行速度快及泛化性能强,并能够大幅度提升优化目标。

图4:基于强化学习的分层优化架构研究结果

06

芯片3D-IO布线优化

在芯片3D-IO布线优化问题中,郝建业提出了基于强化学习的二分图匹配优化方法,将该问题建模为二分图匹配问题,引入最小代价最大流算法完成布线,并根据重要性对IO-BUMP类型排出优先级,需要连通数量最多的优先最高,并在低优先级构建解空间时将与高优先级已布线有冲突的解删掉以实现全局最优,测试结果表明该方法可以提升3.8%-15.4%连通数。

最后,郝建业认为当前强化学习面临诸多挑战的主要原因可以总结为缺乏有效的监督/协作信号、学习效率低及学习泛化能力弱,并指出深度强化学习难以大规模应用的主要挑战在于虚拟场景和物理场景的隔阂,其具体表现为:(1)缺乏良好的表征(自监督学习);(2)减小仿真器的依赖(离线/批量强化学习);(3)大规模复杂系统难以设计有效地多智能体强化学习。


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/423299
推荐阅读
相关标签
  

闽ICP备14008679号