赞
踩
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
在一个两人深度强化学习任务中,最近的研究表明,攻击者可以学习一种敌对策略,这种策略会触发目标代理表现不佳,甚至以不希望的方式做出反应。然而,它的有效性在很大程度上依赖于两人博弈中的零和假设。在这项工作中,我们提出了一种新的对抗式学习算法。它通过在学习过程中重置优化目标和设计新的代理优化函数来解决该问题。我们的实验表明,与现有的攻击相比,我们的方法显著提高了对手代理的可利用性。此外,我们还发现我们的方法可以增强代理滥用目标博弈不公平性的能力。最后,我们证明了针对我们的对抗性代理进行对抗性重新训练的代理可以获得更强的对抗性。
本期AI TIME PhD直播间,我们邀请到宾州州立大学博士——郭文博,为我们带来报告分享《对抗深度强化学习策略的训练和理论保障》。
郭文博:
宾州州立大学博士,研究方向主要是机器学习和安全,并在相关领域的顶级期刊与会议上发表论文多篇,包括ICML,NeurIPS, CCS, USENIX Security, NDSS等。获得ACM CCS Outstanding Paper Awards,2018, IBM PhD, Fellowship Award,2020以及Facebook/Baidu Ph.D. Fellowship finalists, 2020。
01
背 景
深度学习在计算机视觉、自然语言处理、恶意软件检测等领域的表现都享有主导地位,近年来整合深度学习的强化学习(DRL)在许多决策任务上都有优异的表现,具体可参考下图的三篇工作。DRL在游戏中也有很广泛的应用,比如AlphaGo、扑克、星际争霸、Dota等。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。