当前位置:   article > 正文

40亿次仿真学习:人工智能5:0大胜人类飞行员!

考虑人机信任的空战


来源:桌面战斗

本文约2000字,建议阅读5分钟。

本文介绍了国防高级研究计划局(DARPA)的Alpha狗斗的最后一场人机对抗试验在线展开,8支人工智能团队运用算法控制空战模拟器进行虚拟对决。

8月18日至20日,国防高级研究计划局(DARPA)的Alpha狗斗的最后一场人机对抗试验在线展开,8支人工智能团队运用算法控制空战模拟器进行虚拟对决。这8支团队中,既有大型传统国防承包商(如洛克希德·马丁公司)到小型民营公司(如“苍鹭系统”)。

最终,“苍鹭系统”的人工智能团队不仅击败了其余7支团队,而且以5:0的成绩大胜真实人类飞行员团队。去年同样有8支团队参加试验,目的是演示先进的AI算法,该算法能够执行可视范围内的模拟近距空战,俗称“狗斗”。该系列试验旨在为DARPA的空战演进(ACE)计划激发并扩大AI开发人员的基础。空战演进(ACE)项目致力于实现空战自主化并建立人类对AI的信任,这是朝着改善人机团队的方向迈出的一步。

DARPA战略技术办公室美国空军项目经理丹·贾沃塞克上校说:“我们仍然很高兴看到AI算法与武器学校训练的人类如何相互对抗,并希望来自空军,海军和海军陆战队的战斗机飞行员以及军事领导人和AI技术社区将在线注册并观看。在不到一年的时间,这些团队就拥有先进的AI进行自主作战的技术,真是令人惊讶。”

前两次对抗实验,分别于2019年11月和2020年1月举行,由空军实验室主持。随后在今年5月和7月各支团队进行了后续的虚拟“狗斗”,以完善他们的算法。

第3次试验全天在ADT电视上现场直播:

  • 第1天,每支队伍将他们的算法与空战实验室开发的对手AI算法相对比;

  • 第2天,各支团队在循环赛中互相对抗;

  • 第3天,排名前四的团队将参加AlphaDogfight的淘汰赛,冠军队与F-16飞行员进行对抗,以测试AI对人类的能力。

共有8支队伍参加第3次实验:

  • 极光飞行科学

  • EpiSys科学

  • 乔治亚理工学院

  • 苍鹭系统

  • 洛克希德·马丁

  • Perspecta实验室

  • 物理人工智能

  • 腾飞科技

当在代表人类未来的“苍鹭”系统与代表人类的美国空军F-16飞行员对抗时,其卓越的瞄准能力得到了特别展示。尽管出于OPSEC的考虑而未公布飞行员的姓名,但DARPA提供了他的代号:Banger。他们还解释说,Banger不仅是一名战斗机飞行员,而且还是空军武器教练课程的毕业生,该课程被誉为空军的“顶级枪手”学校,电影《壮志凌云》中描述了这个训练的残酷性。

“苍鹭”的AI系统以其难以置信的精确打击,通过一系列循环合并减少了Banger控制飞机的“生命”,从而快速连续击败Banger赢得了前四场胜利。在第五次也是最后一次回合中,Banger改变了进入方式,将飞机从“苍鹭”的F-16上空杀出,并以高过载转弯进行摆脱。但是,新策略似乎只是在延迟这种不可避免的结果,苍鹭设法再次杀死了Banger的F-16,而人类飞行员却没有对目标进行任何射击。DARPA和整个比赛中观摩的空军飞行员普遍将“苍鹭”的AI飞行员描述为“具有攻击性”。当然,在实际的缠斗中并没有这样的局限性……但是苍鹭的侵略性可能仍然显得有些过高,无法充当合适的僚机。

“重要的是要意识到BFM(基本战斗机机动)交战可以发生在任何方向和任何高度。我们通常从基本的起始参数开始,以绘制供参考的现场图片,但真正的参与并没有缺口。” F-35飞行员教练,前F-16飞行员贾斯汀·“哈萨德”·李少校,告诉记者。“敌人总是有投票权,这意味着他们总是保留做您没想到的事情的权利。发生这种情况时,您必须找到创造性的解决方案来应对意外的问题。”

胜利后,“苍鹭”系统的高级机器学习工程师本·贝尔表示,他们已经进行了至少40亿次仿真学习,并获得了至少“12年的经验”。这不是AI在比赛中首次击败人类战斗机飞行员。2016年的一次演示中,被称为Alpha的AI飞行员可以击败经验丰富的人类战斗飞行教练。但是,在这次的DARPA模拟中,可以说是更为重要的,因为它在高度结构化的框架中使各种AI代理飞行员相互竞争,然后与人类竞争。不允许AI在实际试验中学习经验,贝尔说这“有点不公平”。实际比赛证明了这一点。在比赛的第五轮也是最后一轮中,这位匿名的人类飞行员Banger能够显着改变自己的战术并持续更长的时间。他说:“作为战斗机飞行员,我们做的标准工作没有用。”但是,人类还是学习不够快,仍然被击败了。

这是军方必须做出的重大未来选择。让AI在实战中学习更多,而不是在任务之间学习,从而在人类的直接监督下,可能会加快学习速度,并帮助无人战斗机更好地与人类飞行员或其他AI竞争。但这将需要人为决定,并在关键时刻退出流程。里霍兹表示,至少现在,他会提倡的方法是训练算法,部署算法,然后“将数据带回去,学习它,然后再训练,重新部署”,而不是让代理立即学习。

DARPA战略技术办公室主任蒂莫西·格雷森(Timothy Grayson)将这次试验描述为在战斗中更好地进行人机结合的胜利,这是真正的意义。“我认为我们今天所看到的是我称之为人机共生的事物的开始……让我们考虑一下坐在驾驶舱内的人,他们被这些AI算法之一当做真正成为一种武器系统,格雷森说:“人类专注于人类最擅长的事情(例如高级战略思维),而人工智能则正在做着人工智能最擅长的事情。”

编辑:王菁

校对:林亦霖

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/555148
推荐阅读
相关标签
  

闽ICP备14008679号