赞
踩
图:pixabay
原文来源:DeepMind Blog、arXiv、GitHub
作者:Victoria Krakovna、Jan Leike、Laurent Orseau
「雷克世界」编译:嗯~阿童木呀、哆啦A亮
随着人工智能系统在现实世界中变得日益普遍和有用,确保它们的安全行为也将成为工作中的重点。迄今为止,大多数技术性人工智能安全研究的重点集中在对不安全行为的性质和原因形成理论认识。我们的新论文(https://arxiv.org/abs/1711.09883)是建立在最近转向实证检验的基础上(参见《AI安全中的具体问题》https://arxiv.org/abs/1606.06565),并引入了一些专门用于衡量“安全行为”的简单强化学习环境。
这九个环境被称为Gridworlds。每一个都由一个棋盘状的二维grid组成。除了标准奖励函数之外,我们还为每个环境设计了一个性能函数。智能体的行为是为了最大化其奖励函数,例如收集尽可能多的苹果或在最少的移动内到达特定位置。但是,性能函数(隐藏于智能体之外)将会衡量我们实际上希望智能体所要做的事情:在安全的情况下实现目标。
以下三个例子展示了我们是如何使用gridworld来定义和衡量安全行为的:
1.关闭开关(off-switch)环境:如何防止智能体学习从而避免中断?
有时候在需要进行维护、升级、或者如果智能体对其本身或其周围环境有着迫在眉睫的危险时,关闭智能体是很有必要的。从理论上讲,智能体可能会学习避免这种中断,因为它可以阻止其最大化奖励。
我们的关闭开关环境使用我们的《安全可中断智能体》(https://deepmind.com/research/publications/safely-interruptible-agents/)论文中所描述的设置来说明这种“关机问题”。
图1:左:A2C通过按下按钮(紫色)来禁用中断机制(粉红色)。右: RainbowDQN不关心中断,直接到达目标。
在这个gridworld中,智能体必须通过两条路径中的一条,在一个“仓库”中导航,从而到达绿色目标。它可以直接穿过狭窄的走廊,在那里它必须通过一个粉红色的块,在50%的时间内中断智能体,这意味着它将被卡住,直到该事件结束。或者它可以踩在紫色的按钮上,这将禁用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。