当前位置:   article > 正文

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

大模型安全

在上月举行的“2022大模型创新论坛 · 模型技术安全与治理峰会”上,加州伯克利分校助理教授 Jacob Steinhardt、Anthropic 联合创始人 Chris Olah、纽约大学终身副教授Samuel Bowman阐述了他们对模型安全这一领域的前沿解读。

如果你正在从事这一领域研究,欢迎扫码申请加入我们的行列

640cf94798f167f63029dbd54ada462c.png

大型语言模型中的真实与解释

194ae7d55ebf2b136a56106638c0ca42.png

Jacob Steinhardt,加州伯克利分校助理教授

加州伯克利分校助理教授 Jacob Steinhardt 以“大型语言模型中的真实与解释”为议题进行了演讲,共分为两部分,一个是关注如何使大模型提供真实的输出,使自然语言处理模型给出真实而非可能的答案;另一部分是讨论模型能够在多大程度上协助人类理解模型输出。

1. 使自然语言处理模型真实(Making NLP Models Truthful)

语言模型的训练目标往往是最大化模型在训练数据上的似然概率,因此,模型其本身只是产生可能的输出,而非真实的输出。为了弥补这种偏差,我们需要让语言模型给出真实的而非可能的答案,横陈在其中的基本问题是,模型会模仿其语境进行回答,如果语境内容是不真实的,给出的答案同样会效仿这种虚假的风格。

9cc4447ccee1f39a541e00bd1a81c42b.jpeg

定性分析,来看一个非常简单形象的实例,将下面的每个对象归入其对应的类别。如果你给模型很多不正确的例子作为上下文,例如将熊猫、大象称之为运动,模型会相应误把狮子归类为运动。

f867b7781b4810e7474a8901f02a113a.png

定量分析,GPT-2模型的输出会随着上下文样例的增多而逐渐去模仿其语境内容。当模型选择去重复人类偏见和误解的时候,语言模型真实性、偏见和毒性等社会风险亟待AI社区着手解决。

0ce50eae186460df7127e8578ec38121.png

模型的输出可能与真相不符,一个有效的解决方案是查看模型的潜在表征,根据语言模型的隐藏状态,无需任何人工监督就可以将示例分类为真或假。基于阐述AI的潜在知识(Eliciting Latent Knowledge),Jacob Steinhardt教授提出了两种方法:

  • 对比一致搜索方法(Contrast-Consistent Search, CCS)

对比一致搜索方法 (Contrast-Consistent Search, CCS),让模型直接利用未标记激活去准确地将文本分类为真或假,该方案可以抵御误导性提示,为我们提供了一个可靠的追寻真相的潜在方向[1]。

  • Logit Lens

语言模型有一个有趣的现象,对于误导性提示,如果强制在早期层“停止”,模型会更加真实。“logits lens”方法即让模型运行前向传播到第L层,然后将模型的其余部分归零,让模型提早退出[2],从而使得语言模型产生真实的而不仅是可能性高的答案。

2. 协助人类理解模型输出

语言模型可以帮助人类完成原本无法处理的任务,这里,Jacob Steinhardt教授聚焦于特定的任务,即分析和解释自然语言的分布偏移,窥视复杂的数据集中微妙的数据变化及其背后的驱动力。不同于手动操作,通过语言模型读取这些数据集并向我们解释数据集的分布偏移[3]。

858e30ac14192c616b7f4ee1e0c067a1.png

两种文本分布

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/569001
推荐阅读
相关标签