赞
踩
在上月举行的“2022大模型创新论坛 · 模型技术安全与治理峰会”上,加州伯克利分校助理教授 Jacob Steinhardt、Anthropic 联合创始人 Chris Olah、纽约大学终身副教授Samuel Bowman阐述了他们对模型安全这一领域的前沿解读。
如果你正在从事这一领域研究,欢迎扫码申请加入我们的行列
大型语言模型中的真实与解释
Jacob Steinhardt,加州伯克利分校助理教授
加州伯克利分校助理教授 Jacob Steinhardt 以“大型语言模型中的真实与解释”为议题进行了演讲,共分为两部分,一个是关注如何使大模型提供真实的输出,使自然语言处理模型给出真实而非可能的答案;另一部分是讨论模型能够在多大程度上协助人类理解模型输出。
1. 使自然语言处理模型真实(Making NLP Models Truthful)
语言模型的训练目标往往是最大化模型在训练数据上的似然概率,因此,模型其本身只是产生可能的输出,而非真实的输出。为了弥补这种偏差,我们需要让语言模型给出真实的而非可能的答案,横陈在其中的基本问题是,模型会模仿其语境进行回答,如果语境内容是不真实的,给出的答案同样会效仿这种虚假的风格。
定性分析,来看一个非常简单形象的实例,将下面的每个对象归入其对应的类别。如果你给模型很多不正确的例子作为上下文,例如将熊猫、大象称之为运动,模型会相应误把狮子归类为运动。
定量分析,GPT-2模型的输出会随着上下文样例的增多而逐渐去模仿其语境内容。当模型选择去重复人类偏见和误解的时候,语言模型真实性、偏见和毒性等社会风险亟待AI社区着手解决。
模型的输出可能与真相不符,一个有效的解决方案是查看模型的潜在表征,根据语言模型的隐藏状态,无需任何人工监督就可以将示例分类为真或假。基于阐述AI的潜在知识(Eliciting Latent Knowledge),Jacob Steinhardt教授提出了两种方法:
对比一致搜索方法(Contrast-Consistent Search, CCS)
对比一致搜索方法 (Contrast-Consistent Search, CCS),让模型直接利用未标记激活去准确地将文本分类为真或假,该方案可以抵御误导性提示,为我们提供了一个可靠的追寻真相的潜在方向[1]。
Logit Lens
语言模型有一个有趣的现象,对于误导性提示,如果强制在早期层“停止”,模型会更加真实。“logits lens”方法即让模型运行前向传播到第L层,然后将模型的其余部分归零,让模型提早退出[2],从而使得语言模型产生真实的而不仅是可能性高的答案。
2. 协助人类理解模型输出
语言模型可以帮助人类完成原本无法处理的任务,这里,Jacob Steinhardt教授聚焦于特定的任务,即分析和解释自然语言的分布偏移,窥视复杂的数据集中微妙的数据变化及其背后的驱动力。不同于手动操作,通过语言模型读取这些数据集并向我们解释数据集的分布偏移[3]。
两种文本分布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。