当前位置:   article > 正文

Big Model Weekly 第8期

fine-grained hallucination detection and editing for language models

点击蓝字

e3814006100e8dcfdd61b37596515499.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1. Tuning Language Models by Proxy

尽管大型预训练语言模型具有一般的能力,但它们在实现所需行为方面仍然受益于进一步的调整。然而,随着模型权重变得私有,对这些模型进行调整变得越来越资源密集,甚至变得不可能。本文引入了代理调整(proxy-tuning),这是一种在黑盒语言模型之上运行的轻量级解码时算法,其目的是直接调整模型,但仅通过访问其对输出词汇的预测来实现。本文方法调整一个较小的语言模型,然后将小调整和未调整语言模型之间的预测差异应用于基本模型的原始预测,以在调整的方向上进行微调,同时保留更大规模预训练的好处。在实验中,当作者使用仅为7B大小的代理对LLAMA2-70B进行代理调整时,可以在知识、推理和安全性基准测试中,关闭LLAMA2-70B与其真正调整版本CHAT之间88%的差距。有趣的是,在TruthfulQA上测试时,代理调整的模型实际上比直接调整的模型更真实,可能是因为解码时的引导更好地保留了模型的事实知识。然后,文中通过在代码领域进行领域自适应,以及在问答和数学问题上进行任务特定的微调,展示了代理调整的普适性。该工作展示了使用小型调整过的语言模型通过解码时引导来有效定制大型、潜在专有的语言模型的潜力。

文章链接:

https://arxiv.org/pdf/2401.08565.pdf

8e567488c760218b78877375c150cda4.png

20e7bc74a95804180ed03166d6c1d72b.png

83e50c73b79f6274781e237512c3eb48.png

2. Fine-grained Hallucination Detection and Editing for Language Models

大型语言模型(LMs)容易生成多样化的事实错误陈述,通常被称为幻觉。当前的方法主要集中在粗粒度的自动幻觉检测或编辑上,忽视了细致的错误层次。本文提出了一项新任务——自动细粒度的幻觉检测,并提出了一个包含六个层次定义的幻觉类型的全面分类法。为了便于评估,作者引入了一个新的基准,其中包括对各个领域两个LM输出的细粒度人工判断。分析表明,ChatGPT和Llama2-Chat的输出中分别有60%和75%呈现出幻觉,其中大多数幻觉属于尚未充分研究的类别。为了初步解决这个问题,文中训练了FAVA,一个通过精心设计合成数据生成来检测和纠正细粒度幻觉的检索增强型LM。在基准测试中,自动和人工评估表明,FAVA在细粒度幻觉检测方面显著优于ChatGPT,尽管仍有很大的改进空间。FAVA建议的编辑还提高了LM生成文本的事实准确性,导致FActScore提高了5-10%。

文章链接:

https://arxiv.org/pdf/2401.06855.pdf

564d1616c746899eae32d871f1b6133c.png

c4cbc14ffca2d67f8250bc82f3e7c3b3.png

ef9d7ae7442e7842ef48db704fa93ff9.png

fa37ad3d3738589c1c6d4ee1bac80a6b.png

df00b965f64aa4f83573edbaaaa0f10e.png

3. PRewrite: Prompt Rewriting with Reinforcement Learning

Prompt工程对于基于大型语言模型(LLM)的应用程序的开发至关重要。然而,通常以“试错”的方式手动进行,这一手动过程可能耗时、低效,并且在很多情况下生成的提示是次优的。即使对于那些表现良好的提示,仍然存在一个困扰的问题:通过进一步修改,提示是否可以变得更好?为了解决这些问题,本文研究了提示工程的自动化。我们考虑了一个具体的使用情景,即开发人员/用户已经起草了初始提示,但缺乏时间/专业知识来优化它们。本文提出了PRewrite,一种自动工具,用于重写这些草稿并生成高效的新提示。PRewrite基于强化学习(RL)框架,允许进行端到端的优化,该设计使RL搜索可以在大规模的动作空间中进行。这个自动工具利用手动创建的提示作为起点,使重写过程更有指导性和高效性。生成的提示易于人类阅读和自解释,与先前的一些工作不同。作者在多样的数据集上进行了广泛的实验,发现使用这种新方法生成的提示不仅优于专业制作的提示,还优于先前提出的其他方法生成的提示。

文章链接:

https://arxiv.org/pdf/2401.08189.pdf

b41d5099e785ba0d21f399d496fecf99.png

271263f9dff26461ef5281607f3e0d02.png

bae5c8497a047873438e345a21543999.png

4. Extending LLMs' Context Window with 100 Samples

大型语言模型(LLMs)因其在预训练上下文窗口之外的有限外推能力而闻名,这限制了它们在具有冗长输入的下游任务中的应用。最近的研究试图通过修改旋转位置嵌入(RoPE)来扩展LLMs的上下文窗口,RoPE是一种受到LLMs如LLaMA、PaLM和GPT-NeoX采用的流行位置编码方法。然而,先前的工作如Position Interpolation(PI)和YaRN对资源要求高,并且缺乏比较实验证明它们的适用性。在这项工作中,作者确定了LLMs的注意熵(即注意力分数的信息熵)在维持稳定性方面的固有需求,并引入了一个新颖的RoPE扩展,结合调整RoPE的基础频率和缩放注意力logits,以帮助LLMs有效地适应更大的上下文窗口。本文通过各种对上下文要求严格的任务,在不同上下文窗口大小下验证了文中方法在微调性能和稳健性方面的优越性。值得注意的是,本文的方法将LLaMA-2-7B-Chat的上下文窗口扩展到16,384,仅使用了100个样本和6个训练步骤,展示了出色的效率。最后,文中还探讨了数据组合和培训课程对特定下游任务上下文窗口扩展的影响,建议以冗长对话微调LLMs作为一个良好的起点。

文章链接:

https://arxiv.org/pdf/2401.07004.pdf

b046129027aad5152ae608271c9d4f39.png

4ab43345a151fd925f7e2aec3490e0d3.png

5ebd890728c47be52a0970ff813e8978.png

b20bb7faa6b5d64fc5507b402413b85b.png

5. Large Language Models Are Neurosymbolic Reasoners

许多现实世界的应用都具有符号性质,需要强大的符号推理能力。本文探讨了大型语言模型(LLMs)作为符号推理器的潜在应用。本文专注于基于文本的游戏,这是具有自然语言能力的代理在符号任务(如数学、地图阅读、排序以及在基于文本的世界中应用常识)方面的重要基准。为了促使这些代理能够处理符号挑战并实现游戏目标,该研究提出了一个专门用于应对符号挑战和实现游戏目标的LLM代理。我们首先初始化LLM代理并告知其角色。然后,代理从基于文本的游戏中接收观察结果和一组有效操作,以及一个特定的符号模块。有了这些输入,LLM代理选择一个动作并与游戏环境互动。该文章的实验结果表明,我们的方法显著提升了LLMs作为符号推理自动代理的能力,本文的LLM代理在涉及符号任务的基于文本的游戏中表现出色,平均性能为88%。

文章链接:

https://arxiv.org/abs/2401.09334

ca4b126b4ae98f7cbf37b4186ca1c0c3.png

febeb8c7643d70d33fd77f10ce188221.png

8adcd032a9277ed8955baaeda259375c.png

957fb38d4c5d142085d0dbf2d6d5e83b.png

6. Concept Alignment

人工智能对齐(即人类与人工智能系统之间的对齐)的讨论主要集中在价值对齐上,广义上指的是创建与人类价值相一致的人工智能系统。本文认为,在作者尝试对齐价值之前,AI系统和人类必须对齐它们用于理解世界的概念,这是至关重要的。本文章结合来自哲学、认知科学和深度学习的思想,阐述了在人类和机器之间实现概念对齐的需求,而不仅仅是价值对齐。该文章总结了关于人类和机器如何学习概念的现有描述,并概述了在实现共享概念的道路上的机会和挑战。最后,作者解释了如何利用认知科学和人工智能研究中已经在发展的工具,加速朝着概念对齐的进展。

文章链接:

https://arxiv.org/abs/2401.08672

f3ab7769c2fb8b6a91dd1f1b7647f890.png

7. ChatQA: Building GPT-4 Level Conversational QA Models

这项工作介绍了ChatQA,一系列达到了GPT-4水平准确度的对话问答(QA)模型。具体而言,本文提出了一种两阶段的指令调整方法,可以显著提高大型语言模型(LLMs)在零样本对话QA方面的准确性。为了处理对话QA中的检索,作者在一个多轮QA数据集上对密集的检索器进行微调,该方法在很大程度上降低了部署成本,同时提供了与使用最先进的查询重写模型相当的结果。值得注意的是,本文的ChatQA-70B在10个对话QA数据集的平均得分方面可以胜过GPT-4(54.14对53.90),而且没有依赖于来自OpenAI GPT模型的任何合成数据。

文章链接:

https://arxiv.org/abs/2401.10225

01dd64fafcc90abb8572160364aeaa43.png

7c0fc5cb9f3c7ec3eb9127fd532bd0be.png

b9ee6c558f05a0d6460754174d64868b.png

往期精彩文章推荐

04e2c573f0d50910ce6894f2a1d29bd2.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

364db4ad49b5fcca09cf27f76d4f5b91.png

我知道你

在看

~

aa23ad0c1b98f6a7024a8793358e6a5a.gif

点击 阅读原文 观看更多!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/465368
推荐阅读
相关标签
  

闽ICP备14008679号