赞
踩
1)简单的语言提示并不总能产生期望的结果,即使这些结果可以通过替代指令产生。因此,人类用户必须尝试使用各种提示来引发期望的行为,因为他们对特定模型与指令的兼容性了解有限。
2)虽然LLMs可以执行广泛范围的自然语言程序,但这些程序的处理方式对人类来说可能并不直观,指令的质量只能在执行这些指令时在下游任务上进行衡量。
3)为了减少创建和验证有效指令所涉及的人力工作
考虑利用预训练的LLM来提出一组良好的候选解U,以指导我们的搜索过程。尽管从LLMs中随机抽样不太可能产生期望的(Q, A)对,但我们可以要求LLM近似推断出在给定输入/输出演示的情况下得分很高的最可能指令;即从 P(ρ∣Dtrain,f(ρ) is high) 中近似采样。
前向模式生成
首先,采用一种基于“前向”模式生成的方法,将这个分布P(ρ∣Dtrain,f(ρ) is high) 转化为词语。
反向模式生成
尽管“前向”模型在大多数预训练LLMs上直接使用,将P(ρ∣Dtrain,f(ρ) is high) 转换为单词需要在不同任务之间进行制定方法。这是因为指令通常在段落的开头,而“前向”模型只从左到右生成文本,这要求指令在提示的末尾进行预测。因此,我们希望有一种更灵活的方法,使指令可以出现在文本的任何位置。为了解决这个问题,我们考虑“反向”模式生成,它使用具有填充功能的LLM,例如T5,GLM和InsertGPT,来推断缺失的指令。我们的“反向”模型通过填充空白直接从 P(ρ∣Dtrain,f(ρ) is high) 中进行采样。
定制提示
据所使用的得分函数,可能存在比上述示例更合适的提示。例如,在本文的TruthfulQA实验中,作者从原始数据集中使用人工设计的指令开始,并要求“反向”模型提出初始指令样本,以适应缺失的上下文。
执行准确性:
在大多数情况下,执行准确性简单地定义为0-1损失,即:
对数概率:
进一步考虑一个更柔和的概率得分函数,假设它可能通过在搜索低质量的候选指令时提供更精细的信号来改善优化。特别是,作者考虑在目标模型 M 下给定指令和问题的期望答案的对数概率。
高效的得分估计:
首先使用训练数据集的一个小子集评估所有候选者。对于得分大于某个阈值的候选者,从训练数据集中抽样并评估一个新的非重叠子集,以更新得分的移动平均值。然后,重复此过程,直到只剩下一小组候选者,这些候选者在整个训练数据集上进行评估。这种自适应过滤方案通过保持高质量样本的精确计算成本并大大降低低质量候选者的计算成本,显着提高了计算效率。
可能出现在第3.1小节中描述的方法未能产生良好的提示集 U 的情况,可能是因为缺乏多样性或不包含具有适当高得分的候选者。在面对这些挑战的情况下,作者探索了一种用于重新采样 U 的迭代过程。
迭代蒙特卡罗搜索
仅从初始提示中采样不同,作者考虑在当前最佳候选提示周围局部探索搜索空间。这使大模型能够生成更有可能成功的新指令。称之为迭代APE的变体。在每个阶段,评估一组指令并过滤得分低的候选者。然后,要求LLM生成类似于那些得分高的新指令。尽管这种方法提高了提示集U 的整体质量,但随着迭代次数的增加,最高得分的指令趋向于保持不变。
作者评估了在Honovich等人(2022)提出的24个指令引导任务上的零样本和上下文学习性能的有效性。
对于每个任务,从训练数据中随机抽样五对输入-输出,并使用算法1选择最佳指令。然后,我们通过在InstructGPT 3上执行指令来评估指令的质量。
零样本学习:
上下文学习:(PS:这些指令是基于零样本执行准确性选择的)
为了验证 APE 是否可应用于更具挑战性的任务,作者提出并策划了 BIG-Bench Instruction Induction(BBII),这是一个干净而易处理的子集,包含 21 个任务。对于每个任务,作者使用 InstructGPT 的反向生成模式生成来生成一组指令候选,并根据它们的执行准确性对指令进行排名。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。