赞
踩
虽然语言模型(LM)有时可以生成事实上正确的文本并估计某个个体的真实情况,但这些通常不能反映全局一致的、可操纵的世界模型。因此,当前的 LM 也会生成不正确或无意义的内容,并且难以编辑和更新。我们提出了一种称为Deductive Closure Training (DCT) 的方法,该方法使用语言模型本身来识别它们生成的文本的含义(以及其中的矛盾),从而产生一种有效的自监督过程来提高语言模型的真实性。给定一组种子文档,DCT 提示 LM 生成这些文档隐含的附加文本,并对生成的文本的正确性进行全局推理,最后对推断正确的文本进行微调。给定来自可信来源的种子文档,DCT 提供了监督模型更新的工具;如果种子文档是从 LM 本身采样的,DCT 可以实现完全无监督的微调,以提高一致性和准确性。在 CREAK、MQUAKE 和“Reversal Curse”数据集上,有监督 DCT 将 LM 事实验证和文本生成准确性提高了 3-26%; 在 CREAK 上,完全无监督的 DCT 将验证精度提高了 12%。这些结果表明,可以在训练过程中利用 LM 在推理过程中的推理能力来提高其可靠性。
人们越来越有兴趣使用语言模型(LM)作为信息来源和事实验证工具。但如今的语言模型无法稳健地执行这两项任务:它们很容易生成事实上不正确、自相矛盾的信息,并且难以用新信息进行更新。
然而,即使它们对事实的判断不完美,当前的 LM 也是文本片段之间事实关系的相当可靠的模型:它们可以识别语句之间的逻辑和概率关系,并根据作为输入提供的新信息生成文本。例如,LM 无法回答以下问题:How old was Charlie Chaplin when he died? 尽管如此,当提示查理·卓别林生活在 1889 年至 1977 年间时,可能会提供正确答案,并认识到这一说法与m Charlie Chaplin lived in the 21st century的说法相矛盾。我们如何利用语言模型推理有关声明之间的事实关系的能力来改进(和控制)语言模型本身生成的文本?
从概念上讲,即使一条信息出现在 LM 的训练数据中,更新 LM 的参数以增加包含此句子信息的概率通常也不会增加描述句子其逻辑结果的的概率:对定义进行微调并不会使 LM 为新定义的单词的使用分配更高的概率。一般来说,需要推理来确定给定训练集的 deductive closure ——根据最初可用的信息可以做出的完整推论集合。默认情况下,LM 训练的标准似然最大化方法不会执行这种推理,因此需要一些替代方法来确保 LM 在训练和微调时将高概率分配给一组完整且一致的事实。
在本文中,我们提出了一种新的 LM 微调方法,称为Deductive Closure Training (DCT),它利用推理时LLM的推理能力作为训练时有监督的来源。在更高层次上,给定种子文本(可以是外部提供的或 LM 生成的),DCT 使用 LM 来识别该文本中隐含或矛盾的其他文本,全局推理种子文本和生成文本中的哪些部分最有可能是正确的,最后对推断出的正确文本进行微调。这种方法建立在最近关于为了提高模型的事实正确性,而在推理方法所作的大量工作,并表明这些技术也可以在训练时使用。
根据种子文档的来源,DCT 可以以多种不同的方式使用。如果这些数据来自可信的事实来源,则可以使用 DCT 来执行事实性的监督适应。 如果文档包含要插入 LM 的新信息,DCT 会提供模型更新(或“编辑”)工具。最后,如果种子文档是由模型本身生成的,DCT 可以对模型进行完全无监督的微调,以提高准确性。
我们证明了 DCT 在三个领域的有效性:事实验证(在 CREAK 基准上)、使用新信息回答问题(在 MQUAKE 基准上)以及编辑传播的合成测试(在“Reversal Curse”基准上)。在这些任务中,DCT 的无监督应用可将准确度提高高达 12%,而有监督应用可将准确度提高高达 26%。这些结果表明,模型一致性和编辑等问题可能不需要专门的编辑或训练技术:针对 LM 输出的一致性和完整性进行优化的自监督目标可以提高其准确性和可更新性。
DCT 基于许多最近开发的技术,通过推理时计算或训练时自监督来提高模型精度。
Bootstrapping accuracy during inference。越来越多的研究关注在LLM推理时如何引导语言模型性能的技术。Tafjord et al. (2022); Kassner et al. (2023); Bostrom et al. (2022); Weir and Van Durme (2022) and Jung et al. (2022) 构建自我引导的推理语义链以支持推理。 Suzgun et al. (2022) 提出了一组程序,通过语义等价对模型生成的候选答案进行分类,然后使用聚合概率来选择排名最高的预测,类似于文本输出的自我一致性。最后,最近的工作显示出通过检索增强根据相关参考文本调节语言模型来提高连贯性的希望。我们的方法建立在这些工作的基础上,通过使用推理时的技术来生成有监督数据。
Supervised learning for factuality。语言模型极大地受益于提高准确性的训练或训练后技术,包括指令微调、从反馈中学习和损失截断。最接近我们的方法的是 Hase et al. (2023) ,它(像 DCT)利用关于事实邻域的模型“信念”的图结构表示,使用它们来训练用于模型编辑的超网络。DCT 与此主题一致,旨在改进模型训练;它的不同之处在于需要很少的外部监督或不需要外部监督。
Self-training。过去的工作还研究了利用 LM 本身来提高性能。一些研究使用外部工具、二元反馈和自然语言反馈来提高能力或减少危害。其他人提出了现实性和一致性指标,这些指标可能用于在事后过滤掉错误的答案。与此类方法相关的是执行多次推理尝试并将其聚合以获得更一致的答案的方法。Padmanabhan et al. (2023) 在自我生成的文本上微调 LM,无需显式含义生成或逻辑推理。与当前的工作直接相关, Li et al. (2023) 和 Tian et al. (2023) 使用 LM 生成的事实标签对 LM 生成的数据进行排序或过滤以进行微调;相比之下,DCT 使用 LM 显式地从 LM 生成的或外部提供的信息中推断,为监督模型更新和无监督改进提供单一框架。
给定一个在字符串上分配概率分布的语言模型
p
L
M
p_{LM}
pLM,我们的目标是优化
p
L
M
p_{LM}
pLM,使其具有连贯性(如果
p
L
M
p_{LM}
pLM 为语句
P
P
P 和
Q
Q
Q 分配高概率,则这些语句必须兼容)和完整性(如果
p
L
M
p_{LM}
pLM 分配高概率到
P
P
P,并且
P
P
P 隐含
Q
Q
Q,那么
p
L
M
p_{LM}
pLM 也必须为
Q
Q
Q 分配高概率)。这两个属性一起意味着 LM 在逻辑推导下是封闭的。演绎闭合是
p
L
M
p_{LM}
pLM真实的必要条件,而近似演绎闭合被普遍认为是类人信念的重要特征。
演绎闭合训练从一组种子文档
s
i
s_i
si 开始,这些文档可能包括来自可信来源的事实、用户提供的新信息,甚至是
p
L
M
p_{LM}
pLM 本身生成的文本。在较高层面上,DCT 的工作原理是使用
p
L
M
p_{LM}
pLM 生成每个种子文档所隐含的附加文本(即,以
s
s
s 为条件的高概率为真)或与其相矛盾的文本。例如,在图2中,种子文本 Country music originated in the United Kingdom 被用于生成陈述 The UK is famous for country music、问答对(Q: Where did country music originate? A: England)甚至多跳结果(The steam train was invented in the UK; therefore, country music and the steam train were invented in the same country)。生成后,DCT 再次使用
p
L
M
p_{LM}
pLM 将这些文档作为一个集合进行推理,识别生成的文档中最有可能为真的文档的子集。最后,DCT 在此推断真实集合中的文档上微调
p
L
M
p_{LM}
pLM。在以下部分中,我们将更详细地描述每个步骤。
DCT 的第一步是使用 pLM 为每个种子文档生成一组相关文档(图 2a)。
形式上,我们首先构建一组文本提示,指示 LM 生成与输入相关或者矛盾的其他文档,以及 1-5 个示例。我们分别用
p
r
i
m
p
pr_{imp}
primp 和
p
r
c
o
n
pr_{con}
prcon 来表示这些提示(完整的提示文本参见附录 B)。然后,我们为每个种子文档
s
i
s_i
si 构建相关文档的集合
R
i
R_i
Ri,如下所示:
R
i
=
I
i
∪
C
i
∪
{
s
i
}
,
I
i
=
{
r
i
j
∼
p
L
M
(
⋅
∣
p
r
i
m
p
,
s
i
)
}
,
C
i
=
{
r
i
j
∼
p
L
M
(
⋅
∣
p
r
c
o
n
,
s
i
)
}
,
i
∈
{
1..
n
}
,
(1)
其中
I
\mathcal I
I 和
C
\mathcal C
C 分别表示生成的蕴含和矛盾。(生成相关文档的其他过程也是可能的,例如,通过简单地提示
p
L
M
p_{LM}
pLM 生成类似文本,如第 5.1 节中所述。)请注意,种子文档
s
i
s_i
si 包含在
R
i
R_i
Ri 中 - 这对于在无监督的训练期间检测(和纠正)种子中的错误至关重要。
此生成步骤之后可能是对
R
i
R_i
Ri 的双重检查步骤,其中我们使用
p
L
M
p_{LM}
pLM 来验证
s
i
s_i
si 是否与
r
i
j
r_{ij}
rij是包含/矛盾的,并丢弃
p
L
M
p_{LM}
pLM 不以高概率输出 yes 的所有
r
i
j
r_{ij}
rij (提示模板可见附录 B)。此步骤反映了各种其他最新方法,其中模型重新评估其初始答案。
先前的步骤在每个种子文档的“演绎邻域”中生成文档集合。这些文档可能相互矛盾,我们希望确定最有可能总体正确的子集。为了识别这个子集,我们利用
p
L
M
p_{LM}
pLM 对文档之间逻辑关系的分类,并且
p
L
M
p_{LM}
pLM 会分配给每个文档先验概率。例如,对于Emperor Meiji was the first emperor the Modern Japan,和Emperor Meiji was the last Japanese emperor; 如果前一种说法很可能为真,则后一种说法很可能为假。
形式上,我们首先将种子文档
s
i
s_i
si 和每个生成的文档
r
i
j
r_{ij}
rij 与真值
t
i
j
∈
{
0
,
1
}
t_{ij} ∈ \{0, 1\}
tij∈{0,1} 相关联。给定一个文档到真值分配,我们计算此分配的
L
M
LM
LM 概率:
p
(
T
i
∣
R
i
)
=
(
∏
j
:
t
i
j
=
0
p
L
M
(
r
i
j
i
s
f
a
l
s
e
)
)
×
(
∏
j
:
t
i
j
=
1
p
L
M
(
r
i
j
i
s
t
r
u
e
)
)
.
p(T_i|R_i)=\bigg (\prod_{j:t_{ij}=0}p_{LM}(r_{ij}~is~false)\bigg )\times \bigg(\prod_{j:t_{ij}=1}p_{LM}(r_{ij}~is~true)\bigg).
p(Ti∣Ri)=(j:tij=0∏pLM(rij is false))×(j:tij=1∏pLM(rij is true)).
我们使用提示来估计每个
p
L
M
(
r
i
j
i
s
t
r
u
e
)
p_{LM}(r_{ij}~is~true)
pLM(rij is true)。我们首先在一小部分文档标签对上设置
p
L
M
p_{LM}
pLM 条件,其中标签是
{
T
r
u
e
,
F
a
l
s
e
}
\{True, False\}
{True,False} 之一。 接下来,我们分别使用与
p
L
M
(
r
i
j
i
s
t
r
u
e
)
p_{LM}(r_{ij}~is~true)
pLM(rij is true) 和
p
L
M
(
r
i
j
i
s
f
a
l
s
e
)
p_{LM}(r_{ij}~is~false)
pLM(rij is false) 中的token true 和 false 相对应的标准化 logits。 提示模板参见附录B。
接下来,如果考虑所有包含和矛盾,我们定义赋值
T
i
=
{
t
i
j
}
T_i = \{t_{ij}\}
Ti={tij} 是一致的。
c
(
T
i
)
=
{
1
i
f
∏
j
:
r
i
j
∈
I
i
1
[
t
i
→
t
i
j
]
.
∏
j
:
r
i
j
∈
C
i
1
[
t
i
→
¬
t
i
j
]
0
o
t
h
e
r
w
i
s
e
c(T_i)=
其中 ti 表示种子文档的真值,当 b 为真或 a 为假时,1[a → b] 为 1;当且仅当 b 为假或 a 为假时,1[a ̸→ b] 为 1(如 逻辑包含和矛盾的普通定义)。最后,我们选择最可能的一致分配:
T
i
∗
=
a
r
g
m
a
x
T
c
(
T
∣
R
i
)
⋅
p
(
T
∣
R
i
)
.
(2)
T^*_i=\mathop{argmax}\limits_{T}c(T|R_i)\cdot p(T|R_i).\tag{2}
Ti∗=Targmaxc(T∣Ri)⋅p(T∣Ri).(2)
该过程如图 2b 所示,最高得分的真值分配显示在蓝色突出显示的框中。
最后,我们仅对推断真实的文档进行
p
L
M
p_{LM}
pLM 微调,优化:
a
r
g
m
a
x
θ
∑
i
,
j
t
i
j
l
o
g
p
L
M
(
r
i
j
)
.
(3)
\mathop{argmax}\limits_{\theta}\sum_{i,j}t_{ij}log~p_{LM}(r_{ij}).\tag{3}
θargmaxi,j∑tijlog pLM(rij).(3)
其中
θ
θ
θ 参数化
p
L
M
p_{LM}
pLM。在实践中,我们不会训练
p
L
M
p_{LM}
pLM 收敛,而是训练固定次数的迭代。
根据种子文档 S \mathcal S S 的获取方式,基于 DCT 的微调可用于通过多种方式改进模型:
请注意,在后两种情况下(我们将种子文档的真值固定为1),评估步骤大大简化,并且简单地丢弃所有与种子文档逻辑不符的生成文档。在无监督学习的情况下,这个评估步骤可以(并且根据经验)导致 LM 重新标记采样的种子文档以及条件生成的文档。
Generalizations of DCT。最后,我们指出,上述过程是一系列类似 DCT 的方法的基本实现,其中许多更复杂的过程是可能的,例如:probabilistic DCT(计算边际陈述概率而不是硬真值分配)、contrastive DCT (将等式(3)替换为鼓励分配给真实陈述比错误陈述更高的概率的目标)和多跳 DCT(不仅生成文档的直接含义,而且生成更广泛的相关文档图)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。