赞
踩
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
GLM:具有自回归空白填充的通用语言模型预训练
自编码模型-bert, 自回归模型-gpt,encoder-decoder模型-t5,这些预训练框架在自然语言理解(NLU),无条件生成和有条件生成任务上都差点意思。
GLM,通过添加2D position-encoding和允许任意顺序预测跨度(predict spans)来改进空白填充预训练,使得NLU任务上优于Bert与T5。
通过改变空白的数量和长度,可以针对不同下游任务进行预训练。
自回归模型 | 自编码模型 | en-de模型 | |
优势 | 生成长文本 | MLM产生适合NLU的上下文表示 | 条件生成任务(文本摘要,响应生成),统一了NLU与条件生成 |
劣势 | 单向注意力 | 不能直接应用于文本生成 | 需要更多的参数来匹配性能 |
这些模型各有优缺,先人有想法去一统这些框架,去做一个集大成任务模型,但是结构实在不同。
GLM横空出世:以自编码模型为思想,输入文本中随机提出连续跨度(spans)的token,并按照自回归预训练的思想顺序重建spans,2D位置编码和跨度混洗为创新。
受别人的启发,我们将NLU任务重新表述为完形填空任务,GLM可以通过自回归自然的处理完形填空的muti-token 答案。同时,通过改变spans的数量和长度,自回归填空可以预训练模型进行条件和无条件生成。
总结:自编码去mask一个跨度,然后自回归去预测。
GLM是通过优化自回归空白填充目标来训练的
公式解读:
x_corrupt 代表随机剔除几个spans(用一个[mask]代替)
s(z<i) 表明在位置i之前的所有spans,s(zi)表示第i个spans
第一个公式表明:结合前i-1个spans和经过剔除后的x,来综合去预测第i个spans
第二个公式表明:预测第i个spans需要对该spans的n个tokens的概率连乘。
预训练步骤:
为了处理NLU任务和文本生成的任务,我们从两个目标进行考虑
整体基于单个transformer,为避免数字错误重新安排了LN和residual,单个线性层进行输出token预测,使用gelu取代relu
2D位置编码,用一个[MASK]取代长跨度的spans,与用n个mask替换spans的spanbert不同
微调,使用prompt,将下游任务公式化为:c(x) = 「sentence」,it is really [mask], 给定x预测y。概率为 # v(y)为真实标签映射对应的token position-》good, negative-〉bad。
得到预测结果后,用交叉墒计算得到loss进行微调即可。
GLM对于生成任务可以直接在A后面添加[MASK]进行生成。这个属于无条件生成。
也可以跟上述说的构建prompt进行有条件生成
总结得出的结论,GLM在自然语言理解和生成任务中有效的共享了模型参数,实现了更好的性能。
GLM 是一个用于自然语言理解和生成的通用预训练框架,NLU任务可以公式化为条件生成任务,因此可以通过自回归求解。
GLM将不同任务预训练统一为自回归空白填充,使用混合注意力掩码和2D位置编码,优于以前的方法,同时可以有效的共享不同任务的参数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。