赞
踩
ACL 2022的一篇预训练模型改进的论文,改进方向为统一NLU和NLG的预训练模型
作者来自 清华,智源,MIT
看名字就感觉很大,GLM:通用语言模型,这比ULM google的统一语言模型还要能吹,摘要也说的很大,说自己模型在NLU和NLG都已经超过bert,GPT,t5等模型了,并适合各种下游任务。
主要内容:
GLM其实也沿用T5对于NLP任务的理解,都转换为text2text任务,但基于t5进行了两点改进:span shuffling 和2D positional encoding
上述模型图也很容易理解,将t5的span mask,然后预测span内容时,使用类似GPT自回归的方式进行生成,将mask的部分,接在后面,添加[START]标签,并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵,即前面MLM部分是自编码的attention,后面LM部分是自回归的attention。同时在position embedding时,为了清洗表示自编码任务和自回归任务,使用了2D的position embeding完成该任务。
上述任务进行span mask的自回归生成,对NLU任务有很好的支持,为了进一步同时解决NLG任务,将span换为sentence-level和document-level不同长度的自回归生成任务。
fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务,其他也可以直接在无条件生成和有条件生成上进行fine-tune
实验:作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。
实验。在superGLUE上进行消融实验。
评价:整个模型还是很大的,不过可能受限于实验室的人力,对比实验工作量有些不够,就说自己在NLG上比其他NLG模型更好,有些不充分,整体在其他NLU任务除了SuperGLUE也没有进行实验,创新点还是有的,但模型在实际效果上能否超过经典模型还需要进行实验尝试。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。