赞
踩
文章来源 | 恒源云社区
原文地址 | 简单到令人沮丧的替代MLM的预训练任务?
原文作者 | Mathor
看了这么多篇社区大佬Mathor的文章,就在刚刚,我居然发现大佬居然、大概、可能、也许在diss某个训练说法!
哇哦,amazing!这么神奇的吗?
我这小八卦之心,熊熊燃起了啊!这到底是个啥子神奇的模型训练方法?
大伙也别急惹,让我完整的copy大佬的文章,然后一起一睹究竟!
EMNLP2021有一篇论文标题名为Frustratingly Simple Pretraining Alternatives to Masked Language Modeling,翻译过来就是「简单到令人沮丧的替代MLM的预训练任务」。但我给它加了个问号,因为我觉得首先作者提出的这些方法,对于模型来说太难了,即便是让我去做他所提出的这些预训练任务,我都不一定做得出来。其次是从结果来看效果似乎一般般
如下图所示,具体来说作者提出了4中用于替代MLM的预训练任务,分别是Shuffle、Random、Shuffle+Random、Token Type、First Char
作者提到这个方法的灵感来源于ELECTRA。具体来说,一个句子中有15%的token将会被随机调换顺序,然后模型需要做一个token级别的2分类问题,对于每一个位置预测该token是否被调换了位置。这个预训练任务的好处是,模型可以通过学习区分上下文中是否有token被打乱,从而获得句法和语义知识
对于Shuffle任务来说,其损失函数为简单的Cross-Entropy Loss:
其中 N N N表示一个样本的token数量, y i y_i yi和 p (
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。