赞
踩
T5(Transfer Text-to-Text Transformer)模型:一个统一框架,靠着大力出奇迹,将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。
首先作者们先对预训练模型中的多种模型架构(Transformer)进行了比对,最主要的模型架构可以分成下面三种。
第一个方面,高层次方法(自监督的预训练方法)对比,总共三种方式,其中发现 Bert-style 最好。
第二方面,对文本一部分进行破坏时的策略,也分三种方法,效果最好的是 Replace Span 法,类似做法如 SpanBERT 也证明了有效性。
Mask 法,如现在大多模型的做法,将被破坏 token 换成特殊符如 [M];
replace span(小段替换)法,可以把它当作是把上面 Mask 法中相邻 [M] 都合成了一个特殊符,每一小段替换一个特殊符,提高计算效率;
Drop 法,没有替换操作,直接随机丢弃一些字符。
第三方面,到底该对文本百分之多少进行破坏呢,挑了 4 个值,10%,15%,25%,50%,最后发现 BERT 的 15% 就很 ok了。
第四方面,因为 Replace Span 需要决定对大概多长的小段进行破坏,于是对不同长度进行探索,2,3,5,10 这四个值,最后发现 3 结果最好。
结论:最终得到完整的 T5 模型,还有它的训练方法。
Transformer Encoder-Decoder 模型;
BERT-style 式的破坏方法;
Replace Span 的破坏策略;
15 %的破坏比;
3 的破坏小段长度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。