赞
踩
谷歌 2020
论文地址:https://arxiv.org/pdf/1910.10683.pdf
T5是一个统一的模型框架,将各类NLP任务都转化为Text2text任务(即无监督/有监督的文本生成预训练任务),使得这些任务在训练时能够使用相同的目标函数,在测试时使用相同的解码过程。
与Transformer的encoder-decoder结构大致一致。
但主要有以下几点不同:
作者自己构造的数据集 C4: the Colossal Clean Crawled Corpus
类似于显式prompt的形式,人工设计了前缀来提示T5需要解决的任务类型,如图1所示。
最后作者进行了一系列的实验确定了T5模型的最终结构和训练方式(有钱真好):
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。