当前位置:   article > 正文

T5: Text-To-Text Transfer Transformer_t5: text-to-text transfer transformer paper

t5: text-to-text transfer transformer paper

Introduction

简单介绍了NLP的发展近况,Pre-training大行其道blabla……

这个工作的基本思想是把所有的NLP问题都可以定义成“text-to-text”问题,即“输入text,输出text,一个模型干所有”。具体到这个工作,主要考虑了machine translation、question answering、abstractive summarization和text classification四个任务。

顺便贡献了个语料库C4(Colossal Clean Crawled Corpus),你看这个语料库,它大又圆,啊不,大又干净……(750GB)

Setup

介绍了模型、数据集、下游任务和输入输出格式。

模型:模型就是Transformer,后面的实验讨论了transformer的各种variants。不了解transformer的同学看http://nlp.seas.harvard.edu/2018/04/03/attention.html

数据:就是介绍了一下C4这个数据集是怎么来的。总结出来一句话,就是基于Common Crawl这个项目从2019年4月份到现在的数据,用了各种过滤方法,得到的一个英文语料库。

下游任务:这个工作主要研究了machine translation、question answering、abstractive summarization和text classification四个任务。具体用于评测的标准数据集有:

  • machine translation:WMT English to German, French, and Romanian translation
  • question answering:SQuAD
  • abstractive summarization:CNN/Daily Mail
  • text classification:GLUE and SuperGLUE

输入输出格式:(这部分有点意思)因为这个工作的思想就是“一个模型干所有”,为了让模型知道什么情况该干啥,作者在真实的数据前面加了个prefix。就比如说,英语翻译成德语。原来的输入是:

{"en": "That is good.", "de": "Das ist gut."}

现在变成了:

{"inputs&
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/348480
推荐阅读
相关标签
  

闽ICP备14008679号