赞
踩
简单介绍了NLP的发展近况,Pre-training大行其道blabla……
这个工作的基本思想是把所有的NLP问题都可以定义成“text-to-text”问题,即“输入text,输出text,一个模型干所有”。具体到这个工作,主要考虑了machine translation、question answering、abstractive summarization和text classification四个任务。
顺便贡献了个语料库C4(Colossal Clean Crawled Corpus),你看这个语料库,它大又圆,啊不,大又干净……(750GB)
介绍了模型、数据集、下游任务和输入输出格式。
模型:模型就是Transformer,后面的实验讨论了transformer的各种variants。不了解transformer的同学看http://nlp.seas.harvard.edu/2018/04/03/attention.html
数据:就是介绍了一下C4这个数据集是怎么来的。总结出来一句话,就是基于Common Crawl这个项目从2019年4月份到现在的数据,用了各种过滤方法,得到的一个英文语料库。
下游任务:这个工作主要研究了machine translation、question answering、abstractive summarization和text classification四个任务。具体用于评测的标准数据集有:
输入输出格式:(这部分有点意思)因为这个工作的思想就是“一个模型干所有”,为了让模型知道什么情况该干啥,作者在真实的数据前面加了个prefix。就比如说,英语翻译成德语。原来的输入是:
{"en": "That is good.", "de": "Das ist gut."}
现在变成了:
{"inputs&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。