赞
踩
谷歌2017年文章《All you need is attention》提出Transformer模型,文章链接:
http://arxiv.org/abs/1706.03762
下面对几个基于Transformer的主要的模型进行简单总结。
来自文章《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。
整个模型可以划分为embedding、transformer、output三部分。
文章链接:
https://arxiv.org/abs/1810.04805
来自文章《Improving Language Understanding by Generative Pre-Training》和《Language Models are Unsupervised Multitask Learners》。
GPT为生成式模型。如果说BERT使用了Transformer模型中的encoder部分,那GPT就相当于使用了Transformer模型中的deconder部分。
文章链接:
GPT:
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
GPT-2:
https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf
来自文章《Transformer-XL
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。