赞
踩
最近整理了一些关于Transformer模型的研究综述,从17年Google最先提出到后来Transformer横扫各大NLP任务,到后来的视觉Transformer,参考文献附在最后,大家一起交流学习。
Google在2017年首次提出Transformer模型[1],如图1所示,该模型使用编码器和解码器的堆叠自注意层和点向全连接层并使用Attention替换了原来Seq2Seq模型中的循环结构,避免了重复和卷积。Transformer模型的出现使得NLP领域各项任务性能得到极大提升。
图1.Transformer结构模型
Devlin等人[2]引入了一个新的语言表示模型BERT,它代表来自变压器的双向编码器表示。BERT的设计是通过在所有层的左右上下文中联合条件作用,从未标记的文本中预先训练深度双向表示。只需添加一个输出层,就可以对预先训练好的BERT模型进行微调,从而为广泛的任务创建最先进的模型。BERT模型在11个自然语言处理任务上取得了最新的研究成果
Brown等人[3]在45TB压缩明文数据上预训练了基于GPT-3模型的具有1750亿个参数的巨大Transformer,并且在不同类型的下游自然语言任务上实现了强性能而无需微调。这些基于变压器的模型表现出很强的表现能力,并在自然语言处理领域取得了突破。
Parmar等人[4]把基于Attention的Transformer模型推广到具有易于处理的似然性的图像生成序列建模公式,他将每个值为[0,255]的像素编码成一个d维向量作为编码器的输入。该模型特殊之处在于decoder,每个输出像素是经过计算输入像素以及已经生成像素之间的Attention得到的。这是最先使用完整的 transformer 做图像生成的工作。
Dosovitskiy等人[5]证明了对CNN的依赖是不必要的,直接应用于图像修补序列的纯的Transformer可以很好地执行图像分类任务。在大量数据上进行预先训练,并转移到多个中型或小型图像识别基准(ImageNet, CIFAR-100, VTAB等),视觉转换器(ViT)与最先进的卷积网络相比取得了优异的结果,而训练所需的计算资源则大大减少。
Carion等人[6]提出一种用于目标检测的Detection TRansformer (DETR)模型,该模型将目标检测任务视为一种图像到集合的问题。给定一张图像,模型必须预测所有目标的无序集合(或列表),每个目标基于类别表示,并且周围各有一个紧密的边界框。这种表示方法特别适合Transformer。因此作者使用卷积神经网络从图像中提取局部信息,同时利用Transformer编码器-解码器架构对图像进行整体推理并生成预测。在定位图像中的目标以及提取特征时,传统计算机视觉模型通常使用基于自定义层的复杂且部分手动操作的pipeline。DETR则使用更为简单的神经网络,它可以提供一个真正的端到端深度学习解决方案。
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. arXiv, 2017.
[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. 2018.
[3] Bhandare A , Sripathi V , Karkada D , et al. Efficient 8-Bit Quantization of Transformer Neural Machine Language Translation Model[J]. 2019.
[4] Parmar N, Vaswani A, Uszkoreit J, et al. Image Transformer [J]. 2018.
[5] Desovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J]. 2020.
[6] Carion, Nicolas, et al. “End-to-End Object Detection with Transformers.” European Conference on Computer Vision, 2020, pp. 213–229.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。