赞
踩
论文地址: https://kns.cnki.net/kcms/detail/11.2127.tp.20211129.1135.004.html
18页,74篇参考文献
目录
Transformer 的提出解决了上面两个问题:
图 3 Encoder-Decoder 的 6 层结构
图 4 Transformer 模型结构
计算机视觉是使计算机能够达到人类那样“看”的学科,核心问题是研究如何对输入的图像或视频进行处理,使输出的图像或视频质量得到相当程度的改善,便于计算机对图像或视频进行分类,处理和识别。
受到文献[4]中 Transformer 架构使用自注意力机制来挖掘文本中的长距离依赖关系的启发,许多研究者提出将自注意力机制应用于计算机视觉任务,克服卷积的归纳偏置所带来的局限性,突破图像的感受野限制,计算像素与全部图像的关系,从而提取上下文的长距离依赖。
图 8 ViT 模型结构
为了将图像转化成 Transformer 结构可以处理的序列数据,引入了图像块(patch)的概念。首先将二维图像做分块处理,每个图像块展平成一维向量,接着对每个向量进行线性投影变换,同时引入位置编码,加入序列的位置信息。此外在输入的序列数据之前添加了一个分类标志位(class),更好的表示全局信息。ViT 模型通常在大型数据集上预训练,针对较小的下游任务进行微调。在 ImageNet 数据集上,VIT-H/14 以 88.55% Top-1 的准确率超越了 EfficientNet 模型[47],成功打破了基于卷积主 导的网络在分类任务上面的垄断,比传统的 CNN 网络更具效率和可扩展性。
Jiang 等[23]提出了一种提高 ViT 性能的新的训练目标token Labeling,来探索 Transformer 在 ImageNet 分类中的潜力。作者将一张图片分成若干 patch,每个 patch 转化为token,利用文献[52]中的 Re-labeling 技术,得到每个token 的软标签(token-label),对图像进行重新标注,从而将图像分类问题转化为多个 token-label 识别问题。同时在训练模型时使用了 CutMix 技术,它能提高模型的性能和鲁棒性。Token Labeling 技术可以改善不同规模的 ViT模型的性能,以具有 26M 可学习参数的视觉 Transformer为例,可以在 ImageNet 上达到 84.4%的 Top-1 精度。
ViT 浅层在视觉任务上有良好的表现,一个很自然的问题被提出:“Transformer 能否可以像 CNN 一样做的更深?”Zhou 等[24]加深了 VIT 模型层次,性能迅速饱和。通过研究发现,在 ViT 的深层,自注意力机制无法学习到有效的特征,特征图逐渐趋于相似,阻碍了模型获得预期的性能提升。因此作者提出了再注意力机制(Re-attention),解决了深层 ViT 架构的注意力坍塌(attention collapse)问题。在 ViT 的深层中,同一个序列在不同层之间的注意力图差别较小,但同一层不同的头之间差距明显。通过在每一层中加入一个转移矩阵,以一种可学习的方式交换来自不同注意力头的信息,从而再生注意力图。DeepViT 能够以可忽略的计算和存储成本重新生成注意图以增加其在不同层的多样性,并使得 ViT 模型的性能可以随着层数的加深而增加。
Strudel 等[30]基于 ViT 的研究成果,提出了 Segmenter,一种用于语义分割的转换器模型。图像分割在单个图像块级别通常是不明确的,并且需要上下文信息来达成标签共识。Segmenter 在编码阶段采用了 ViT 模型结构,将图像分割成块,并进行线性映射,经过编码器处理后输出嵌入序列。在解码阶段引入可学习类别嵌入,将编码器的输出与类别嵌入一起送进解码器,这里使用逐点线性解码器(point-wise linear decoder)或掩码 Transformer解码器(mask Transformer decoder),从而获得类标签,经过 softmax 及上采样等一系列的操作后输出最终的像素分割图。作者在图像分类上预训练模型,在语义分割上进行微调,通过实验发现逐点线性解码器可以获得不错的效果,使用类掩码 Transformer 解码器可以进一步提高 0.2%-1.22%mIoU。
[5] Parmar N, Vaswani A, Uszkoreit J, et al. Image transformer[C]//International Conference on Machine Learning. PMLR, 2018: 4055-4064.
[6] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European Conference on Computer Vision. Springer, Cham, 2020: 213-229.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。