赞
踩
作者:禅与计算机程序设计艺术
现代深度学习技术的进步促使人们越来越多地从事计算机视觉领域。其中最具代表性的应用之一就是图像分类任务。然而,目前还存在很多问题,比如训练出的模型的泛化能力较差、准确率较低等。这些问题可以归结为两个方面:一方面是数据集本身的问题;另一方面是深度神经网络结构的设计问题。
为了解决上述问题,最近几年来,基于预训练方法进行图像分类任务的方法逐渐被提出。比如通过深度学习网络模型对大量图片进行预训练,并在此基础上微调得到自己需要的分类模型。这种做法能够显著提高图像分类任务的性能。
本文将介绍一种新型的预训练方式——“生成式预训练 Transformer”,该方式利用生成模型生成图片描述,再用自回归语言模型(RNN-LM)或Masked Language Model (MLM) 对描述进行预训练。随后,在利用预训练好的模型对新的图像进行分类。
本文贡献主要有三个方面:
第一种是提出了一种全新的预训练方式,即“生成式预训练 Transformer” (Generative Pretraining Transformer)。相对于传统的基于文本的预训练方法,该方法直接利用图片作为输入,不需要额外的文本输入。并且,使用生成模型能够生成高质量的描述,因此可以有效地学习到图像的潜在表示。同时,引入自回归语言模型或Masked Language Model 对描述进行预训练,可以解决数据稀疏问题,提升模型的泛化能力。实验结果表明,生成式预训练 Transformer 在各种数据集上的效果都优于其他图像分类预训练方法。
第二种是提供了一种全新的分类架构——分类头关注局部特征,能够抓住不同位置的信息。并且,通过对 attention 的分析发现,分类头可以抓住不
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。