当前位置:   article > 正文

生成式预训练Transformer:让图像分类更加准确_tranformer图片分类训练集准确率上不去

tranformer图片分类训练集准确率上不去

作者:禅与计算机程序设计艺术

现代深度学习技术的进步促使人们越来越多地从事计算机视觉领域。其中最具代表性的应用之一就是图像分类任务。然而,目前还存在很多问题,比如训练出的模型的泛化能力较差、准确率较低等。这些问题可以归结为两个方面:一方面是数据集本身的问题;另一方面是深度神经网络结构的设计问题。

为了解决上述问题,最近几年来,基于预训练方法进行图像分类任务的方法逐渐被提出。比如通过深度学习网络模型对大量图片进行预训练,并在此基础上微调得到自己需要的分类模型。这种做法能够显著提高图像分类任务的性能。

本文将介绍一种新型的预训练方式——“生成式预训练 Transformer”,该方式利用生成模型生成图片描述,再用自回归语言模型(RNN-LM)或Masked Language Model (MLM) 对描述进行预训练。随后,在利用预训练好的模型对新的图像进行分类。

本文贡献主要有三个方面:

  1. 第一种是提出了一种全新的预训练方式,即“生成式预训练 Transformer” (Generative Pretraining Transformer)。相对于传统的基于文本的预训练方法,该方法直接利用图片作为输入,不需要额外的文本输入。并且,使用生成模型能够生成高质量的描述,因此可以有效地学习到图像的潜在表示。同时,引入自回归语言模型或Masked Language Model 对描述进行预训练,可以解决数据稀疏问题,提升模型的泛化能力。实验结果表明,生成式预训练 Transformer 在各种数据集上的效果都优于其他图像分类预训练方法。

  2. 第二种是提供了一种全新的分类架构——分类头关注局部特征,能够抓住不同位置的信息。并且,通过对 attention 的分析发现,分类头可以抓住不

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/701229
推荐阅读
相关标签
  

闽ICP备14008679号