生成式预训练Transformer：让图像分类更加准确_tranformer图片分类训练集准确率上不去

作者：Gausst松鼠会 | 2024-06-11 01:58:23

踩

tranformer图片分类训练集准确率上不去

作者：禅与计算机程序设计艺术

现代深度学习技术的进步促使人们越来越多地从事计算机视觉领域。其中最具代表性的应用之一就是图像分类任务。然而，目前还存在很多问题，比如训练出的模型的泛化能力较差、准确率较低等。这些问题可以归结为两个方面:一方面是数据集本身的问题；另一方面是深度神经网络结构的设计问题。

为了解决上述问题，最近几年来，基于预训练方法进行图像分类任务的方法逐渐被提出。比如通过深度学习网络模型对大量图片进行预训练，并在此基础上微调得到自己需要的分类模型。这种做法能够显著提高图像分类任务的性能。

本文将介绍一种新型的预训练方式——“生成式预训练 Transformer”，该方式利用生成模型生成图片描述，再用自回归语言模型（RNN-LM）或Masked Language Model (MLM) 对描述进行预训练。随后，在利用预训练好的模型对新的图像进行分类。

本文贡献主要有三个方面：

第一种是提出了一种全新的预训练方式，即“生成式预训练 Transformer” （Generative Pretraining Transformer）。相对于传统的基于文本的预训练方法，该方法直接利用图片作为输入，不需要额外的文本输入。并且，使用生成模型能够生成高质量的描述，因此可以有效地学习到图像的潜在表示。同时，引入自回归语言模型或Masked Language Model 对描述进行预训练，可以解决数据稀疏问题，提升模型的泛化能力。实验结果表明，生成式预训练 Transformer 在各种数据集上的效果都优于其他图像分类预训练方法。
第二种是提供了一种全新的分类架构——分类头关注局部特征，能够抓住不同位置的信息。并且，通过对 attention 的分析发现，分类头可以抓住不

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/701229