赞
踩
引用: Dehghani M, Mustafa B, Djolonga J, et al. Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution[J]. Advances in Neural Information Processing Systems, 2024, 36.
论文链接: (NeurIPS 2023)https://proceedings.neurips.cc/paper_files/paper/2023/hash/06ea400b9b7cfce6428ec27a371632eb-Abstract-Conference.html
代码链接: https://github.com/kyegomez/NaViT
此前的模型将图像大小调整为固定分辨率明显是一个次优的选择。然而,诸如 Vision Transformer (ViT) [1]之类的模型提供了灵活的基于序列的建模,因此可以改变输入序列长度。支撑Vit的操作很简单:将图像拆分为多个补丁,每个补丁都线性投影到一个token上。通常,输入图像的大小会调整为固定的正方形纵横比,然后拆分为固定数量的patches。FlexiViT[2]在一个架构中支持多种补丁大小,从而实现序列长度的平滑变化,从而计算成本。这是通过在每个训练步骤中随机抽取一个补丁大小和调整大小的算法来实现的,以允许初始卷积嵌入支持多个补丁大小。Pix2Struct[3]引入了一种保留纵横比的替代修补方法,这对于图表和文档理解等任务特别有用。
论文提出了 NaViT(Native Resolution ViT)来实现这一点,NaViT在训练期间使用sequence packing来处理任意分辨率和宽高比的输入。NaViT将来自不同图像的多个补丁打包在一个序列中,称为 Patch n’ Pack,这样可以在保留宽高比的同时实现可变分辨率。这是受自然语言处理中示例打包的启发,其中多个示例被打包到一个序列中,以适应对可变长度输入的有效训练。NaViT 可以有效地转移到图像和视频分类、对象检测和语义分割等标准任务,并提高鲁棒性结果和基准。在推理时,输入分辨率的灵活性可用于平稳地进行测试时的成本性能权衡。
论文证明了:
NaViT 建立在原始 ViT 之上,但原则上可以使用任何在一系列patches上运行的 ViT 变体。为了启用 Patch n’ Pack,我们进行了以下架构修改:
在两种设置中预训练NaViT:JFT-4B上的分类训练和WebLI上的对比语言图像训练。通常,对于JFT,初始裁剪是在预训练中应用的,在这两种情况下,图像的大小都会调整为正方形(扭曲的纵横比)。NaViT在JAX中使用FLAX库实现,并内置在Scenic中。
图 1 显示了不同 NaViT 模型与计算匹配的 ViT 基线相比的 JFT 预训练性能。NaViT 在性能上始终优于 ViT,同时在不同的计算和参数规模上使用相同的计算预算;例如,性能最佳的 ViT 的性能可以与计算量少四倍的 NaViT 相匹配。相反,图 1 中计算最轻的 NaViT 的成本效益是其等效 ViT 对应物的 5 倍。NaViT 模型受益于保留的纵横比和对许多分辨率进行评估的能力,但这里的主要贡献者是 NaViT 在分配的计算预算内处理的训练示例数量显着增加。这是通过对多个可变分辨率示例进行采样和标记丢弃相结合来实现的,从而产生可变大小的图像,这些图像被有效地打包成与原始模型相似的序列长度。Patch n’ Pack(将序列打包简单应用于视觉转换器)可以显著提高训练效率。由此产生的 NaViT 模型可以在推理时应用于许多分辨率,并且可以廉价地适应新任务。总体而言,Patch n’ Pack 支持以前因需要固定批次形状而受到阻碍的各种研究,包括自适应计算和用于提高训练和推理效率的新算法。
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas
Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
[2] Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, and Filip Pavetic. Flexivit: One model for all patch sizes. In CVPR, 2023.
[3] Kenton Lee, Mandar Joshi, Iulia Turc, Hexiang Hu, Fangyu Liu, Julian Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, and Kristina Toutanova. Pix2struct: Screenshot parsing as pretraining for visual language understanding, 2022.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。