当前位置:   article > 正文

ICLR Spotlight | 卷积网络上的首个BERT/MAE预训练,ResNet也能用_resnet做mae

resnet做mae

“删除-再恢复” 形式的自监督预训练可追溯到 2016 年,早于 18 年的 BERT 与 21 年的 MAE。然而在长久的探索中,这种 BERT/MAE 式的预训练算法仍未在卷积模型上成功(即大幅超过有监督学习)。本篇 ICLR Spotlight 工作 “Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling” 则首次见证了 BERT/MAE 预训练在 CNN 上的成功,无论是经典 ResNet 还是新兴 ConvNeXt 均可从中受益,初步地预示了卷积网络上新一代自监督范式的未来。目前代码库和预训练模型均开源(链接见下)

论文链接:

https://arxiv.org/abs/2301.03580

开源代码和模型权重:

https://github.com/keyu-tian/SparK

一、时代背景:视觉领域的 BERT/MAE

视觉领域长期以来都在探索强大的预训练算法。

由于以 BERT/GPT 系列为代表的预训练算法研究在 NLP 领域大放异彩,视觉领域最近涌现了许多焦点工作如 BEiT,MAE,SimMIM,尝试将 BERT 这种风格的预训练从 NLP Transformer 迁移到 Vision Transformer,并在各下游任务上初步取得了成功。然而如何将 BERT 或 MAE 从 Transformers 迁移到卷积网络 CNN 上,仍然是一个未解的问题。CNN 目前只能“眼红” ViTs,无法享受到 BERT 式预训练的巨大效益。

二、问题分析:

为何 BERT/MAE 难以在 CNN 上成功

BERT 预训练算法的思想其实是通用的:将输入的一部分信息给随机删除(去掉一句话中的若干个单词,或涂黑图片中的部分像素),并希望神经网络能够还原这些被删除部分(还原单词或像素,类似做完形填空)

遗憾的是,让 BERT/MAE 在 CNN 上成功并非易事:2016-17年的一些尝试 [1,2] 就早于 BERT,使用 inpainting 方式预训练卷积网络,但其性能相比有监督基线落后了超过 10 个点。22年的 ConvMAE [3] 则主要在 Conv+Transformer 的混合模型上验证了 BERT,并未在 ResNet 这样的纯 CNN 上验证。最后,SparK 作者们也实际尝试了直接将 MAE [4] 的 ViT 粗暴替换为 CNN,然而结果得到了无效的预训练(性能基本与随机初始化齐平)。

问题出在哪?作者们提出将 BERT 直接运用在 CNN 上有两个问题:

其一是 CNN 无法很好地适应被 mask 的输入。上图左侧展示的是 MAE [4],其使用的是 Transformer 模型,可以灵活处理被 mask 后、带有空洞的不规则输入,乃与 BERT “天作之合”。而如果直接将 MAE 的 ViT 替换为 CNN,我们只能通过涂黑这种操作实现 mask,而这会导致比较严重的分布偏移。当然,涂黑还有另一个问题(会导致被 mask 的区域的面积随着卷积越来越少,被“侵蚀”),可详见论文的第 3.1 节。

其二是 CNN 具备多尺度结构,而源于 NLP 领域的 BERT 预训练算法天生是单尺度的(由于语言已经具有良好结构的语义单元了)。“多尺度” 即 multi-scale 或 hierarchical,指的是 CNN 通过一系列下采样得到一系列分辨率从大到小的特征图,对检测、分割这样的下游任务很重要,不应忽视。

为解决这两个问题,作者们提出了 SparK:Sparse and hierarchical masKed modeling,接下来进行介绍。

三、解决方案:SparK

针对前文两个问题,SparK 有两个针对性设计。其一,受三维点云数据处理的启发,作者们提出把经过掩码操作(挖空操作)后的“零碎”图片视为稀疏点云,并使用子流形稀疏卷积来进行编码,让卷积网络自如处理随机删除后的图像,从而避开“涂黑”操作带来的问题。

其二,受 UNet 优雅设计的启发,作者们自然地设计了一种带有横向连接的编码器-解码器模型,让多尺度特征在模型的多层级之间流动,让 BERT 算法拥抱计算机视觉的多尺度金标准。

SparK 预训练算法是通用的:其可被直接运用在任何卷积网络上,而无需对它们的结构进行任何修改,或引入任何额外的组件。不论是耳熟能详的经典 ResNet,还是近期的先进模型 ConvNeXt,均可直接从 SparK 中受益。

四、实验结果一览

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/564339
推荐阅读
相关标签