当前位置:   article > 正文

2021 CV NLP CTR 多模态深度学习 超越SOTA新模型整理_多模态深度学习模型

多模态深度学习模型

1 自监督

1.1 MAE

模型简介:

Masked Autoencoders Are Scalable Vision Learners

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单:对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计:我们设计了一种非对称编解码架构,其中编码器仅作用于可见块(无需mask信息),而解码器则通过隐表达与mask信息进行原始图像重建;我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。仅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度。

论文链接:https://arxiv.org/abs/2111.06377

源码链接:GitHub - pengzhiliang/MAE-pytorch: Unofficial PyTorch implementation of Masked Autoencoders Are Scalable Vision Learners

1.2 iBOT 

 模型简介:

iBOT: Image BERT Pre-Training with Online Tokenizer,字节跳动、约翰霍普金斯大学等机构组成的联合团队提出iBOT十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。

论文链接:https://arxiv.org/abs/2111.07832 

1.3 RELICv2 

 模型简介: 

RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率,而更大的ResNet模型则带来了80.6%的top-1准确率,以较大的优势超越了此前的自监督方法;RELICv2优于DINO和MoCo v3,并在参数数量相当的情况下表现出与EsViT类似的性能,尽管这些方法用了更强大的架构和更多的训练。

 论文链接:https://arxiv.org/abs/2201.05119

 1.4 data2vec

 模型简介:

data2vec 是首个适用于多个模态输入的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力的结果。此外,data2vec 还代表了一种新的、全面的自监督学习范式,其提高了多种模态的进步,而不仅仅是一种模态

 论文链接: https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

源码链接: https://github.com/pytorch/fairseq/tree/main/examples/data2vec

 2 图像、视频、检测

 2.1 ConvNext

 模型简介:

当应用于广义CV任务(如目标检测、语义分割)时,常规的ViT面临着极大挑战。因此,分层Transformer(如Swin Transformer)重新引入了ConvNet先验信息,使得Transformer成实际可行的骨干网络并在不同视觉任务上取得了非凡的性能。完全标准ConvNet模块构建的ConvNeXt取得了优于Transformer的精度87.8%,在COCO检测与ADE20K分割任务上超越了SwinTransformer,同时保持了ConvNet的简单性与高效性。 

 论文链接:https://arxiv.org/pdf/2201.03545.pdf

 源码链接: https://github.com/facebookresearch/ConvNeXt

2.2 UniFormer

 模型简介:

基于UniFormer模块,我们构建了一种新强力骨干并用于不同的视觉任务,包含图像与视频,分类与稠密预测。无需额外你训练数据,UniFormer在ImageNet数据及上取得了86.3%的精度;仅需ImageNet-1K预训练,它在诸多下游任务上取得了SOTA性能,比如Kinetics-400/600数据集上的82.9%/84.8%、Something-Something V1/V2数据集上的60.9%/71.2%、COCO检测任务上的53.8boxAP与46.4MaskAP、ADE20K分割任务上的50.8mIoU、COCO姿态估计上的77.4AP

 论文链接:https://arxiv.org/abs/2201.09450

  源码链接:https://github.com/Sense-X/UniFormer

3 多模态 

3.1 NÜWA

 模型简介:

微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA(女娲),直接包揽8项SOTA

论文链接:https://arxiv.org/abs/2111.12417 

源码链接:https://github.com/microsoft/NUWA

3.2 Florence

 模型简介:

微软正式发布了一个新的计算机视觉基础模型Florence(佛罗伦萨),要用一个模型一统多模态天下!Florence可以轻松适用于各种计算机视觉任务,如分类、目标检测、VQA、看图说话、视频检索和动作识别,并在超过40个基准中刷新了SOTA。

论文链接:https://arxiv.org/pdf/2103.00020.pdf

源码链接

3.3 Omnivore

 模型简介:

Omnivore在图像分类数据集ImageNet上能达到86.0%的精度,在用于动作识别的Kinetics数据集上能达84.1%,在用于单视图3D场景分类的SUN RGB-D也获得了67.1%。Omnivore在图像、视频和3D数据分类任务上超越当前SOTA模型

论文链接:https://arxiv.org/abs/2201.08377

源码链接:GitHub - facebookresearch/omnivore: Omnivore: A Single Model for Many Visual Modalities

4 超分

 4.1 AutoML

 模型简介:

东北大学王言治团队将网络结构搜索与剪枝搜索相结合了全新的自动搜索框架。该AutoML框架得到的稀疏模型能够在移动设备上实时且高质量地处理视频超分辨率任务,最高可以将超清视频渲染加速70倍。

 论文链接:https://arxiv.org/pdf/2108.08910.pdf

 源码链接:演示视频 CoCoPIE vs TF-Lite - 移动设备实时视频超分辨率_哔哩哔哩_bilibili

5 检测 

5.1 Dynamic Head

 模型简介:

本文提出一种新颖的动态头框架,它采用注意力机制将不同目标检测头进行统一。通过特征层次之间的注意力机制用于尺度感知,空间位置之间的注意力机制用于空间感知,输出通道内的注意力机制用于任务感知,该方法可以在不增加计算量的情况显著提升模型目标检测头的表达能力。

 论文链接:https://arxiv.org/abs/2106.08322

  源码链接:GitHub - microsoft/DynamicHead

6 自注意力 

6.1 HaloNet

 模型简介:

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型不仅可以超越标准的基线模型,而且可以超越高性能的卷积模型。提出了自注意力的两个扩展,并与自注意力的更高效实现相结合,提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet,并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。

 论文链接:https://arxiv.org/abs/2103.12731

7 NLP 超大规模模型 

7.1 ERNIE 3.0

 模型简介:

百度 ERNIE 升级到 3.0,重磅发布知识增强的百亿参数大模型。该模型除了从海量文本数据中学习词汇、结构、语义等知识外,还从大规模知识图谱中学习。

ERNIE 3.0 一举刷新 54 个中文 NLP 任务基准,其英文模型在国际权威的复杂语言理解任务评测 SuperGLUE 上,以超越人类水平 0.8 个百分点的成绩登顶全球榜首。ERNIE 3.0 同时具备超强语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力。

 论文链接:https://arxiv.org/pdf/2107.02137.pdf

  源码链接:Demo 链接:文心大模型-产业级知识增强大模型

 7.2 MT-NLG

 模型简介:

微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。

号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。

 论文链接:https://arxiv.org/pdf/2109.01652.pdf

8 超大规模表格文本

8.1 SDCUP

 模型简介:

研究者所在的达摩院 Conversational AI 团队发布了中文首个表格预训练模型 SDCUP,同时也是业界最大表格预训练模型(72 层 Transformer,10 亿参数),在 WikiSQL、SQuALL 等多个学界 Benchmark 均取得 SOTA 效果。

  源码链接:https://github.com/alibaba/AliceMind

9 ViT

9.1 ViT 综述

 模型简介:

中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!

 论文链接:  https://arxiv.org/abs/2111.06091

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/86234
推荐阅读
相关标签
  

闽ICP备14008679号