赞
踩
通用感知模型是指一个模型解决不同的感知任务,应用于各种模态数据。
通用感知模型的发展脉络图如下,它由NLP发源,逐渐朝着多模态多任务的方向发展,共同引领着人工智能的进步。
超大规模视觉通用感知模型全景图:
超大规模视觉通用感知模型由超大规模图像、文本主干网络以及多任务兼容解码网络组成,它基于海量的图像和文本数据构成的大规模数据集进行预训练,用于处理多个不同的图像、图像-文本任务。此外,借助知识迁移技术能够实现业务侧小模型部署。
超大规模视觉通用感知模型面临的挑战:
(1)网络参数量庞大,通常超十亿参数,训练稳定性、收敛性、过拟合等问题相较于小网络挑战大很多。
(2)原始数据集包含数十亿异质低质量图片与海量文本,多步训练以利用异质的多模态多任务数据,流程复杂,存在灾难性遗忘,难以定位精度等问题。
(3)实验成本高,通常需要上千块GPU并行训练数周,需要研究者有敏锐的分析能力和扎实的知识基础。
(4)工程挑战多,海量数据的吞吐,大型GPU集群上的并行算法,超大参数量模型的内存管理。
超大规模图像、文本主干网络的作用是对海量多模态数据进行学习,提取特征。
超大规模图像、文本主干网络面临的挑战:
多任务兼容解码网络的作用是构建视觉任务通用的解码器网络,实现任务级别的泛化。
多任务兼容解码网络面临的挑战:计算机视觉中,不同任务的表征差异巨大。
[1] Su et. al., Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information. CVPR 2023.
[2] Wang et. al., InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. CVPR 2023.
[3] Zhu et. al., Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks. CVPR 2022.
[4] Zhu et. al., Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs. NeurIPS 2022.
[5] Li et. al., Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks. CVPR 2023.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。