赞
踩
近几年视觉大模型发展很快,各家公司已经训练出自己的视觉大模型,包括微软的 swin-transformer 系列、Google 的 vit 系列以及 150 亿参数量的 V-MOE 模型。
从paperwithcode榜单上可以看到,目前公有数据集任务榜单,如在 ImageNet 数据集上的分类任务、COCO 数据集上的目标检测与实例分割任务,上述榜单表现 SOTA 的都是大模型,实验结果证明大模型有更优的表现,我们之前的文章提到过超大视觉大模型,感兴趣的同学可以去看一下。训练视觉大模型会逐渐收敛,各家会逐渐探索视觉大模型的下一步,通用视觉模型的应用。
Google 的 Jeff Dean在2021年10月份发表了一篇 blog 《Introducing Pathways: A next-generation AI architecture》,提到了下一代 AI 架构。
Pathways 在 AI 和模型上的定义是一个新的AI架构:1)能同时执行众多(AI)任务;2)快速学习新任务;3)拥有对(真实)世界的更好理解。业界对这种大一统的模型探索从来都没有停止,一个更加泛化,多模态输入,多任务的模型是追求的目标。目前业界推出了一些通用视觉模型,并且有了一些探索结果,本文将主要介绍百度文心 UFO 2.0 视觉大模型、华为盘古 CV 以及商汤的 INTERN 大模型。
预训练大模型一次次刷新记录,展现出惊人的效果,但对于产业界而言,势必要面对如何应用落地的问题。当前预训练模型的落地流程可被归纳为:针对只有少量标注数据的特定任务,使用任务数据 fine-tune 预训练模型并部署上线。然而,当预训练模型参数量不断增大后,该流程面临两个严峻的挑战。首先,随着模型参数量的急剧增加,大模型 fine-tuning 所需要的计算资源将变得非常巨大,普通开发者通常无法负担。其次,随着 AIoT 的发展,越来越多 AI 应用从云端往边缘设备、端设备迁移,而大模型却无法直接部署在这些存储和算力都极其有限的硬件上。
针对预训练大模型落地所面临的问题,百度提出统一特征表示优化技术(UFO:Unified Feature Optimization),在充分利用大数据和大模型的同时,兼顾大模型落地成本及部署效率。VIMER-UFO 2.0 技术方案的主要内容包括:
All in One:行业最大 170 亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务,单模型 28 个公开测试集效果 SOTA。One for All:首创针对视觉多任务的超
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。