当前位置:   article > 正文

浅谈视觉超大模型_视觉大模型综述

视觉大模型综述

人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来进入的基于模型的 AI 时代。随着 GPT-3 的横空出世,这个具有 1750 亿参数的通用预训练模型让人们看到了“超大模型”实现通用人工智能的潜力, 之后越来越多学术机构和企业加入“炼大模型”的行列,Google 推出的 Switch Transformer 模型,更是将参数量提升到 1.6 万亿, 成为人类历史上首个万亿级语言模型。但是视觉领域的大模型目前仍处于初步摸索阶段,本文主要对现有的视觉超大模型进行简单介绍, 并对大模型的应用和未来发展趋势进行分析。

盘古 cv

盘古大模型由 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型多个大模型构成,通过模型泛化, 解决传统 AI 作坊式开发模式下不能解决的 AI 规模化、产业化难题。

盘古 CV 使用基于全局的对比度自监督学习方法。在预训练算法里面,集成了十余种数据增强方法, 使得整个模型具有针对不同数据增强的不变性。盘古 CV 大模型搭载模型蒸馏、抽取以及行业大模型, 已经适配了大概十余种预训练模型,在相应的行业上,得到了非常大的精度提升。同时也极大的减少了标注代价以及模型迭代周期。

ViT(Vision Transformer)

模型整体结构上,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/897861
推荐阅读
相关标签
  

闽ICP备14008679号