当前位置:   article > 正文

AI实战训练营(Class 4)MMPretrain_ai大模型训练营

ai大模型训练营

AI实战训练营(Class 4)MMPretrain

MMPreTrain 算法库

算法库与任务组成

  • 支持多样的主干网络与预训练模型
  • 支持多种训练策略(有监督学习,无监督学习,多模态学习等)
  • 提供多种训练技巧
  • 大量的训练配置文件
  • 高效率和高可扩展性
  • 功能强大的工具箱,有助于模型分析和实验
  • 支持多种开箱即用的推理任务
  • 图像分类
  • 图像描述(Image Caption)
  • 视觉问答(Visual Question Answering)
  • 视觉定位(Visual Grounding)
  • 检索(图搜图,图搜文,文搜图)
    请添加图片描述

Python推理API

请添加图片描述

经典主干网络

ResNet

请添加图片描述

Vision Transformer

  • 将图片切成若干16X16的小块,所有块排成词向量,先经过线形层映射,一张[H,W,C]的维度的图片变成[L,C],在经过多层Transformer Encoder的计算产生相应的特征向量。
  • 图块之后加入额外的token,用于query其他patch得特征并给出最后的分类
  • 注意力模块基于全局感受野,复杂度为尺寸的4次方
    请添加图片描述

注意力Attention Mechanism

  • 实现层次化特征:后层次化是空间领域内的前层特征的加权求和,权重越大,对应位置特征越重要
  • 权重是可以学习的参数,但是与输入无关,只能建模局部关系,远距离关系只能通过多层卷积实现。
    请添加图片描述
    权重是输入的函数,与输入有关,可以不局限于领域,显式建模远距离关系。请添加图片描述

self Attention

请添加图片描述

自监督

SimCLR

请添加图片描述

MAE

请添加图片描述

多模态算法

CLIP(双流网络)

![请添加图片描述](https://img-blog.csdnimg.cn/226cff877e9a405ba54c70b57ddeb653.png

BLIP

请添加图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/644520
推荐阅读
相关标签
  

闽ICP备14008679号