当前位置:   article > 正文

『2023北京智源大会』视觉与多模态大模型_eva: exploring the limits of masked visual represe

eva: exploring the limits of masked visual representation learning at scale
『2023北京智源大会』视觉与多模态大模型

一. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold | 潘新钢 | 南洋理工大学

1. Image Manipulation(图像编辑)背景

  • 拖动你的 GAN:生成图像流形上基于关键点的交互式操作(编辑)
  • 图像的拖拽式编辑

在这里插入图片描述

  • Image Manipulation(图像编辑)

在这里插入图片描述
在这里插入图片描述

  • Photoshop - 液化

在这里插入图片描述

  • 形状变形

在这里插入图片描述
在这里插入图片描述

2. Drag Your GAN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 初步尝试:光流指导的运动监督

在这里插入图片描述

  • 最终的方法

在这里插入图片描述

  • 从视频演示上看效果很不错

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 匹配图像重建

在这里插入图片描述

  • 点跟踪

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 局限:
  • 1) 训练数据分布之外的一些编辑,当分布范围超出过大范围,产生失真的效果
  • 2)关键点的选取有讲究,无纹理手柄点
  • 3)最重要的一点,对真实图像的编辑,如果非常多物体,背景非常复杂效果损坏挺大

在这里插入图片描述

  • 总结:

在这里插入图片描述

二. Machine Learning for 3D Content Creation | 高俊 | NVIDIA 研究科学家

1. 整个背景介绍

  • 大模型在三维内容生成的场景:

在这里插入图片描述

  • 我们可以用 3D 内容创作做什么?元宇宙(Metaverse)、自动驾驶(Autonomous Driving)

在这里插入图片描述

  • 3D 内容创建的可扩展性,数量(Quantity)、多样性(Diversity)、质量(Quality)

在这里插入图片描述

  • 在工业界的一些常见的三维创建流程,专业人、费时、费力

在这里插入图片描述

  • 语言领域,chatgpt和GPT4取得了很大的成功

在这里插入图片描述

  • 2D图像生成领域

在这里插入图片描述

  • 那么3D图像内容生成呢?

在这里插入图片描述

  • 机器学习如何做3D图像内容生成呢?

在这里插入图片描述

2. 通用 3D 生成Pipeine

在这里插入图片描述

  • 挑战:①如何表示生成的3D物体;②如何搭建1个高效的三维生成模型;③数据有点少相比于2D。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 可微等值面遇到可微渲染

在这里插入图片描述
在这里插入图片描述

3. 我们的工作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 关键思想:
  • 从预训练的 2D 图像扩散模型中利用知识!
    评分功能以指导图像生成
  • 使用可微分渲染将 3D 与 2D 连接起来

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 总结与展望

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三. 通用视觉模型初探 | 王鑫龙 | 智源研究院研究员

  • 追求通用视觉智能
  • 视觉表征:抽象视觉信号并学习通用表示
  • 视觉通才:训练在野外解决各种任务的视觉通才模型

在这里插入图片描述

  • 这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
  • EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
  • 十亿规模的最佳预训练模型

在这里插入图片描述

四. Image, Video, and 3D Content Creation with Diffusion Models | Huan Ling | NVIDIA 研究科学家

参考文章

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/897882
推荐阅读
相关标签
  

闽ICP备14008679号