赞
踩
『2023北京智源大会』视觉与多模态大模型 |
- 拖动你的 GAN:生成图像流形上基于关键点的交互式操作(编辑)
- 图像的拖拽式编辑
- Image Manipulation(图像编辑)
- Photoshop - 液化
- 形状变形
- 初步尝试:光流指导的运动监督
- 最终的方法
- 从视频演示上看效果很不错
- 匹配图像重建
- 点跟踪
- 局限:
- 1) 训练数据分布之外的一些编辑,当分布范围超出过大范围,产生失真的效果
- 2)关键点的选取有讲究,无纹理手柄点
- 3)最重要的一点,对真实图像的编辑,如果非常多物体,背景非常复杂效果损坏挺大
- 总结:
- 大模型在三维内容生成的场景:
- 我们可以用 3D 内容创作做什么?元宇宙(Metaverse)、自动驾驶(Autonomous Driving)
- 3D 内容创建的可扩展性,数量(Quantity)、多样性(Diversity)、质量(Quality)
- 在工业界的一些常见的三维创建流程,专业人、费时、费力
- 语言领域,chatgpt和GPT4取得了很大的成功
- 2D图像生成领域
- 那么3D图像内容生成呢?
- 机器学习如何做3D图像内容生成呢?
- 挑战:①如何表示生成的3D物体;②如何搭建1个高效的三维生成模型;③数据有点少相比于2D。
- 可微等值面遇到可微渲染
- 关键思想:
- 从预训练的 2D 图像扩散模型中利用知识!
评分功能以指导图像生成- 使用可微分渲染将 3D 与 2D 连接起来
- 追求通用视觉智能
- 视觉表征:抽象视觉信号并学习通用表示
- 视觉通才:训练在野外解决各种任务的视觉通才模型
- 这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。
- EVA = CLIP (semantic) + Mased modeling (structure) + 1B Param (scaling)
- 十亿规模的最佳预训练模型
- 代码EVA: Visual Representation Fantasies from BAAI:https://github.com/baaivision/EVA
- 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale:https://blog.csdn.net/YoooooL_/article/details/129044031
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。