当前位置:   article > 正文

ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

首个十亿级别的3d通用大模型-uni3d

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

2b861215536ce02de75732118f1418c2.jpeg

作者:周俊昇 | 已授权CVer转载(源于知乎)

https://zhuanlan.zhihu.com/p/678856210

我们近期的工作:3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分,被选为Spotlight Presentation

52568304d597bd498d485eca8ec5a500.jpeg

在本文中,我们第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SoTA结果。代码和各个scale的模型(从6M-1B)均已开源,欢迎大家关注和使用:

论文:https://https://arxiv.org/pdf/2310.06773

代码:https://https://github.com/baaivision/Uni3D

0c95135918608e4fe5677ea21eca2f4b.jpeg

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive的结果,但是在3D视觉中模型的scale up始终没有成功。我们旨在将NLP/2D中scale up的成功复现到3D表征模型上。

76e94f8af10b7d2813128a60216d94f7.jpeg

在这项工作中,我们提出了一个3D基础大模型Uni3D,直接将3D backbone统一为ViT(Vision Transformer),以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3D点云对图像和文本的感知。同时,通过使用ViT中成功的scale up策略,我们将Uni3D逐步 scale up,训练了从Tiny到giant的5个不同scale的Uni3D模型,成功地将Uni3D扩展到10亿级别参数。

6070be50aba9d279a60eecba0cfc2e4d.jpeg

Uni3D模型不同scale下的参数量和zero-shot分类结果

Uni3D在多个3D任务上达到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

a389708d5f71eba257196e58db50d087.jpeg

Zero-shot classification

1040a9c8ba071defca660775a6261af9.jpeg

Real-world zero-shot recognition

由于学到了强大的多模态表征能力,Uni3D还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3D shape retrieval(基于图像/文本的3D模型检索),point cloud captioning(点云描述):

8e4384fa6874b33d011cba522f4e9ae9.jpeg

Point cloud painting

a8b3435eb6b129a28ffbc3393dc4c151.jpeg

Image-based 3D shape retrieval

24ecfac85e19daec10721791d2c1cb5c.jpeg

Text-based 3D shape retrieval

373f6fcab94511fc70db74d4fc8f432a.jpeg

Point cloud captioning.

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

3D视觉交流群成立

 
 
  1. 扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-3D视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
  2. 一定要备注:研究方向+地点+学校/公司+昵称(如3D视觉+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
  1. ▲扫码或加微信号: CVer444,进交流群
  2. CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
  3. ▲扫码加入星球学习
 
 
  1. ▲点击上方卡片,关注CVer公众号
  2. 整理不易,请点赞和在看
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/351645
推荐阅读
相关标签
  

闽ICP备14008679号