当前位置:   article > 正文

离线一键图片转3D模型!6G显存,快速建模!_triposr

triposr

只需一张图片就可以一键生成3D模型!今天给大家分享一个好玩的项目——TripoSR。项目特点是非常快速的生成3D模型。整合包文章末尾自取。

 

 

推荐配置

Windows

win10以上系统 N卡 6G以上显存

Mac

M1/M2/M3系列芯片

如何使用

使用方法很简单,我们只需要选择一张正面视角的图片,拖拽到输入图像中,然后点击生成就可以得到3D模型啦。

注意

刚运行时会输出两个warning,这个是正常的。

 

cuda提示

Windows的用户在生成模型的时候如果电脑上没有安装cuda会提示以下信息。但是还是可以正常使用的。(torchmcubes未使用CUDA支持进行编译,改用CPU版本)cuda的安装包我也放在了网盘里。

 

移除背景

这个选项默认是打开的。开启后会将原始图像(左图)的主体与背景剥离出来,生成单主体的透明通道图像(右图)。建议此选项保持默认开启。

 

生成的模型格式有两种:第一种是OBJ格式,另一种是GLB模型。

 

我们可以将生成好的模型导入到3D建模软件中进一步处理,或者导入到Unity、UnrealEngine等游戏引擎中使用。这个如果你了解建模渲染相关的知识,你应该会很容易理解。

在建模软件中或游戏引擎中导入模型后,进一步优化效果包括灯光调整、贴图优化等操作,能够使模型表现更出色。下面是我导入到Unity中,还未打光的效果。

 

效果展示

以下是我在网上找的一些图片生成的3D效果。

 

 

技术解析

TripoSR利用Transformer架构,通过图像编码器将RGB图像转换为特征向量,利用图像到三面体解码器将这些特征映射到三维空间的三面体表示,然后使用基于三面体的神经辐射场(NeRF)生成3D对象的表面细节和纹理信息,从而实现快速且高质量的单图像3D重建。

 

  1. 模型设计基于Transformer:TripoSR的设计基于Transformer架构,特别适用于单图像3D重建任务。Transformer是一种强大的神经网络架构,擅长处理序列数据,如自然语言处理任务,但也可以应用于图像处理领域。

  2. 图像编码器:TripoSR包含一个图像编码器,该编码器使用预训练的视觉Transformer模型(如DINOv1)将RGB图像转换为一组潜在向量。这些向量编码了图像的全局和局部特征,为后续的3D对象重建提供了必要的信息。

  3. 图像到三面体解码器:TripoSR还包括一个图像到三面体解码器,用于将编码后的图像特征映射到三维空间中的三面体表示。这有助于将图像信息转换为3D对象的表示形式。

  4. 三面体神经辐射场(NeRF):TripoSR的核心组件之一是基于三面体的神经辐射场(NeRF),用于生成3D对象的表面细节和纹理信息。NeRF是一种用于渲染复杂场景的神经网络模型,可以生成高质量的3D重建结果。

一些不足

我测试下来,当图片中的主体为侧视或者其他角度时,建模生成的模型会很奇怪。 比如下面这个鸭子声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签