当前位置:   article > 正文

【2023.08.01-2023.08.02】dreamfusion问题汇总_clip-r-precision

clip-r-precision

1.euclidean and non-euclidean data

non-euclidean data 没有全局参数和共同的坐标系。不能直接映射到\mathbb{R}^n的数据,只能用网络表示。如果强行映射,则会损失一些信息,如顶点或边。

在3d生成领域,3d数据的表征方式,按照euclidean and non-euclidean data,则euclidean data包含voxel grid,multi-view image; non-euclidean data包含mesh,point clouds,神经场。

体素网格是指用三维均匀分布的网格描述数据。体素中储存特征构成的高维向量或单个数据,如只透明度或透明度+颜色或geomatric occupancy、体密度、signed distance value.

点云是对三维物体的一组离散的无结构的采样点,由于不包含全局的结构,所以被认为是non-euclidean data。

神经场指部分或整体用神经网络描述的场景或物体。

2. clip-r-precision& r-precision,

r-precision计算以生成的图像为查询序列,从100个备选文字prompt中选出前r个中包含正确propmt的正确性。使用DAMSM:deep attention multimodal similarity model。模型包括文字编码器和图像编码器。当模型收到输入的文本和图像后,把文字中的词和部分图片映射到联合的embedding空间中。大部分的方法会在用于计算R-Precision时直接优化DAMSM。这使得R-precision对于不在优化过程时使用DAMSM的模型不公平。

所以在R-precision的基础上提出clip-r-precision.CLIP相比DAMSM在flower,CUBdataset上文字图像找回率表现更好。

3. lambert diffuse model

dreamfusion中的渲染公式:

  lambert diffuse model:B_D=L\cdot NCI_L

B_D漫反射后的光照亮度,L光线方向的正则化后向量,C颜色,I_L入射光光强

4.体密度和模型法向量的关系

dreamfusion中:n=-\frac{\nabla_\mu \tau }{||\nabla_\mu \tau ||}

2003.09852.pdf (arxiv.org): 用zero level set定义的神经网络来描述物体的几何。zero level set 的含义为当函数值取0时,自变量的集合。

定义集合的法向量的计算公式为:

 

5. Hessian matrix的作用

用于判断crtical point时全局最优还是局部最优。当矩阵是正定的(所有特征值为正),则点是局部最小。因为当矩阵为正定时,该点任何方向的方向导数都为正。类似的,当矩阵为负定时(所有特征值为负),点是局部最大值。但是在至少有一个特征值为零、剩下所有非零特征值有相同符号时,multidimensional second derivative test 失效,因为univariate second derivative test在零特征值时失效。

6. ill-conditioned matrix

condition指受微小输入,函数输出变化有多剧烈。

当Hessian matrix或Hessian matrix的逆矩阵 ill-conditioned时,则如果用Hessian矩阵计算更新方向H-1g时,H或H-1都有可能会放大梯度的错误。

7.gradient descent

x'=x-\epsilon \nabla_xf(x)

\epsilon为学习率,通常为正值。则点向着远离函数值增加即梯度值为负的方向移动。在神经网络中,梯度下降方法中的x则为每个结点的权重omega。该方法只能对连续空间中的模型优化,但是同样可以被扩展到离散空间中,叫做hill climbing。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/299294
推荐阅读
相关标签
  

闽ICP备14008679号