赞
踩
在这个数据集中作者估计了两个参数的分布, 我估计应该是直接用所有的 α \alpha α β \beta β 直接算出来的
其中 σ i σ_i σi是形状协方差阵的特征值。满足多元正态分布。β同理
面部表情的系数是可以通过两种不同的情绪的人的3d model差得到
对于面部特征, 例如性别,面部丰满度,眉毛深色度,双下巴以及钩鼻和凹形鼻子, 这里可以给每个特征设置一个独特的函数 μ ( S , T ) \mu (S, T) μ(S,T), 用下面的函数来表示:
这里每个标签的 μ \mu μ 不太一样, 作者想把这个 μ \mu μ 纳入到一个统一的表达, 这里假定为线性函数, 对于整个人脸空间来说, 就只有一个优化的方向了, 这里通过上面的表达最小化一个方差归一化长度:
这个其实是论文中的理解的重点
从3d model到2d这个过程叫Rendering , 需要很多参数, 这里作者用 ρ ⃗ \vec\rho ρ 来表示, 这个向量包含了比如说相机位置, 物体大小, 旋转平移参数, 环境光RGB强度, 直接光照RGB强度(这里用directed light表示, 用在漫反射和镜面反射),
有些参数如相机距离, 光照方向, 反射度等按用户自己估计的来
shading 翻译成着色, 在图形学中着色可以理解成对不同物体应用不同的材质, 比如金属球, 木球, 它们和光线有不同的交互, 着色需要用到法线, 比如一个三角形我只用一个法线, 也可以说对三角形的每个像素都求个法线然后着色, 不同的着色方式就是不同的着色频率, 这个为啥用频率这个词呢? 因为在每个像素点上显示颜色本身就是对连续的图片的采样, 你用三角形的方式显示自然采样频率就低, 用像素的方式自然采样频率高.
原文中用的是Phone着色频率, face3d中是用的Gouraud shading, 这两种着色频率的区别是Phone是对每个像素求法线, 求出顶点的法线后对其余像素做插值求法线, 对每个像素进行着色
Gouraud shading 是求每个三角形的法线, 然后三角形中间的像素通过插值得到
投影得到的图片, 在原论文中说的是透视投影, 在face3d中用的是正交投影
下面是投影得到的图
想让模型渲染图和输入图片的欧氏距离最小
根据贝叶斯定理, 在考虑到输入图片中存在噪声的情况,引入高斯分布的标准误差 σ N \sigma_{N} σN
一维高斯分布是下面的样子
因此最大化该后验概率可以转化为最小化以下代价函数:
这个E使用随机选择的3d model的表面点估计的, 对于每个三角形k, 颜色是根据光照模型得到的:
l l l 是光照的方向, v k v_{k} vk 是相机位置和三角形中心位置的正交化差值,$ r_{k} = 2(nl)n-l 是 反 射 光 的 方 向 向 量 , 是反射光的方向向量, 是反射光的方向向量,s 表 示 表 面 的 反 射 率 , 幂 表示表面的反射率,幂 表示表面的反射率,幂\nu$控制镜面反射的角分布。(其实这个就是一些光的反射, 只不过公式没用 c o s cos cos 表示)如果存在阴影投影到一个三角形的中心位置的时候,以上公式可以化简为:
I r , m o d e l , k = i r , a m b R ˉ k I_{r, model, k} = i_{r, amb} \bar R_{k} Ir,model,k=ir,ambRˉk
对于高分辨的三维网格(即更密的三维网格)的时候,每个三角形之间的差异会变得很小,因此 E I E_{I} EI可以由以下的公式近似得到:
a k a_k ak 是三角形k对应的图像区域(image area covered by triangle k),如果被遮挡ak就是0, 在梯度下降中,mesh的不同三角形的回传梯度可能是多余的。于是每次计算的时候,从 κ ⊂ ( 1... n t ) \kappa \subset ({1...n_{t}}) κ⊂(1...nt) 中随机取出子集共40个三角形进行计算, E I E_I EI 被替换为:
选择 k 的概率是。这种随机梯度下降的方法不仅在计算上更有效,而且通过向梯度估计添加噪声来帮助避免局部最小值。
为了避免局部最小值,该算法在几个方面遵循粗到细策略:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。