赞
踩
in-the-wild images:计算机视觉领域的术语,用于描述现实世界中的图像,通常指的是非受控制的、具有多样性和复杂性的图像。
“In-the-wild” :意为“野外、野生”,表示这些图像并非受控制、标准化的实验室环境下获得的图像,而是在真实的生活场景中获取的,包括不同的拍摄角度、光照条件、图像质量等方面的变化。这些变化使得这些图像具有更高的多样性和复杂性,
unconstrained images:指的是没有特定限制和要求的图像,例如随意拍摄的照片、网络上的图片等。这些图像没有被限制在特定的环境或条件下,也没有受到任何限制或控制,因此通常会呈现出更多的变化和不确定性,可能包含更多的噪音和失真。
mesh relighting:是指对网格模型的表面进行光照处理,以改变其外观和视觉效果。它通常用于在虚拟场景中实现逼真的光照和渲染效果,例如在电影、游戏和虚拟现实等应用中。通过改变光源位置、颜色和强度等参数,可以在不改变网格模型的形状和结构的情况下改变其外观,从而实现更加逼真的渲染效果。
coarse geometry:指的是3D几何模型的粗略形状,通常由一组简单的基本几何形状组成,如三角形网格或多边形网格等。这种粗略的形状通常用于初始化或近似3D形状,并作为后续细节建模的基础。在人脸建模中,常用的粗略几何模型包括FLAME、3DDFA等。
subject-specific detail:指的是与个体有关的、在面部表情、纹理等方面具有独特特征的细节信息。在3D人脸建模中,由于每个人的面部表情和纹理都是不同的,因此需要通过建模来捕捉这些个体差异,并将其整合到人脸模型中以实现更加真实和准确的重建。在这种情况下,"subject-specific detail"通常指用于描述这些个体特征的参数或函数。
displacements:在三维人脸重建中,“displacements"指的是从粗略3D几何模型(如FLAME)到实际人脸表面的偏移量。在这种情况下,重建过程是通过在粗略模型的基础上引入一系列偏移量(也称为"displacement maps”)来捕捉面部表情、纹理等细节信息,从而生成一个更加真实和准确的3D人脸模型。这些偏移量可以根据个体特征进行调整,以实现更加个性化的重建。
low-frequency:低频形状信息指的是脸部表情或形状的整体变化趋势或模式,这些变化模式比较平滑或缓慢,例如脸部的整体平移、旋转或缩放。与之相反,高频形状信息指的是脸部表情或形状的细节,例如皱纹、皮肤纹理等。因此,如果使用仅包含低频形状信息的线性形状空间来重建人脸,可能会导致重建结果过于平滑。
“an optimization-based model fitting” 指的是一类模型拟合的方法,即通过优化损失函数来调整模型参数,使得模型的输出与观测数据尽可能地匹配。
“synthetic data generated by sampling a statistical face model” 是指通过对一个统计人脸模型进行采样生成合成数据,以扩充训练数据集的方法。在这种方法中,可以通过控制采样参数来生成不同的合成数据,从而增加训练数据的多样性。
“只能捕捉到粗略的形状变化”的理解:虽然无模型方法不需要事先定义一个具体的3D面部模型,而是直接预测3D面部形状(例如体素或网格),因此可以捕捉比基于模型的方法更多的变化。但是,所有这些方法都需要明确的3D监督,而这种监督是通过基于优化的模型拟合或合成数据生成的。这些方法中的一个需要使用3D面部模型和优化算法,不断调整模型参数,直到该模型与给定的2D图像对齐。另一个方法则需要使用统计面部模型生成合成的3D面部形状。这些方法虽然是无模型方法,但是也需要基于模型的方法来提供训练模型所需的明确的3D监督。 所以, 也是只能捕捉粗略形状变化。
relighting:指的是在一张已有的图像上改变光照的方向、强度或颜色等参数,从而得到一个新的看起来似乎是在不同光照条件下拍摄的图像。这个过程可以用于许多应用,例如电影特效、虚拟现实和增强现实等。
对于高频、低频、中频细节理解:通常来说,低频信息包含了大体的面部结构和姿态信息,属于粗略重建;中频信息包含了面部的粗略纹理和表情信息,也可以看作是粗略重建(当然本文认为是细节重建);高频信息则包含了细微的面部细节和纹理信息,属于细节重建。
为什么粗略模型拟合需要特征点就会导致大视角和遮挡情况下容易出错:这是因为面部特征点通常只在正面或半侧面视角下可见,当面部出现遮挡或大视角变化时,这些特征点可能无法准确地被检测到,从而导致粗略模型拟合的错误。特别是在大视角下,由于面部结构的形变和变形,这些特征点可能会发生较大的位置偏移,导致拟合的模型不准确。因此,不依赖于面部特征点的模型自然更具有鲁棒性和稳健性。
SFS(Shape from Shading):它是一种三维形状恢复的方法,通过观察物体在不同的光照条件下的表面阴影来推断物体表面的三维形状。SfS方法通过对照片进行分析来推断出光源方向、光源强度和物体表面法线方向等参数,进而反演出物体表面形状。在人脸重建中,SfS方法被广泛用于从单张图像中推断出人脸表面的细节和形状。
伪影(artifacts):指的是重建结果中出现的不真实的或者不准确的图像区域。这些区域通常是由于采集数据不完整或者模型假设不准确导致的。伪影可能表现为一些重建的细节或形状不真实或者不连续,或者出现不自然的图像纹理。伪影可能会影响到重建结果的真实感和质量,需要通过改进算法或者改进数据采集方式来减少其出现。
联合学习:指的是同时学习一个统计人脸模型和使用该模型进行从图像到3D人脸的重建。通过这种方式,模型可以同时受益于大量的训练数据和先前的知识,以实现更准确和鲁棒的人脸重建。联合学习的过程中会不断地优化统计人脸模型,并且结合输入的图像信息进行人脸重建。优化的目标是使得重建的人脸与输入的图像尽可能相似,同时保持统计模型的先验知识。
图像翻译网络(Image translation network):是指一类深度学习模型,旨在将一种视觉风格的图像转换为另一种视觉风格的图像,通常使用对抗生成网络(GAN)进行训练。GAN模型由两个部分组成:生成器和判别器。生成器尝试生成类似于目标图像的图像,判别器则尝试区分真实的目标图像和生成的图像。在训练过程中,生成器的目标是欺骗判别器,使其无法区分生成的图像和真实的目标图像。
在Lattas等人的研究中,他们使用图像翻译网络将输入图像转换为具有不同光照和材质属性的图像,从而推断出法向量和高光信息。这种方法可以提高人脸重建的渲染效果,使重建的结果更加逼真。
FaceScape:是一种人脸重建方法,有两个步骤,第一个步骤是采用卷积神经网络(CNN)从输入的人脸图像中提取粗略的3D形状。第二个步骤是从预测的粗略形状中提取纹理图像,使用另一个神经网络来预测精细的3D形状。因此,该方法需要两个神经网络来完成整个3D脸部模型的预测,其中第二个网络需要基于第一个网络提取的特征图来学习。
独立线性身份形状空间(Separate linear identity shape):在 FLAME 模型中指的是将人脸形状分解成由各自的形状参数构成的矢量空间,其中每个参数都对应于一种特定的人脸形状。这些参数用于描述人脸的形状特征,例如眼睛、鼻子、嘴巴等部位的形状。“Linear” 表示这些参数之间存在线性关系,可以用线性组合的方式来生成新的形状。
表情空间与线性混合蒙皮(LBS):是计算机图形学中一种常见的技术,用于将网格模型表面上的顶点与骨骼系统相关联。该技术基于一个假设:网格表面上的每个顶点对于所有骨骼的影响是线性的,也就是说,每个顶点在不同骨骼的影响下只会有不同程度的缩放、旋转和平移,不会发生形状的扭曲或变形。这个假设下,每个顶点在不同骨骼的影响下可以通过线性插值得到最终位置,从而实现蒙皮效果。基本思想是将3D物体的表面分割成一系列较小的三角形面片,并将每个面片的顶点与骨骼的控制点(关节)建立对应关系。在动画过程中,通过对关节旋转的控制,对表面进行相应的变形,再通过线性插值的方式计算出各个面片上的顶点位置,最终呈现出整个物体的动画效果。
姿势相关的修正混合形状(Pose-dependent corrective blendshapes):一种基于混合形状技术的方法,用于对三维模型进行姿势相关的微调。它可以通过在原始三维模型上应用不同的混合形状来表示不同的姿势,从而更准确地捕捉模型的形态和动作。这种方法通常用于三维动画和计算机游戏中,可以提高模型的表现力和真实感。在FLAME模型中,姿势相关的修正混合形状被用于调整脖子、下颌和眼球的形状,以更好地适应不同的姿势和表情。
之后计算M’的法线N’,用这个N’法线图去结合粗略重建模型M渲染出带有中频细节的图像,如下这个公式:
ID-MRF:一种用于重建几何细节的损失函数。该方法的目标是将生成图像的几何细节与输入图像的几何细节保持一致。
首先,该方法使用预先训练的神经网络从输入图像和细节渲染中提取特征补丁。这些特征补丁来自于不同的网络层,每个层都可以捕捉到不同尺度和语义的特征。然后,该方法将提取的特征补丁从两个图像中找到相应的最近邻特征补丁,并计算它们之间的差异。最小化这些差异可以促使生成图像的几何细节与输入图像的几何细节保持一致。因此,ID-MRF损失可以鼓励生成图像捕捉高频细节,同时保持低频特征与输入图像的一致性。相比于其他方法使用鉴别器来捕捉高频信息,ID-MRF损失可以更稳定地训练模型。
特征补丁(feature patch):是指从图像中提取的、具有一定大小和形状的特征区域。在计算机视觉中,通常使用卷积神经网络等方法对图像进行特征提取,得到的特征图通常也是由若干个特征补丁组成的。这些特征补丁可以用于图像分类、目标检测、图像分割等任务。在本文中,ID-MRF损失从预训练网络的不同层中提取特征补丁,并使用这些特征补丁来计算损失,以实现对几何细节的重建。
为什么“这个过程相当于对于模型训练数据的扩充”:由于翻转操作的进行,面部特征的位置和方向都会发生改变,这样得到的镜像样本就会呈现出与原始样本不同的面部表情和朝向等特征,从而相当于扩充了训练数据的多样性,增加了更多的自遮挡情况。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。