赞
踩
NeRF需要准确相机标定,本文想在不完美相机标定或完全未知标定情况下重建,学习三维表示并配准相机帧,bundle-adjustment是sfm中的一种方法。本文建立了与经典图像对齐的理论联系,且展示了coarse-to-fine配准同样适合nerf。并且发现简单地使用位置编码对合成物体(指的应该是不同于原始数据,由算法生成的数据)的校准有负面影响。
重建物体和配准相机属于先有鸡先有蛋的问题,重建需要精确相机位姿,相机配准需要精确重建信息。sfm或slam的常用方法是通过局部配准,然后在结构和摄像机上进行全局几何捆绑调整(Bundle Adjustment)来解决这个问题。但以来局部配准,而且容易陷入次优解,而且输出的点云不利于下游任务。
nerf等重建方法对相机位姿要求严苛,最简单的想法是通过back-propagation对相机位姿也同时优化,但是在实践中发现这对初始化很敏感,而且容易收敛到次优解,降低重建质量。注意,positional encoding益于重建,但同时导致次优解。
2D图像对齐可以归纳成一个问题就是学习一个变换使得photometric error最小
就是warp function从2维映射到2维,由p维向量作为权重参数化,由于是个非线性问题,可以用梯度下降法,其中
其中
是最陡下降图像,A是基于不同算法选择的通用变换。
比如用高斯牛顿法时
如果用随机梯度下降法A就是一个标量学习率
而J可以表示为
其中
是warp雅可比矩阵限制对预定义warp的像素位移。
基于梯度方法的配准核心是图像梯度 建模了一个局部的逐像素的表面和空间位移之间的线性关系,经常由有限差分来估计。显然的是如果每像素的预测之间有关系(即信号是光滑的),那么
的估计会更有效。
因此,通过在配准的早期阶段模糊图像,有效地扩大吸引区域和smoothening the alignment landscape,实践了从粗到细的策略。
另一种方式是在解决p的时候用神经网络学一个图像的表示,神经网络参数是
或者对每个图分别学一个p,回顾一下,p是warp function的P维向量参数
神经网络使得梯度不再是数值估计而是网络参数对位置的偏导,不再依赖启发式的对图像的模糊,这使得能泛化到三维情况。
为了保持一致性, 三维情况下x表示三维坐标,W表示nerf中的网络。NeRF实际上是用MLP f把三维坐标映射到四维输出,记为
, 是网络参数。实际上还有d,这里简化处理。
设一个像素点的坐标是u,那么齐次坐标是 ,根据多视图几何理论,在深度 的坐标就是
,那么渲染公式可以写为
由于是N个采样点,最终得到的是一个三通道颜色,可以直接改写为
一个相机的参数
,而相机坐标系下的x也可以通过W映射变到世界坐标系下,那么颜色可以写成关于像素坐标u和相机位姿p的函数
这个网络参数
就是学习的神经辐射场的三维表示
如果有M张图,那么目标就是优化NeRF学习三维表示,并且优化相机位姿
同样地可以推导出J的表达式用于更新p
位置编码就是把信号映射到高频
但是可以看到雅克比矩阵会有一个离谱的增益
,这对预测来说是很不好的,适合重建中学习高频信号但是不适合配准中的学习,图像配准更希望平滑的信号。
处理上述问题的方法是加一个mask,作为一个低通滤波器,第k频率的位置编码就变成了
是一个和优化进程正相关的[0,L]之间的可控参数,那么雅克比矩阵就变成了
所以最开始raw input中
是0,高频信号的雅可比矩阵系数都是0,慢慢的到最后
变成L,高频信号就和原始NeRF一样了。
这使得最开始从平滑信号学习图像配准,到后边学习高保真场景表示。
Center crop and warps
以中间的crop为中心,剩下几个随机warp
用了100张由原始NeRF渲染出来的图,有准确的相机位姿,然后加了正态扰动使相机位姿发生偏移
图像配准的pose error和新视角合成的质量
ground-truth是sfm来的,量化指标表示了该方法和sfm的吻合度有多高
发布于 2022-06-26 11:56
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。