当前位置:   article > 正文

论文随记|BARF : Bundle-Adjusting Neural Radiance Fields_barf: bundle-adjusting neural radi- ance fields.

barf: bundle-adjusting neural radi- ance fields.

Abstarct


NeRF需要准确相机标定,本文想在不完美相机标定或完全未知标定情况下重建,学习三维表示并配准相机帧,bundle-adjustment是sfm中的一种方法。本文建立了与经典图像对齐的理论联系,且展示了coarse-to-fine配准同样适合nerf。并且发现简单地使用位置编码对合成物体(指的应该是不同于原始数据,由算法生成的数据)的校准有负面影响。


Introduction


重建物体和配准相机属于先有鸡先有蛋的问题,重建需要精确相机位姿,相机配准需要精确重建信息。sfm或slam的常用方法是通过局部配准,然后在结构和摄像机上进行全局几何捆绑调整(Bundle Adjustment)来解决这个问题。但以来局部配准,而且容易陷入次优解,而且输出的点云不利于下游任务。

nerf等重建方法对相机位姿要求严苛,最简单的想法是通过back-propagation对相机位姿也同时优化,但是在实践中发现这对初始化很敏感,而且容易收敛到次优解,降低重建质量。注意,positional encoding益于重建,但同时导致次优解。


Contribution

  • 建立了经典图像对齐到联合配准和用神经辐射场重建的理论联系
  • 表明positional encoding对配准的影响,提出coarse-to-fine配准策略
  • BARF可以从不完美相机位姿中重建场景三维表示,使得新视角合成和视频序列定位能从位未知视角中获得


Method


Planar Image Alignment (2D)


2D图像对齐可以归纳成一个问题就是学习一个变换使得photometric error最小

就是warp function从2维映射到2维,由p维向量作为权重参数化,由于是个非线性问题,可以用梯度下降法,其中


其中

是最陡下降图像,A是基于不同算法选择的通用变换。
比如用高斯牛顿法时


如果用随机梯度下降法A就是一个标量学习率

而J可以表示为


其中

是warp雅可比矩阵限制对预定义warp的像素位移。

基于梯度方法的配准核心是图像梯度 建模了一个局部的逐像素的表面和空间位移之间的线性关系,经常由有限差分来估计。显然的是如果每像素的预测之间有关系(即信号是光滑的),那么

的估计会更有效。


因此,通过在配准的早期阶段模糊图像,有效地扩大吸引区域和smoothening the alignment landscape,实践了从粗到细的策略。


Images as neural networks


另一种方式是在解决p的时候用神经网络学一个图像的表示,神经网络参数是


或者对每个图分别学一个p,回顾一下,p是warp function的P维向量参数


神经网络使得梯度不再是数值估计而是网络参数对位置的偏导,不再依赖启发式的对图像的模糊,这使得能泛化到三维情况。


Neural Radiance Fields (3D)


为了保持一致性, 三维情况下x表示三维坐标,W表示nerf中的网络。NeRF实际上是用MLP f把三维坐标映射到四维输出,记为

, 是网络参数。实际上还有d,这里简化处理。

设一个像素点的坐标是u,那么齐次坐标是 ,根据多视图几何理论,在深度 的坐标就是

,那么渲染公式可以写为


由于是N个采样点,最终得到的是一个三通道颜色,可以直接改写为


一个相机的参数

,而相机坐标系下的x也可以通过W映射变到世界坐标系下,那么颜色可以写成关于像素坐标u和相机位姿p的函数


这个网络参数

就是学习的神经辐射场的三维表示

如果有M张图,那么目标就是优化NeRF学习三维表示,并且优化相机位姿


同样地可以推导出J的表达式用于更新p



On Positional Encoding and Registration


位置编码就是把信号映射到高频


但是可以看到雅克比矩阵会有一个离谱的增益

,这对预测来说是很不好的,适合重建中学习高频信号但是不适合配准中的学习,图像配准更希望平滑的信号。


Bundle-Adjusting Neural Radiance Fields


处理上述问题的方法是加一个mask,作为一个低通滤波器,第k频率的位置编码就变成了

是一个和优化进程正相关的[0,L]之间的可控参数,那么雅克比矩阵就变成了


所以最开始raw input中

是0,高频信号的雅可比矩阵系数都是0,慢慢的到最后

变成L,高频信号就和原始NeRF一样了。

这使得最开始从平滑信号学习图像配准,到后边学习高保真场景表示。


Experiment


Planar Image Alignment (2D)


Center crop and warps
以中间的crop为中心,剩下几个随机warp


Result


NeRF (3D): Synthetic Objects


用了100张由原始NeRF渲染出来的图,有准确的相机位姿,然后加了正态扰动使相机位姿发生偏移


Evaluation criteria


图像配准的pose error和新视角合成的质量


NeRF (3D): Real-World Scenes


ground-truth是sfm来的,量化指标表示了该方法和sfm的吻合度有多高

发布于 2022-06-26 11:56

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/563930
推荐阅读
相关标签
  

闽ICP备14008679号