在线问答5

这个屌丝很懒，什么也没留下！

热门标签

将针孔模型相机应用到3DGS_opengl 3dgs

作者：在线问答5 | 2024-07-05 21:49:16

踩

opengl 3dgs

Motivation

3DGS 的投影采用的是 CG系的投影矩阵 $P$ , 默认相机的 principal point (相机光心) 位于图像的中点处。但是实际应用的绝大多数的相机并不满足这样一个设定，因此我们需要根据 ${f,c_x, c_y}$ 这几个参数重新构建3D GS 的投影矩阵。

3DGS 的相机模型的构建

原理：

目的：将一个相机View 坐标系的一个3D 点变换到 NDC 坐标系

维基百科：https://www.songho.ca/opengl/gl_projectionmatrix.html

一共有如下3个坐标系

Eye 坐标系(View 坐标系) : $x_e,y_e,z_e)$

View 坐标系通过转化矩阵 $M_{proj}$ 转化到Clip 坐标系。**先进行缩放变换，**缩放之后的坐标是 $x_p,y_p,z_p)$ , 缩放之后继续做正交投影 【就是把（l,r）映射到（-1，1）】,最后才可以变换到Clip坐标系下面的坐标 $x_c,y_c,z_c)$ 。

Clip坐标系 : $x_c,y_c,z_c)$

Clip 坐标系通过除以齐次坐标系的最后一个分量转换到 NDC 坐标系

NDC坐标系 : $x_n,y_n,z_n)$

在这里插入sd图片描述
n为视锥体近面z坐标，f为远面z坐标，
t为视锥体top面z坐标，b为 bottom面y坐标，
r为视锥体right x坐标，left为左面x坐标，

1. 从 View 坐标系转化到 Clip 坐标系

主要是通过相似三角形的原理去列方程：
$x_p=\frac{-n \cdot x_e}{z_e}=\frac{n \cdot x_e}{-z_e}$
$y_p=\frac{-n \cdot y_e}{z_e}=\frac{n \cdot y_e}{-z_e}$
$z_p$ 坐标的求解，可以观看闫令琪的计算机图像学：有两个基本假设：

Near 的平面的所有点 Z 缩放之后的 Z值不会发生变化；
Far 平面的所有点 Z 缩放之后的 Z值不会发生变化；

得到了缩放之后的 $x_p,y_p, z_p)$ ，然后我们再通过线性变换做正交投影将Cuboid 的长和宽分别缩放到一个单位立方体, 即将 [l, r] ⇒ [-1, 1] and [b, t] ⇒ [-1, 1]。
Eq2：
$x_c=\alpha_x x_p+\beta_x$
$y_c=\alpha_y y_p+\beta_y$

将 $x_p$ 和 $x_e$ 的关系带入上面Eq2式子当中。以 x 坐标为例，由于l对应-1，r对应1，求解出 $\alpha$ 和 $\beta$ 我们有：

$\begin{aligned} x_c& =\frac{2 x_p}{r-l}-\frac{r+l}{r-l} \quad\left(x_p=\frac{n x_e}{-z_e}\right) \\ & =\frac{2 \cdot \frac{n \cdot x_e}{-z_e}}{r-l}-\frac{r+l}{r-l} \\ & =\frac{2 n \cdot x_e}{(r-l)\left(-z_e\right)}-\frac{r+l}{r-l} \\ & =\frac{\frac{2 n}{r-l} \cdot x_e}{-z_e}-\frac{r+l}{r-l} \\ & =\frac{\frac{2 n}{r-l} \cdot x_e}{-z_e}+\frac{\frac{r+l}{r-l} \cdot z_e}{-z_e} \\ & =(\underbrace{\frac{2 n}{r-l} \cdot x_e+\frac{r+l}{r-l} \cdot z_e}_{x_c}) /-z_e\end{aligned}$

$\begin{aligned} y_c & =\frac{2 y_p}{t-b}-\frac{t+b}{t-b} \quad\left(y_p=\frac{n y_e}{-z_e}\right) \\ & =\frac{2 \cdot \frac{n \cdot y_e}{-z_e}}{t-b}-\frac{t+b}{t-b} \\ & =\frac{2 n \cdot y_e}{(t-b)\left(-z_e\right)}-\frac{t+b}{t-b} \\ & =\frac{\frac{2 n}{t-b} \cdot y_e}{-z_e}-\frac{t+b}{t-b} \\ & =\frac{2 n}{\frac{t-b}{-z_e} \cdot y_e}+\frac{t+b}{\frac{t-b}{-z_e}} \\ & =(\underbrace{\frac{2 n}{t-b} \cdot y_e+\frac{t+b}{t-b} \cdot z_e}_{y_c}) /-z_e\end{aligned}$

上面的恰好是 Clip 坐标系的齐次坐标系。发现计算的 $x_c,y_c$ 恰好是除以了 $z_e$ ，因此我们可以预先指定齐次坐标的第四项是： $w_c = -z_e$ earlier。下面是 Clip 坐标系的齐次坐标：
$\begin{array}{c}x_c \\ y_c \\ z_c \\ w_c\end{array}$

$Z的推导和 x,y 没有关系。因此上面的矩阵写成下面的形式：
$\begin{array}{c}x_c \\ y_c \\ z_c \\ w_c\end{array}$ ,
其中的 Z 项单目提出来应该等于下面的式子：
$z_n=z_c / w_c=\frac{A z_e+B w_e}{-z_c}$
最后根据： Z_near 平面和 Z_far 平面不会移动的原因，得到最后的投影矩阵：
$\begin{array}{cccc}\frac{2 n}{r-l} & 0 & \frac{r+l}{r-l} & 0 \\ 0 & \frac{2 n}{t-b} & \frac{t+b}{t-b} & 0 \\ 0 & 0 & \frac{-(f+n)}{f-n} & \frac{-2 f n}{f-n} \\ 0 & 0 & -1 & 0\end{array}$

Code:

3DGS 设定：

self.zfar = 100.0
self.znear = 0.01

下面这个 Projection_Matrix 的构建和上面公式推导会有一点不一样的地方，尤其是对于 Z值的计算上，Github 上也有人提出过疑问。矩阵的P[2,2] 有误，但是作者又说他在 Code 中没有使用 Z的数值。

https://github.com/graphdeco-inria/gaussian-splatting/issues/388
https://github.com/graphdeco-inria/gaussian-splatting/issues/376

def getProjectionMatrix(znear, zfar, fovX, fovY):
    tanHalfFovY = math.tan((fovY / 2)) ## 视场角一半的正切数值
    tanHalfFovX = math.tan((fovX / 2))
	## 得到 l,b,top,right
    top = tanHalfFovY * znear
    bottom = -top
    right = tanHalfFovX * znear
    left = -right

    P = torch.zeros(4, 4)
    z_sign = 1.0

    P[0, 0] = 2.0 * znear / (right - left)
    P[1, 1] = 2.0 * znear / (top - bottom)
    P[0, 2] = (right + left) / (right - left)
    P[1, 2] = (top + bottom) / (top - bottom)
    P[3, 2] = z_sign
    P[2, 2] = z_sign * zfar / (zfar - znear)
    P[2, 3] = -(zfar * znear) / (zfar - znear)
    return P
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

带有Cx, Cy的相机模型:

或者其他人也给了 Projection 基于相机内参的写法：

https://github.com/graphdeco-inria/gaussian-splatting/issues/399

可以验证，下面的 Projection Matrix 和 Lego 这种 principal point 在中心的场景，生成的 4*4 的 Projection Matrix 是完全一样的。

在Lego 上已经验证过，采用如下方式构造的 Projection Matrix 是正确的：

P[0, 0] = 2 * fx / W
P[1, 1] = 2 * fy / H
P[0, 2] = 2 * (cx / W) - 1.0
P[1, 2] = 2 * (cy / H) - 1.0
P[2, 2] = -(zfar + znear) / (zfar - znear)
P[3, 2] = 1.0
P[2, 3] = -(2 * zfar * znear) / (zfar - znear)
1
2
3
4
5
6
7

外参：

3DGS 使用的相机坐标系经过验证是 OpenCV 的坐标系，不是 Nerfacto 的OpenGL 坐标系

实际使用的过程当中，使用 W2C 矩阵，并不是 C2W 矩阵

3dGS 的外参数处理部分：
poses[idx,:3, 1:3] *= -1
# get the world-to-camera transform and set R, T
w2c = np.linalg.inv(poses[idx])
R = np.transpose(w2c[:3,:3])  # R is stored transposed due to 'glm' in CUDA code
T = w2c[:3, 3]
1
2
3
4
5
6

FAQ:

嘉欣生成的点云是 OpenCV 系的，貌似可以直接使用

jiaxin 的 Gendata.py 是利用直接从 kitti360 读取的 Pose 来生成点云的，是 OpenCV 系下面的位姿，生成点云并不是用的 json 文件里的 Pose , 因此嘉欣的 生成的 3DGS 的点云也是 OpenCV 系的点云。我们在 readkitti.py 里面 3DGS对于 Pose 的处理已经从OpenGL 系转到了 OpenCV 系，所以不需要对于点云进行处理，直接使用。

Center Pose 和 Scale Pose 是否有用？

Centor Pose 对于在KITTI360上面对结果影响不大，但也不会降低结果可以加上。
但是 Scale Pose 在 3DGS 的源码中，会使得结果有略微的降低. 所以，不应该加上 Scale, 对于场景进行缩放，全部采用世界系中的真实尺度。

注意到 Code 里面会计算一个场景的半径 radius，来当作场景的 xyz 移动的学习率，

nerf_normalization = getNerfppNorm(train_cam_infos)

参考的网址如下：

https://github.com/graphdeco-inria/gaussian-splatting/issues/38

这里主要讨论了在不同的场景之下，场景的大小不一样，那么 Guassion 的 xyz 的学习率应该随着场景的大小变化而变化。比如：场景大的话，那么 Gaussian 应该需要移动的距离是更远的。

KITTI360 Drop50 一共的点云是 1000W 个点，点数过于稠密。经过实验发现，可以对点数进行采样，效果有所提升。

50% 的点有500 万个点，所有指标效果提升。
20% 的点有200 万个点， SSIM 和PSNR 继续提升。 Lpips 有部分下降。
结论： 1000 万个点过多，不推荐。使用一定Drop 可以帮助提升重建质量。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/在线问答5/article/detail/791077

将针孔模型相机 应用到3DGS_opengl 3dgs

Motivation

3DGS 的相机模型的构建

原理：

一共有如下3个坐标系

Eye 坐标系(View 坐标系) : ( x e , y e , z e ) (x_e,y_e,z_e) (xe​,ye​,ze​)

Clip坐标系 : ( x c , y c , z c ) (x_c,y_c,z_c) (xc​,yc​,zc​)

NDC坐标系 : ( x n , y n , z n ) (x_n,y_n,z_n) (xn​,yn​,zn​)

1. 从 View 坐标系转化到 Clip 坐标系

Code:

带有Cx, Cy的相机模型:

在Lego 上已经验证过，采用如下方式构造的 Projection Matrix 是正确的：

外参：

3DGS 使用的相机坐标系经过验证是 OpenCV 的坐标系， 不是 Nerfacto 的OpenGL 坐标系

FAQ:

嘉欣生成的点云是 OpenCV 系的， 貌似可以直接使用

Center Pose 和 Scale Pose 是否有用？

注意到 Code 里面会计算一个 场景的半径 radius，来当作场景的 xyz 移动的学习率，

KITTI360 Drop50 一共的点云是 1000W 个点， 点数过于稠密。 经过实验发现，可以对点数 进行采样，效果有所提升。

将针孔模型相机应用到3DGS_opengl 3dgs

Eye 坐标系(View 坐标系) : $x_e,y_e,z_e)$

Clip坐标系 : $x_c,y_c,z_c)$

NDC坐标系 : $x_n,y_n,z_n)$

3DGS 使用的相机坐标系经过验证是 OpenCV 的坐标系，不是 Nerfacto 的OpenGL 坐标系

嘉欣生成的点云是 OpenCV 系的，貌似可以直接使用

注意到 Code 里面会计算一个场景的半径 radius，来当作场景的 xyz 移动的学习率，

KITTI360 Drop50 一共的点云是 1000W 个点，点数过于稠密。经过实验发现，可以对点数进行采样，效果有所提升。