  1. # Set up command line argument parser
  2. parser = ArgumentParser(description="Training script parameters")
  3. lp = ModelParams(parser)
  4. op = OptimizationParams(parser)
  5. pp = PipelineParams(parser)
  6. parser.add_argument('--ip', type=str, default="")
  7. parser.add_argument('--port', type=int, default=6009)
  8. parser.add_argument('--debug_from', type=int, default=-1)
  9. parser.add_argument('--detect_anomaly', action='store_true', default=False)
  10. parser.add_argument("--test_iterations", nargs="+", type=int, default=[7_000, 30_000])
  11. parser.add_argument("--save_iterations", nargs="+", type=int, default=[7_000, 30_000])
  12. parser.add_argument("--quiet", action="store_true")
  13. parser.add_argument("--checkpoint_iterations", nargs="+", type=int, default=[])
  14. parser.add_argument("--start_checkpoint", type=str, default = None)
  15. args = parser.parse_args(sys.argv[1:])
  16. args.save_iterations.append(args.iterations)
  17. print("Optimizing " + args.model_path)


  1. # Initialize system state (RNG)
  2. safe_state(args.quiet)


  1. def safe_state(silent):
  2. old_f = sys.stdout
  3. class F:
  4. def __init__(self, silent):
  5. self.silent = silent
  6. def write(self, x):
  7. if not self.silent:
  8. if x.endswith("\n"):
  9. old_f.write(x.replace("\n", " [{}]\n".format(str(datetime.now().strftime("%d/%m %H:%M:%S")))))
  10. else:
  11. old_f.write(x)
  12. def flush(self):
  13. old_f.flush()
  14. sys.stdout = F(silent)
  15. random.seed(0)
  16. np.random.seed(0)
  17. torch.manual_seed(0)
  18. torch.cuda.set_device(torch.device("cuda:0"))

这段代码定义了一个函数 safe_state(silent),该函数的作用是在执行期间重定向标准输出(sys.stdout)到一个新的类 F 的实例。这个类 F 在写入时会检查是否需要在每行结尾处添加时间戳,以及是否需要替换换行符。


  1. 将原始的标准输出保存在 old_f 变量中。
  2. 定义一个名为 F 的新类,该类具有以下方法:
    • __init__(self, silent):初始化方法,接受一个参数 silent
    • write(self, x):写入方法,检查 silent 属性,如果不是静默模式,则在每行结尾添加当前时间戳,并将文本写入原始标准输出。
    • flush(self):刷新方法,将原始标准输出的缓冲区刷新。
  3. 创建 F 类的实例并将其赋值给 sys.stdout,从而重定向标准输出到新的类实例。
  4. 设置随机种子以确保结果的可重复性。
  5. 最后,将 PyTorch 的随机种子设置为 0,并将当前 CUDA 设备设置为 "cuda:0"(如果可用的话)。




  1. # Start GUI server, configure and run training
  2. network_gui.init(args.ip, args.port) #这行代码初始化一个 GUI 服务器,使用 args.ip 和 args.port 作为参数。这可能是一个用于监视和控制训练过程的图形用户界面的一部分。
  3. torch.autograd.set_detect_anomaly(args.detect_anomaly) #这行代码设置 PyTorch 是否要检测梯度计算中的异常。
  4. training(lp.extract(args), op.extract(args), pp.extract(args), args.test_iterations, args.save_iterations, args.checkpoint_iterations, args.start_checkpoint, args.debug_from)
  5. # 输入的参数包括:模型的参数(数据集的位置)、优化器的参数、其他pipeline的参数,测试迭代次数、保存迭代次数 、检查点迭代次数 、开始检查点 、调试起点


  1. def training(dataset, opt, pipe, testing_iterations, saving_iterations, checkpoint_iterations, checkpoint, debug_from):
  2. first_iter = 0 #初始化迭代次数。
  3. tb_writer = prepare_output_and_logger(dataset) #设置 TensorBoard 写入器和日志记录器。
  4. gaussians = GaussianModel(dataset.sh_degree) #(重点看,需要转跳)创建一个 GaussianModel 类的实例,输入一系列参数,其参数取自数据集。
  5. scene = Scene(dataset, gaussians) #(这个类的主要目的是处理场景的初始化、保存和获取相机信息等任务,)创建一个 Scene 类的实例,使用数据集和之前创建的 GaussianModel 实例作为参数。
  6. gaussians.training_setup(opt) #设置 GaussianModel 的训练参数。
  7. if checkpoint: #如果有提供检查点路径。
  8. (model_params, first_iter) = torch.load(checkpoint)#通过 torch.load(checkpoint) 加载检查点的模型参数和起始迭代次数。
  9. gaussians.restore(model_params, opt)#通过 gaussians.restore 恢复模型的状态。
  10. bg_color = [1, 1, 1] if dataset.white_background else [0, 0, 0] #设置背景颜色,根据数据集是否有白色背景来选择。
  11. background = torch.tensor(bg_color, dtype=torch.float32, device="cuda") #将背景颜色转化为 PyTorch Tensor,并移到 GPU 上。
  12. # 创建两个 CUDA 事件,用于测量迭代时间。
  13. iter_start = torch.cuda.Event(enable_timing = True)
  14. iter_end = torch.cuda.Event(enable_timing = True)
  15. viewpoint_stack = None
  16. ema_loss_for_log = 0.0
  17. progress_bar = tqdm(range(first_iter, opt.iterations), desc="Training progress") #创建一个 tqdm 进度条,用于显示训练进度。
  18. first_iter += 1
  19. # 接下来开始循环迭代
  20. for iteration in range(first_iter, opt.iterations + 1): #主要的训练循环开始。
  21. if network_gui.conn == None: #检查 GUI 是否连接,如果连接则接收 GUI 发送的消息。
  22. network_gui.try_connect()
  23. while network_gui.conn != None:
  24. try:
  25. net_image_bytes = None
  26. custom_cam, do_training, pipe.convert_SHs_python, pipe.compute_cov3D_python, keep_alive, scaling_modifer = network_gui.receive()
  27. if custom_cam != None:
  28. net_image = render(custom_cam, gaussians, pipe, background, scaling_modifer)["render"]
  29. net_image_bytes = memoryview((torch.clamp(net_image, min=0, max=1.0) * 255).byte().permute(1, 2, 0).contiguous().cpu().numpy())
  30. network_gui.send(net_image_bytes, dataset.source_path)
  31. if do_training and ((iteration < int(opt.iterations)) or not keep_alive):
  32. break
  33. except Exception as e:
  34. network_gui.conn = None
  35. iter_start.record() #用于测量迭代时间。
  36. gaussians.update_learning_rate(iteration) #更新学习率。
  37. # Every 1000 its we increase the levels of SH up to a maximum degree
  38. if iteration % 1000 == 0:
  39. gaussians.oneupSHdegree() #每 1000 次迭代,增加球谐函数的阶数。
  40. # Pick a random Camera (随机选择一个训练相机。)
  41. if not viewpoint_stack:
  42. viewpoint_stack = scene.getTrainCameras().copy()
  43. viewpoint_cam = viewpoint_stack.pop(randint(0, len(viewpoint_stack)-1))
  44. # Render (渲染图像,计算损失(L1 loss 和 SSIM loss))
  45. if (iteration - 1) == debug_from:
  46. pipe.debug = True
  47. bg = torch.rand((3), device="cuda") if opt.random_background else background
  48. render_pkg = render(viewpoint_cam, gaussians, pipe, bg)
  49. image, viewspace_point_tensor, visibility_filter, radii = render_pkg["render"], render_pkg["viewspace_points"], render_pkg["visibility_filter"], render_pkg["radii"]
  50. # Loss
  51. gt_image = viewpoint_cam.original_image.cuda()
  52. Ll1 = l1_loss(image, gt_image)
  53. loss = (1.0 - opt.lambda_dssim) * Ll1 + opt.lambda_dssim * (1.0 - ssim(image, gt_image)) #计算渲染的图像与真实图像之间的loss
  54. loss.backward() #更新损失。loss反向传播
  55. iter_end.record() #用于测量迭代时间。
  56. with torch.no_grad(): #记录损失的指数移动平均值,并定期更新进度条。
  57. # Progress bar
  58. ema_loss_for_log = 0.4 * loss.item() + 0.6 * ema_loss_for_log
  59. if iteration % 10 == 0:
  60. progress_bar.set_postfix({"Loss": f"{ema_loss_for_log:.{7}f}"})
  61. progress_bar.update(10)
  62. if iteration == opt.iterations:
  63. progress_bar.close()
  64. # Log and save
  65. training_report(tb_writer, iteration, Ll1, loss, l1_loss, iter_start.elapsed_time(iter_end), testing_iterations, scene, render, (pipe, background))
  66. if (iteration in saving_iterations): #如果达到保存迭代次数,保存场景。
  67. print("\n[ITER {}] Saving Gaussians".format(iteration))
  68. scene.save(iteration)
  69. # Densification(在一定的迭代次数内进行密集化处理。)
  70. if iteration < opt.densify_until_iter:
  71. # Keep track of max radii in image-space for pruning
  72. gaussians.max_radii2D[visibility_filter] = torch.max(gaussians.max_radii2D[visibility_filter], radii[visibility_filter])
  73. gaussians.add_densification_stats(viewspace_point_tensor, visibility_filter)
  74. if iteration > opt.densify_from_iter and iteration % opt.densification_interval == 0:
  75. size_threshold = 20 if iteration > opt.opacity_reset_interval else None
  76. gaussians.densify_and_prune(opt.densify_grad_threshold, 0.005, scene.cameras_extent, size_threshold)
  77. if iteration % opt.opacity_reset_interval == 0 or (dataset.white_background and iteration == opt.densify_from_iter):
  78. gaussians.reset_opacity()
  79. # Optimizer step(执行优化器的步骤,然后清零梯度。)
  80. if iteration < opt.iterations:
  81. gaussians.optimizer.step()
  82. gaussians.optimizer.zero_grad(set_to_none = True)
  83. # 如果达到检查点迭代次数,保存检查点。
  84. if (iteration in checkpoint_iterations):
  85. print("\n[ITER {}] Saving Checkpoint".format(iteration))
  86. torch.save((gaussians.capture(), iteration), scene.model_path + "/chkpnt" + str(iteration) + ".pth")


gaussians = GaussianModel(dataset.sh_degree) #创建一个 GaussianModel 类的实例,输入一系列参数,其参数取自数据集。



  1. # Loss
  2. gt_image = viewpoint_cam.original_image.cuda()
  3. Ll1 = l1_loss(image, gt_image)
  4. loss = (1.0 - opt.lambda_dssim) * Ll1 + opt.lambda_dssim * (1.0 - ssim(image, gt_image)) #计算渲染的图像与真实图像之间的loss
  5. loss.backward() #更新损失。loss反向传播

也正是参数优化的损失函数(L1 与 D-SSIM 项的组合)


  1. 每 1000 次迭代,增加球谐系数的阶数。
  2. 随机选择一个相机视角。
  3. 渲染图像,获取视点空间点、能见度过滤器和半径等信息。
  4. 计算损失(L1 损失和 DSSIM 损失的加权和),进行反向传播。
  5. 通过无梯度的上下文进行后续操作:
    1. 根据迭代次数进行点云密度操作(densification):
    2. 更新最大半径信息。
    3. 根据条件进行点云密度增加和修剪。
    4. 进行优化器的参数更新。




  1. def __init__(self, sh_degree : int):
  2. self.active_sh_degree = 0 #球谐阶数
  3. self.max_sh_degree = sh_degree #最大球谐阶数
  4. # 存储不同信息的张量(tensor)
  5. self._xyz = torch.empty(0) #空间位置
  6. self._features_dc = torch.empty(0)
  7. self._features_rest = torch.empty(0)
  8. self._scaling = torch.empty(0) #椭球的形状尺度
  9. self._rotation = torch.empty(0) #椭球的旋转
  10. self._opacity = torch.empty(0) #不透明度
  11. self.max_radii2D = torch.empty(0)
  12. self.xyz_gradient_accum = torch.empty(0)
  13. self.denom = torch.empty(0)
  14. self.optimizer = None #初始化优化器为 None。
  15. self.percent_dense = 0 #初始化百分比密度为0。
  16. self.spatial_lr_scale = 0 #初始化空间学习速率缩放为0。
  17. self.setup_functions() #调用 setup_functions 方法设置各种激活和变换函数

调用 setup_functions 方法设置各种激活和变换函数。

  1. def setup_functions(self): #用于设置一些激活函数和变换函数
  2. def build_covariance_from_scaling_rotation(scaling, scaling_modifier, rotation):#构建协方差矩阵,该函数接受 scaling(尺度)、scaling_modifier(尺度修正因子)、rotation(旋转)作为参数
  3. L = build_scaling_rotation(scaling_modifier * scaling, rotation)
  4. actual_covariance = L @ L.transpose(1, 2)
  5. symm = strip_symmetric(actual_covariance)
  6. return symm #最终返回对称的协方差矩阵。
  7. self.scaling_activation = torch.exp #将尺度激活函数设置为指数函数。
  8. self.scaling_inverse_activation = torch.log #将尺度逆激活函数设置为对数函数。
  9. self.covariance_activation = build_covariance_from_scaling_rotation #将协方差激活函数设置为上述定义的 build_covariance_from_scaling_rotation 函数。
  10. self.opacity_activation = torch.sigmoid #将不透明度激活函数设置为 sigmoid 函数。
  11. self.inverse_opacity_activation = inverse_sigmoid #将不透明度逆激活函数设置为一个名为 inverse_sigmoid 的函数
  12. self.rotation_activation = torch.nn.functional.normalize #用于归一化旋转矩阵。


  1. 在train.py中
  2. scene = Scene(dataset, gaussians) #(这个类的主要目的是处理场景的初始化、保存和获取相机信息等任务,)创建一个 Scene 类的实例,使用数据集和之前创建的 GaussianModel 实例作为参数。
  3. 对应的在Scene类中
  4. # 加载或创建高斯模型
  5. if self.loaded_iter: #如果已加载模型,则调用 load_ply 方法加载点云数据。
  6. self.gaussians.load_ply(os.path.join(self.model_path,
  7. "point_cloud",
  8. "iteration_" + str(self.loaded_iter),
  9. "point_cloud.ply"))
  10. else: #否则,调用 create_from_pcd 方法根据场景信息中的点云数据创建高斯模型。
  11. self.gaussians.create_from_pcd(scene_info.point_cloud, self.cameras_extent)



  1. # Densification(在一定的迭代次数内进行密集化处理。)
  2. if iteration < opt.densify_until_iter: #在达到指定的迭代次数之前执行以下操作。
  3. # Keep track of max radii in image-space for pruning
  4. gaussians.max_radii2D[visibility_filter] = torch.max(gaussians.max_radii2D[visibility_filter], radii[visibility_filter]) #将每个像素位置上的最大半径记录在 max_radii2D 中。这是为了密集化时进行修剪(pruning)操作时的参考。
  5. gaussians.add_densification_stats(viewspace_point_tensor, visibility_filter) #将与密集化相关的统计信息添加到 gaussians 模型中,包括视图空间点和可见性过滤器。
  6. if iteration > opt.densify_from_iter and iteration % opt.densification_interval == 0: #在指定的迭代次数之后,每隔一定的迭代间隔进行以下密集化操作。
  7. size_threshold = 20 if iteration > opt.opacity_reset_interval else None #根据当前迭代次数设置密集化的阈值。如果当前迭代次数大于 opt.opacity_reset_interval,则设置 size_threshold 为 20,否则为 None。
  8. gaussians.densify_and_prune(opt.densify_grad_threshold, 0.005, scene.cameras_extent, size_threshold) #执行密集化和修剪操作,其中包括梯度阈值、密集化阈值、相机范围和之前计算的 size_threshold。
  9. if iteration % opt.opacity_reset_interval == 0 or (dataset.white_background and iteration == opt.densify_from_iter): #在每隔一定迭代次数或在白色背景数据集上的指定迭代次数时,执行以下操作。
  10. gaussians.reset_opacity() #重置模型中的某些参数,涉及到透明度的操作,具体实现可以在 reset_opacity 方法中找到。


  1. # 执行密集化和修剪操作
  2. def densify_and_prune(self, max_grad, min_opacity, extent, max_screen_size):
  3. grads = self.xyz_gradient_accum / self.denom #计算密度估计的梯度
  4. grads[grads.isnan()] = 0.0 #将梯度中的 NaN(非数值)值设置为零,以处理可能的数值不稳定性。
  5. self.densify_and_clone(grads, max_grad, extent) #对under reconstruction的区域进行稠密化和复制操作
  6. self.densify_and_split(grads, max_grad, extent) #对over reconstruction的区域进行稠密化和分割操作
  7. prune_mask = (self.get_opacity < min_opacity).squeeze() #创建一个掩码,标记那些透明度小于指定阈值的点。.squeeze() 用于去除掩码中的单维度。
  8. if max_screen_size: #如何设置了相机的范围,
  9. big_points_vs = self.max_radii2D > max_screen_size #创建一个掩码,标记在图像空间中半径大于指定阈值的点。
  10. big_points_ws = self.get_scaling.max(dim=1).values > 0.1 * extent #创建一个掩码,标记在世界空间中尺寸大于指定阈值的点。
  11. prune_mask = torch.logical_or(torch.logical_or(prune_mask, big_points_vs), big_points_ws) #将这两个掩码与先前的透明度掩码进行逻辑或操作,得到最终的修剪掩码。
  12. self.prune_points(prune_mask) #:根据修剪掩码,修剪模型中的一些参数。
  13. torch.cuda.empty_cache() #清理 GPU 缓存,释放一些内存


  1. def densify_and_clone(self, grads, grad_threshold, scene_extent):
  2. # Extract points that satisfy the gradient condition
  3. selected_pts_mask = torch.where(torch.norm(grads, dim=-1) >= grad_threshold, True, False) #建一个掩码,标记满足梯度条件的点。具体来说,对于每个点,计算其梯度的L2范数,如果大于等于指定的梯度阈值,则标记为True,否则标记为False。
  4. selected_pts_mask = torch.logical_and(selected_pts_mask,
  5. torch.max(self.get_scaling, dim=1).values <= self.percent_dense*scene_extent)
  6. # 在上述掩码的基础上,进一步过滤掉那些缩放(scaling)大于一定百分比(self.percent_dense)的场景范围(scene_extent)的点。这样可以确保新添加的点不会太远离原始数据。
  7. # 根据掩码选取符合条件的点的其他特征,如颜色、透明度、缩放和旋转等。
  8. new_xyz = self._xyz[selected_pts_mask]
  9. new_features_dc = self._features_dc[selected_pts_mask]
  10. new_features_rest = self._features_rest[selected_pts_mask]
  11. new_opacities = self._opacity[selected_pts_mask]
  12. new_scaling = self._scaling[selected_pts_mask]
  13. new_rotation = self._rotation[selected_pts_mask]
  14. self.densification_postfix(new_xyz, new_features_dc, new_features_rest, new_opacities, new_scaling, new_rotation)


  1. # 将新的密集化点的相关特征保存在一个字典中。
  2. def densification_postfix(self, new_xyz, new_features_dc, new_features_rest, new_opacities, new_scaling, new_rotation):
  3. d = {"xyz": new_xyz,
  4. "f_dc": new_features_dc,
  5. "f_rest": new_features_rest,
  6. "opacity": new_opacities,
  7. "scaling" : new_scaling,
  8. "rotation" : new_rotation}
  9. optimizable_tensors = self.cat_tensors_to_optimizer(d) #将字典中的张量连接(concatenate)成可优化的张量。这个方法的具体实现可能是将字典中的每个张量进行堆叠,以便于在优化器中进行处理。
  10. # 更新模型中原始点集的相关特征,使用新的密集化后的特征。
  11. self._xyz = optimizable_tensors["xyz"]
  12. self._features_dc = optimizable_tensors["f_dc"]
  13. self._features_rest = optimizable_tensors["f_rest"]
  14. self._opacity = optimizable_tensors["opacity"]
  15. self._scaling = optimizable_tensors["scaling"]
  16. self._rotation = optimizable_tensors["rotation"]
  17. # 重新初始化一些用于梯度计算和密集化操作的变量。
  18. self.xyz_gradient_accum = torch.zeros((self.get_xyz.shape[0], 1), device="cuda")
  19. self.denom = torch.zeros((self.get_xyz.shape[0], 1), device="cuda")
  20. self.max_radii2D = torch.zeros((self.get_xyz.shape[0]), device="cuda")


  1. def densify_and_split(self, grads, grad_threshold, scene_extent, N=2):
  2. n_init_points = self.get_xyz.shape[0] #获取初始点的数量。
  3. # Extract points that satisfy the gradient condition
  4. padded_grad = torch.zeros((n_init_points), device="cuda") #创建一个长度为初始点数量的梯度张量,并将计算得到的梯度填充到其中。
  5. padded_grad[:grads.shape[0]] = grads.squeeze()
  6. selected_pts_mask = torch.where(padded_grad >= grad_threshold, True, False) #创建一个掩码,标记那些梯度大于等于指定阈值的点。
  7. selected_pts_mask = torch.logical_and(selected_pts_mask,
  8. torch.max(self.get_scaling, dim=1).values > self.percent_dense*scene_extent)
  9. # 一步过滤掉那些缩放(scaling)大于一定百分比的场景范围的点。
  10. # 为每个点生成新的样本,其中 stds 是点的缩放,means 是均值。
  11. stds = self.get_scaling[selected_pts_mask].repeat(N,1)
  12. means =torch.zeros((stds.size(0), 3),device="cuda")
  13. samples = torch.normal(mean=means, std=stds) #使用均值和标准差生成样本。
  14. rots = build_rotation(self._rotation[selected_pts_mask]).repeat(N,1,1) #为每个点构建旋转矩阵,并将其重复 N 次。
  15. new_xyz = torch.bmm(rots, samples.unsqueeze(-1)).squeeze(-1) + self.get_xyz[selected_pts_mask].repeat(N, 1) #将旋转后的样本点添加到原始点的位置。
  16. new_scaling = self.scaling_inverse_activation(self.get_scaling[selected_pts_mask].repeat(N,1) / (0.8*N)) #生成新的缩放参数。
  17. new_rotation = self._rotation[selected_pts_mask].repeat(N,1) #将旋转矩阵重复 N 次。
  18. # 将原始点的特征重复 N 次。
  19. new_features_dc = self._features_dc[selected_pts_mask].repeat(N,1,1)
  20. new_features_rest = self._features_rest[selected_pts_mask].repeat(N,1,1)
  21. new_opacity = self._opacity[selected_pts_mask].repeat(N,1)
  22. # 调用另一个方法 densification_postfix,该方法对新生成的点执行后处理操作(此处跟densify_and_clone一样)。
  23. self.densification_postfix(new_xyz, new_features_dc, new_features_rest, new_opacity, new_scaling, new_rotation)
  24. # 创建一个修剪(pruning)的过滤器,将新生成的点添加到原始点的掩码之后。
  25. prune_filter = torch.cat((selected_pts_mask, torch.zeros(N * selected_pts_mask.sum(), device="cuda", dtype=bool)))
  26. # 根据修剪过滤器,修剪模型中的一些参数。
  27. self.prune_points(prune_filter)



  1. # Render (渲染图像,计算损失(L1 loss 和 SSIM loss))
  2. if (iteration - 1) == debug_from:
  3. pipe.debug = True
  4. bg = torch.rand((3), device="cuda") if opt.random_background else background
  5. render_pkg = render(viewpoint_cam, gaussians, pipe, bg)
  6. image, viewspace_point_tensor, visibility_filter, radii = render_pkg["render"], render_pkg["viewspace_points"], render_pkg["visibility_filter"], render_pkg["radii"]
  7. # Loss
  8. gt_image = viewpoint_cam.original_image.cuda()
  9. Ll1 = l1_loss(image, gt_image)
  10. loss = (1.0 - opt.lambda_dssim) * Ll1 + opt.lambda_dssim * (1.0 - ssim(image, gt_image)) #计算渲染的图像与真实图像之间的loss
  11. loss.backward() #更新损失。loss反向传播



  1. # 这段代码是一个用于渲染场景的函数,主要是通过将高斯分布的点投影到2D屏幕上来生成渲染图像。
  2. def render(viewpoint_camera, pc : GaussianModel, pipe, bg_color : torch.Tensor, scaling_modifier = 1.0, override_color = None):
  3. """
  4. Render the scene.
  5. Background tensor (bg_color) must be on GPU!
  6. """
  7. # Create zero tensor. We will use it to make pytorch return gradients of the 2D (screen-space) means
  8. # 创建一个与输入点云(高斯模型)大小相同的零张量,用于记录屏幕空间中的点的位置。这个张量将用于计算对于屏幕空间坐标的梯度。
  9. screenspace_points = torch.zeros_like(pc.get_xyz, dtype=pc.get_xyz.dtype, requires_grad=True, device="cuda") + 0
  10. try:
  11. screenspace_points.retain_grad() #尝试保留张量的梯度。这是为了确保可以在反向传播过程中计算对于屏幕空间坐标的梯度。
  12. except:
  13. pass
  14. # Set up rasterization configuration
  15. # 计算视场的 tan 值,这将用于设置光栅化配置。
  16. tanfovx = math.tan(viewpoint_camera.FoVx * 0.5)
  17. tanfovy = math.tan(viewpoint_camera.FoVy * 0.5)
  18. # 设置光栅化的配置,包括图像的大小、视场的 tan 值、背景颜色、视图矩阵、投影矩阵等。
  19. raster_settings = GaussianRasterizationSettings(
  20. image_height=int(viewpoint_camera.image_height),
  21. image_width=int(viewpoint_camera.image_width),
  22. tanfovx=tanfovx,
  23. tanfovy=tanfovy,
  24. bg=bg_color,
  25. scale_modifier=scaling_modifier,
  26. viewmatrix=viewpoint_camera.world_view_transform,
  27. projmatrix=viewpoint_camera.full_proj_transform,
  28. sh_degree=pc.active_sh_degree,
  29. campos=viewpoint_camera.camera_center,
  30. prefiltered=False,
  31. debug=pipe.debug
  32. )
  33. rasterizer = GaussianRasterizer(raster_settings=raster_settings)#创建一个高斯光栅化器对象,用于将高斯分布投影到屏幕上。
  34. # 获取高斯分布的三维坐标、屏幕空间坐标和透明度。
  35. means3D = pc.get_xyz
  36. means2D = screenspace_points
  37. opacity = pc.get_opacity
  38. # If precomputed 3d covariance is provided, use it. If not, then it will be computed from
  39. # scaling / rotation by the rasterizer.
  40. # 如果提供了预先计算的3D协方差矩阵,则使用它。否则,它将由光栅化器根据尺度和旋转进行计算。
  41. scales = None
  42. rotations = None
  43. cov3D_precomp = None
  44. if pipe.compute_cov3D_python:
  45. cov3D_precomp = pc.get_covariance(scaling_modifier) #获取预计算的三维协方差矩阵。
  46. else: #获取缩放和旋转信息。(对应的就是3D高斯的协方差矩阵了)
  47. scales = pc.get_scaling
  48. rotations = pc.get_rotation
  49. # If precomputed colors are provided, use them. Otherwise, if it is desired to precompute colors
  50. # from SHs in Python, do it. If not, then SH -> RGB conversion will be done by rasterizer.
  51. # 如果提供了预先计算的颜色,则使用它们。否则,如果希望在Python中从球谐函数中预计算颜色,请执行此操作。如果没有,则颜色将通过光栅化器进行从球谐函数到RGB的转换。
  52. shs = None
  53. colors_precomp = None
  54. if override_color is None:
  55. if pipe.convert_SHs_python:
  56. shs_view = pc.get_features.transpose(1, 2).view(-1, 3, (pc.max_sh_degree+1)**2) #将SH特征的形状调整为(batch_size * num_points,3,(max_sh_degree+1)**2)。
  57. dir_pp = (pc.get_xyz - viewpoint_camera.camera_center.repeat(pc.get_features.shape[0], 1)) #计算相机中心到每个点的方向向量,并归一化。
  58. dir_pp_normalized = dir_pp/dir_pp.norm(dim=1, keepdim=True) #计算相机中心到每个点的方向向量,并归一化。
  59. sh2rgb = eval_sh(pc.active_sh_degree, shs_view, dir_pp_normalized) #使用SH特征将方向向量转换为RGB颜色。
  60. colors_precomp = torch.clamp_min(sh2rgb + 0.5, 0.0) #将RGB颜色的范围限制在0到1之间。
  61. else:
  62. shs = pc.get_features
  63. else:
  64. colors_precomp = override_color
  65. # Rasterize visible Gaussians to image, obtain their radii (on screen).
  66. # 调用光栅化器,将高斯分布投影到屏幕上,获得渲染图像和每个高斯分布在屏幕上的半径。
  67. rendered_image, radii = rasterizer(
  68. means3D = means3D,
  69. means2D = means2D,
  70. shs = shs,
  71. colors_precomp = colors_precomp,
  72. opacities = opacity,
  73. scales = scales,
  74. rotations = rotations,
  75. cov3D_precomp = cov3D_precomp)
  76. # Those Gaussians that were frustum culled or had a radius of 0 were not visible.
  77. # They will be excluded from value updates used in the splitting criteria.
  78. # 返回一个字典,包含渲染的图像、屏幕空间坐标、可见性过滤器(根据半径判断是否可见)以及每个高斯分布在屏幕上的半径。
  79. return {"render": rendered_image,
  80. "viewspace_points": screenspace_points,
  81. "visibility_filter" : radii > 0,
  82. "radii": radii}


  1. if pipe.convert_SHs_python:
  2. shs_view = pc.get_features.transpose(1, 2).view(-1, 3, (pc.max_sh_degree+1)**2) #将SH特征的形状调整为(batch_size * num_points,3,(max_sh_degree+1)**2)。
  3. dir_pp = (pc.get_xyz - viewpoint_camera.camera_center.repeat(pc.get_features.shape[0], 1)) #计算相机中心到每个点的方向向量,并归一化。
  4. dir_pp_normalized = dir_pp/dir_pp.norm(dim=1, keepdim=True) #计算相机中心到每个点的方向向量,并归一化。
  5. sh2rgb = eval_sh(pc.active_sh_degree, shs_view, dir_pp_normalized) #使用SH特征将方向向量转换为RGB颜色。
  6. colors_precomp = torch.clamp_min(sh2rgb + 0.5, 0.0) #将RGB颜色的范围限制在0到1之间。


from diff_gaussian_rasterization import GaussianRasterizationSettings, GaussianRasterizer



  1. class GaussianRasterizationSettings(NamedTuple):
  2. image_height: int
  3. image_width: int
  4. tanfovx : float
  5. tanfovy : float
  6. bg : torch.Tensor
  7. scale_modifier : float
  8. viewmatrix : torch.Tensor
  9. projmatrix : torch.Tensor
  10. sh_degree : int
  11. campos : torch.Tensor
  12. prefiltered : bool
  13. debug : bool
  1. class GaussianRasterizer(nn.Module):
  2. def __init__(self, raster_settings):
  3. super().__init__()
  4. self.raster_settings = raster_settings


  1. # Rasterize visible Gaussians to image, obtain their radii (on screen).
  2. # 调用光栅化器,将高斯分布投影到屏幕上,获得渲染图像和每个高斯分布在屏幕上的半径。
  3. rendered_image, radii = rasterizer(
  4. means3D = means3D,
  5. means2D = means2D,
  6. shs = shs,
  7. colors_precomp = colors_precomp,
  8. opacities = opacity,
  9. scales = scales,
  10. rotations = rotations,
  11. cov3D_precomp = cov3D_precomp)


  1. # 用于高斯光栅化(Gaussian Rasterization)的PyTorch模块
  2. class GaussianRasterizer(nn.Module): #定义了一个继承自nn.Module的类,表示高斯光栅化器。
  3. #初始化方法,接受一个raster_settings参数,该参数包含了光栅化的设置(例如图像大小、视场、背景颜色等)。
  4. def __init__(self, raster_settings):
  5. super().__init__()
  6. self.raster_settings = raster_settings
  7. # 标记可见点的方法。接受3D点的位置作为输入,并使用C++/CUDA代码执行视锥体剔除,返回一个布尔张量,表示每个点是否可见。
  8. def markVisible(self, positions):
  9. # Mark visible points (based on frustum culling for camera) with a boolean
  10. with torch.no_grad():
  11. raster_settings = self.raster_settings
  12. visible = _C.mark_visible(
  13. positions,
  14. raster_settings.viewmatrix,
  15. raster_settings.projmatrix)
  16. return visible
  17. # 前向传播方法,用于进行高斯光栅化操作。接受一系列输入参数,包括3D坐标、2D坐标、透明度、SH特征或预计算的颜色、缩放、旋转或预计算的3D协方差等。
  18. def forward(self, means3D, means2D, opacities, shs = None, colors_precomp = None, scales = None, rotations = None, cov3D_precomp = None):
  19. raster_settings = self.raster_settings
  20. # 检查SH特征和预计算的颜色是否同时提供,要求只提供其中一种。
  21. if (shs is None and colors_precomp is None) or (shs is not None and colors_precomp is not None):
  22. raise Exception('Please provide excatly one of either SHs or precomputed colors!')
  23. # 检查缩放/旋转对或预计算的3D协方差是否同时提供,要求只提供其中一种。
  24. if ((scales is None or rotations is None) and cov3D_precomp is None) or ((scales is not None or rotations is not None) and cov3D_precomp is not None):
  25. raise Exception('Please provide exactly one of either scale/rotation pair or precomputed 3D covariance!')
  26. # 如果某个输入参数为None,则将其初始化为空张量。
  27. if shs is None:
  28. shs = torch.Tensor([])
  29. if colors_precomp is None:
  30. colors_precomp = torch.Tensor([])
  31. if scales is None:
  32. scales = torch.Tensor([])
  33. if rotations is None:
  34. rotations = torch.Tensor([])
  35. if cov3D_precomp is None:
  36. cov3D_precomp = torch.Tensor([])
  37. # 调用C++/CUDA光栅化例程rasterize_gaussians,传递相应的输入参数和光栅化设置。
  38. # Invoke C++/CUDA rasterization routine
  39. return rasterize_gaussians(
  40. means3D,
  41. means2D,
  42. shs,
  43. colors_precomp,
  44. opacities,
  45. scales,
  46. rotations,
  47. cov3D_precomp,
  48. raster_settings,
  49. )


  1. def rasterize_gaussians( #这个函数调用了一个自定义的PyTorch Autograd Function _RasterizeGaussians.apply,并传递了一系列参数进行高斯光栅化。
  2. means3D,
  3. means2D,
  4. sh,
  5. colors_precomp,
  6. opacities,
  7. scales,
  8. rotations,
  9. cov3Ds_precomp,
  10. raster_settings,
  11. ):
  12. return _RasterizeGaussians.apply(
  13. means3D, #高斯分布的三维坐标。
  14. means2D, #高斯分布的二维坐标(屏幕空间坐标)。
  15. sh, #SH(球谐函数)特征。
  16. colors_precomp, #预计算的颜色。
  17. opacities, #透明度
  18. scales, #缩放因子
  19. rotations, #旋转
  20. cov3Ds_precomp, #预计算的三维协方差矩阵。
  21. raster_settings, #高斯光栅化的设置。
  22. )


  1. # 这是一个自定义的 PyTorch Autograd Function,用于高斯光栅化的前向传播和反向传播。
  2. class _RasterizeGaussians(torch.autograd.Function):
  3. @staticmethod
  4. def forward( #用于定义前向渲染的规则,接受一系列输入参数,并调用 C++/CUDA 实现的 _C.rasterize_gaussians 方法进行高斯光栅化。
  5. ctx, #上下文对象,用于保存计算中间结果以供反向传播使用。(后面几个是输入参数。)
  6. means3D,
  7. means2D,
  8. sh,
  9. colors_precomp,
  10. opacities,
  11. scales,
  12. rotations,
  13. cov3Ds_precomp,
  14. raster_settings,
  15. ):
  16. # Restructure arguments the way that the C++ lib expects them
  17. args = (
  18. raster_settings.bg,
  19. means3D,
  20. colors_precomp,
  21. opacities,
  22. scales,
  23. rotations,
  24. raster_settings.scale_modifier,
  25. cov3Ds_precomp,
  26. raster_settings.viewmatrix,
  27. raster_settings.projmatrix,
  28. raster_settings.tanfovx,
  29. raster_settings.tanfovy,
  30. raster_settings.image_height,
  31. raster_settings.image_width,
  32. sh,
  33. raster_settings.sh_degree,
  34. raster_settings.campos,
  35. raster_settings.prefiltered,
  36. raster_settings.debug
  37. )
  38. # Invoke C++/CUDA rasterizer
  39. if raster_settings.debug:
  40. cpu_args = cpu_deep_copy_tuple(args) # Copy them before they can be corrupted
  41. try:
  42. num_rendered, color, radii, geomBuffer, binningBuffer, imgBuffer = _C.rasterize_gaussians(*args) #C++/CUDA 光栅化计算的输出结果。
  43. except Exception as ex:
  44. torch.save(cpu_args, "snapshot_fw.dump")
  45. print("\nAn error occured in forward. Please forward snapshot_fw.dump for debugging.")
  46. raise ex
  47. else:
  48. num_rendered, color, radii, geomBuffer, binningBuffer, imgBuffer = _C.rasterize_gaussians(*args)
  49. # Keep relevant tensors for backward
  50. ctx.raster_settings = raster_settings
  51. ctx.num_rendered = num_rendered
  52. ctx.save_for_backward(colors_precomp, means3D, scales, rotations, cov3Ds_precomp, radii, sh, geomBuffer, binningBuffer, imgBuffer)
  53. return color, radii
  54. @staticmethod
  55. def backward(ctx, grad_out_color, _): #方法用于定义反向传播梯度下降的规则,接受输入的梯度
  56. # Restore necessary values from context
  57. num_rendered = ctx.num_rendered
  58. raster_settings = ctx.raster_settings
  59. colors_precomp, means3D, scales, rotations, cov3Ds_precomp, radii, sh, geomBuffer, binningBuffer, imgBuffer = ctx.saved_tensors
  60. # Restructure args as C++ method expects them
  61. # 将梯度和其他输入参数重构为 C++ 方法所期望的形式。
  62. args = (raster_settings.bg,
  63. means3D,
  64. radii,
  65. colors_precomp,
  66. scales,
  67. rotations,
  68. raster_settings.scale_modifier,
  69. cov3Ds_precomp,
  70. raster_settings.viewmatrix,
  71. raster_settings.projmatrix,
  72. raster_settings.tanfovx,
  73. raster_settings.tanfovy,
  74. grad_out_color,
  75. sh,
  76. raster_settings.sh_degree,
  77. raster_settings.campos,
  78. geomBuffer,
  79. num_rendered,
  80. binningBuffer,
  81. imgBuffer,
  82. raster_settings.debug)
  83. # Compute gradients for relevant tensors by invoking backward method
  84. # 注意,该函数中包含了对调试模式的处理,即如果启用了调试模式,则在计算前向和反向传播时保存了参数的副本,并在出现异常时将其保存到文件中,以供调试。
  85. if raster_settings.debug:
  86. cpu_args = cpu_deep_copy_tuple(args) # Copy them before they can be corrupted
  87. try:
  88. grad_means2D, grad_colors_precomp, grad_opacities, grad_means3D, grad_cov3Ds_precomp, grad_sh, grad_scales, grad_rotations = _C.rasterize_gaussians_backward(*args)
  89. except Exception as ex:
  90. torch.save(cpu_args, "snapshot_bw.dump")
  91. print("\nAn error occured in backward. Writing snapshot_bw.dump for debugging.\n")
  92. raise ex
  93. else:
  94. grad_means2D, grad_colors_precomp, grad_opacities, grad_means3D, grad_cov3Ds_precomp, grad_sh, grad_scales, grad_rotations = _C.rasterize_gaussians_backward(*args)
  95. #梯度
  96. grads = (
  97. grad_means3D,
  98. grad_means2D,
  99. grad_sh,
  100. grad_colors_precomp,
  101. grad_opacities,
  102. grad_scales,
  103. grad_rotations,
  104. grad_cov3Ds_precomp,
  105. None,
  106. )
  107. return grads



先看预处理,该函数使用了CUDA并行计算,通过调用名为 preprocessCUDA 的 CUDA 核函数来执行高斯光栅化的前处理。CUDA 核函数的执行由函数参数确定。在 CUDA 核函数中,每个线程块由多个线程组成,负责处理其中的一部分数据,从而加速高斯光栅化的计算。

  1. void FORWARD::preprocess(int P, int D, int M,
  2. const float* means3D,
  3. const glm::vec3* scales,
  4. const float scale_modifier,
  5. const glm::vec4* rotations,
  6. const float* opacities,
  7. const float* shs,
  8. bool* clamped,
  9. const float* cov3D_precomp,
  10. const float* colors_precomp,
  11. const float* viewmatrix,
  12. const float* projmatrix,
  13. const glm::vec3* cam_pos,
  14. const int W, int H,
  15. const float focal_x, float focal_y,
  16. const float tan_fovx, float tan_fovy,
  17. int* radii,
  18. float2* means2D,
  19. float* depths,
  20. float* cov3Ds,
  21. float* rgb,
  22. float4* conic_opacity,
  23. const dim3 grid,
  24. uint32_t* tiles_touched,
  25. bool prefiltered)
  26. {
  27. preprocessCUDA<NUM_CHANNELS> << <(P + 255) / 256, 256 >> > (
  28. P, D, M,
  29. means3D,
  30. scales,
  31. scale_modifier,
  32. rotations,
  33. opacities,
  34. shs,
  35. clamped,
  36. cov3D_precomp,
  37. colors_precomp,
  38. viewmatrix,
  39. projmatrix,
  40. cam_pos,
  41. W, H,
  42. tan_fovx, tan_fovy,
  43. focal_x, focal_y,
  44. radii,
  45. means2D,
  46. depths,
  47. cov3Ds,
  48. rgb,
  49. conic_opacity,
  50. grid,
  51. tiles_touched,
  52. prefiltered
  53. );
  54. }

而这个 CUDA 核函数的目的是为每个高斯分布进行预处理,为后续的高斯光栅化做好准备。

  1. // Perform initial steps for each Gaussian prior to rasterization.
  2. template<int C>
  3. __global__ void preprocessCUDA(
  4. int P, //高斯分布的点的数量。
  5. int D, //高斯分布的维度。
  6. int M, //点云数量。
  7. const float* orig_points, //三维坐标。
  8. const glm::vec3* scales, //缩放。
  9. const float scale_modifier, //缩放调整因子。
  10. const glm::vec4* rotations, //旋转。
  11. const float* opacities, //透明度。
  12. const float* shs, //球谐函数(SH)特征。
  13. bool* clamped, //用于记录是否被裁剪。
  14. const float* cov3D_precomp, //预计算的三维协方差。
  15. const float* colors_precomp, //预计算的颜色。
  16. const float* viewmatrix, //视图矩阵。
  17. const float* projmatrix, //投影矩阵
  18. const glm::vec3* cam_pos, //相机位置。
  19. const int W, int H, //输出图像的宽度和高度。
  20. const float tan_fovx, float tan_fovy, //水平和垂直方向的焦距切线。
  21. const float focal_x, float focal_y, //焦距。
  22. int* radii, //输出的半径。
  23. float2* points_xy_image, //输出的二维坐标。
  24. float* depths, //输出的深度。
  25. float* cov3Ds, //输出的三维协方差。
  26. float* rgb, // 输出的颜色。
  27. float4* conic_opacity, //锥形透明度。
  28. const dim3 grid, //CUDA 网格的大小。
  29. uint32_t* tiles_touched,
  30. bool prefiltered) //是否预过滤。
  31. {
  32. auto idx = cg::this_grid().thread_rank();
  33. if (idx >= P)
  34. return;
  35. // Initialize radius and touched tiles to 0. If this isn't changed,
  36. // this Gaussian will not be processed further.
  37. // 首先,初始化了一些变量,包括半径(radii)和触及到的瓦片数量(tiles_touched)。
  38. radii[idx] = 0;
  39. tiles_touched[idx] = 0;
  40. // Perform near culling, quit if outside.
  41. // 使用 in_frustum 函数进行近裁剪,如果点在视锥体之外,则退出。
  42. float3 p_view;
  43. if (!in_frustum(idx, orig_points, viewmatrix, projmatrix, prefiltered, p_view))
  44. return;
  45. // Transform point by projecting
  46. // 对原始点进行投影变换,计算其在屏幕上的坐标。
  47. float3 p_orig = { orig_points[3 * idx], orig_points[3 * idx + 1], orig_points[3 * idx + 2] };
  48. float4 p_hom = transformPoint4x4(p_orig, projmatrix);
  49. float p_w = 1.0f / (p_hom.w + 0.0000001f);
  50. float3 p_proj = { p_hom.x * p_w, p_hom.y * p_w, p_hom.z * p_w };
  51. // If 3D covariance matrix is precomputed, use it, otherwise compute
  52. // from scaling and rotation parameters.
  53. // 根据输入的缩放和旋转参数,计算或使用预计算的3D协方差矩阵。
  54. const float* cov3D;
  55. if (cov3D_precomp != nullptr)
  56. {
  57. cov3D = cov3D_precomp + idx * 6;
  58. }
  59. else
  60. {
  61. computeCov3D(scales[idx], scale_modifier, rotations[idx], cov3Ds + idx * 6);
  62. cov3D = cov3Ds + idx * 6;
  63. }
  64. // Compute 2D screen-space covariance matrix
  65. // 根据3D协方差矩阵、焦距和视锥体矩阵,计算2D屏幕空间的协方差矩阵。
  66. float3 cov = computeCov2D(p_orig, focal_x, focal_y, tan_fovx, tan_fovy, cov3D, viewmatrix);
  67. // Invert covariance (EWA algorithm)
  68. // 对协方差矩阵进行求逆操作,用于EWA(Elliptical Weighted Average)算法。
  69. float det = (cov.x * cov.z - cov.y * cov.y);
  70. if (det == 0.0f)
  71. return;
  72. float det_inv = 1.f / det;
  73. float3 conic = { cov.z * det_inv, -cov.y * det_inv, cov.x * det_inv };
  74. // Compute extent in screen space (by finding eigenvalues of
  75. // 2D covariance matrix). Use extent to compute a bounding rectangle
  76. // of screen-space tiles that this Gaussian overlaps with. Quit if
  77. // rectangle covers 0 tiles.
  78. // 计算2D协方差矩阵的特征值,用于计算屏幕空间的范围,以确定与之相交的瓦片。
  79. float mid = 0.5f * (cov.x + cov.z);
  80. float lambda1 = mid + sqrt(max(0.1f, mid * mid - det));
  81. float lambda2 = mid - sqrt(max(0.1f, mid * mid - det));
  82. float my_radius = ceil(3.f * sqrt(max(lambda1, lambda2)));
  83. float2 point_image = { ndc2Pix(p_proj.x, W), ndc2Pix(p_proj.y, H) };
  84. uint2 rect_min, rect_max;
  85. getRect(point_image, my_radius, rect_min, rect_max, grid);
  86. if ((rect_max.x - rect_min.x) * (rect_max.y - rect_min.y) == 0)
  87. return;
  88. // If colors have been precomputed, use them, otherwise convert
  89. // spherical harmonics coefficients to RGB color.
  90. // 如果预计算颜色未提供,则使用球谐函数(SH)系数计算颜色。
  91. if (colors_precomp == nullptr)
  92. {
  93. glm::vec3 result = computeColorFromSH(idx, D, M, (glm::vec3*)orig_points, *cam_pos, shs, clamped);
  94. rgb[idx * C + 0] = result.x;
  95. rgb[idx * C + 1] = result.y;
  96. rgb[idx * C + 2] = result.z;
  97. }
  98. // 储计算得到的深度、半径、屏幕坐标等结果,用于下一步继续处理。
  99. // 为每个高斯分布进行预处理,为后续的高斯光栅化做好准备。
  100. // Store some useful helper data for the next steps.
  101. depths[idx] = p_view.z;
  102. radii[idx] = my_radius;
  103. points_xy_image[idx] = point_image;
  104. // Inverse 2D covariance and opacity neatly pack into one float4
  105. conic_opacity[idx] = { conic.x, conic.y, conic.z, opacities[idx] };
  106. tiles_touched[idx] = (rect_max.y - rect_min.y) * (rect_max.x - rect_min.x);
  107. }


  1. void FORWARD::render(
  2. const dim3 grid, dim3 block,
  3. const uint2* ranges,
  4. const uint32_t* point_list,
  5. int W, int H,
  6. const float2* means2D,
  7. const float* colors,
  8. const float4* conic_opacity,
  9. float* final_T,
  10. uint32_t* n_contrib,
  11. const float* bg_color,
  12. float* out_color)
  13. {
  14. renderCUDA<NUM_CHANNELS> << <grid, block >> > (
  15. ranges,
  16. point_list,
  17. W, H,
  18. means2D,
  19. colors,
  20. conic_opacity,
  21. final_T,
  22. n_contrib,
  23. bg_color,
  24. out_color);
  25. }


  1. 通过计算当前线程所属的 tile 的范围,确定当前线程要处理的像素区域。

  2. 判断当前线程是否在有效像素范围内,如果不在,则将 done 设置为 true,表示该线程不执行渲染操作。

  3. 使用 __syncthreads_count 函数,统计当前块内 done 变量为 true 的线程数,如果全部线程都完成,跳出循环。

  4. 在每个迭代中,从全局内存中收集每个线程块对应的范围内的数据,包括点的索引、2D 坐标和锥体参数透明度。

  5. 对当前线程块内的每个点,进行基于锥体参数的渲染,计算贡献并更新颜色。

  6. 所有线程处理完毕后,将渲染结果写入 final_Tn_contribout_color

  1. // Main rasterization method. Collaboratively works on one tile per
  2. // block, each thread treats one pixel. Alternates between fetching
  3. // and rasterizing data.
  4. template <uint32_t CHANNELS>
  5. __global__ void __launch_bounds__(BLOCK_X * BLOCK_Y)// 这是 CUDA 启动核函数时使用的线程格和线程块的数量。
  6. renderCUDA(
  7. const uint2* __restrict__ ranges, //包含了每个范围的起始和结束索引的数组。
  8. const uint32_t* __restrict__ point_list, //包含了点的索引的数组。
  9. int W, int H, //图像的宽度和高度。
  10. const float2* __restrict__ points_xy_image, //包含每个点在屏幕上的坐标的数组。
  11. const float* __restrict__ features, //包含每个点的颜色信息的数组。
  12. const float4* __restrict__ conic_opacity, //包含每个点的锥体参数和透明度信息的数组。
  13. float* __restrict__ final_T, //用于存储每个像素的最终颜色的数组。(多个叠加?)
  14. uint32_t* __restrict__ n_contrib, //用于存储每个像素的贡献计数的数组。
  15. const float* __restrict__ bg_color, //如果提供了背景颜色,将其作为背景。
  16. float* __restrict__ out_color) //存储最终渲染结果的数组。
  17. {
  18. // 1.确定当前像素范围:
  19. // 这部分代码用于确定当前线程块要处理的像素范围,包括 pix_min 和 pix_max,并计算当前线程对应的像素坐标 pix。
  20. // Identify current tile and associated min/max pixel range.
  21. auto block = cg::this_thread_block();
  22. uint32_t horizontal_blocks = (W + BLOCK_X - 1) / BLOCK_X;
  23. uint2 pix_min = { block.group_index().x * BLOCK_X, block.group_index().y * BLOCK_Y };
  24. uint2 pix_max = { min(pix_min.x + BLOCK_X, W), min(pix_min.y + BLOCK_Y , H) };
  25. uint2 pix = { pix_min.x + block.thread_index().x, pix_min.y + block.thread_index().y };
  26. uint32_t pix_id = W * pix.y + pix.x;
  27. float2 pixf = { (float)pix.x, (float)pix.y };
  28. // 2.判断当前线程是否在有效像素范围内:
  29. // 根据像素坐标判断当前线程是否在有效的图像范围内,如果不在,则将 done 设置为 true,表示该线程无需执行渲染操作。
  30. // Check if this thread is associated with a valid pixel or outside.
  31. bool inside = pix.x < W&& pix.y < H;
  32. // Done threads can help with fetching, but don't rasterize
  33. bool done = !inside;
  34. // 3.加载点云数据处理范围:
  35. // 这部分代码加载当前线程块要处理的点云数据的范围,即 ranges 数组中对应的范围,并计算点云数据的迭代批次 rounds 和总共要处理的点数 toDo。
  36. // Load start/end range of IDs to process in bit sorted list.
  37. uint2 range = ranges[block.group_index().y * horizontal_blocks + block.group_index().x];
  38. const int rounds = ((range.y - range.x + BLOCK_SIZE - 1) / BLOCK_SIZE);
  39. int toDo = range.y - range.x;
  40. // 4. 初始化共享内存:
  41. // 分别定义三个共享内存数组,用于在每个线程块内共享数据。
  42. // Allocate storage for batches of collectively fetched data.
  43. __shared__ int collected_id[BLOCK_SIZE];
  44. __shared__ float2 collected_xy[BLOCK_SIZE];
  45. __shared__ float4 collected_conic_opacity[BLOCK_SIZE];
  46. // 5.初始化渲染相关变量:
  47. // 初始化渲染所需的一些变量,包括当前像素颜色 C、贡献者数量等。
  48. // Initialize helper variables
  49. float T = 1.0f;
  50. uint32_t contributor = 0;
  51. uint32_t last_contributor = 0;
  52. float C[CHANNELS] = { 0 };
  53. // 6.迭代处理点云数据:
  54. // 在每个迭代中,处理一批点云数据。内部循环迭代每个点,进行基于锥体参数的渲染计算,并更新颜色信息。
  55. // Iterate over batches until all done or range is complete
  56. for (int i = 0; i < rounds; i++, toDo -= BLOCK_SIZE) //代码使用 rounds 控制循环的迭代次数,每次迭代处理一批点云数据。
  57. {
  58. // 检查是否所有线程块都已经完成渲染:
  59. // 通过 __syncthreads_count 统计已经完成渲染的线程数,如果整个线程块都已完成,则跳出循环。
  60. // End if entire block votes that it is done rasterizing
  61. int num_done = __syncthreads_count(done);
  62. if (num_done == BLOCK_SIZE)
  63. break;
  64. // 共享内存中获取点云数据:
  65. // 每个线程通过索引 progress 计算要加载的点云数据的索引 coll_id,然后从全局内存中加载到共享内存 collected_id、collected_xy 和 collected_conic_opacity 中。block.sync() 确保所有线程都加载完成。
  66. // Collectively fetch per-Gaussian data from global to shared
  67. int progress = i * BLOCK_SIZE + block.thread_rank();
  68. if (range.x + progress < range.y)
  69. {
  70. int coll_id = point_list[range.x + progress];
  71. collected_id[block.thread_rank()] = coll_id;
  72. collected_xy[block.thread_rank()] = points_xy_image[coll_id];
  73. collected_conic_opacity[block.thread_rank()] = conic_opacity[coll_id];
  74. }
  75. block.sync();
  76. // 迭代处理当前批次的点云数据:
  77. // Iterate over current batch
  78. for (int j = 0; !done && j < min(BLOCK_SIZE, toDo); j++) //在当前批次的循环中,每个线程处理一条点云数据。
  79. {
  80. // Keep track of current position in range
  81. contributor++;
  82. // 计算当前点的投影坐标与锥体参数的差值:
  83. // 计算当前点在屏幕上的坐标 xy 与当前像素坐标 pixf 的差值,并使用锥体参数计算 power。
  84. // Resample using conic matrix (cf. "Surface
  85. // Splatting" by Zwicker et al., 2001)
  86. float2 xy = collected_xy[j];
  87. float2 d = { xy.x - pixf.x, xy.y - pixf.y };
  88. float4 con_o = collected_conic_opacity[j];
  89. float power = -0.5f * (con_o.x * d.x * d.x + con_o.z * d.y * d.y) - con_o.y * d.x * d.y;
  90. if (power > 0.0f)
  91. continue;
  92. // 计算论文中公式2的 alpha:
  93. // Eq. (2) from 3D Gaussian splatting paper.
  94. // Obtain alpha by multiplying with Gaussian opacity
  95. // and its exponential falloff from mean.
  96. // Avoid numerical instabilities (see paper appendix).
  97. float alpha = min(0.99f, con_o.w * exp(power));
  98. if (alpha < 1.0f / 255.0f)
  99. continue;
  100. float test_T = T * (1 - alpha);
  101. if (test_T < 0.0001f)
  102. {
  103. done = true;
  104. continue;
  105. }
  106. // 使用高斯分布进行渲染计算:更新颜色信息 C。
  107. // Eq. (3) from 3D Gaussian splatting paper.
  108. for (int ch = 0; ch < CHANNELS; ch++)
  109. C[ch] += features[collected_id[j] * CHANNELS + ch] * alpha * T;
  110. T = test_T;
  111. // Keep track of last range entry to update this
  112. // pixel.
  113. last_contributor = contributor;
  114. }
  115. }
  116. //7. 写入最终渲染结果:
  117. // 如果当前线程在有效像素范围内,则将最终的渲染结果写入相应的缓冲区,包括 final_T、n_contrib 和 out_color。
  118. // All threads that treat valid pixel write out their final
  119. // rendering data to the frame and auxiliary buffers.
  120. if (inside)
  121. {
  122. final_T[pix_id] = T;
  123. n_contrib[pix_id] = last_contributor;
  124. for (int ch = 0; ch < CHANNELS; ch++)
  125. out_color[ch * H * W + pix_id] = C[ch] + T * bg_color[ch];
  126. }
  127. }



这个核函数的目的是在 GPU 上并行处理点云数据,进行渲染操作,并将渲染结果存储在相应的缓冲区中。





  1. def training_report(tb_writer, iteration, Ll1, loss, l1_loss, elapsed, testing_iterations, scene : Scene, renderFunc, renderArgs):
  2. if tb_writer: #将 L1 loss、总体 loss 和迭代时间写入 TensorBoard。
  3. tb_writer.add_scalar('train_loss_patches/l1_loss', Ll1.item(), iteration)
  4. tb_writer.add_scalar('train_loss_patches/total_loss', loss.item(), iteration)
  5. tb_writer.add_scalar('iter_time', elapsed, iteration)
  6. # 在指定的测试迭代次数,进行渲染并计算 L1 loss 和 PSNR。
  7. # Report test and samples of training set
  8. if iteration in testing_iterations:
  9. torch.cuda.empty_cache()
  10. validation_configs = ({'name': 'test', 'cameras' : scene.getTestCameras()},
  11. {'name': 'train', 'cameras' : [scene.getTrainCameras()[idx % len(scene.getTrainCameras())] for idx in range(5, 30, 5)]})
  12. for config in validation_configs:
  13. if config['cameras'] and len(config['cameras']) > 0:
  14. l1_test = 0.0
  15. psnr_test = 0.0
  16. for idx, viewpoint in enumerate(config['cameras']):
  17. # 获取渲染结果和真实图像
  18. image = torch.clamp(renderFunc(viewpoint, scene.gaussians, *renderArgs)["render"], 0.0, 1.0)
  19. gt_image = torch.clamp(viewpoint.original_image.to("cuda"), 0.0, 1.0)
  20. if tb_writer and (idx < 5): # 在 TensorBoard 中记录渲染结果和真实图像
  21. tb_writer.add_images(config['name'] + "_view_{}/render".format(viewpoint.image_name), image[None], global_step=iteration)
  22. if iteration == testing_iterations[0]:
  23. tb_writer.add_images(config['name'] + "_view_{}/ground_truth".format(viewpoint.image_name), gt_image[None], global_step=iteration)
  24. # 计算 L1 loss 和 PSNR
  25. l1_test += l1_loss(image, gt_image).mean().double()
  26. psnr_test += psnr(image, gt_image).mean().double()
  27. # 计算平均 L1 loss 和 PSNR
  28. psnr_test /= len(config['cameras'])
  29. l1_test /= len(config['cameras'])
  30. # 在控制台打印评估结果
  31. print("\n[ITER {}] Evaluating {}: L1 {} PSNR {}".format(iteration, config['name'], l1_test, psnr_test))
  32. # 在 TensorBoard 中记录评估结果
  33. if tb_writer:
  34. tb_writer.add_scalar(config['name'] + '/loss_viewpoint - l1_loss', l1_test, iteration)
  35. tb_writer.add_scalar(config['name'] + '/loss_viewpoint - psnr', psnr_test, iteration)
  36. # 在 TensorBoard 中记录场景的不透明度直方图和总点数。
  37. if tb_writer:
  38. tb_writer.add_histogram("scene/opacity_histogram", scene.gaussians.get_opacity, iteration)
  39. tb_writer.add_scalar('total_points', scene.gaussians.get_xyz.shape[0], iteration)
  40. torch.cuda.empty_cache()#使用 torch.cuda.empty_cache() 清理 GPU 内存。


  1. def render_sets(dataset : ModelParams, iteration : int, pipeline : PipelineParams, skip_train : bool, skip_test : bool):
  2. with torch.no_grad(): # 禁用梯度计算,因为在渲染过程中不需要梯度信息
  3. gaussians = GaussianModel(dataset.sh_degree) # 创建一个 GaussianModel 对象,用于处理高斯模型
  4. scene = Scene(dataset, gaussians, load_iteration=iteration, shuffle=False) # 创建一个 Scene 对象,用于处理场景的渲染
  5. bg_color = [1,1,1] if dataset.white_background else [0, 0, 0] # 根据数据集的背景设置,定义背景颜色
  6. background = torch.tensor(bg_color, dtype=torch.float32, device="cuda") # 将背景颜色转换为 PyTorch 张量,同时将其移到 GPU 上
  7. if not skip_train: # 如果不跳过训练数据集的渲染
  8. render_set(dataset.model_path, "train", scene.loaded_iter, scene.getTrainCameras(), gaussians, pipeline, background) # 调用 render_set 函数渲染训练数据集
  9. if not skip_test: # 如果不跳过测试数据集的渲染
  10. render_set(dataset.model_path, "test", scene.loaded_iter, scene.getTestCameras(), gaussians, pipeline, background) # 调用 render_set 函数渲染测试数据集


  1. def render_set(model_path, name, iteration, views, gaussians, pipeline, background):
  2. # 构建渲染结果和ground truth保存路径
  3. render_path = os.path.join(model_path, name, "ours_{}".format(iteration), "renders")
  4. gts_path = os.path.join(model_path, name, "ours_{}".format(iteration), "gt")
  5. # 确保渲染结果和ground truth保存路径存在
  6. makedirs(render_path, exist_ok=True)
  7. makedirs(gts_path, exist_ok=True)
  8. # 遍历所有视图进行渲染
  9. for idx, view in enumerate(tqdm(views, desc="Rendering progress")):
  10. # 调用 render 函数执行渲染,获取渲染结果
  11. rendering = render(view, gaussians, pipeline, background)["render"] #这里执行的就是上面解析过的render的代码了~
  12. # 获取视图的ground truth
  13. gt = view.original_image[0:3, :, :]
  14. # 保存渲染结果和ground truth为图像文件
  15. torchvision.utils.save_image(rendering, os.path.join(render_path, '{0:05d}'.format(idx) + ".png"))
  16. torchvision.utils.save_image(gt, os.path.join(gts_path, '{0:05d}'.format(idx) + ".png"))

这个函数的主要作用是遍历给定的一组视图,使用 render 函数进行渲染,并将渲染结果和视图的 ground truth 保存为图像文件。具体步骤包括构建保存路径、确保路径存在、遍历视图、调用 render 函数渲染、保存结果。


