当前位置:   article > 正文

CVPR2024 | 3D视觉相关文章汇总_mocha-stereo: motif channel attention network for

mocha-stereo: motif channel attention network for stereo matching

在这个博客中,我为大家精心整理了CVPR2024中五十多篇关于3D视觉领域的研究工作,并附上了各篇论文的链接以及部分工作的代码链接。如果您对3D视觉领域感兴趣或有相关需求,这里将是一个便捷的导航资源,助您快速了解和深入这一领域的最新进展。

1. 三维重建

3DFIRES

  • 标题:3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface
  • 论文链接:https://arxiv.org/abs/2403.08768
  • 论文简介:这篇论文提出了3DFIRES,一种创新的场景级3D重建系统,能够从摆放的图像中进行重建。这个系统的设计目标是能够从至少一张视图开始工作,并且能够重建包括隐藏表面在内的未见场景的完整几何结构。当输入多个视图时,该方法能够在所有摄像机视锥内实现完整的重建。该方法的一个关键特性是在特征层面上融合多视图信息,从而实现连贯且全面的3D重建。该系统在大规模真实场景数据集的非密封扫描上进行了训练。研究表明,即使只有一个输入,3DFIRES也能达到单视图重建方法的效果,并且在稀疏视图3D重建的定量和定性指标上超越了现有技术。

BiTT

  • 标题:BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image
  • 论文链接:https://arxiv.org/abs/2403.08262
  • 论文代码:https://github.com/yunminjin2/BiTT
  • 论文简介:这篇论文提出了BiTT(双向纹理重建),这是一种创新的方法,用于从单张RGB图像重建两只互动手部的可重新照明、姿势自由的纹理。这是首个端到端可训练的方法,通过三个新颖的组件实现:1) 利用左/右手的纹理对称性进行双向(左↔右)纹理重建,2) 使用纹理参数模型恢复手部纹理,3) 整体粗到细阶段流程,用于重建两只互动手部的个性化纹理。BiTT首先从输入图像估计场景光照条件和反照率图像,然后通过纹理参数模型和双向纹理重建器重建两只手的纹理。在使用InterHand2.6M和RGB2Hands数据集的实验中,该方法在定量和定性方面显著优于现有的最先进的手部纹理重建方法。

BDM

  • 标题:Bayesian Diffusion Models for 3D Shape Reconstruction
  • 论文链接:https://arxiv.org/abs/2403.06973
  • 论文简介:这篇论文介绍了贝叶斯扩散模型(BDM),这是一种预测算法,通过联合扩散过程紧密结合自上而下的(先验)信息和自下而上的(数据驱动)过程来执行有效的贝叶斯推理。论文展示了BDM在3D形状重建任务上的有效性。与在成对(监督)数据-标签(例如图像-点云)数据集上训练的典型深度学习数据驱动方法相比,BDM引入了来自独立标签(例如点云)的丰富先验信息,以改进自下而上的3D重建。与标准的贝叶斯框架不同,后者需要显式的先验和似然进行推理,BDM通过耦合扩散过程和学习的梯度计算网络实现无缝信息融合。BDM的特点在于其能够有效地进行自上而下和自下而上过程的信息交换和融合,其中每个过程本身都是一个扩散过程。论文在合成和现实世界基准测试中展示了3D形状重建的最新结果。

UFORecon

  • 标题:UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets
  • 论文链接:https://arxiv.org/abs/2403.05086
  • 论文代码:https://github.com/Youngju-Na/UFORecon
  • 论文简介:这篇论文提出了UFORecon,一种针对任意和不利视图集的通用稀疏视图表面重建框架。现有方法通常只选择有信息量和相关性的视图进行训练和测试,但这在实际应用中不太实用,因为无法总是保证有利组合的可用性。UFORecon通过交叉视图匹配变换器来模拟源图像之间的交互,并构建关联视锥以捕获全局关联。此外,它还明确编码成对特征相似性作为视图一致的先验。UFORecon在视图组合通用性方面以及在使用有利视图组合训练的传统通用协议方面显著优于先前的方法。

DITTO

  • 标题:DITTO: Dual and Integrated Latent Topologies for Implicit 3D Reconstruction
  • 论文链接:https://arxiv.org/abs/2403.05005
  • 论文简介:这篇论文提出了DITTO,一种用于从嘈杂和稀疏点云中进行隐式3D重建的新概念。与大多数现有方法主要关注单一潜在类型(如点或网格潜在)不同,DITTO利用点和网格潜在(即双潜在)来增强它们的优势,即网格潜在的稳定性和点潜在的丰富细节能力。DITTO包括双潜在编码器和集成隐式解码器。在双潜在编码器中,一个关键模块块——双潜在层——并行地细化两种潜在,保持它们的独特形状并实现递归交互。然后,集成隐式解码器系统地结合这些精细的潜在,实现高保真度的3D重建,并在对象和场景级数据集上超越了以前的最先进方法,特别是在薄而详细的结构上。

HDRFlow

  • 标题:HDRFlow: Real-Time HDR Video Reconstruction with Large Motions
  • 论文链接:https://arxiv.org/abs/2403.03447
  • 论文简介:这篇论文介绍了HDRFlow,一种用于从具有交替曝光的图像序列中重建高动态范围(HDR)视频的方法,特别是在存在大的相机或物体运动时。HDRFlow具有三个新颖设计:HDR域对齐损失(HALoss)、具有多尺寸大核(MLK)的高效流网络,以及新的HDR流训练方案。HALoss指导流网络学习面向HDR的流,以在饱和和暗区域中实现准确对齐。MLK能够以微不足道的成本有效地模拟大运动。此外,通过将合成数据Sintel纳入训练数据集,利用其提供的前向流和我们生成的后向流来监督流网络,从而在大运动区域中提升性能。广泛的实验表明,HDRFlow在标准基准测试中优于以前的方法。据我们所知,HDRFlow是第一个用于交替曝光视频序列的实时HDR视频重建方法,能够以25ms的速度处理720p分辨率的输入。

G3DR

  • 标题:G3DR: Generative 3D Reconstruction in ImageNet
  • 论文链接:https://arxiv.org/abs/2403.00939
  • 论文代码:https://github.com/preddy5/G3DR
  • 论文简介:这篇论文介绍了G3DR,一种在ImageNet中的生成式3D重建方法,能够从单张图像生成多样化和高质量的3D对象,克服了现有方法的局限性。G3DR的核心是一种新颖的深度正则化技术,使得能够生成具有高几何保真度的场景。G3DR还利用了预训练的语言-视觉模型,如CLIP,以实现新视角的重建并提高生成物的视觉真实性。此外,G3DR设计了一种简单但有效的采样程序,进一步提高了生成物的质量。G3DR提供了基于类别或文本条件的多样化和高效的3D资产生成。尽管其简单性,G3DR在感知度量上比最先进的方法提高了22%,在几何分数上提高了90%,同时只需要一半的训练时间。

1. 语义场景补全

Symphonies

  • 标题:Symphonize 3D Semantic Scene Completion with Contextual Instance Queries
  • 论文链接:https://arxiv.org/abs/2306.15670
  • 论文代码:https://github.com/hustvl/Symphonies
  • 论文简介:这篇论文提出了Symphonies(Scene-from-Insts),一种新颖的范式,用于整合实例查询以协调2D到3D的重建和3D场景建模。Symphonies利用所提出的串行实例传播注意力机制,动态编码以实例为中心的语义,促进基于图像和体积域之间的复杂交互。同时,Symphonies通过高效融合实例查询来实现整体场景理解,通过上下文场景推理来减轻几何模糊,如遮挡和视角错误。实验结果表明,Symphonies在SemanticKITTI和SSCBench-KITTI-360这两个具有挑战性的基准测试上取得了最先进的性能,分别获得了15.04和18.58的显著mIoU分数。这些结果展示了该范式的有希望的进步。

PaSCo

  • 标题:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
  • 论文链接:https://arxiv.org/abs/2312.02158
  • 论文代码:https://astra-vision.github.io/PaSCo
  • 论文简介:这篇论文提出了全景场景完成(PSC)任务,该任务在最近流行的语义场景完成(SSC)任务的基础上增加了实例级信息,以产生对3D场景的更丰富理解。论文中的PSC提议利用混合掩码技术对来自稀疏多尺度完成的非空体素进行处理。与SSC文献忽视的不确定性不同(这对于机器人应用至关重要),论文提出了一种高效的集成方法来估计PSC过程中的体素级和实例级不确定性。这是通过建立多输入多输出(MIMO)策略实现的,同时提高性能并为额外的计算带来更好的不确定性。此外,论文还介绍了一种聚合排列不变掩码预测的技术。实验表明,该方法在三个大规模自动驾驶数据集上的全景场景完成和不确定性估计方面均超过了所有基准。

2. Occupancy

SelfOcc

  • 标题:SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
  • 论文链接:https://arxiv.org/abs/2311.12754
  • 论文代码:https://github.com/huang-yh/SelfOcc
  • 论文简介:这篇论文提出了SelfOcc,一种自监督的视觉基3D占用预测方法。SelfOcc探索了一种仅使用视频序列来学习3D占用的自监督方式。它首先将图像转换到3D空间(例如,鸟瞰图)以获得场景的3D表示,然后直接对3D表示施加约束,将其视为有符号距离场。通过这种方法,可以渲染先前和未来帧的2D图像作为自监督信号来学习3D表示。SelfOcc在SemanticKITTI上使用单帧输入超越了之前最好的方法SceneRF 58.7%,并且是第一个在nuScenes上为环绕摄像头产生合理3D占用的自监督作品。

Cam4DOcc

  • 标题:Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications
  • 论文链接:https://arxiv.org/abs/2311.17663
  • 论文代码:https://github.com/haomo-ai/Cam4DOcc
  • 论文简介:这篇论文提出了Cam4DOcc,一个用于自动驾驶应用中仅使用摄像头的4D占用预测的新基准。Cam4DOcc旨在评估未来近期内周围场景的变化。该基准基于多个公开可用的数据集构建,包括nuScenes、nuScenes-Occupancy和Lyft-Level5,提供了一般可移动和静态物体的顺序占用状态及其3D向后向心流。为了建立这个基准,论文引入了四种不同类型的基线,包括静态世界占用模型、点云预测的体素化、基于2D-3D实例的预测,以及提出的新型端到端4D占用预测网络。

PanoOcc

  • 标题:PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
  • 论文链接:https://arxiv.org/abs/2306.10013
  • 论文代码:https://github.com/Robertwyq/PanoOcc
  • 论文简介:这篇论文介绍了PanoOcc,一种用于摄像头基3D全景分割的统一占用表示方法。PanoOcc利用体素查询从多帧和多视图图像中聚合时空信息,采用粗到细的方案,将特征学习和场景表示整合到统一的占用表示中。该方法在nuScenes数据集上实现了摄像头基语义分割和全景分割的新最先进结果。此外,该方法可以轻松扩展到密集占用预测,并在Occ3D基准测试上展示了有希望的性能。

3. 3D Object Detection

PTT

  • 标题:PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection
  • 论文链接:https://arxiv.org/abs/2312.08371
  • 论文代码:https://github.com/KuanchihHuang/PTT
  • 论文简介:这篇论文提出了PTT,一种用于高效时序3D对象检测的点轨迹变换器。PTT利用长短期记忆网络,仅使用当前帧对象的点云和它们的历史轨迹作为输入,以最小化内存银行存储需求。此外,PTT引入了模块来编码轨迹特征,专注于长短期和未来感知的视角,并有效地将它们与点云特征聚合。在大规模Waymo数据集上的广泛实验表明,该方法在与最先进方法的比较中表现良好。

VSRD

CaKDP

CN-RMA

  • 标题:CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images
  • 论文链接:https://arxiv.org/abs/2403.04198
  • 论文代码:https://github.com/SerCharles/CN-RMA
  • 论文简介:这篇论文介绍了CN-RMA,一种用于从多视图图像进行3D室内对象检测的新方法。CN-RMA利用3D重建网络和3D对象检测网络的协同作用,其中重建网络提供粗略的截断符号距离函数(TSDF),并以端到端的方式指导图像特征正确地投票到3D空间。该方法在ScanNet和ARKitScenes数据集上的3D对象检测中实现了最先进的性能。

UniMODE

  • 标题:UniMODE: Unified Monocular 3D Object Detection
  • 论文链接:https://arxiv.org/abs/2402.18573
  • 论文简介:这篇论文提出了UniMODE,一种统一的单目3D对象检测方法,包括室内和室外场景。UniMODE基于鸟瞰图(BEV)检测范式构建检测器,其中显式特征投影有助于解决在多场景数据训练检测器时的几何学习模糊性。此外,UniMODE开发了一种稀疏BEV特征投影策略以减少计算成本,并提出了一种统一的域对齐方法来处理异质域。UniMODE在包括室内和室外场景的大规模Omni3D数据集上超越了以前的最先进技术。

QAF2D

  • 标题:Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors
  • 论文链接:https://arxiv.org/abs/2403.06093
  • 论文代码:https://github.com/nullmax-vision/QAF2D
  • 论文简介:这篇论文提出了QAF2D,一种通过2D检测引导的查询锚点来增强3D对象检测的方法。QAF2D通过将图像中的2D边界框提升为一组3D锚点来推断3D查询锚点。然后,通过比较图像中的3D锚点投影与其对应的2D框来验证每个3D锚点的有效性,并仅保留有效锚点用于构建查询。QAF2D在nuScenes数据集上进行了全面评估,展示了其在3D对象检测中的有效性。

SAFDNet

  • 标题:SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection
  • 论文链接:https://arxiv.org/abs/2403.05817
  • 论文代码:https://github.com/zhanggang001/HEDNet
  • 论文简介:这篇论文提出了SAFDNet,一种简单而有效的全稀疏3D对象检测网络。SAFDNet针对LiDAR基3D对象检测中的中心特征缺失问题设计了一种自适应特征扩散策略。在Waymo Open、nuScenes和Argoverse2数据集上进行的广泛实验表明,SAFDNet在前两个数据集上略优于之前的最先进方法,但在最后一个特征长距离检测的数据集上表现得更好,验证了SAFDNet在需要长距离检测的场景中的有效性。特别是在Argoverse2上,SAFDNet在mAP上超过了之前最好的混合检测器HEDNet 2.6%,同时速度快2.1倍,并在mAP上比之前最好的稀疏检测器FSDv2高出2.1%,同时速度快1.3倍。

RadarDistill

  • 标题:RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
  • 论文链接:https://arxiv.org/abs/2403.05061
  • 论文简介:这篇论文提出了RadarDistill,一种新颖的知识蒸馏(KD)方法,通过利用LiDAR数据来改善雷达数据的表示。RadarDistill通过三个关键组件成功地将LiDAR特征的理想特性转移到雷达特征中:跨模态对齐(CMA)、基于激活的特征蒸馏(AFD)和基于提议的特征蒸馏(PFD)。CMA通过多层扩张操作增强雷达特征的密度,有效地解决了从LiDAR到雷达的知识转移效率低下的问题。AFD旨在从LiDAR特征的重要区域(即激活强度超过预定阈值的区域)转移知识。PFD指导雷达网络模仿LiDAR网络在对象提议中的特征,以获得准确的检测结果,同时调节误检提议(如误报)的特征。在nuScenes数据集上进行的比较分析表明,RadarDistill在仅雷达对象检测任务中实现了最先进的性能,mAP达到20.5%,NDS达到43.7%。此外,RadarDistill显著提高了相机-雷达融合模型的性能。

4. Stereo

MoCha-Stereo

ICGNet

  • 标题:Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching
  • 论文链接:https://arxiv.org/abs/2402.19270
  • 论文代码:https://github.com/DFSDDDDD1199/ICGNet
  • 论文简介:这篇论文提出了ICGNet,一种专门设计用于同化内视图和跨视图几何知识的新型网络。ICGNet利用兴趣点作为内视图几何理解的通道,并利用这些点之间的对应关系来捕获跨视图几何关系。这种双重结合使ICGNet能够在学习过程中利用内视图和跨视图几何知识,从而显著提高其估计视差的能力。

Selective-Stereo

  • 标题:Selective-Stereo: Adaptive Frequency Information Selection for Stereo Matching
  • 论文链接:https://arxiv.org/abs/2403.00486
  • 论文代码:https://github.com/Windsrain/Selective-Stereo
  • 论文简介:这篇论文提出了Selective-Stereo,一种用于立体匹配的自适应频率信息选择方法。Selective-Stereo引入了一种新的迭代更新操作符Selective Recurrent Unit(SRU),能够适应性地融合边缘和平滑区域的多频率隐藏视差信息。SRU通过新引入的Contextual Spatial Attention(CSA)模块生成融合权重的注意力图。Selective-Stereo在KITTI 2012、KITTI 2015、ETH3D和Middlebury排行榜上排名第一。

DKT

  • 标题:Robust Synthetic-to-Real Transfer for Stereo Matching
  • 论文链接:https://arxiv.org/abs/2403.07705
  • 论文简介:这篇论文探讨了在真实世界场景中微调立体匹配网络时,如何在不损害其对未见领域的鲁棒性的情况下进行。研究发现,与真实标签(Ground Truth, GT)相比,伪标签(Pseudo Label, PL)在微调过程中保留了领域泛化能力。论文提出了一个框架,包括一个冻结的教师网络、一个指数移动平均(EMA)教师网络和一个学生网络,利用EMA教师来衡量学生所学内容,并动态改进GT和PL以进行微调。

5. SLAM与导航

SNI-SLAM

  • 标题:SNI-SLAM: Semantic Neural Implicit SLAM
  • 论文链接:https://arxiv.org/abs/2311.11016
  • 论文简介:SNI-SLAM是一种利用神经隐式表示的语义SLAM系统,能够同时进行精确的语义映射、高质量的表面重建和稳健的相机跟踪。该系统引入了分层语义表示,允许多级语义理解,用于自上而下结构化的场景语义映射。此外,SNI-SLAM通过交叉注意力机制整合了外观、几何和语义特征,以实现对环境的更多方面理解,从而即使在单一属性缺陷时也保持鲁棒性。

CricaVPR

  • 标题:CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition
  • 论文链接:https://arxiv.org/abs/2402.19231
  • 论文代码:https://github.com/Lu-Feng/CricaVPR
  • 论文简介:CricaVPR是一种用于视觉位置识别(VPR)的鲁棒全局表示方法,具有跨图像相关性意识。该方法使用自注意力机制来关联批次内的多个图像,这些图像可以在相同的地点以不同的条件或视点拍摄,甚至可以在不同的地点拍摄。因此,CricaVPR可以利用跨图像变化作为引导表示学习的线索,确保产生更鲁棒的特征。该方法在Pitts30k上使用512维全局特征实现了94.5%的R@1,显著优于现有最先进方法。

MemoNav

  • 标题:MemoNav: Working Memory Model for Visual Navigation
  • 论文链接:https://arxiv.org/abs/2402.19161
  • 论文简介:MemoNav是一种新型的图像目标导航记忆模型。它使用短期记忆(STM)存储地图上的动态节点特征,通过遗忘模块提高效率,并引入长期记忆(LTM)来学习全局场景。此外,MemoNav利用图注意力模块生成工作记忆(WM),协助代理高效导航。在多目标任务上的测试显示,MemoNav在不同难度级别和场景中均优于现有方法。

6. Point Cloud

Point Transformer V3

  • 标题:Point Transformer V3: Simpler, Faster, Stronger
  • 论文链接:https://arxiv.org/abs/2312.10035
  • 论文代码:https://github.com/Pointcept/PointTransformerV3
  • 论文简介:Point Transformer V3 (PTv3) 是一种针对点云处理的简化、高效的模型。它通过简化某些机制(如用KNN替换精确的邻居搜索)来优先考虑简单性和效率,从而实现显著的扩展。PTv3将接收域从16扩展到1024点,同时保持高效(处理速度提高3倍,内存效率提高10倍)。在20多个室内外场景的下游任务中,PTv3展示了卓越的性能。

COSeg

  • 标题:Rethinking Few-shot 3D Point Cloud Semantic Segmentation
  • 论文链接:https://arxiv.org/abs/2403.00592
  • 论文代码:https://github.com/ZhaochongAn/COSeg
  • 论文简介:COSeg是一种新型的少样本3D点云语义分割模型,解决了前景泄露和稀疏点分布的问题。COSeg通过计算每个查询点的类别特定多原型相关性(CMC)来表示其与类别原型的相关性。此外,COSeg引入了超级相关性增强(HCA)模块来增强CMC,并通过基础原型校准(BPC)模块使用训练期间学习的非参数原型来校准背景类别的相关性。COSeg在流行数据集上的实验表明,它优于现有方法。

HiT-ADV

  • 标题:Hide in Thicket: Generating Imperceptible and Rational Adversarial Perturbations on 3D Point Clouds
  • 论文链接:https://arxiv.org/abs/2403.05247
  • 论文简介:HiT-ADV是一种针对3D点云的形状基础对抗攻击方法。它通过在人眼不敏感的区域(如复杂和曲率变化剧烈的物体表面部分)隐藏变形扰动,实现了不可察觉性和对抗强度之间的更好平衡。HiT-ADV首先基于显著性和不可察觉性分数进行两阶段攻击区域搜索,然后使用高斯核函数在每个攻击区域添加变形扰动。该方法还可以扩展到物理攻击,并通过采用良性重采样和良性刚性变换进一步增强物理对抗强度,同时对不可察觉性的影响很小。

DAPT

  • 标题:Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis
  • 论文链接:https://arxiv.org/abs/2403.01439
  • 论文简介:DAPT是一种用于点云分析的参数高效迁移学习方法。该方法冻结了预训练模型的默认参数,提出了动态适配器,为每个令牌生成动态比例,考虑到令牌对下游任务的重要性。DAPT通过构建内部提示与动态适配器无缝集成,捕获实例特定特征以进行交互。在五个具有挑战性的数据集上的广泛实验表明,DAPT在显著减少可训练参数和训练GPU内存的同时,与全微调对应方法相比,实现了卓越的性能。

Coupled Laplacian

  • 标题:Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching
  • 论文链接:https://arxiv.org/abs/2402.17372
  • 论文简介:Coupled Laplacian是一种新技术,用于通过考虑细微的局部结构来匹配点云。为了处理拉普拉斯特征映射的顺序和符号模糊性,该方法引入了一种新的运算符——耦合拉普拉斯,它允许为多个刚性注册的几何体轻松生成对齐的特征空间。该方法通过比较这些对齐的高维空间之间的相似性,提供了一种匹配形状的局部有意义的评分。在MVTec 3D-AD数据集上的对象异常定位任务和新定义的医学任务自动骨骼侧估计(BSE)上的性能评估表明,Coupled Laplacian的匹配技术在两个任务上均优于其他方法。

PDF

7.深度估计

AFNet

  • 标题:Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2403.07535
  • 论文简介:AFNet是一种用于自动驾驶的单视图和多视图深度估计系统。它通过动态选择两个分支之间的高置信度区域进行融合,从而适应性地整合高置信度的多视图和单视图结果,以实现鲁棒和准确的深度估计。AFNet在面对纹理较少的场景、校准不准确、动态对象等挑战性条件时,倾向于选择更可靠的分支。该方法在鲁棒性测试中超越了现有的多视图和融合方法,并在给定准确姿态估计的情况下,在KITTI和DDAD等具有挑战性的基准测试中实现了最先进的性能。

8.3D理解

GroupContrast

  • 标题:GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding
  • 论文链接:https://arxiv.org/abs/2403.09639
  • 论文简介: GroupContrast是一种用于3D场景理解的语义感知自监督表示学习方法。它结合了分段分组和语义感知对比学习,通过分段分组将点划分为语义上有意义的区域,增强语义一致性,并为后续的对比表示学习提供语义指导。语义感知对比学习增强了从分段分组中提取的语义信息,有助于缓解“语义冲突”问题。在多个3D场景理解任务上的广泛实验表明,GroupContrast学习了具有语义意义的表示,并实现了有希望的迁移学习性能。

TAMM

  • 标题:TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
  • 论文链接:https://arxiv.org/abs/2402.18490
  • 论文简介: TAMM是一种用于3D形状理解的三适配器多模态学习方法。它通过解决2D图像和语言模态之间的域偏移问题,更有效地利用这两种模态进行预训练。TAMM首先使用CLIP图像适配器缩小3D渲染图像和自然图像之间的域差距,然后通过双适配器将3D形状表示空间分解为两个互补的子空间:一个专注于视觉属性,另一个用于语义理解。TAMM在多种3D编码器架构、预训练数据集和下游任务上一致提升了3D表示的性能。

9.6D Pose

SAM-6D

  • 标题:SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation
  • 论文链接:https://arxiv.org/abs/2311.15707
  • 论文简介: SAM-6D是一个用于零样本6D对象姿态估计的新框架,它结合了实例分割和姿态估计两个步骤。SAM-6D使用两个专用子网络,即实例分割模型(ISM)和姿态估计模型(PEM),在杂乱的RGB-D图像上执行这些步骤。ISM基于Segment Anything Model (SAM)生成所有可能的对象提议,并通过精心设计的对象匹配分数选择性地保留有效的提议。PEM将姿态估计视为部分到部分的点匹配问题,并执行两阶段点匹配过程。SAM-6D在BOP基准的七个核心数据集上的实例分割和新对象的姿态估计方面均优于现有方法。

MRC-Net

  • 标题:MRC-Net: 6-DoF Pose Estimation with MultiScale Residual Correlation
  • 论文链接:https://arxiv.org/abs/2403.08019
  • 论文简介: MRC-Net是一种单次拍摄的方法,用于从单个RGB图像中确定具有可用3D计算机辅助设计(CAD)模型的对象的6-DoF姿态。MRC-Net包括两个阶段:第一个阶段执行姿态分类并渲染3D对象的分类姿态,第二阶段执行回归以预测类内的细粒度残差姿态。MRC-Net采用具有共享权重的孪生网络,学习输入和渲染图像的嵌入。该方法在T-LESS、LM-O、YCB-V和ITODD等四个具有挑战性的BOP基准数据集上超越了所有竞争的基于RGB的方法。

FAR

  • 标题:FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation
  • 论文链接:https://arxiv.org/abs/2403.03221
  • 论文简介: FAR是一种用于估计图像间相对相机姿态的方法。该方法结合了基于对应点寻找和基本矩阵求解的高精度方法以及直接使用神经网络预测姿态的鲁棒性方法。FAR的核心是一个Transformer模型,它学习平衡求解和学习的姿态估计,并为求解器提供先验。FAR在Matterport3D、InteriorNet、StreetLearn和无地图重定位等多个数据集上展示了其在6DoF姿态估计方面的最先进性能。

10.Nerf与Gaussian Splatting

DyNFL

  • 标题:Dynamic LiDAR Re-simulation using Compositional Neural Fields
  • 论文链接:https://arxiv.org/abs/2312.05247
  • 论文简介: DyNFL是一种基于神经场的方法,用于高保真重模拟动态驾驶场景中的LiDAR扫描。它处理动态环境中的LiDAR测量,并伴有移动对象的边界框,以构建可编辑的神经场。这个场景包括单独重建的静态背景和动态对象,允许用户修改视点、调整对象位置,并在重模拟场景中无缝添加或移除对象。DyNFL的关键创新是神经场组合技术,有效地整合了来自不同场景的重建神经资产。在合成和真实世界环境中的评估表明,DyNFL在基于LiDAR扫描的动态场景模拟方面显著提高了物理保真度和灵活的编辑能力。

GSNeRF

  • 标题:GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding
  • 论文链接:https://arxiv.org/abs/2403.03608
  • 论文简介: GSNeRF是一种用于3D场景理解的通用语义神经辐射场(NeRF)。它独特地将图像语义纳入合成过程中,从而为未见场景生成新视图图像及其相关的语义地图。GSNeRF由两个阶段组成:语义地理推理和深度引导视觉渲染。前者能够观察多视图图像输入以从场景中提取语义和几何特征。在得到的图像几何信息的指导下,后者执行图像和语义渲染,提高了性能。实验不仅证实GSNeRF在新视图图像和语义分割合成方面优于先前的工作,而且进一步验证了其视觉渲染采样策略的有效性。

NARUTO

  • 标题:NARUTO: Neural Active Reconstruction from Uncertain Target Observations
  • 论文链接:https://arxiv.org/abs/2402.18771
  • 论文简介:NARUTO是一种结合混合神经表示和不确定性学习的神经主动重建系统,能够实现高保真表面重建。该方法利用多分辨率哈希网格作为映射主干,具有卓越的收敛速度和捕获高频局部特征的能力。NARUTO的核心是不确定性学习模块,它在主动重建环境时动态量化重建不确定性。利用学习到的不确定性,NARUTO提出了一种新颖的不确定性聚合策略,用于目标搜索和高效路径规划。该系统通过针对不确定观察目标自主探索,并以显著的完整性和保真度重建环境。NARUTO还通过主动射线采样策略增强了最新的神经SLAM系统。在各种环境中对NARUTO的广泛评估,包括室内场景模拟器,证实了其在主动重建方面的卓越性能和最先进的地位。

DNGaussian

  • 标题:DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization
  • 论文链接:https://arxiv.org/abs/2403.06912
  • 论文代码:https://github.com/Fictionarry/DNGaussian
  • 论文简介: DNGaussian是一种基于3D高斯辐射场的深度正则化框架,提供实时、高质量的少样本新视图合成,成本低。DNGaussian通过硬软深度正则化在粗略的单目深度监督下恢复精确的场景几何,同时保持细腻的颜色外观。为了进一步细化详细的几何重塑,DNGaussian引入了全局-局部深度归一化,增强了对小的局部深度变化的关注。在LLFF、DTU和Blender数据集上的广泛实验表明,DNGaussian在显著降低内存成本、训练时间减少25倍和渲染速度提高3000倍以上的情况下,超越了最先进的方法。

S-DyRF

  • 标题:S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes
  • 论文链接:https://arxiv.org/abs/2403.06205
  • 论文简介: S-DyRF是一种用于动态神经辐射场的基于参考的时空风格化方法。它通过生成时间伪参考来引入除提供的参考之外的额外时间线索。这些伪参考有助于将风格信息从参考传播到整个动态3D场景。为了粗略的风格转移,S-DyRF强制新视图和时间在特征层面模仿伪参考中的风格细节。为了保留高频细节,S-DyRF创建了一组来自时间伪参考的风格化时间伪射线,作为实现精细风格转移的详细和明确的风格化指导。在合成和真实世界数据集上的实验表明,S-DyRF在动态3D场景的时空视图合成上产生了合理的风格化结果。

DaReNeRF

  • 标题:DaReNeRF: Direction-aware Representation for Dynamic Scenes
  • 论文链接:https://arxiv.org/abs/2403.02265
  • 论文简介: DaReNeRF是一种用于动态场景建模和重渲染的新方法。它通过从六个不同方向捕捉场景动态来提出一种新颖的方向感知表示(DaRe)。这种学习到的表示通过逆双树复杂小波变换(DTCWT)进行处理,以恢复基于平面的信息。DaReNeRF通过融合这些恢复的平面的向量来计算每个时空点的特征。结合DaReNeRF和一个小型MLP用于颜色回归,并在训练中利用体积渲染,实现了复杂动态场景新视图合成的最先进性能。此外,为了解决由六个实数和六个虚数方向感知小波系数引入的冗余问题,引入了一种可训练的掩蔽方法,减轻了存储问题,同时性能几乎不受影响。

mi-MLP

  • 标题:Is Vanilla MLP in Neural Radiance Field Enough for Few-shot View Synthesis?
  • 论文链接:https://arxiv.org/abs/2403.06092
  • 论文简介: 这篇论文探讨了神经辐射场(NeRF)中普通MLP对于少样本视图合成的足够性。在少样本视图合成中,NeRF模型容易过拟合给定视图。为了解决这个问题,提出了多输入MLP(mi-MLP),它将普通MLP的输入(即位置和观察方向)纳入每一层,以防止过拟合问题,同时不损害细节合成。此外,提出了两个正则化项,分别对颜色和体积密度进行建模,以进一步减少伪影。在多个数据集上的广泛实验表明,尽管mi-MLP易于实现,但它非常有效,将基线的PSNR从14.73提高到24.23,并在多个基准测试中实现了最先进的结果。

NRDF

  • 标题:NRDF: Neural Riemannian Distance Fields for Learning Articulated Pose Priors
  • 论文链接:https://arxiv.org/abs/2403.03122
  • 论文简介: NRDF是一种用于学习关节姿势先验的神经黎曼距离场。它以高维乘积四元数空间中的神经场的零水平集的形式建模可行关节运动的空间。为了仅在正例上训练NRDF,引入了一种新的采样算法,确保测地距离遵循期望的分布,从而形成了一种原则性的距离场学习范式。然后,通过自适应步长黎曼优化器将任意随机姿势映射到水平集上,始终遵循关节旋转的乘积流形。NRDF可以通过反向传播计算黎曼梯度,并且与黎曼流匹配(一种最新的生成模型)在数学上相关。在各种下游任务中对NRDF进行全面评估,如姿势生成、基于图像的姿势估计和解决逆运动学问题,突出了NRDF的卓越性能。NRDF的多功能性不仅限于人类,还扩展到手和动物姿势,因为它可以有效地表示任何关节运动。

3DGStream

  • 标题:3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
  • 论文链接:https://arxiv.org/abs/2403.01444
  • 论文简介: 3DGStream是一种用于实时流式传输真实动态场景的免费视角视频(FVV)的方法。该方法实现了快速的逐帧重建(12秒内)和实时渲染(200 FPS)。3DGStream使用3D高斯(3DGs)来表示场景,并采用紧凑的神经变换缓存(NTC)来模拟3DGs的平移和旋转,显著减少了每个FVV帧所需的训练时间和存储。此外,提出了一种适应性3DG添加策略来处理动态场景中出现的新对象。实验表明,3DGStream在渲染速度、图像质量、训练时间和模型存储方面与最先进的方法相比具有竞争力的性能。

NVC

  • 标题:Neural Video Compression with Feature Modulation
  • 论文链接:https://arxiv.org/abs/2402.17414
  • 论文代码:https://github.com/microsoft/DCVC
  • 论文简介: 这篇论文提出了一种基于条件编码的神经视频编解码器(NVC),通过特征调制解决了两个关键问题。首先,为了支持单一模型中的广泛质量范围,通过可学习的量化缩放器调制当前帧的潜在特征。其次,为了使NVC在长预测链下仍然有效,提出了一种通过周期性刷新机制调制时间特征以提高质量的方法。该编解码器在单帧内设置下,相比之前的最先进NVC节省了29.7%的比特率,同时减少了16%的MACs。这个编解码器在神经视频压缩的发展中是一个显著的里程碑。

11.其它

Sculpt3D

  • 标题:Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior
  • 论文链接:https://arxiv.org/abs/2403.09140
  • 论文简介: Sculpt3D是一个新框架,用于从文本生成3D对象,同时确保多视图一致性。它通过从检索到的参考对象中显式引入3D先验,而无需重新训练2D扩散模型。Sculpt3D通过关键点监督和稀疏射线采样方法保证高质量和多样化的3D几何。为了确保不同视图的准确外观,进一步调制2D扩散模型的输出,以匹配模板视图的正确模式,同时保留生成对象的风格。这两种解耦设计有效地利用参考对象的3D信息来生成3D对象,同时保留2D扩散模型的生成质量。广泛的实验表明,该方法在保持保真度和多样性的同时,大大提高了多视图一致性。

FSC

  • 标题:FSC: Few-point Shape Completion
  • 论文链接:https://arxiv.org/abs/2403.07359
  • 论文简介: FSC是一种用于极其稀疏点云的形状补全模型。通过熵分析发现,即使只有少量点(例如64点),也能保留足够的信息来恢复对象的3D形状。FSC包含一个双分支特征提取器,用于处理极其稀疏的输入,并结合了一个广泛分支和一个显著性分支,以最大化点的利用和动态重要性分配。该模型还通过两阶段修正网络增强了提取特征和解码器输出的细节和真实性。实验表明,FSC能够从少量点中恢复3D形状,并在少点输入和多点输入上超越了先前的方法,显示出良好的泛化能力。

ViewDiff

  • 标题:ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
  • 论文链接:https://arxiv.org/abs/2403.01807
  • 论文简介: ViewDiff是一种利用预训练的文本到图像模型作为先验,并学习从真实世界数据生成多视图图像的方法。该方法通过将3D体积渲染和跨帧注意力层集成到现有文本到图像模型的U-Net网络的每个块中,实现了更一致的3D图像生成。此外,设计了一种自回归生成方法,可以在任何视点渲染更一致的3D图像。在真实世界数据集上的训练展示了该模型生成具有多样化高质量形状和纹理的实例的能力。与现有方法相比,ViewDiff生成的结果在视觉质量上更具优势。

DreamControl

  • 标题:DreamControl: Control-Based Text-to-3D Generation with 3D * Self-Prior
  • 论文链接:https://arxiv.org/abs/2312.06439
  • 论文代码:https://github.com/tyhuang0428/DreamControl
  • 论文简介: DreamControl是一种基于控制的文本到3D生成框架,它通过优化粗糙的NeRF场景作为3D自我先验,然后使用基于控制的分数蒸馏生成细粒度的对象。该方法旨在解决由于2D扩散模型中的视点偏见和优化目标过拟合而导致的几何不一致性问题。DreamControl采用两阶段2D提升框架,首先通过自适应视点采样和边界完整性度量来确保生成先验的一致性。然后,将这些先验作为输入条件,以保持合理的几何形状,并进一步提出条件LoRA和加权分数来优化详细纹理。DreamControl能够生成在几何一致性和纹理保真度方面都高质量的3D内容。此外,该框架的基于控制的优化指导适用于更多下游任务,包括用户引导的生成和3D动画。

其它CVPR2024工作导航:

结束语

 这个博客中提供了CVPR2024中3D视觉工作的导航,感谢每位朋友的陪伴,如果对您有点帮助,就顺手点个赞呗。您的点赞、关注是我持续分享的动力。我是APlayBoy,期待与您一起在AI的世界里不断成长!

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号