当前位置:   article > 正文

CV论文--2024.2.2

CV论文--2024.2.2

1、Motion Guidance: Diffusion-Based Image Editing with Differentiable Motion Estimators

中文标题:运动引导:利用可微分运动估计器进行基于扩散的图像编辑

简介:当根据文本描述生成图像时,扩散模型能够产生引人注目的图像,并且这些模型的扩展使用户能够在相对粗糙的尺度上进行图像编辑。然而,利用扩散模型精确地编辑图像中物体的布局、位置、姿态和形状仍然具有挑战性。因此,我们提出了一种名为运动引导的零样本技术,允许用户指定复杂而密集的运动场景,以指示图像中每个像素应该移动到哪个位置。运动引导利用现有光流网络的梯度来引导扩散采样过程,具体而言,我们设计了一个引导损失,以鼓励样本具有所需的运动,同时与源图像在视觉上相似。通过同时从扩散模型中采样并引导样本具有低引导损失,我们可以获得一张经过运动编辑的图像。我们证明了我们的技术适用于复杂的运动,并且能够产生高质量的真实和生成图像编辑。

2、Binding Touch to Everything: Learning Unified Multimodal Tactile Representations

中文标题:将触觉与万物绑定:学习统一的多模态触觉表征

简介:我们介绍了UniTouch,这是一个统一的触觉模型,适用于连接多种模态(包括视觉、语言和声音)的基于视觉的触觉传感器。由于数据收集过程昂贵且传感器输出不规范,使用触觉进行多模态学习仍然具有挑战性。为了克服这些挑战,我们通过将UniTouch嵌入与已经与多种其他模态相关联的预训练图像嵌入进行对齐来实现这一点。此外,我们还提出了可学习的传感器特定标记,使模型能够同时从一组异构触觉传感器中进行学习。UniTouch能够在零样本设置下执行各种触觉感知任务,从机器人抓取预测到触觉图像问答。据我们所知,UniTouch是第一个展示这种能力的模型。您可以在项目页面上了解更多信息:

3、Improved Scene Landmark Detection for Camera Localization

中文标题:改进场景地标检测,实现相机定位

简介:基于检索、局部特征匹配和三维结构姿态估计的相机定位方法精度高,但需要大量存储空间,速度慢,且无法保护隐私。最近提出了一种基于场景地标检测(SLD)的方法来解决这些限制。它涉及训练卷积神经网络(CNN)来检测一些预定的、显著的、场景特定的三维点或地标,并从相关的二维-三维对应中计算相机姿态。虽然SLD优于现有的基于学习的方法,但明显比基于三维结构的方法精度低。本文表明,精度差距是由于训练期间模型容量不足和嘈杂的标签所致。为了缓解容量问题,我们建议将地标分成子组,并为每个子组训练一个单独的网络。为了生成更好的训练标签,我们建议使用密集重建来估计场景地标的可见性。最后,我们提出了一种紧凑的体系结构来提高内存效率。在精度方面,我们的方法与INDOOR-6数据集上最先进的基于结构的方法相当,但运行速度显著更快,使用的存储空间更少。您可以在 https://github.com/microsoft/SceneLandmarkLocalization 找到代码和模型。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/127693
推荐阅读
相关标签
  

闽ICP备14008679号