赞
踩
主要内容概述:
这篇研究论文介绍了一种名为Diff-Unmix的自监督高光谱图像(HSI)去噪方法。该方法针对获取高信噪比HSI的挑战,采用了一种新的策略,结合了光谱解混和条件丰度生成。Diff-Unmix利用可学习的基于块的光谱解混和基于变压器的网络结构,并通过自监督生成扩散网络来改善丰度图的质量。该方法在模拟和真实数据集上均展示了出色的去噪性能。
主要内容概述:这段话讲述了一项研究,该研究通过分析人眼反射来重建相机直接视线之外的景象。研究面临的挑战包括准确估计眼睛姿态和区分虹膜纹理与场景反射。研究提出了一种方法,通过优化角膜姿态、辐射场和虹膜纹理来重建场景。此外,还使用了虹膜纹理的正则化先验来提高重建质量。实验结果表明,该方法在不同眼睛颜色和光照条件下均具有可行性。
由于在严重遮挡下提取有效图像特征存在困难,遮挡人体的网格恢复对现有方法提出了挑战。在本文中,我们介绍了DPMesh,这是一个用于遮挡人体网格恢复的创新框架,它利用了预训练的文本到图像扩散模型中嵌入的关于对象结构和空间关系的深刻知识。与之前依赖传统骨干网络进行普通特征提取的方法不同,DPMesh无缝集成了预训练的去噪U-Net与强大的先验作为其图像骨干,并执行单步推理以提供遮挡感知信息。为了增强对遮挡姿态的感知能力,DPMesh通过条件注入引入了审慎的指导,这产生了从2D观测到的去噪U-Net的有效控制。此外,我们探索了一种专门的有噪声关键点推理方法,以减轻遮挡和拥挤场景引起的干扰。这一策略完全释放了扩散先验的感知能力,从而提高了准确度。广泛的定量和定性实验证实了我们的框架的有效性,我们在遮挡特定和标准数据集上均优于现有技术,突显了其在遮挡和拥挤场景等具有挑战性的情况下实现精确和健壮的3D人体网格恢复的能力。代码可在 https://github.com/EternalEvan/DPMesh 获得。
主要内容概述:
这段话介绍了一篇论文中提出的DPMesh框架,该框架用于解决遮挡人体网格恢复的问题。DPMesh利用预训练的文本到图像扩散模型中的知识,集成了去噪U-Net作为图像骨干,并通过单步推理提供遮挡感知信息。它还使用了一种专门的噪声关键点推理方法。实验证明,DPMesh在遮挡和标准数据集上均优于现有技术,能够实现精确和健壮的3D人体网格恢复。
主要内容概述:
这段话讨论了深度学习模型训练中的数据隐私问题,并提出了不可泛化示例(UGEs)的概念。这个概念旨在让数据对授权用户可学习,但对未授权用户(如黑客)不可学习。文章还介绍了如何通过特定方法来保护数据,并实验证明了UGEs框架在多个数据集和网络上保留数据可用性。以下是关键点:
以下是主要内容概述:
翻译内容:
单目3D车道检测已成为自动驾驶领域的一个基础性问题,其任务包括寻找道路表面和定位车道标线。主要的挑战在于需要一个灵活且健壮的线条表示方法,以建模复杂的车道结构,同时避免不可预测的行为。与前述方法不同,我们引入了一种新的方法LaneCPP,它采用了一个连续的3D车道检测模型,利用关于车道结构和道路几何的物理先验知识。
概述:
主要内容概述:这段话主要介绍了3D城市生成任务的挑战性,并提出了一种新的生成模型CityDreamer。该模型通过组合不同类型的神经场来生成3D城市,包括建筑实例和背景元素。作者还介绍了模型的具体实现方法,并提到他们贡献的数据集能够提高生成3D城市的真实性。最后指出,CityDreamer模型在生成逼真3D城市和局部编辑方面达到了先进性能。
以下主要内容概述:
翻译:
高分辨率宽角鱼眼图像对于机器人应用(如自主驾驶)越来越重要。但是,在将数据投影到平面上的矩形网格时,使用普通卷积神经网络或视觉变压器存在问题是由于投影和失真损失。我们引入了HEAL-SWIN变压器,它将天体物理学和宇宙学中使用的具有高度统一性的分层等面积等纬度像素化(HEALPix)网格与分层移位窗口(SWIN)变压器相结合。
主要内容概述:
以下是翻译:
翻译内容:
高分辨率的广角鱼眼图像对于机器人应用,比如自动驾驶来说越来越重要。然而,由于在将数据投影到平面上的矩形网格时引入了投影和失真损失,因此在这类数据上使用普通的卷积神经网络或视觉变换器存在问题。我们引入了HEAL-SWIN变换器,它将天体物理学和宇宙学中使用的具有高度均匀性的分层等面积等纬度像素化(HEALPix)网格与分层移位窗口(SWIN)变换器相结合,以产生一个高效且灵活的模型,能够训练高分辨率无失真的球面数据。在HEAL-SWIN中,利用HEALPix网格的嵌套结构来执行SWIN变换器的分块和窗口操作,使网络能够以最小的计算开销处理球面表示。我们在合成和实际的汽车数据集以及其他图像数据集上展示了我们模型在语义分割、深度回归和分类任务中的卓越性能。我们的代码是公开可用的。
概述:
这段话主要介绍了一种名为3D Paintbrush的技术,该技术能够通过文本描述自动为网格上的局部语义区域进行纹理贴图。技术亮点包括生成定位图和纹理图,以及使用级联得分蒸馏方法来提高纹理质量和分辨率。最后,作者展示了该技术在多种形状上的应用效果。
概述:
这段话主要讨论了OOD检测的目的和方法。它指出了当前OOD检测方法中存在的一个线性趋势,并提出了一个新的方法RTL,利用这种线性趋势进行更精确的OOD预测。同时,还提出了一个在线变体,并进行理论分析和实验验证了方法的有效性。
无监督视频对象分割旨在分割视频序列中最突出的对象。然而,复杂背景和多个前景对象的存在使得这项任务充满挑战。为了解决这一问题,我们提出了一种引导槽注意力网络,以加强空间结构信息,获得更好的前景-背景分离。初始化时带有查询引导的前景和背景槽根据与模板信息的交互进行迭代优化。此外,为了提高槽-模板交互,有效地融合目标帧和参考帧的全局和局部特征,引入了K最近邻过滤和一个特征聚合变压器。所提出的模型在两个流行的数据集上取得了最先进的性能。此外,我们通过各种比较实验展示了所提模型在挑战性场景中的鲁棒性。
主要内容概述:
这段话主要讨论了无监督视频对象分割的挑战,并提出了一个解决方案。作者提出了一个引导槽注意力网络,这个网络能够加强空间结构信息,以实现更好的前景-背景分离。网络通过查询引导进行初始化,并通过与模板信息的交互进行优化。同时,还引入了K最近邻过滤和特征聚合变压器来提升性能。最后,该模型在两个数据集上取得了先进性能,并在挑战性场景中展示了鲁棒性。
在图像去模糊方面,深度学习方法已经取得了显著的进展,尤其是在配对合成数据上监督模型表现出色。然而,现实世界的质量退化比合成数据集更为复杂,且在现实场景中获取配对数据构成了重大挑战。为了解决这些挑战,我们提出了一种新颖的基于自我增强的无监督图像去模糊框架。该框架在不需真实配对数据集的情况下逐步生成改进的伪锐利和模糊图像对,且生成的质量更高的图像对可用于提升重建器的性能。为了确保生成的模糊图像更接近真实模糊图像,我们提出了一种新的重退化主成分一致性损失,它使得生成低质量图像的主成分与从原始锐利图像重退化得到的图像的主成分相似。此外,我们引入了自我增强策略,显著提高了去模糊性能,而不会在推理过程中增加网络的计算复杂性。通过在多个现实世界模糊数据集上的大量实验,我们证明了我们的方法优于其他最先进的无监督方法。
主要内容概述:
这段话介绍了深度学习在图像去模糊领域的进展,指出了现实世界数据获取的挑战,并提出了一个基于自我增强的无监督图像去模糊框架。该框架能够生成高质量的伪图像对,并引入了新的损失函数和自我增强策略来提高去模糊性能,实验证明该方法优于其他无监督方法。
主要内容概述:
这段话主要介绍了行动检测的研究目标,并提出了一种新的方法(ADI-Diff框架)来处理行动检测。该方法将行动检测的输出视为图像,并通过三图像生成过程进行处理。同时,作者还探索了特殊设计来处理这些图像的独特属性,最终在数据集上取得了优秀的结果。
以下是对这段话的翻译和概述:
翻译:
真实世界场景中的角色动画需要诸如轨迹、关键帧、交互等各种各样的约束。现有的方法通常将单个或有限的这些约束作为独立的控制任务来处理。这些方法通常很专业,且它们解决的问题很少是可扩展或可定制的。我们将这些视为闭集运动控制问题的解决方案。为了应对实际运动控制的复杂性,我们提出了并尝试解决开放集运动控制问题。这个问题具有开放且完全可定制的运动控制任务集。为了解决这个问题,我们引入了一个新的范式:可编程运动生成。
概述:
主要内容是讨论在真实世界场景中,角色动画面临的运动控制问题。现有方法处理这些问题时存在局限性,因此作者提出了开放集运动控制问题,并引入了“可编程运动生成”的新范式。这个范式允许通过将任务分解为原子约束组合来定制运动控制任务,并通过优化来满足这些约束。实验表明,这种方法可以生成高质量的运动,并能够处理各种未见的任务,无需特定的数据收集或网络设计。此外,还观察到了新技能的出现和自动编程的实现。
翻译:
自我监督的标志点估计是一项挑战性的任务,需要在没有标注数据的情况下形成局部明显的特征表示来识别稀疏的面部标志点。为了应对这一任务,现有的最先进(SOTA)方法(1)从骨干网络中提取粗糙特征,这些骨干网络是用实例级自我监督学习(SSL)范式训练的,忽略了任务的密集预测性质;(2)将它们聚合成内存密集型的超列结构;(3)监督轻量级投影网络,简单地建立所有空间特征对之间的完整局部对应关系。在本文中,我们介绍了SCE-MAE框架,该框架(1)利用MAE,这是一种区域级SSL方法,自然更适合地标预测任务;(2)在原始特征图上操作,而不是在昂贵的超列上;(3)采用了一种对应近似和细化块(CARB),它使用简单的密度峰值聚类算法和我们提出的局部性约束排斥损失,直接精炼仅选定的局部对应关系。我们通过大量实验证明,SCE-MAE非常有效且鲁棒,在地标匹配任务上超过现有SOTA方法20%-44%,在地标检测任务上超过9%-15%。
概述:
这段话主要讨论了自我监督地标估计的挑战,并介绍了一种新的框架SCE-MAE。这个框架通过使用更适合地标预测任务的区域级SSL方法,操作原始特征图,并采用特定的块(CARB)来精炼局部对应关系,从而克服了现有SOTA方法的不足。实验证明,SCE-MAE在性能上显著优于现有方法。
主要内容概述:
伪装视觉感知是一个重要的视觉任务,具有众多的实际应用。由于昂贵的收集和标注成本,这个社区在主要瓶颈上挣扎,即其数据集的物种类别仅限于少数目标物种。然而,现有的伪装生成方法需要手动指定背景,因此无法以低成本方式扩展伪装样本多样性。在本文中,我们提出了一种潜在背景知识检索增强的扩散(LAKE-RED)用于伪装图像生成。
以下是主要内容:
以下是以下内容:
以下是概述:
以下是概述:
以下主要内容概述:
翻译与概述:
翻译:
最近,扩散模型作为一种新的强大的生成方法,在3D点云生成任务中崭露头角。然而,很少有研究探讨扩散模型架构在3D点云中的作用,这些研究依赖于为2D图像开发的典型UNet模型。受到Transformers广泛采用的启发,我们研究了卷积(来自UNet)和注意力(来自Transformers)的互补角色。我们发现它们的重要性会根据扩散过程中的时间步长而变化。在早期阶段,注意力的影响巨大,因为Transformers更快地生成整体形状;在后期阶段,当添加细节时,卷积对生成的点云局部表面质量的影响开始增大。
基于这一观察,我们提出了一种随时间变化的两流去噪模型,结合了卷积层和Transformer块。我们从每个时间步生成一个可优化的掩码,以重新权衡全局和局部特征,获得随时间变化融合特征。实验上,我们证明了我们提出的方法在视觉质量和多样性方面优于其他先进方法。
概述:
该段话主要讨论了在3D点云生成中,扩散模型的新应用,并且特别研究了UNet和Transformers的结合使用。研究发现了在扩散过程中,卷积和注意力的作用随时间步长变化,并基于此提出了新的模型,该模型在实验中表现优于其他方法。以下是代码可用性的提及。
主要内容概述:
本文提出了一种从单个图像以自由视角渲染3D人体的方法,解决了现有方法的纹理问题和颜色失真。特别地,提出了一种纹理一致的背面合成方法,并通过实验证明了该方法的有效性。
现有的基于文本的人体检索数据集通常具有相对粗粒度的文本注释。这阻碍了模型理解实际情景中查询文本的细粒度语义。为了解决这一问题,我们贡献了一个新的基准,名为UFineBench,用于超细粒度的基于文本的人体检索。首先,我们构建了一个名为UFine6926的新数据集。我们收集了大量的人体图像,并为每张图像手动注释了两个详细的文本描述,平均每个描述80.8个单词。平均单词数量是之前数据集的三到四倍。除了标准的领域内评估外,我们还提出了一种更符合真实情景的特殊评估范式。它包含一个名为UFine3C的新评估集,涵盖跨领域、跨文本粒度和跨文本风格,以及一个用于准确测量检索能力的新评估指标,名为平均相似度分布(mSD)。此外,我们提出了CFAM,这是一种针对超细粒度文本的基于文本的人体检索更高效的算法。它通过采用共享的跨模态粒度解码器和硬负匹配机制来实现细粒度挖掘。在标准领域内评估中,CFAM在各种数据集上均取得了有竞争力的性能,特别是在我们的超细粒度UFine6926上。
以下是主要内容概述:
数据集和代码将公开可用。
主要内容概述:
这段话介绍了贝叶斯优化在超参数优化和神经架构搜索中的重要性,并提出了一种新的多保真度BO方法FastBO。FastBO在为每个配置决定保真度方面表现出色,并通过实验展示了其在性能和效率方面的优势。此外,该方法还能扩展任何单一保真度方法到多保真度设置。
实时渲染逼真且可控的人类头像在计算机视觉和图形学中占有基石地位。虽然神经隐式渲染的最新进展为数字头像的实时性能解锁了前所未有的逼真效果,但这种效果大多仅针对静态场景进行了展示。为了解决这一问题,我们提出了ASH,一种用于实时渲染动态人体的可动画高斯涂抹方法。我们将着衣人体参数化为可动画的3D高斯函数,可以有效地涂抹到图像空间以生成最终渲染。然而,在3D空间中简单地学习高斯参数在计算上构成了严重挑战。相反,我们将高斯函数附加到可变形角色模型上,并在2D纹理空间中学习它们的参数,这使得可以利用高效的2D卷积架构,轻松地随所需的高斯数量进行扩展。
主要内容概述:
这段话介绍了一种名为ASH的新方法,该方法用于实时渲染逼真且动态的人类头像。ASH采用了一种可动画的高斯涂抹方法,并通过在2D纹理空间学习参数来克服计算挑战。文章还提到,该方法在对比测试中优于现有的实时方法,并且结果与离线方法相当或更好。
对抗性训练通常被表述为一个最小-最大问题,然而只关注最糟糕的对抗性样本会导致模型的交替重复性混淆,即以前成功防御或正确分类的样本在后续的对抗性训练中可能不再可防御或准确分类。我们将这类不可忽视的样本称为“隐匿者”,它们揭示了通过对抗性训练获得的安全区域内的隐藏高风险区域,并阻止模型找到真正的最坏情况。我们要求模型在防御对抗性样本时防止出现隐匿者,以同时提高准确性和鲁棒性。通过对对抗性训练的最小-最大优化问题进行重新思考和重新定义,我们提出了一种称为隐匿者聚焦对抗性训练(HFAT)的广义对抗性训练算法。HFAT引入了迭代进化优化策略来简化优化问题,并使用辅助模型有效地揭示隐匿者,结合了标准对抗性训练和预防隐匿者的优化方向。此外,我们还引入了一种自适应加权机制,使模型能够在不同的训练阶段自适应地在对抗性样本和隐匿者之间调整其关注点。我们通过大量实验证明了我们方法的有效性,并确保HFAT能够提供更高的鲁棒性和准确性。我们将在发表时公布源代码。
主要内容概述:
这段话讨论了对抗性训练中的一个问题,即仅关注最严重的对抗性样本可能导致模型在某些样本上的性能不稳定。文章定义了这些可能导致问题的样本为“隐匿者”,并提出了一种新的对抗性训练方法——隐匿者聚焦对抗性训练(HFAT)。HFAT旨在通过迭代进化优化策略和辅助模型来有效识别和处理这些隐匿者,同时引入自适应加权机制来平衡训练过程中的关注点。实验证明,这种方法能够提高模型的鲁棒性和准确性。
本工作介绍了一种变革性的文本到图像(T2I)风格迁移框架ArtAdapter,它超越了传统对色彩笔触和对象形状的限制,捕捉到如构图和独特的艺术表达等高级风格元素。通过将多级风格编码器与我们所提出的显式适应机制相结合,ArtAdapter在风格迁移中实现了前所未有的保真度,确保与文本描述紧密对齐。此外,引入辅助内容适配器(ACA)有效地将内容与风格分离,减轻了从风格参考中借用内容的问题。此外,我们新颖的快速微调方法可以进一步提高零样本风格表示,同时减轻过拟合的风险。综合评估证实,ArtAdapter超越了当前最先进的方法。
主要内容概述:
这段话主要介绍了一种名为ArtAdapter的文本到图像风格迁移框架。这个框架能够捕捉高级风格元素,并通过多级风格编码器和显式适应机制实现高保真的风格迁移。同时,通过引入辅助内容适配器,有效分离内容和风格。此外,一种新颖的快速微调方法也被提出,以提高风格表示并降低过拟合风险。最后,评估显示ArtAdapter优于当前的最先进方法。
翻译内容:
本文解决了一个新的且有挑战性的问题:如何在不需要任何标注数据的情况下,将新兴的Segment Anything Model (SAM)的知识转移到学习一个紧凑的全景语义分割模型(即学生模型)。这带来了重大挑战,因为SAM无法提供语义标签,且SAM与学生模型之间存在较大的能力差距。为此,我们提出了一个名为GoodSAM的新框架,引入教师助手(TA)来提供语义信息,并与SAM结合生成集合日志its以实现知识转移。
主要内容概述:
以下继续翻译:
具体做法:
我们提出了一个DAR模块,它合并了一个跨任务互补融合块,以自适应地合并SAM和TA的预测,以获得更可靠的集合日志its。此外,我们引入了MKA模块,有效地将多级特征知识从TA和集合日志its转移到学习一个紧凑的学生模型。
实验结果:
在两个基准测试上的大量实验表明,我们的GoodSAM在mIoU上比现有最佳(SOTA)领域适应方法提高了惊人的+3.75%。此外,我们最轻量级的模型仅用3.7M参数就达到了与SOTA方法相当的性能。
以下主要内容概述:
翻译:
在这篇文章中,我们集中研究了一个具有挑战性的在线任务自由类增量学习(OTFCIL)问题。与现有的从数据流中持续学习特征空间的方法不同,我们为OTFCIL提出了一个新颖的计算和对接范式。它首先计算一个最优几何,即类原型分布,用于对已有类别进行分类,并在新类别出现时更新它,然后通过将其特征空间与最优几何对齐来训练一个DNN模型。
概述:
以下是主要内容:
主要内容:
以下是方法:
以下是对以下内容的概述:
概述:
以下是翻译和概述:
翻译:
本文提出了一种针对OTFCIL的新方法,以下是关键点:
概述:
以下是最重要的部分:
以下是翻译:
在这篇文章中,我们关注了一个翻译和概述如下的问题:
本文介绍了以下内容:
本文主要讨论了以下内容:
本文的重点是:
以下是翻译:
这篇文章中,我们专注于以下问题:
以下是概述:
以下是文章的概述:
在这篇文章中,我们探讨了以下问题,并提出了以下方法:
以下是详细内容:
以下是文章的核心内容:
以下是翻译和概述:
以下是翻译:
在这篇文章中,我们关注了一个具有挑战性的问题,以下是方法:
以下是概述:
文章提出了一种新的学习范式,以下是实验结果和贡献。以下是以下内容:
以下是具体翻译:
在这篇论文中,我们专注于一个论文的主要内容和翻译如下:
以下是具体概述:
提出了一种新的计算和对接范式。
DNC算法用于处理几何结构。
DYSON方法包含三个部分,实验证明有效。以下是代码提供信息:
代码在补充材料中提供。
翻译:
理想的密集视频字幕模型——预测视频中时间上定位的字幕——应该能够处理长输入视频,预测丰富的详细文本描述,并能在处理完整个视频之前生成输出。然而,当前最先进的技术模型仅处理固定数量的降采样帧,并在看到整个视频后进行一次完整的预测。我们提出了一个流式密集视频字幕模型,其中包括两个新颖组件:首先,我们提出了一种基于聚类输入令牌的新型内存模块,该模块可以处理任意长的视频,因为内存是固定大小的。其次,我们开发了一种流式解码算法,使我们的模型在处理完整个视频之前就能进行预测。
概述主要内容:
本文介绍了一个新的流式密集视频字幕模型,该模型能够处理长时间视频,并在观看完整视频前进行预测。模型包括两个创新点:一个基于聚类的内存模块和一个流式解码算法。该模型在多个基准测试中显著提升了性能。
主要内容概述:
这段话主要讨论了表面法线估计的问题,指出现有方法使用通用模型,并提出了一种新的方法。新方法利用像素光线方向和相邻表面法线的关系,能够为复杂图像提供更好的预测。此外,该方法在较小数据集上训练后,展现出了比现有先进模型更强的泛化能力。
以下是主要内容概述:
翻译内容:
事件传感器提供了高时间分辨率的视觉感知,这使得它们非常适合感知快速视觉现象,不会受到运动模糊的影响。以下是主要内容:
概述:
事件传感器提供了高时间分辨率的视觉感知,这使得它们非常适合感知快速视觉现象,而不会受到运动模糊的影响。机器人技术和基于视觉导航的某些应用需要三维感知一个在静态摄像机前进行圆形或旋转运动的物体,例如恢复物体的角速度和形状。这个设置相当于观察一个静态物体与一个绕轨道运动的摄像机。在本文中,我们提出了基于事件的结构从轨道(eSfO)方法,旨在同时进行以下两项工作:
以下是主要内容概述:
翻译内容:
概述:
这段话主要是说,尽管事件相机在捕获动态场景上很厉害,但噪声问题特别是在恶劣条件下是个问题。现有研究不够全面,因此作者构建了一个新的数据集,并提出了一种新的去噪框架和一个生物启发的基线,以实现更准确的去噪,实验结果证明了其有效性。
概述:
这段话主要讨论了联邦学习(FL)在领域偏斜情况下存在的公平性问题,包括参数更新冲突和模型聚合偏差。作者发现了一种方向性更新一致性,并提出了一种新框架来解决这些问题,旨在提高公平性和性能。
翻译内容:
在这项工作中,我们研究了一个新问题,专注于在执行日常活动时进行人员识别。代码和数据集可以在这里访问:https://github.com/sacrcv/Activity-Biometrics/.
主要内容概述:
以下是翻译:
本工作中,我们探讨了一个新问题,该问题专注于在执行日常活动时进行人员识别。由于时空复杂性和外观偏差(如衣物颜色和背景)的存在,从RGB视频中学习生物特征构成挑战。我们提出了ABNet这一新颖框架,它通过分离生物特征和非生物特征,从而有效地从日常活动中进行人员识别。ABNet依靠一个无偏见的教师来从RGB视频中学习生物特征,并借助生物特征扭曲明确分离非生物特征。此外,ABNet还利用活动先验进行生物识别,这是通过生物特征和活动的联合学习实现的。我们对这一提议的方法在五个不同的数据集上进行了全面评估,这些数据集来源于现有的活动识别基准。此外,我们还广泛比较了ABNet与现有的人员识别工作,并在所有五个数据集上展示了其在基于活动的生物识别方面的有效性。
主要内容概述:
这段话讨论了图像风格转换的进展,指出了一种新的研究方法。该方法使用标准的扩散模型直接提取风格信息,并通过双重去噪路径和交叉注意力重加权策略来改进风格转移。研究还展示了这种方法的有效性和优越性。
以下是主要内容概述:
翻译内容:视觉场景内的视觉交互性理解对计算机视觉来说是一个重大挑战。现有方法主要关注复杂的交互性,并使用简单的关系模型。但这些方法在处理视频中的多样表现、情境、位置、交互和关系方面遇到挑战。
概述:
概述主要内容:
这段话主要介绍了轨迹预测在自动驾驶等领域的重要性,指出现有方法存在的问题,并提出了一种新的方法来预测视线外的轨迹。该方法可以有效去噪并提高预测准确性,对提高自动驾驶安全性和可靠性具有重要意义。同时,该工作也为未来的研究设定了新的基准。
主要内容概述:
这段话主要讨论了在深度学习中实现公平表示的重要性,并提出了一个名为FADES的新方法。该方法旨在解决之前研究中存在的不切实际的问题,通过使用条件互信息来处理挑战。FADES能够提高性能和公平性,并在下游任务中表现优于现有工作。
以下是主要内容概述:
翻译内容:本文介绍了如何让用户对图像生成进行细粒度控制的方法,通过“连续3D词汇”来实现连续属性的控制。这些控制可以应用于多个3D感知属性,且不会给生成过程增加额外负担。
主要内容概述:文章主要讨论了改进图像生成控制的方法,特别是针对连续属性,并通过“连续3D词汇”实现了这一点,提高了用户控制的精细度。
主要内容概述:
这段话介绍了现代文本到图像生成模型的质量和计算成本问题,并提出了一种新的方法来降低成本。该方法使用MRF模型来确保图像区域的兼容性,并在Muse模型上展示了有效性,减少了采样步骤,并提供了以下要点:
现代文本到图像生成模型产生的高质量图像既具有逼真性,也符合文本提示。然而,这种质量伴随着巨大的计算成本:几乎所有这些模型都是迭代的,需要使用大型模型多次进行采样。这一迭代过程是为了确保图像的不同区域不仅与文本提示一致,而且彼此之间也相兼容。在本研究中,我们提出了一种轻量级方法,利用马尔可夫随机域(MRF)模型实现图像不同区域之间的这种兼容性。我们在基于潜在令牌的Muse文本到图像模型上验证了该方法的有效性。MRF模型丰富地编码了不同空间位置的图像令牌之间的兼容性,从而提高质量并显著减少了所需的Muse采样步骤。MRF的推理成本显著更低,其参数可以通过将MRF推理视为可微分神经网络层来快速通过反向传播学习。我们的完整模型MarkovGen使用这个提议的MRF模型,使Muse的速度提高了1.5倍,并通过减少不必要图像艺术性来产生更高质量的图像。
在动态环境中对运动行为的感知对于自动驾驶系统至关重要,其中类不可知的运动预测方法直接预测整个点云的运动。尽管大多数现有方法依赖于完全监督学习,但点云数据的手动标注既费时又费力。因此,已经提出了几种注解效率高的方法来应对这一挑战。尽管这些方法有效,但它们依赖于弱标注或额外的多模态数据,如图像,而点云序列中固有的潜在优势仍然未被充分探索。为此,我们探讨了仅使用未标记的激光雷达点云进行自监督运动预测的可行性。最初,我们使用最优传输求解器在当前点云和未来点云之间建立粗略的对应关系,作为粗略的伪运动标签。直接使用这样的粗略标签进行模型训练会导致明显的空间和时间预测不一致。为了缓解这些问题,我们引入了三种简单的空间和时间正则化损失,有效地促进了自监督训练过程。实验结果表明,我们的方法在自监督方法中显著优于现有技术水平。代码将可用。
主要内容概述:
这段话讨论了在自动驾驶系统中,对动态环境中的运动行为进行感知的重要性。作者提出了一种新的方法,即使用未标记的激光雷达点云数据进行自监督运动预测,以避免手动标注点云数据的困难。他们使用最优传输求解器生成伪运动标签,并通过引入空间和时间正则化损失来改善预测的一致性。实验结果显示,这种方法在自监督学习领域优于现有技术。最后,作者提到将公开相关代码。
概述:这段话的内容是告知读者,某个文档或文章的摘要信息不可用,无法提供摘要内容。
概述主要内容:
这段话主要介绍了作者提出的一种新的交互式图像分割算法MFP,该算法旨在更好地利用先前的概率图来提高分割性能。作者描述了如何调节概率图,并将其作为输入提供给分割网络。此外,还提到了算法基于不同骨干网络的实现,并在多个数据集上进行了性能评估,结果显示MFP优于现有算法。最后,提供了源代码的获取途径。
以下是主要内容概述:
翻译内容:
域自适应目标检测的目标是让检测模型适应没有注释数据的领域。现有方法使用半监督的学生-教师框架来解决域差距。但是,标签训练集中的类别不平衡导致不准确伪标签。类别之间的关系对类别偏见有重大影响。本文提出了Class-Aware Teacher(CAT)来解决域自适应中的类别偏见问题。通过ICRm模块近似类别关系,减少模型偏见。此方法能增强相关类别,提高少数类别性能。
概述:
实验在不同数据集上进行,结果显示我们的方法能够解决域自适应设置中的类别偏见。在Cityscapes ? Foggy Cityscapes数据集上,我们达到了52.5 mAP,比现有最佳方法的51.2 mAP有了显著改进。
概述主要内容:
这段话介绍了一种名为StyLitGAN的新方法,该方法能够在没有标记数据的情况下处理图像的重新打光和重塑。它能够生成具有真实光照效果的图像,并且不需要依赖配对或CGI数据。该方法的工作原理和其主要内容包括分解图像、搜索潜在空间,以及生成重新照明的图像等。最后,定量和定性评估都确认了该方法的有效性。
在自然语言处理(NLP)领域,模型大小、数据量、计算和模型性能的规律已经被广泛研究。然而,在场景文本识别(STR)方面的扩展规律尚未得到探讨。为了解决这一问题,我们进行了全面的研究,包括检查在文本识别领域中模型性能与模型大小、数据量和计算规模之间的相关性。研究最终表明,当其他影响因素保持不变时,性能与模型大小以及训练数据量之间存在平稳的幂律关系。此外,我们构建了一个大规模的数据集,名为REBU-Syn,其中包含600万个真实样本和1800万个合成样本。基于我们的扩展规律和新数据集,我们成功训练了一个场景文本识别模型,在6个常见测试基准上达到了新的最先进水平,top-1平均准确率达到97.42%。模型和数据集已在 \href {https://github.com/large-ocr-model/large-ocr-model.github.io} {large-ocr-model.github.io} 公开提供。
主要内容概述:
这段话主要讨论了在场景文本识别(STR)领域,模型大小、数据量和计算规模与模型性能之间的关系研究。研究表明,存在一定的扩展规律,即性能与模型大小及训练数据量之间存在幂律关系。同时,作者构建了一个新的、大规模的数据集REBU-Syn,并基于此数据集训练出了表现卓越的文本识别模型,达到了业界领先水平,并将模型和数据集公开分享。
以下主要内容概述:
翻译:我们解决了一个问题,即基于少量自然语言描述进行3D点云定位,并介绍了Text2Loc。
概述:
翻译:
我们解决了基于少量自然语言描述的3D点云定位问题,并引入了一种新型的神经网络Text2Loc,它完全解释了点与文本之间的语义关系。Text2Loc遵循一个从粗到细的定位流程:首先是文本子图的全局位置识别,然后是精细定位。在全局位置识别中,每个文本提示之间的关系动态被一个带有最大池化的分层变压器(HTM)捕获,同时通过文本子图对比学习来维持正负对之间的平衡。此外,我们提出了一种新颖的无匹配精细定位方法,以进一步优化位置预测,这完全消除了对复杂文本实例匹配的需求,并且比之前的方法更轻便、更快、更准确。大量的实验表明,Text2Loc在KITTI360Pose数据集上的定位准确度比现有技术提高了2倍。我们的项目页面公开可访问。
以下是翻译内容:
张量网络表示是一种强大的技术,用于计算机视觉和机器学习。张量网络结构搜索旨在寻找一个定制的结构,以实现紧凑的表示,这是一个挑战性的NP难题。最近的“采样-评估”基于方法需要采样大量结构并逐一评估,导致计算成本过高。
以下概述:
主要内容概述:
以下是具体翻译:
以下主要内容概述:
翻译:
医学视觉语言预训练(VLP)已经成为一个研究前沿,它能够通过将查询图像与每种疾病的文本描述进行比较,实现零样本病理识别。由于生物医学文本的复杂语义,现有方法在将医学图像与无结构报告中关键的病理发现对齐时存在困难,从而导致与目标疾病文本描述的不匹配。本文提出了一种新的VLP框架,该框架能将疾病描述分解为基本方面,利用病变视觉表现的先验知识。以下是概述:
概述:
结果:
以下主要内容概述:
翻译内容:
以下是主要结果:
以下是其他应用:
以下是翻译:
我们介绍MoMask,这是一种用于文本驱动的3D人体运动生成的新型遮罩建模框架。以下是概述:
概述:
MoMask使用分层量化方案,翻译如下:
主要内容概述:
以下是对段落的概述:
以下是翻译:
反渲染的目标是恢复物体的几何和材质。它相比于神经辐射场(NeRFs)为传统渲染引擎提供了更为兼容的重建方式。另一方面,现有的基于NeRF的反渲染方法无法很好地处理具有局部光交互的亮面物体,因为它们通常将照明简化为假设只有无限光源的2D环境贴图。观察到NeRF在恢复辐射场方面的优越性,我们提出了一种基于NeRF和光线追踪的新型5D神经全息函数(NeP),以便通过渲染方程更准确地制定更准确的光照-物体交互。我们还设计了一种材质感知的圆锥采样策略,以在预过滤辐射场的帮助下有效地整合BRDF lobes内的光线。我们的方法分为两个阶段:第一阶段重建目标物体的几何和预过滤的环境辐射场,第二阶段利用提出的NeP和材质感知圆锥采样策略估计目标物体的材质。在提出的真实世界和合成数据集上的大量实验表明,我们的方法可以重建具有复杂光照交互的挑战性亮面物体的高保真几何/材质。项目网页:https://whyy.site/paper/nep.
大型的视觉-语言模型(VLMs),如CLIP,在无监督领域自适应任务中展示了良好的零样本学习性能。然而,大多数用于VLMs的迁移方法要么关注语言分支,要么关注视觉分支,忽视了两种模态之间微妙的相互作用。在这项工作中,我们引入了一个统一的模态分离(UniMoS)框架用于无监督领域自适应。利用模态间隙研究的洞察,我们设计了一个灵活的模态分离网络,能够清晰地分解CLIP的特征为与语言相关和与视觉相关的组件。我们提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保持了模态特定的细微差别。我们使用模态判别器对跨领域的特征进行对齐。在三个基准上的全面评估显示,我们的方法以最小的计算成本设定了新的最先进水平。代码:https://github.com/TL-UESTC/UniMoS…
主要内容概述:
这段话介绍了一种名为统一模态分离(UniMoS)的框架,用于无监督领域自适应。该框架设计了一个模态分离网络,能够将CLIP模型的特征分解为与语言和视觉相关的部分。同时,提出了一种模态集成训练(MET)方法,促进模态无关信息的交换,同时保持模态特定的细节。该方法在三个基准测试中取得了最先进的结果,且计算成本较低。
主要内容概述:
这段话讨论了将平面拟合到点集的技术,并对其进行了一个扩展。它提到使用PCA进行拟合,并提出了一个新方法来拟合不同维度的平面。该方法在概念和计算效率上优于之前的方法,并且具有一些理想属性,通过实验和重建任务进行了验证。
概述主要内容:
这段话介绍了随着可穿戴摄像头流行的一个挑战:如何从静态摄像头角度识别佩戴者。提出了PersonEnvironmentNet(PEN)框架来解决这一问题,同时介绍了TF2023数据集和一个新的定量指标。实验显示PEN表现优于现有方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。