码创造者

这个屌丝很懒，什么也没留下！

热门标签

CVPR 2024 | 绝了！！最新 diffusion 扩散模型梳理！100+篇论文、40+研究方向！

作者：码创造者 | 2024-07-23 23:04:48

踩

diffusion model 2024论文

30个方向130篇！CVPR 2023最全AIGC论文

30个方向！ICCV 2023 最全AIGC论文

25个方向！CVPR 2022 GAN论文汇总

35个方向！ICCV 2021 最全GAN论文汇总

超110篇！CVPR 2021 最全GAN论文梳理

超100篇！CVPR 2020 最全GAN论文梳理

在最新的视觉顶会 CVPR 2024 会议中，涌现出大量基于生成式AIGC的CV论文，尤其是扩散模型diffusion为代表！除直接生成，还广泛应用在其它各类 low-level、high-level 视觉任务！

本文集齐和梳理CVPR 2024里共30+方向、一百篇AIGC+扩散模型论文！下述论文均已分类打包好！

关注公众号【机器学习与AI生成创作】公众号，在后台回复 CVPR2024 （长按红字、选中复制）即可获取分类、按文件夹汇总好的论文集！！！

文章很长，梳理不易，越到后面的方向越有趣！麻烦各位看官，转发、分享、在看三连，多多鼓励小编！！！

扩散模型应用方向目录

1、扩散模型改进
2、可控文生图
3、风格迁移
4、人像生成
5、图像超分
6、图像恢复
7、目标跟踪
8、目标检测
9、关键点检测
10、deepfake检测
11、异常检测
12、图像分割
13、图像压缩
14、视频理解
15、视频生成
16、倾听人生成
17、数字人生成
18、新视图生成
19、3D相关
20、图像修复
21、草图相关
22、版权隐私
23、数据增广
24、医学图像
25、交通驾驶
26、语音相关
27、姿势估计
28、图相关
29、动作检测/生成
30、机器人规划/智能决策
31、视觉叙事/故事生成
32、因果生成
33、隐私保护-对抗估计
34、扩散模型改进-补充
35、交互式可控生成
36、图像恢复-补充
37、域适应-迁移学习
38、手交互
39、伪装检测
40、多任务学习
41、轨迹预测
42、场景生成
43、流估计-3D相关

一、扩散模型改进

1、Accelerating Diffusion Sampling with Optimized Time Steps

扩散概率模型（DPMs）在高分辨率图像生成方面显示出显著性能，但由于通常需要大量采样步骤，其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而，大多数采样方法仍使用均匀的时间步长，在使用少量步骤时并不是最优的。

为解决这个问题，提出一个通用框架来设计一个优化问题，该优化问题寻求特定数值ODE求解器在DPMs中更合适的时间步长。该优化问题的目标是将基本解和相应的数值解之间的距离最小化。高效解决这个优化问题，所需时间不超过15秒。

在像素空间和潜空间DPMs上进行大量实验，无条件采样和有条件采样，结果表明，与用均匀时间步长相比，当与最先进的采样方法UniPC相结合时，对于CIFAR-10和ImageNet等数据集，以FID分数来衡量，优化时间步长显著提高图像生成性能。

2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

用扩散模型生成高分辨率图像巨大计算成本，导致交互式应用的延迟不可接受。提出DistriFusion来解决这个问题，通过利用多个GPU之间的并行性。方法将模型输入分成多个patch，并每个分配给一个GPU。然而，简单地实现这种算法会破坏patch之间的交互并丢失保真度，而考虑这种交互将导致巨大的通信开销。

为解决这个困境，观察到相邻扩散步骤的输入之间具有很高的相似性，并提出位移patch并行性，它利用扩散过程的顺序性质，通过重复使用前一时间步的预计算特征图为当前步骤提供上下文。因此，方法支持异步通信，可以通过计算进行流水线处理。大量实验证明，方法可以应用于最近的Stable Diffusion XL，而不会降低质量，并且相对于一个NVIDIA A100设备，可以实现高达6.1倍的加速。已开源在：https://github.com/mit-han-lab/distrifuser

3、Balancing Act: Distribution-Guided Debiasing in Diffusion Models

扩散模型（DMs）会反映训练数据集中存在的偏差。在人脸情况下尤为令人担忧，DM更偏爱某个人口群体而不是其他人口群体（例如女性比男性）。这项工作提出一种在不依赖于额外数据或模型重新训练的情况下对DMs进行去偏置的方法。

具体而言，提出分布引导（Distribution Guidance）方法，该方法强制生成的图像遵循指定的属性分布。为实现这一点，建立在去噪UNet（denoising UNet）的潜在特征上具有丰富的人口群体语义，并且可以利用这些特征来引导去偏置生成。训练属性分布预测器（ADP），一个将潜在特征映射到属性分布的小型多层感知机。ADP是使用现有属性分类器生成的伪标签进行训练的。引入的Distribution Guidance与ADP能进行公平生成。

方法减少了单个/多个属性上的偏差，并且在无条件和文本条件下的扩散模型方面的基线效果明显优于过去的方法。此外，提出通过生成数据对训练集进行再平衡来训练公平属性分类器的下游任务。

4、Few-shot Learner Parameterization by Diffusion Time-steps

即使用大型多模态基础模型，少样本学习仍具有挑战性。如果没有适当的归纳偏差，很难保留微妙的类属性，同时删除与类标签啡不相关的显著视觉属性。

发现扩散模型（DM）的时间步骤可以隔离微妙的类属性，即随着前向扩散在每个时间步骤向图像添加噪声，微妙的属性通常在比显著属性更早的时间步骤丢失。基于此，提出了时间步骤少样本（TiF）学习器。为文本条件下的DM训练了类别特定的低秩适配器，以弥补丢失的属性，从而在给定提示的情况下可以准确地从噪声图像重建出原始图像。因此，在较小的时间步骤中，适配器和提示本质上是仅含有微妙的类属性的参数化。对于一个测试图像，可以使用这个参数化来仅提取具有微妙的类属性进行分类。在各种细粒度和定制的少样本学习任务上，TiF学习器在性能上明显优于OpenCLIP及其适配器。

5、Structure-Guided Adversarial Training of Diffusion Models

在各种生成应用中，扩散模型展示了卓越的有效性。现有模型主要侧重于通过加权损失最小化来对数据分布进行建模，但它们的训练主要强调实例级的优化，忽视了每个小批量数据内有价值的结构信息。

为解决这个限制，引入结构引导的扩散模型对抗训练（Structure-guided Adversarial training of Diffusion Models, SADM）方法。迫使模型在每个训练批次中学习样本之间的流形结构。为确保模型捕捉到数据分布中真实的流形结构，提出一种新的结构判别器，通过对抗训练与扩散生成器进行游戏，区分真实的流形结构和生成的流形结构。

SADM显著改进了现有的扩散transformer，在图像生成和跨域微调任务中的12个数据集上性能优于现有方法，对于256×256和512×512分辨率下的类条件图像生成，新FID记录分别为1.58和2.11。

6、Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

大多数扩散模型假设反向过程服从高斯分布，然而，这种近似在奇异点处（t=0和t=1）尤其在奇异点singularities处尚未得到严格验证。不当处理这些点会导致应用中的平均亮度问题，并限制生成具有极端亮度或深暗度的图像。

本文从理论和实践的角度解决。首先，建立了反向过程逼近的误差界限，并展示了在奇异时间步骤时它的高斯特征。基于这个理论认识，确认t=1的奇异点是有条件可消除的，而t=0时是固有的属性。基于这些重要的结论，提出一种新的即插即用方法SingDiffusion来处理初始奇异时间步骤的采样，它不仅可以在没有额外训练的情况下有效解决平均亮度问题，而且还可以提高它们的生成能力，从而实现显著较低的FID得分。https://github.com/PangzeCheung/SingDiffusion

7、Boosting Diffusion Models with Moving Average Sampling in Frequency Domain

扩散模型大多依赖于当前样本来去噪下一个样本，可能导致不稳定。这篇论文将迭代的去噪过程重新解释为模型优化，并利用滑动平均机制将所有先前的样本集合起来。不仅仅将滑动平均应用于不同时间步的去噪样本，而是首先将去噪样本映射到数据空间，然后进行滑动平均，以避免时间步之间的分布偏移。

由于扩散模型将恢复从低频成分到高频细节，进一步将样本分解为不同的频率成分，并在每个成分上分别执行滑动平均。将完整的方法命名为“频域中的滑动平均采样 (Moving Average Sampling in Frequency domain，MASF)”。MASF可以无缝地集成到主流的预训练扩散模型和采样计划中。在无条件和有条件的扩散模型上进行的大量实验表明，与基线相比， MASF 在性能上表现出更高的水平，几乎没有额外的复杂度成本。

8、Towards Memorization-Free Diffusion Models

由于预训练的扩散模型及其输出具有出色的合成高质量图像的能力和开放源代码的特点，这些模型及其输出可广泛轻易获得。用户在推断过程中可能面临诉讼风险，因为模型容易记忆并复制训练数据。

为解决这个问题，引入一种新框架，称为“反记忆指导 (Anti-Memorization Guidance，AMG)”，它采用了针对记忆的三种有针对性的指导策略，以应对图像和caption重复，以及高度具体的用户提示等主要记忆原因。因此，AMG确保了无记忆输出，同时保持高图像质量和文本对齐，利用其指导方法的协同作用，每个方法在其自身领域都是不可或缺的。

AMG还具有创新的自动检测系统，用于在推断过程的每一步中检测潜在的记忆，允许选择性地应用指导策略，最大程度地不干扰原始的采样过程，以保留输出的实用性。将AMG应用于预训练的去噪扩散概率模型（DDPM）和稳定扩散的各种生成任务中。实验结果表明，AMG是第一个成功消除所有记忆实例而对图像质量和文本对齐几乎没有或轻微影响的方法，这一点可以通过FID和CLIP分数得到证明。

9、SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer

扩散Transformer（DiT）已成为图像生成趋势。鉴于典型 DiT 的收敛速度极其缓慢，最近的突破是由掩模策略推动的，该策略通过额外的图像内上下文学习提高了训练效率。但掩模策略仍然存在两个局限性：（a）训练推理差异和（b）掩模重建和生成扩散过程之间的模糊关系，导致 DiT 的训练不理想。

这项工作通过释放自监督的判别知识来促进 DiT 训练来解决这些局限性。从技术上讲，以师生的方式构建 DiT。师生判别对是沿着相同的概率流常微分方程（PF-ODE）建立在扩散噪声的基础上的。不在 DiT 编码器和解码器上应用掩模重建损失，而是解耦 DiT 编码器和解码器以分别处理判别目标和生成目标。特别是，通过使用学生和教师 DiT 编码器对判别对进行编码，设计了一种新的判别损失来鼓励自监督嵌入空间中的图像间对齐。之后，学生样本被输入学生 DiT 解码器以执行典型的生成扩散任务。在 ImageNet 数据集上进行了大量实验，方法在训练成本和生成能力之间实现了竞争性平衡。

二、可控文生图

10、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

3D资产生成正受到大量关注，受到最近文本引导的2D内容创建成功的启发，现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题，或在合成数据上进行微调，这往往会导致没有背景的非真实感3D物体。

本文提出利用预训练的文本到图像模型作为先验，并从真实世界数据中单一去噪过程中学习生成多视角图像。具体而言，将3D体渲染和跨帧注意力层集成到现有的文本到图像模型的每个块中。此外，设计一种自回归生成，可以从任意视点渲染出更具3D一致性的图像。使用真实世界的物体数据集来训练模型，并展示了它生成具有各种高质量形状和纹理的实例的能力。

与现有方法相比，生成的结果一致，并且具有良好的视觉质量（FID减少30％，KID减少37％）。https://lukashoel.github.io/ViewDiff/

11、NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging

布局感知的文本到图像生成，是一种生成反映布局条件和文本条件的多物体图像的任务。当前的布局感知的文本到图像扩散模型仍然存在一些问题，包括文本与布局条件之间的不匹配以及生成图像的质量降低。

本文提出一种新的布局感知的文本到图像扩散模型，称为NoiseCollage，以解决这些问题。在去噪过程中，NoiseCollage独立估计各个物体的噪声，然后将它们裁剪和合并为一个噪声。这个操作有助于避免条件不匹配，换句话说，它可以将正确的物体放在正确的位置。

定性和定量评估结果表明，NoiseCollage优于几种最先进的模型。还展示了NoiseCollage可以与ControlNet集成，使用边缘、草图和姿势骨架作为附加条件。实验结果表明，这种集成可以提高ControlNet的布局准确性。https://github.com/univ-esuty/noisecollage

12、Discriminative Probing and Tuning for Text-to-Image Generation

尽管在文本-图像生成(text-to-image generation)方面取得了进步，但之前方法经常面临文本-图像不对齐问题，如生成图像中的关系混淆。现有解决方案包括交叉注意操作，以更好地理解组合或集成大型语言模型，以改进布局规划。然而，T2I模型的固有对齐能力仍然不足。

通过回顾生成建模和判别建模之间的联系，假设T2I模型的判别能力可能反映了它们在生成过程中的文本-图像对齐能力。鉴于此，提倡增强T2I模型的判别能力，以实现更精确的文本-图像对齐以进行生成。

提出一个基于T2I模型的判别适配器，以探索他们在两个代表性任务上的判别能力，并利用判别微调来提高他们的文本-图像校准。鉴别适配器的好处是，自校正机制可以利用鉴别梯度，在推理过程中更好地将生成的图像与文本提示对齐。

对三个基准数据集(包括分布内和分布外场景)的综合评估表明，方法具有优越的生成性能。同时，与其他生成模型相比，它在两个判别任务上实现了最先进的判别性能。https://github.com/LgQu/DPT-T2I

13、Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

文本到视频（T2V）合成在学术界越来越受关注，其中新出现的扩散模型（DM）在性能上显示出比以往方法更强大的表现。虽然现有的最先进DM在实现高分辨率视频生成方面表现出色，但在复杂的时间动态建模方面（如动作发生紊乱、粗糙的视频动作）仍然存在很大局限性。

这项工作研究强化DM对视频动态感知的方法，用于高质量的T2V生成。受人类直觉的启发，设计一种新的动态场景管理器（称为Dysen）模块，包括（步骤1）从输入文本中提取具有适当时间顺序的关键动作，（步骤2）将动作计划转化为动态场景图（DSG）表示，和（步骤3）丰富DSG中的场景以提供充分和合理的细节。通过在上下文学习中利用现有的强大LLMs（如ChatGPT），Dysen实现了（几乎）与人类水平的动态时间理解。最后，具有丰富动作场景细节的视频DSG被编码为细粒度的时空特征，集成到基础T2V DM中进行视频生成。

在流行的T2V数据集上的实验表明，Dysen-VDM始终以显着的优势超越以前的方法，特别是在复杂动作场景中。

14、Face2Diffusion for Fast and Editable Face Personalization

面部个性化，旨在将来自图像的特定面部插入预先训练的文本到图像扩散模型中。然而，以往的方法在保持身份相似性和可编辑性方面仍然具有挑战，因为它们过拟合于训练样本。

本文提出一种用于高可编辑性面部个性化的Face2Diffusion（F2D）方法。F2D背后的核心思想是从训练流程中去除与身份无关的信息，以防止过拟合问题并提高编码面部的可编辑性。F2D包含以下三个新颖的组成部分：1）多尺度身份编码器提供了良好分离的身份特征，同时保持多尺度信息的好处，从而提高了摄像机姿势的多样性。2）表情引导将面部表情与身份进行分离，提高了面部表情的可控性。3）类别引导的去噪正则化鼓励模型学习如何对面部进行去噪，从而提高了背景的文本对齐性。

在FaceForensics++数据集和各种提示上进行的广泛实验表明，与先前最先进的方法相比，方法在身份和文本保真度之间取得了更好的平衡。https://github.com/mapooon/Face2Diffusion

15、LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model

本文提出LeftRefill，一种新方法，有效利用大型文本到图像（T2I）扩散模型进行参考引导图像合成。顾名思义，LeftRefill将参考视图和目标视图水平拼接在一起作为整体输入。参考图像占据左侧，而目标画布位于右侧。然后，LeftRefill根据左侧参考和特定的任务指令绘制右侧的目标画布。这种任务形式与上下文修复类似，类似于人工画家的操作。

这种新形式有效地学习了参考和目标之间的结构和纹理对应关系，而无需其他图像编码器或适配器。通过T2I模型中的交叉注意力模块注入任务和视图信息，并通过重新排列的自注意力模块进一步展示了多视图参考能力。这使得LeftRefill能够作为一个通用模型执行一致的生成，而无需在测试时进行微调或模型修改。因此，LeftRefill可以看作是一个简单而统一的框架来解决参考引导合成的问题。

作为示例，利用LeftRefill来解决两个不同的挑战：参考引导修复和新视角合成，基于预先训练的StableDiffusion模型。https://github.com/ewrfcas/LeftRefill

16、InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

大规模的图像到文本（T2I）扩散模型，展示出了生成基于文本描述的连贯图像能力，为内容生成提供广泛应用。尽管已有一定可控性，如对象定位、姿势和图像轮廓，但控制所生成内容中对象之间相互作用方面，仍存差距。在生成图像中控制对象之间的相互作用可能产生有意义的应用，例如创建具有交互式角色的现实场景。

这项工作研究将T2I扩散模型与Human-Object Interaction（HOI）信息进行条件化的问题，该信息由三元标签（人、动作、对象）和相应的边界框组成。提出一种名为InteractDiffusion的交互控制模型，它将现有的预训练T2I扩散模型扩展到能够更好地对交互进行条件控制。具体而言，对HOI信息进行tokenize，并通过交互嵌入来学习它们之间的关系。对训练HOI tokens到视觉tokens的条件化自注意层进行了训练，从而更好地对现有的T2I扩散模型进行条件化。

模型具有控制交互和位置的能力，并在HOI检测得分方面远远优于现有的基准模型，以及在FID和KID方面具有更好的保真度。https://jiuntian.github.io/interactdiffusion/

17、MACE: Mass Concept Erasure in Diffusion Models

大规模文本到图像扩散模型的快速扩张引起了人们对其潜在误用创造有害或误导性内容的日益关注。本文提出一种名为MACE的微调框架，用于MAss Concept Erasure（MACE）任务。该任务旨在防止模型在提示时生成具有不需要的概念的图像。现有的概念消除方法通常只能处理少于五个概念，同时很难在概念同义词（广义性）的消除和无关概念（特异性）的保留之间找到平衡。相比之下，MACE通过成功将消除范围扩大到100个概念，并在广义性和特异性之间实现了有效的平衡来实现差异。这是通过利用闭合形式的交叉注意力细化和LoRA微调来实现的，共同消除不需要的概念的信息。

此外，MACE在没有相互干扰的情况下整合了多个LoRA。在四个不同的任务中对MACE进行了广泛的评估：目标消除、名人消除、明确内容消除和艺术风格消除。结果表明，在所有评估任务中，MACE超过了之前的方法。https://github.com/Shilin-LU/MACE

18、MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

提出一个多实例生成（MIG）任务，同时在一张图像中生成具有多样控制的多个实例。给定一组预定义的坐标及其相应的描述，该任务是确保生成的实例准确位于指定的位置，并且所有实例的属性都与其相应的描述相符。这扩展了当前单实例生成研究的范围，将其提升到一个更多样化和实用的维度。

受到分而治之思想的启发，引入了一种名为多实例生成控制器（MIGC）的创新方法来应对MIG任务的挑战。首先，将MIG任务分解为几个子任务，每个子任务涉及一个实例的着色。为了确保每个实例的精确着色，引入了一种实例增强注意力机制。最后，聚合所有着色的实例，为准确生成多个实例的稳定扩散提供必要的信息（SD）。为了评估生成模型在MIG任务上的表现，提供一个COCO-MIG基准测试以及一个评估流程。

在提出的COCO-MIG基准测试以及各种常用基准测试上进行了大量实验。评估结果展示了模型在数量、位置、属性和交互方面的出色控制能力。https://migcproject.github.io/

19、One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications

商业和开源扩散模型（DMs）在文本到图像生成中的普遍使用引发了风险缓解，以防止不需要的行为。学术界已有的概念消除方法都是基于完全参数或基于规范的微调，从中观察到以下问题：1）向侵蚀方向的生成变化：目标消除过程中的参数漂移会导致生成过程中的变化和潜在变形，甚至会以不同程度侵蚀其他概念，这在多概念消除的情况下更为明显；2）无法转移和部署效率低下：以往的模型特定概念消除阻碍了概念的灵活组合和对其他模型的免费转移，导致部署的成本随着部署场景的增加而线性增长。

为实现非侵入式、精确、可定制和可转移的消除，将消除框架建立在一维适配器上，一次性从大多数DMs中消除多个概念，跨多种消除应用场景。概念-半渗透结构被注入到任何DM中作为膜（SPM），以学习有针对性的消除，并通过一种新的潜在锚定微调策略有效缓解变化和侵蚀现象。一旦获得，SPMs可以灵活组合并插入到其他DM中，无需特定的重新微调，能够及时高效地适应各种场景。在生成过程中，激活传输机制动态调节每个SPM的渗透性以响应不同的输入提示，进一步最小化对其他概念的影响。

在大约40个概念、7个DM和4个消除应用上的定量和定性结果证明了SPM的出色消除能力。https://lyumengyao.github.io/projects/spm

20、FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models

近年来，文本到图像生成模型的发展取得重大进展。评估生成模型的质量是开发过程中的重要步骤之一。评估过程可能会消耗大量的计算资源，使得所需的模型性能定期评估（例如监控训练进度）变得不切实际。因此寻求通过选择文本图像数据集的代表性子集来提高评估效率。

本文系统研究设计选择，包括选择标准（纹理特征或基于图像的指标）和选择粒度（提示级别或集合级别）。发现之前关于训练数据子集选择的工作中的见解并不能推广到这个问题，因此提出 FlashEval，一种针对评估数据选择而定制的迭代搜索算法。展示 FlashEval 对具有各种配置的扩散模型进行排名的有效性，包括 COCO 和 DiffusionDB 数据集上的架构、量化级别和采样器。搜索的 50 项子集可以实现与随机采样的 500 项子集相当的评估质量，以在未见过的模型上进行 COCO 标注，从而实现 10 倍的评估加速。后续将发布这些常用数据集的压缩子集，以帮助促进扩散算法的设计和评估，并开源 FlashEval 作为压缩未来数据集的工具。

三、风格迁移

21、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而，当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题，采用以下两种策略：1）一种解耦参考图像的风格和语义的机制。解耦后的特征表示首先由不同文本描述指导的Q-Formers提取。然后，它们被注入到交叉注意力层的相互排除的子集中，以实现更好的分解。2）一种非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练，其中参考图像和真实图像具有相同的风格或语义。

展示DEADiff在视觉风格化结果上取得了最佳效果，并在量化和定性上表现出文本可控性与与参考图像风格相似性之间的最佳平衡。https://tianhao-qi.github.io/DEADiff/

22、Deformable One-shot Face Stylization via DINO Semantic Guidance

本文针对One-shot人脸风格化问题进行研究，关注外观和结构的同时考虑。探索了与传统的单幅图像风格参考不同的变形感知人脸风格化。方法核心是利用自监督视觉transformer，具体来说是DINO-ViT，建立起强大而一致的人脸结构表示，涵盖真实和风格化领域。风格化过程首先通过将StyleGAN生成器适应到具有变形感知能力的状态，通过集成空间transformer（STN）来实现。然后，在DINO语义的引导下，引入两个创新的约束来指导生成器的微调：i）方向变形损失，调整DINO空间中的方向向量；ii）基于DINO令牌自相似性的相对结构一致性约束，确保多样化生成。此外，采用样式混合来使颜色生成与参考图像一致，减少不一致的对应关系。

方法为One-shot人脸风格化提供了更好的可变形性能，并在大约10分钟的微调时间内实现了显著的效率。广泛的定性和定量比较证明方法人脸风格化方法方面的优越性。https://github.com/zichongc/DoesFS

23、One-Shot Structure-Aware Stylized Image Synthesis

虽然基于GAN的模型在图像风格化任务上取得成功，但在对各种输入图像进行风格化时往往难以保持结构的完整性。最近，扩散模型已被用于图像风格化，但仍然缺乏保持输入图像原始质量的能力。

本文提出OSASIS：一种新的One-Shot风格化方法，具有结构保持的鲁棒性。展示了OSASIS能够有效地将图像的语义和结构解耦，使其能够控制给定输入中的内容和风格水平。将OSASIS应用于各种实验设置，包括使用域外参考图像进行风格化以及使用文本驱动的操作进行风格化。结果表明，OSASIS在风格化方法方面表现出色，特别是对于训练中很少遇到的输入图像，为扩散模型风格化提供了有希望的解决方案。

四、人像生成

24、Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis

扩散模型已用于姿势引导的人物图像合成中。而现有方法仅仅将人物外貌与目标姿势对齐，由于在源人物图像上缺乏高层语义理解，容易出现过拟合的问题。

本文提出一种用于姿势引导的人物图像合成的新方法——粗到精的潜在扩散（CFLD）。在缺乏图像-文本配对和文本提示的情况下，开发一种纯粹基于图像的训练范式，用于控制预训练文本到图像扩散模型的生成过程。设计一个感知精化解码器，用于逐渐优化一组可学习的查询并提取人物图像的语义理解作为粗粒度提示。这使得在不同阶段解耦细粒度外貌和姿势信息控制成为可能，从而避免潜在的过拟合问题。

为生成更真实的纹理细节，提出一种混合粒度注意力模块，用于将多尺度的细粒度外貌特征编码为偏差项，以增强粗粒度提示。在DeepFashion基准测试上的定量和定性实验证明方法在PGPIS方面相对于现有技术的优越性。https://github.com/YanzuoLu/CFLD

25、High-fidelity Person-centric Subject-to-Image Synthesis

基于目标主体的图像生成方法，生成以人物为中心的图像面临着重大挑战。原因在于它们通过对共同预训练扩散进行微调来学习语义场景和人物生成，这涉及到无法调和的训练不平衡。为了生成逼真的人物，它们需要对预训练模型进行充分调整，这不可避免地导致模型忘记丰富的语义场景先验，并且使场景生成过度适应训练数据。此外，即使经过充分微调，这些方法仍然无法生成高保真度的人物，因为场景和人物生成的联合学习也会导致质量的折衷。

本文提出Face-diffuser，一种有效的协作生成流水线，以消除上述训练不平衡和质量折衷。具体而言，首先开发两种专门的预训练扩散模型，即文本驱动扩散模型（TDM）和主体增强扩散模型（SDM），用于场景和人物的生成。采样过程分为三个顺序阶段，即语义场景构建、主体-场景融合和主体增强。第一和最后阶段分别由TDM和SDM完成。主体-场景融合阶段通过一种新且高效的机制实现，即基于显著性自适应噪声融合（SNF）。具体来说，它基于本文核心观察结果，即分类器无关指导响应与生成图像的显著性之间存在强大的联系。在每个时间步骤中，SNF利用了每个模型的独特优势，并以一种自适应于显著性的方式自动地进行两个模型预测噪声的空间混合，所有这些都可以无缝地集成到DDIM采样过程中。

实验证实Face-diffuser在生成高保真度人物图像方面的卓越效果。https://github.com/CodeGoat24/Face-diffuser

26、Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

传统的文本到图像扩散模型在生成准确的人物图像方面存在困难，例如不自然的姿势或不成比例的肢体。现有方法大多通过在模型微调阶段添加额外的图像或人体中心先验（例如姿势或深度图）来解决这个问题。本文探讨的是将这些人体中心先验直接集成到模型微调阶段，从而在推理阶段消除额外条件的需求。

通过引入人体中心对齐损失，在交叉注意力图中增强来自文本提示的与人相关的信息，实现了这一想法。为在微调过程中保证语义细节丰富性和人体结构准确性，根据对交叉注意力层的深入分析，引入尺度感知和分步约束。

实验结果表明，方法在基于用户编写的提示语生成高质量人物图像方面取得较大改进。https://hcplayercvpr2024.github.io/

27、A Unified and Interpretable Emotion Representation and Expression Generation

情绪，如快乐、悲伤和害怕，很容易理解和标注。情绪经常是复合的，例如快乐惊讶，并且可以映射到用于表达情绪的动作单元（AUs）。情绪是连续的，由arousal-valence（AV）模型表示。对于情绪的更好表示和理解，希望能够将这四种模态-即经典的、复合的、AUs和AV-统一起来。然而，这种统一仍未知。

这项工作提出一个可解释且统一的情绪模型，称为C2A2。还开发了一种方法，利用非统一模型的标签来标注新的统一模型。最后，修改文本条件的扩散模型，以理解连续数字，然后用统一情绪模型生成连续表达。

定量和定性实验，展示生成的图像丰富且捕捉到细微的表情。工作允许与其他文本输入一起精细生成表情，并同时为情绪提供了一个新的标签空间。https://emotion-diffusion.github.io/

28、CosmicMan: A Text-to-Image Foundation Model for Humans

提出CosmicMan，一种用于生成高保真人体图像的文本到图像基础模型。与当前困在人体图像质量和文本-图像不对齐困境中的通用基础模型不同，CosmicMan能够生成具有细致外貌、合理结构和精确文本-图像对齐的逼真人体图像，同时还提供详细的密集描述。CosmicMan关键在于对数据和模型的新的反思和观点：

（1）发现高质量的数据和可扩展的数据生成流程，对训练模型最终结果至关重要。因此，提出一个新的数据生成范式Annotate Anyone，作为一个持续的数据产生流程，通过经济高效的标注产生高质量数据。基于此，构建一个数据集CosmicMan-HQ 1.0，包含600万张高质量的真实人体图像，分辨率平均为1488×1255，并附带来自1.15亿个属性的精确文本标注，涵盖不同层次。

（2）一个专门用于生成人体图像的文本到图像基础模型必须是实用的，易于集成到下游任务中，同时在生成高质量人体图像方面有效。因此，提出以分解的方式建模密集文本描述和图像像素之间的关系，并提出Decomposed-Attention-Refocusing（Daring）训练框架。它无缝分解现有文本到图像扩散模型中的交叉注意力特征，并在不添加额外模块的情况下强制进行注意力重点调整。通过Daring，展示将连续文本空间明确离散化为与人体结构对齐的几个基本组是解决轻松解决不对齐问题的关键。https://cosmicman-cvpr2024.github.io/

29、DiffHuman: Probabilistic Photorealistic 3D Reconstruction of Humans

提出DiffHuman，一种从单个RGB图像中逼真重建人体的方法。这个问题本质上没有解，大多数方法是确定性的，并且输出一个单一的解决方案，通常导致未见或不确定区域缺乏几何细节和模糊。DiffHuman基于输入的2D图像预测了一个条件于3D重建的概率分布，这可以采样多个与输入图像一致的详细3D角色。

DiffHuman被实现为一个条件扩散模型，用于去噪像素对齐的2D观察结果，并通过迭代去噪预测的3D表示的2D渲染结果来采样3D角色。此外，还引入一个生成器神经网络，极大减少运行时间（加速55倍），从而实现一个新的双分支扩散框架。

实验结果表明，DiffHuman能够为输入图像中不可见或不确定的人物部位产生多样且详细的重建结果，同时在重建可见表面时与最先进方法竞争力十足。

30、Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On

图像虚拟试穿对于在线购物变得越来越重要。目标是合成一个指定人物穿着指定服装的图像。基于扩散模型的方法最近变得流行，因为它们在图像合成任务中表现出色。然而，这些方法通常会使用额外的图像编码器，并依赖于跨注意机制从服装到人物图像进行纹理迁移，这会影响试穿的效率和保真度。

为解决这些问题，提出一种保持纹理的扩散（TPD）模型用于虚拟试穿，以增强结果的保真度，并且不引入额外的图像编码器。因此，从两个方面做贡献。首先，将掩码的人物和参考服装图像沿空间维度进行连接，并利用生成模型的去噪UNet的输出图像作为输入。这使得扩散模型中原始的自注意力层能够实现高效而准确的纹理转移。其次，提出一种基于扩散方法，根据人像和参考服装图像预测一个精确的修复遮罩，进一步增强试穿结果的可靠性。此外，将遮罩预测和图像合成整合到一个紧凑的模型中。

实验结果表明，方法可以应用于各种试穿任务，例如从服装到人物的试穿和人物之间的试穿，并且在流行的 VITON、VITON-HD 数据库上明显优于现有方法。

五、图像超分

31、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder

超分辨率（SR）和图像生成是计算机视觉中重要的任务，在现实应用中得到广泛采用。然而，大多数现有方法仅在固定放大倍数下生成图像，并且容易出现过平滑和伪影。此外，在输出图像的多样性和不同尺度下的一致性方面也不足。大部分相关工作应用了隐式神经表示（INR）到去噪扩散模型中，以获得连续分辨率的多样化且高质量的SR结果。由于该模型在图像空间中操作，所以产生分辨率越大的图像，需要的内存和推理时间也越多，并且它也不能保持尺度特定的一致性。

本文提出一种新流程，可在任意尺度上对输入图像进行超分辨率处理或从随机噪声生成新图像。方法由一个预训练的自编码器、一个潜在扩散模型和一个隐式神经解码器以及它们的学习策略组成。方法采用潜在空间中的扩散过程，因此高效且与由MLP在任意尺度上解码的输出图像空间保持对齐。更具体说，任意尺度解码器是由预训练自编码器的无上采样对称解码器和局部隐式图像函数（LIIF）串联而成的。通过去噪和对齐损失联合学习潜在扩散过程。输出图像中的误差通过固定解码器进行反向传播，提高输出质量。

通过在包括图像超分辨率和任意尺度上的新图像生成这两个任务上使用多个公共基准测试进行广泛实验，方法在图像质量、多样性和尺度一致性等指标上优于相关方法。在推理速度和内存使用方面，它比相关先前技术明显更好。

32、Diffusion-based Blind Text Image Super-Resolution

恢复退化的低分辨率文本图像是一项具有挑战性的任务，特别是在现实复杂情况下处理带有复杂笔画和严重退化的中文文本图像。保证文本的保真度和真实性风格对于高质量的文本图像超分辨率非常重要。最近，扩散模型在自然图像合成和恢复方面取得成功，因为它们具有强大的数据分布建模能力和数据生成能力。

这项工作提出一种基于图像扩散模型（IDM）的文本图像恢复方法，可以恢复带有真实风格的文本图像。对于扩散模型来说，它们不仅适用于建模真实的图像分布，而且也适用于学习文本的分布。由于文本先验对于根据现有艺术品保证恢复的文本结构的正确性非常重要，还提出了一种文本扩散模型（TDM）用于文本识别，可以指导IDM生成具有正确结构的文本图像。进一步提出一种多模态混合模块（MoM），使这两个扩散模型在所有扩散步骤中相互合作。

对合成和现实世界数据集的广泛实验证明，基于扩散的盲文本图像超分辨率（DiffTSR）可以同时恢复具有更准确的文本结构和更真实的外观的文本图像。

33、Text-guided Explorable Image Super-resolution

本文介绍零样本文本引导的开放域图像超分辨率解决方案的问题。目标是允许用户在不明确训练这些特定退化的情况下，探索各种保持与低分辨率输入一致的、语义准确的重建结果。

提出两种零样本文本引导超分辨率的方法，一种是修改文本到图像（T2I）扩散模型的生成过程，以促进与低分辨率输入的一致性，另一种是将语言引导融入零样本扩散式恢复方法中。展示了这些方法产生的多样化解决方案与文本提示所提供的语义意义相匹配，并且保持与退化输入的数据一致性。评估提出的基线方法在极端超分辨率任务上的任务表现，并展示了在恢复质量、多样性和解决方案的可探索性方面的优势。

34、Building Bridges across Spatial and Temporal Resolutions: Reference-Based Super-Resolution via Change Priors and Conditional Diffusion Model

基于参考的超分辨率（RefSR）有潜力在遥感图像的空间和时间分辨率之间建立桥梁。然而，现有的 RefSR 方法受到内容重建的忠实度和大比例因子下纹理传输的有效性的限制。条件扩散模型为生成逼真的高分辨率图像开辟了新的机会，但在这些模型中有效利用参考图像仍然是进一步探索的领域。此外，在没有相关参考信息的地区，内容保真度也难以保证。

为解决这些问题，提出一种名为 Ref-Diff for RefSR 的变化感知扩散模型，使用土地覆盖变化先验来明确指导去噪过程。具体来说，将先验注入到去噪模型中，以提高未变化区域中参考信息的利用率，并规范变化区域中语义相关内容的重建。借助这种强大的指导，将语义引导去噪和参考纹理引导去噪过程解耦，以提高模型性能。

实验表明，与最先进的 RefSR 方法相比，该方法在定量和定性评估方面均具有卓越的有效性和鲁棒性。https://github.com/dongrunmin/RefDiff

六、图像恢复

35、Boosting Image Restoration via Priors from Pre-trained Models

以CLIP和稳定扩散为代表的使用大规模训练数据的预训练模型，在图像理解和从语言描述生成方面展现显著性能。然而，它们在图像恢复等低级任务中的潜力相对未被充分探索。本文探索这些模型来增强图像恢复。

由于预训练模型的现成特征（off-the-shelf features，OSF）并不能直接用于图像恢复，提出一个学习额外的轻量级模块——预训练引导细化模块（Pre-Train-Guided Refinement Module，PTG-RM），用于通过OSF改进目标恢复网络的恢复结果。PTG-RM由两个组成部分组成，预训练引导空间变化增强（Pre-Train-Guided Spatial-Varying Enhancement，PTG-SVE）和预训练引导通道-空间注意力（Pre-TrainGuided Channel-Spatial Attention，PTG-CSA）。PTG-SVE可以实现最佳的短和长距离神经操作，而PTG-CSA增强了与恢复相关的空间-通道注意力。

实验证明，PTG-RM以其紧凑的体积（小于1M参数）有效地增强了不同任务中各种模型的恢复性能，包括低光增强、去雨、去模糊和去噪。

36、Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance

训练深度神经网络已成为解决图像恢复问题的常用方法。对于每个模型训练一个“任务特定”的网络的替代方法是，使用预训练的深度去噪器仅在迭代算法中强加信号先验，而无需额外训练。最近，这种方法基于采样的变体在扩散/基于分数的生成模型兴起时变得流行起来。

本文提出一种新的引导技术，基于预处理，可以沿着恢复过程从基于BP的引导过渡到基于最小二乘的引导。所提出方法对噪声具有鲁棒性，而且实施起来比替代方法更简单（例如，不需要SVD或大量迭代）。将其应用于优化方案和基于采样的方案，并展示其在图像去模糊和超分辨率方面相比现有方法的优势。

37、Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks

在大规模数据集上训练的扩散模型取得显著进展。然而，由于扩散过程中的随机性，它们经常难以处理需要保留细节的不同低层次任务。为克服这个限制，提出一个新的Diff-Plugin框架，使单个预训练的扩散模型能够在各种低层次任务中生成高保真度的结果。

具体来说，首先提出一个轻量级的Task-Plugin模块，采用双分支设计，提供任务特定的先验知识，引导扩散过程中的图像内容保留。然后，提出一个Plugin-Selector，可以根据文本指令自动选择不同的Task-Plugin，允许用户通过自然语言指示进行多个低层次任务的图像编辑。

在8个低层次视觉任务上进行大量实验结果表明，Diff-Plugin在现实场景中比现有方法表现优越。消融实验证实了Diff-Plugin在不同数据集大小下的稳定性、可调度性和支持鲁棒训练的特点。https://yuhaoliu7456.github.io/Diff-Plugin/

38、Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model

通用图像恢复，一项实际且有潜力的计算机视觉任务，适用于实际应用。这一任务主要挑战是同时处理不同的退化分布。现有方法主要利用任务特定条件（例如提示）来指导模型单独学习不同的分布，称为多部分映射。然而，对于通用模型学习来说，这种方法并不适用，因为它忽视了不同任务之间的共享信息。

这项工作基于扩散模型提出一种先进的选择性沙漏映射策略，称为DiffUIR。DiffUIR具有两个新的考虑因素。首先，为模型提供强大的条件指导，以获得精确的扩散模型生成方向（选择性）。更重要的是，DiffUIR将一种灵活的共享分布项（SDT）巧妙地集成到扩散算法中，逐渐将不同的分布映射到一个共享分布中。在反向过程中，结合SDT和强大的条件指导，DiffUIR迭代地将共享分布引导到具有高图像质量的任务特定分布（沙漏）。

通过只修改映射策略，在五个图像恢复任务、通用设置的22个基准数据集和零样本泛化设置上实现了最先进的性能。令人惊讶的是，仅用轻量级模型（仅为0.89M），就能实现出色的性能。https://github.com/iSEE-Laboratory/DiffUIR

39、Shadow Generation for Composite Image Using Diffusion Model

在图像组合（ image composition）领域，为插入的前景生成逼真的阴影仍是一个巨大的挑战。以往研究开发了基于图像之间的转换模型，这些模型是在成对的训练数据上进行训练的。然而，由于数据稀缺和任务本身的复杂性，它们在生成具有准确形状和强度的阴影方面遇到困难。

本文利用具有自然阴影图像丰富先验知识的基础模型。具体来说，首先将 ControlNet 调整为适应任务，然后提出强度调制模块来提高阴影的强度。此外，用一种新的数据采集流程，将小规模的 DESOBA 数据集扩展为 DESOBAv2。在DESOBA和DESOBAv2数据集以及真实的合成图像上的实验结果表明，模型在阴影生成任务上具有更强的能力。https://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2

七、目标跟踪

40、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking

多目标跟踪（Multiple Object Tracking，MOT）是计算机视觉领域中一个关键领域，有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而，对跟踪数据本身的特性缺乏深入的研究。

本研究首次对跟踪数据的分布模式进行探索，并发现现有 MOT 数据集中存在明显的长尾分布问题。发现不同行人分布存在显著不平衡现象，将其称为“行人轨迹长尾分布”。针对这一挑战，提出一种专门设计用于减轻这种分布影响的策略。具体而言，提出两种数据增强策略，包括静态摄像机视图数据增强（SVA）和动态摄像机视图数据增强（DVA），针对视点状态，以及面向 Re-ID 的 Group Softmax（GS）模块。SVA 是为了回溯并预测尾部类别的行人轨迹，而 DVA 则使用扩散模型改变场景的背景。GS 将行人划分为不相关的组，并对每个组进行 softmax 操作。

策略可以集成到许多现有的跟踪系统中，实验证实方法在降低长尾分布对多目标跟踪性能的影响方面的有效性。https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

八、目标检测

41、SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

基于 LiDAR 的三维物体检测，在自动驾驶中起关键作用。目前已有的高性能三维物体检测器通常在骨干网络和预测头中构建密集特征图。然而，随着感知范围增加，密集特征图带来的计算成本呈二次增长，使得这些模型很难扩展到长距离检测。最近一些研究尝试构建完全稀疏的检测器来解决这个问题，然而所得模型要么依赖于复杂的多阶段流水线，要么表现不佳。

本文提出 SAFDNet，简单高效，专为完全稀疏的三维物体检测而设计。在 SAFDNet 中，设计了一种自适应特征扩散策略来解决中心特征丢失的问题。在 Waymo Open、nuScenes 和 Argoverse2 数据集上进行大量实验证明，SAFDNet 在前两个数据集上的性能略优于先前的 SOTA，但在具有长距离检测特点的最后一个数据集上表现更好，验证 SAFDNet 在需要长距离检测的场景中的有效性。

在 Argoverse2 上，SAFDNet 在速度上比先前最好的混合检测器 HEDNet 快 2.1 倍，并且相对于先前最好的稀疏检测器 FSDv2 提高了 2.1% 的 mAP，速度提高了 1.3 倍。https://github.com/zhanggang001/HEDNet

42、DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception

当前的感知模型严重依赖于资源密集型数据集，因此需要创新性的解决方案。利用最近在扩散模型和合成数据方面的进展，通过构造各种标签图像输入，合成数据有助于下游任务。尽管之前的方法已经分别解决了生成和感知模型的问题，但是 DetDiffusion 是第一个在生成有效数据的感知模型方面进行了整合的方法。

为增强感知模型的图像生成能力，引入感知损失（P.A. loss）通过分割来改善质量和可控性。为提高特定感知模型的性能，方法通过提取和利用感知感知属性（P.A. Attr）来定制数据增强。来自目标检测任务的实验结果凸显了 DetDiffusion 在布局导向生成方面的出色性能，显著提高了下游检测性能。

43、SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection

在类别增量学习（CIL）领域，generative replay已成为缓解灾难性遗忘的方法，随着生成模型的不断改进，越来越受到关注。然而，在类别增量物体检测（CIOD）中的应用受到很大限制，主要是由于涉及多个标签的场景的复杂性。

本文提出一种名为stable diffusion deep generative replay（SDDGR）的用于 CIOD 的新方法。方法利用基于扩散的生成模型与预训练的文本到扩散网络相结合，生成真实多样的合成图像。SDDGR采用迭代优化策略，生成高质量的旧类别样本。此外，采用L2知识蒸馏技术，以提高合成图像中先前知识的保留。此外，方法还包括对新任务图像中的旧对象进行伪标签，以防止将其错误分类为背景元素。

对COCO 2017数据集的大量实验表明，SDDGR在各种CIOD场景下明显优于现有算法，达到了新的技术水平。

九、关键点检测

44、Pose-Guided Self-Training with Two-Stage Clustering for Unsupervised Landmark Discovery

无监督的Unsupervised landmarks discovery（ULD）是具有挑战性的计算机视觉问题。为利用扩散模型在ULD任务中的潜力，首先，提出一种基于随机像素位置的简单聚类的零样本ULD基线，通过最近邻匹配提供了比现有ULD方法更好的结果。其次，在零样本性能的基础上，通过自训练和聚类开发了一种基于扩散特征的ULD算法，以显著超越以前的方法。第三，引入一个基于生成潜在姿势代码的新代理任务，并提出了一个两阶段的聚类机制，以促进有效的伪标签生成，从而显著提高性能。

总的来说，方法在四个具有挑战性的基准测试（AFLW、MAFL、CatHeads 和 LS3D）上一贯优于现有的最先进方法。

十、deepfake检测

45、Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

扩散模型极大提高了图像生成质量，使得真实图像和生成图像之间越来越难以区分。然而，这一发展也引发了重大的隐私和安全问题。针对这一问题，提出一种新的潜变量重构误差引导特征优化方法（Latent REconstruction error guided feature REfinement， LaRE2），用于检测生成图像。

提出潜变量重构误差（Latent Reconstruction Error，LaRE），一种基于重构误差的潜在空间特征，用于生成图像检测。LaRE 在特征提取效率方面超过了现有方法，同时保留了区分真实与伪造图像所需的关键线索。为了利用 LaRE，提出一个带有误差引导特征优化模块（EGRE）的方法，通过 LaRE 引导图像特征的优化，以增强特征的辨别力。

EGRE 采用对齐然后细化机制，可以从空间和通道角度有效地细化图像特征，以进行生成图像检测。在大规模 GenImage 基准测试上的大量实验证明LaRE2 的优越性，在 8 个不同的图像生成器中超过了最好的 SoTA 方法，平均 ACC/AP 高达 11.9%/12.1%。 LaRE 在特征提取成本方面也超越了现有方法，速度提升8倍。

十一、异常检测

46、RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection

自监督特征重建方法在工业图像异常检测和定位方面显示出有希望进展。这些方法在合成真实且多样化的异常样本以及解决预训练特征的特征冗余和预训练偏差方面仍然面临挑战。

这项工作提出 RealNet，一种具有现实合成异常和自适应特征选择的特征重建网络。它包含三个关键创新：首先，提出强度可控扩散异常合成（SDAS），一种基于扩散过程的合成策略，能够生成具有不同异常强度的样本，模仿真实异常样本的分布。其次，开发了异常感知特征选择（AFS），一种选择具有代表性和判别性的预训练特征子集的方法，以提高异常检测性能，同时控制计算成本。第三，引入了重建残差选择（RRS），一种自适应选择判别残差以跨多个粒度级别全面识别异常区域的策略。

在四个基准数据集上评估 RealNet，结果表明与当前最先进的方法相比，图像 AUROC 和像素 AUROC 都有改进。https://github.com/cnulab/RealNet

十二、抠图/分割

47、In-Context Matting

提出In-Context Matting上下文抠图，一种图像抠图的新任务设置。在给定某个前景参考图像和点、涂鸦和遮罩等引导先验的情况下，上下文抠图能够在一批具有相同前景类别的目标图像上进行自动alpha估计，而无需额外的辅助输入。这种设置，在基于辅助输入的抠图中具有良好的性能，在自动抠图的易用性之间取得良好平衡。

为克服准确前景匹配这一挑战，引入IconMatting，一种基于预训练的文本到图像扩散模型构建的上下文抠图模型。通过在相似性匹配中引入内部和外部相似性匹配，IconMatting可以充分利用参考上下文生成准确的目标alpha遮罩。为对该任务进行基准测试，还引入一个新的测试数据集ICM-57，包括57组真实世界图像。https://github.com/tiny-smart/in-context-matting/tree/master

十三、图像压缩

48、Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis

将高斯解码器替换为条件扩散模型，可以增强神经图像压缩中重建图像的感知质量，但由于它们对图像数据缺乏归纳偏差，限制了它们实现最先进感知水平的能力。

为解决这个限制，采用non-isotropic的扩散模型在解码器端。该模型对区分频率内容施加了归纳偏差，从而便于生成高质量图像。此外配备一种新的熵模型，通过利用潜在空间中的空间通道相关性准确地建模潜在表示的概率分布，从而加速熵解码步骤。这种基于通道的熵模型利用每个通道块内的局部和全局空间上下文。全局空间上下文是基于Transformer构建的，专门用于图像压缩任务。设计的Transformer采用拉普拉斯形状的位置编码，其可学习的参数根据每个通道簇进行自适应调整。

实验证明，框架能够提供更好的感知质量，并且所提出的熵模型可显著节省比特率。

十四、视频理解

49、Abductive Ego-View Accident Video Understanding for Safe Driving Perception

提出一个新的多模态事故视频理解数据集MM-AU（Multi-Modal Accident video Understanding）。MM-AU包含11,727个自然场景下的 ego-view事故视频，每个视频都有时间对齐的文本描述。标注了超过223万个物体框和58,650对基于视频的事故原因，涵盖了58个事故类别。MM-AU支持各种事故理解任务，特别是通过多模态视频扩散来理解安全驾驶的事故因果链。

使用MM-AU，提出一个用于安全驾驶感知的推论事故视频理解框架（Abductive accident Video understanding framework for Safe Driving perception，AdVersa-SD）。AdVersa-SD，一种由CLIP模型驱动的以对象为中心的视频扩散（Object-Centric Video Diffusion，OAVD）方法。该模型涉及对正常、接近事故和事故帧与相应文本描述之间的对比交互损失的学习，例如事故原因、预防建议和事故类别。OAVD在生成视频时强制执行因果区域学习，同时在视频生成中固定原始帧背景的内容，以找到某些事故的主要因果链。

实验证明AdVersa-SD的推理能力以及OAVD相对于最先进的扩散模型的优势。此外，还对物体检测和事故原因回答进行了仔细的基准评估，因为AdVersa-SD依赖于精确的物体和事故原因信息。http://www.lotvsmmau.net/

十五、视频生成

50、FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

文本到图像扩散模型激发对其在视频领域潜在应用的探索。零样本方法将图像扩散模型扩展到视频领域，而无需进行模型训练。最近方法主要侧重于将帧间对应关系纳入注意机制中。然而，决定在哪里关注有效特征的软约束有时可能不足，导致时间上的不一致性。

本文提出FRESCO，将帧内对应与帧间对应结合起来，建立更强大的时空约束。这种改进确保了在帧之间保持具有语义相似内容的一致转换。除注意引导之外，方法还涉及特征的显式更新，以实现与输入视频的高时空一致性，从而显著提高所生成视频的视觉连贯性。

实验证明提出的框架在生成高质量、连贯的视频方面的有效性，这在现有的零样本方法中取得了显著改进。

51、Grid Diffusion Models for Text-to-Video Generation

从文本生成视频，比从文本生成图像更具挑战性，因为需要更大数据集和更高计算成本。大多数现有的视频生成方法使用考虑时间维度的3D U-Net架构或自回归生成。与文本到图像生成相比，这些方法需要大数据集，且在计算成本方面有限制。

为应对这些挑战，提出一种简单有效的文本到视频生成的新方法，方法在架构中不考虑时间维度，且需具有大型的文本-视频配对数据集。可使用固定量的GPU内存生成高质量的视频，而不管帧数多少，方法是将视频表示为网格图像。此外，由于方法将视频的维度减小到图像的维度，可以将各种基于图像的方法应用于视频，如从图像操纵进行文本引导的视频操纵。方法在定量和定性评估方面优于现有方法，证明模型适用于实际视频生成。

52、TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

将扩散模型应用于将静态图像转化为动态图像（即图像到视频生成）时，并非易事。困难之处在于，生成的连续动画帧的扩散过程不仅应保持与给定图像的对齐，还应在相邻帧之间追求时序连贯性。

为缓解这一问题，提出TRIP，一种基于图像噪声先验的图像到视频扩散范式的新方法。通过图像噪声先验从静态图像派生出来，通过一步反向扩散过程，基于静态图像和有噪视频潜码。接下来，TRIP执行类似于残差的双通路方案进行噪声预测：1）shortcut路径直接将图像噪声先验作为每一帧参考噪声，以增强第一帧和后续帧之间的对齐；2）残差路径利用3D-UNet对有噪视频和静态图像潜在代码进行研究，以实现帧间关系推理，从而减轻为每帧学习残差噪声。此外，每帧的参考噪声和残差噪声通过注意机制动态合并，用于最终视频生成。

在WebVid-10M、DTDB和MSRVTT数据集上的大量实验证明TRIP用于图像到视频生成的有效性。https://trip-i2v.github.io/TRIP/

53、Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model

协同言语手势Co-speech gestures，如果以生动的视频形式呈现，可以在人机交互中实现更优视觉效果。之前研究主要生成结构化的人类骨架，导致外貌信息被省略。本文关注于直接生成音频驱动的co-speech gesture视频。

两个主要挑战：1）需要合适的运动特征来描述具有关键外貌信息的复杂人体动作。2）手势和语音表现出内在的依赖性，即使长度任意，也应该在时间上保持对齐。为解决这些问题，提出一种新的运动解耦框架来生成共同言语手势视频。首先引入一个经过精心设计的非线性TPS变换，以获取保留关键外貌信息的潜在运动特征。然后，提出基于Transformer的扩散模型，学习手势和语音之间的时间相关性，并在潜在运动空间中进行生成，随后通过最优运动选择模块产生长期连贯且一致的手势视频。

为更好的视觉感知，进一步设计一个着重于某些区域缺失细节的细化网络。实验结果表明，在运动和视频相关的评估中明显优于现有方法。https://github.com/thuhcsi/S2G-MDDiffusion

54、Video Interpolation With Diffusion Models

提出VIDIM，用于视频插值的生成模型，可以在给定起始和结束帧的情况下生成短视频。为实现高保真度并生成输入数据中未见过的运动，VIDIM使用级联扩散模型首先在低分辨率下生成目标视频，然后在低分辨率生成的视频的条件下生成高分辨率视频。

将VIDIM与先前的最先进方法在视频插值上进行比较，并展示在基于复杂、非线性或不确定运动的大多数情况下，这些方法如何失败，而VIDIM可以轻松处理这些情况。还展示在起始和结束帧上进行无分类器指导，并将超分辨率模型与原始高分辨率帧进行条件化，而无需额外的参数，从而实现高保真结果。

VIDIM的采样速度快，它联合去噪要生成的所有帧，每个扩散模型仅需要不到十亿个参数即可产生引人注目的结果，并且仍然在较大的参数数量下具有可扩展性和提高的质量。https://vidim-interpolation.github.io/

十六、倾听人生成

55、CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation

Listening head生成，目的是通过模拟动态转换过程中说话者与听话者之间的关系，合成一个非言语反应型听话者头。虚拟交互中侦听代理生成技术的应用，促进许多实现多样化、细粒度运动生成的工作。然而，他们只能通过简单的情绪标签来操纵动作，而不能自由地控制听者的动作。因为监听代理应该具有类似人类的属性(如身份、个性)，可以由用户自由定制，这限制了它们的现实性。

本文提出一个用户友好的名为CustomListener的框架来实现free-form text prior guided listener generation。为实现说话者和听者的协调，设计一个静态到动态画像模块(SDP)，该模块与说话者信息交互，将静态文本转换为具有补全节奏和幅度信息的动态肖像token。为实现片段之间的一致性，设计一个过去引导生成模块(Past Guided Generation Module, PGG)，通过运动先验来保持定制听者属性的一致性，并利用以人像token和运动先验为条件的基于扩散的结构来实现可控生成。

为训练和评估模型，基于ViCo和RealTalk构建了两个文本标注的listening head数据集，它们提供文本视频配对标签。大量的实验验证了该模型的有效性。https://customlistener.github.io/

十七、数字人生成

56、Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

尽管基于说话人生成（talking-head）解决方案已经取得进展，但直接生成具有全身动作的anchor风格视频仍具有挑战性。本研究提出一种名为Make-Your-Anchor的新系统，只需要一个人的一分钟视频片段进行训练，随后就能自动生成具有精确躯干和手部动作的视频。

具体而言，在输入视频上对一个提出的结构引导扩散模型进行微调，将三维网格条件渲染成人体外貌。采用两阶段的训练策略来对扩散模型进行训练，有效地将动作与特定外貌绑定在一起。为了生成任意长的时间视频，将帧级扩散模型中的二维U-Net扩展为三维风格，而不需要额外的训练成本，在推理过程中引入了一个简单而有效的批次重叠的时间去噪模块，绕过对视频长度的约束。最后，引入了一种新的身份特定面部增强模块，以改善输出视频中面部区域的视觉质量。

对比实验表明，该系统在视觉质量、时间连贯性和身份保护方面具有有效性和优越性，胜过了目前最先进的扩散/非扩散方法。https://github.com/ICTMCG/Make-Your-Anchor

十八、新视图生成

57、EscherNet: A Generative Model for Scalable View Synthesis

提出EscherNet，多视角条件扩散模型，用于视图合成。EscherNet学习隐式生成的三维表示，结合专门的相机位置编码，可以在任意数量的参考视图和目标视图之间精确而连续地控制相机变换。

EscherNet在视图合成方面具有卓越的普适性、灵活性和可扩展性，可以在单个普通消费级GPU上同时生成100多个一致的目标视图，尽管只训练了一组固定的3个参考视图到3个目标视图。因此，EscherNet不仅解决了零样本新视图合成的问题，还自然地将单幅和多幅图像的三维重建统一在一个连贯的框架中。

实验证明，EscherNet在多个基准测试中实现了最先进的性能，即使与针对每个单独问题专门设计的方法相比也是如此。这种卓越的多功能性为设计可扩展的三维视觉神经架构开辟了新的方向。https://kxhit.github.io/EscherNet

十九、3D相关

58、Bayesian Diffusion Models for 3D Shape Reconstruction

提出贝叶斯扩散模型（BDM），一种通过联合扩散过程将自上而下（先验）信息与自下而上（数据驱动）过程紧密结合的预测算法，以实现有效的贝叶斯推断。展示BDM在3D形状重构任务上的有效性。与基于配对（监督）数据标签（例如图像-点云）数据集训练的典型深度学习数据驱动方法相比，BDM从独立标签（例如点云）中引入丰富的先验信息，以改善自下而上的3D重构。与需要显式先验和似然度的标准贝叶斯框架不同，BDM通过学习梯度计算网络执行无缝信息融合，通过联合扩散过程进行。

BDM的特色在于其能够参与自上而下和自下而上过程的积极和有效的信息交换和融合，其中每个过程本身都是扩散过程。在合成和真实世界的3D形状重构基准测试中展示最先进结果。

59、DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior

3D生成，近年来引起极大关注。随文本到图像扩散模型的成功，2D技术成为一条有前途的可控3D生成路径。然而这些方法往往会呈现出不一致的几何形状，这也被称为Janus问题。观察到这个问题主要由两个方面引起，即2D扩散模型中的视角偏差和优化目标的过拟合。

为解决这个问题，提出一个两阶段的2D-lifting框架，即DreamControl，它通过优化粗糙的NeRF场景作为3D自先验，然后利用基于控制的评分蒸馏生成细粒度的物体。具体而言，提出自适应视角采样和边界完整性度量来确保生成的先验的一致性。然后，这些先验被视为输入条件，以维持合理的几何形状，其中进一步提出了条件LoRA和加权评分来优化详细的纹理。

DreamControl能够生成几何一致性和纹理保真度都很高的高质量3D内容。此外基于控制的优化指导适用于更多的下游任务，包括用户引导生成和3D动画。https://github.com/tyhuang0428/DreamControl

60、DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance

编舞师确定舞蹈的外观，而摄像师确定舞蹈的最终呈现。最近，各种方法和数据集展示了舞蹈生成的可行性。然而，将音乐和舞蹈的摄像移动合成仍是一个尚未解决的挑战性问题，因为配对数据的稀缺性。

提出DCM，一个新的多模态3D数据集，首次将摄像移动与舞蹈动作和音乐音频结合起来。该数据集包括来自动漫社区的108个舞蹈序列（3.2小时）的配对舞蹈-摄像-音乐数据，涵盖4个音乐流派。通过这个数据集，揭示舞蹈摄像移动是多层次且以人为中心的，并且具有多种影响因素，使得舞蹈摄像移动合成相比之下更具挑战性，与仅有摄像或舞蹈合成相比。

为克服这些困难，提出DanceCamera3D，一种基于Transformer的扩散模型，结合了一种新的身体注意力损失和条件分离策略。为评估，设计衡量摄像移动质量、多样性和舞者真实性的新指标。利用这些指标，在DCM数据集上进行大量实验，定量和定性展示DanceCamera3D模型有效性。https://github.com/Carmenw1203/DanceCamera3D-Official

61、DiffuScene: Denoising Diffusion Models for Generative Indoor Scene Synthesis

提出基于新场景配置去噪扩散模型的DiffuScene室内3D场景合成方法。它生成存储在无序对象集中的3D实例属性，并为每个对象配置检索最相似的几何形状，该形状被描述为不同属性（包括位置、大小、方向、语义和几何特征）的串联。

引入一个扩散网络，通过去噪无序对象属性合成一组3D室内对象。无序参数化Unordered parametrization简化联合分布的近似。形状特征扩散有助于自然对象布局，包括对称性。方法能够支持许多下游应用，包括场景完成、场景布置和基于文本的场景合成。在3DFRONT数据集上的实验证明，方法能够比最先进的方法合成出更符合物理规律且多样化的室内场景。

消融研究验证了在场景扩散模型中的设计选择的有效性。https://tangjiapeng.github.io/projects/DiffuScene/

62、IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images

从单视角RGB-D图像中进行通用的3D物体重构，仍是一项具有挑战性的任务，特别是对于真实世界的数据。现有方法采用基于Transformer的隐式场学习，需要一种密集的学习范式，在整个空间均匀采样的密集查询监督。

提出一种新方法IPoD，将隐式场学习与点扩散相结合。这种方法将用于隐式场学习的查询点视为噪声点云，用于迭代去噪，允许它们动态适应目标物体的形状。这样的自适应查询点利用了扩散学习的粗糙形状恢复能力，并增强了隐式表示描绘更精细细节的能力。

此外，还设计了额外的自条件机制，将隐式预测用作扩散学习的引导，形成一个合作系统。在CO3D-v2数据集上进行的实验验证了IPoD的优越性，相比现有方法，在F分数上提升了7.8%，在Chamfer距离上提升了28.6%。IPoD的普适性也在MVImgNet数据集上得到验证。https://yushuang-wu.github.io/IPoD/

63、Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

尽管文本到动作合成取得显著进展，但在3D环境中生成语言引导的人体动作还存在一些挑战。这些挑战主要源于两个方面：一是缺乏强大的生成模型，能够联合建模自然语言、3D场景和人体动作；二是生成模型的数据需求量大，而现有的综合、高质量的语言-场景-动作数据集非常稀缺。

为解决这些问题，引入一个新的两阶段框架，该框架以场景有效性作为中间表示，有效地连接了3D场景 grounding 和条件动作生成。框架包括用于预测显式有效性图的Affordance Diffusion Model (ADM)和用于生成合理人体动作的Affordance-to-Motion Diffusion Model (AMDM)。通过利用场景有效性图，方法克服在多模态条件信号下生成人体动作的困难，特别是在训练数据有限、缺乏广泛的语言-场景-动作对的情况下。

实验证明方法在已建立的基准测试中始终优于所有对照方法，包括HumanML3D和HUMANISE。此外，还在一个特别精心策划的评估集上验证模型的泛化能力，该评估集包含以前没有见过的描述和场景。https://afford-motion.github.io/

64、MicroDiffusion: Implicit Representation-Guided Diffusion for 3D Reconstruction from Limited 2D Microscopy Projections

提出MicroDiffusion，可以从有限的二维投影中实现高质量的深度重建三维。尽管现有隐式神经表示（INR）模型通常产生不完整的输出，去噪扩散概率模型（DDPM）擅长捕捉细节，方法将INR的结构一致性与DDPM的细节增强能力相结合。

预训练一个INR模型，将二维轴向投影的图像转化为初步的三维体积。这个预训练INR模型作为全局先验，通过INR输出和噪声输入之间的线性插值来引导DDPM的生成过程。这种策略丰富了扩散过程中的结构化三维信息，增强了局部二维图像中的细节并减少了噪声。通过将扩散模型条件化于最近的二维投影，MicroDiffusion大大提高了生成的三维重建结果的保真度，超过了INR和标准DDPM的输出。https://github.com/UCSC-VLAA/MicroDiffusion

65、Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior

最近关于文本到三维生成的研究表明，仅使用二维扩散监督进行三维生成往往会产生外观不一致（例如，背面视图上的脸部）和形状不准确（例如，多出来的腿部的动物）的结果。

现有方法主要通过使用从三维数据渲染的图像重新训练扩散模型来解决这个问题以确保多视角一致性，同时努力平衡二维生成质量与三维一致性。本文提出一个新框架Sculpt3D，通过从检索的参考对象中显式注入3D先验，为当前的流程提供了装配能力，而无需重新训练二维扩散模型。具体而言，通过稀疏光线采样方法演示通过关键点监督可以保证高质量和多样化的3D几何。

此外，为确保不同视角的准确外观，进一步调节二维扩散模型的输出，使其与模板视图的正确模式相符，而不改变生成的对象风格。这两个解耦的设计有效地利用了参考对象的3D信息来生成3D对象，同时保持了二维扩散模型的生成质量。实验证明方法可以大大提高多视角一致性，同时保持保真度和多样性。https://stellarcheng.github.io/Sculpt3D/

66、Score-Guided Diffusion for 3D Human Recovery

提出评分引导的人体网格恢复（Human Mesh Recovery， ScoreHMR）方法，用于解决三维人体姿势和形状重建的逆问题。ScoreHMR模仿模型拟合方法，但通过扩散模型的潜在空间中的分数引导来实现与图像观察的对齐。扩散模型的训练目标是捕捉给定输入图像的人体模型参数的条件分布。通过使用特定任务的分数引导其去噪过程，ScoreHMR有效解决各种应用程序的逆问题，而无需重新训练与任务无关的扩散模型。

在三个设置/应用程序上评估方法。分别是：（i）单帧模型拟合；（ii）从多个未标定视图重建；（iii）在视频序列中重建人体。在所有设置中，ScoreHMR在流行的基准测试中始终优于所有优化基线。https://statho.github.io/ScoreHMR/

67、Towards Realistic Scene Generation with LiDAR Diffusion Models

扩散模型在照片逼真图像生成方面表现出色，但将其应用于LiDAR场景生成则存在很大的困难。这主要是因为在点空间中操作的扩散模型很难保持LiDAR场景的曲线样式和三维几何形状，这消耗了它们的表示能力。

本文提出LiDAR扩散模型（LiDMs），以生成与LiDAR真实场景相匹配的场景，通过将几何先验纳入学习流程的潜在空间中。方法针对三个目标设置：模式真实性、几何真实性和物体真实性。

方法在无条件的LiDAR生成中实现了竞争性的性能，在有条件的LiDAR生成上达到了最先进水平，同时与基于点的扩散模型相比保持了高效性（高达107倍的速度）。此外，通过将LiDAR场景压缩为潜在空间，使得扩散模型在各种条件下具有可控性，例如语义地图、相机视图和文本提示。https://github.com/hancyran/LiDAR-Diffusion

68、VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

关于文本到三维生成的创新推出了得分蒸馏抽样（Score Distillation Sampling，SDS），通过直接从二维扩散模型中提取先验知识，实现隐式三维模型（NeRF）的零样本学习。然而，当前基于SDS的模型在处理复杂的文本提示时仍存在困难，并且通常会导致3D模型出现畸变，具有不真实的纹理或视角不一致的问题。

这项工作引入一种新的视觉提示引导的文本到三维扩散模型（VP3D），该模型明确了2D视觉提示中的视觉外观知识，以提升文本到三维生成的效果。VP3D不仅仅通过文本提示来监督SDS，而是首先利用二维扩散模型从输入文本生成高质量图像，然后将其作为视觉提示，通过显式视觉外观来增强SDS优化。同时，将SDS优化与附加的可微分奖励函数相结合，该函数鼓励渲染3D模型的图像与2D视觉提示更好地对齐，并在语义上与文本提示匹配。

大量实验证明，VP3D中的2D视觉提示显著简化了学习三维模型的视觉外观，并因此具有更高的视觉保真度和更详细的纹理。当将自动生成的视觉提示替换为给定的参考图像时，VP3D能够触发新的任务，即风格化的文本到三维生成。https://vp3d-cvpr24.github.io/

二十、图像修复

69、Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting

用于图像修复的去噪扩散概率模型（DDPMs），旨在在正向过程中向图像的纹理添加噪声，并通过反向去噪过程将掩蔽区域与纹理的未掩蔽区域恢复。尽管现有方法能生成有意义的语义，但存在着掩蔽区域和未掩蔽区域之间语义不一致的问题。

本文致力于未掩蔽语义如何指导纹理去噪过程的问题，以及如何解决语义差异问题，以促进一致而有意义的语义生成。提出一种名为StrDiffusion的图像修复结构引导扩散模型，以在结构引导下重新表述传统的纹理去噪过程，得到简化的图像修复去噪目标，同时：1）在早期阶段，语义稀疏结构有助于解决语义差异问题，而在后期阶段密集纹理生成了合理的语义；2）未掩蔽区域的语义实质上为纹理去噪过程提供了时间相关的结构指导，从结构语义的时间相关稀疏性中获益。对于去噪过程，训练一个结构引导的神经网络，通过利用掩蔽区域和未掩蔽区域之间去噪结构的一致性来估计简化的去噪目标。

此外，设计一种自适应重采样策略作为是否结构能够指导纹理去噪过程的一个正式准则，同时调节它们之间的语义相关性。大量实验证实StrDiffusion相对于目前最先进的方法的优点。https://github.com/htyjers/StrDiffusion

二十一、草图相关

70、It’s All About Your Sketch: Democratising Sketch Control in Diffusion Models

本文揭示扩散模型中素描的潜力，解决生成人工智能中直接素描控制的误导性问题。使素人素描能够生成精确的图像，实现了“你描绘的就是你得到的”。

提出一个意识分级的框架，利用一个素描适配器、自适应时间步采样以及一个预先训练的细粒度素描图像检索模型的判别性指导，协同工作来加强细粒度素描-照片关联。方法在推理过程中可以无缝操作，无需文本提示；一个简单的、粗略的素描足以胜任我们普通人的创作！

71、Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers

本文首次探索零样本基于草图的图像检索（ZS-SBIR）中的文本到图像扩散模型。突出表明文本到图像扩散模型在草图和照片之间无缝桥接的能力。这种能力是由它们稳健的跨模态能力和形状偏倚支撑的，这些发现通过初步研究得到证实。

为有效利用预训练的扩散模型，引入一个简单但强大的策略，重点关注两个关键方面：选择最佳的特征层和利用视觉和文本提示。对于前者，确定哪些层富含信息并且最适合特定的检索要求（类别级别或细粒度级别）。然后，使用视觉和文本提示来指导模型的特征提取过程，使其生成更有区分性和上下文相关的跨模态表示。在几个基准数据集上进行的广泛实验证实了显著的性能改进。

二十二、版权隐私

72、CGI-DM: Digital Copyright Authentication for Diffusion Models via Contrasting Gradient Inversion

扩散模型（DMs）用于少样本生成，其中预训练模型在少量样本图像上进行微调以捕捉特定的风格或对象。尽管取得成功，但人们对使用未经授权的数据可能导致侵权问题存在担忧。因此，提出一种名为CGI-DM的对比梯度反转扩散模型的新方法，具有生动的视觉表示，用于数字版权认证。

方法涉及去除图像的部分信息，并通过利用预训练模型和微调模型之间的概念差异来恢复丢失的细节。将二者的潜变量之间的差异形式化为KL散度，当给定相同的输入图像时，可以通过蒙特卡洛采样和投影梯度下降来最大化这种差异。原始图像和恢复图像之间的相似性可以作为潜在侵权行为的强有力指标。

在WikiArt和Dreambooth数据集上进行的大量实验证明了CGI-DM在数字版权认证中的高准确性，超过了其他验证技术。https://github.com/Nicholas0228/Revelio

73、CPR: Retrieval Augmented Generation for Copyright Protection

检索增强生成（Retrieval Augmented Generation，RAG）是一种灵活且强大的技术，可以在不进行训练的情况下，将模型适应私有用户数据，处理信用归因（credit attribution），并允许大规模高效machine unlearning。然而，图像生成的RAG技术可能导致检索样本的部分内容被复制到模型的输出中。

为减少泄漏检索集合中包含私人信息风险，提出带有检索的受版权保护生成（Copy-Protected generation with Retrieval，CPR），一种在混合私人环境中具有强版权保护保证的RAG新方法，适用于扩散模型。

CPR将扩散模型的输出与一组检索图像相关联，同时保证在生成的输出中不会暴露有关这些示例的唯一可识别信息。具体而言，它通过在推断时合并公共（安全）分布和私人（用户）分布的扩散分数，从公开（安全）分布和私有（用户）分布的混合中进行采样来实现。CPR满足接近访问无关性（NAF），该性质限制了攻击者可能从生成的图像中提取的信息量。提供两种用于版权保护的算法，CPR-KL和CPR-Choose。与之前提出的基于拒绝采样的NAF方法不同，方法能够通过单次向后扩散运行进行高效的版权受保护的采样。

展示了方法如何应用于任何预训练的条件扩散模型，例如Stable Diffusion或unCLIP。特别地，通过实验证明，将CPR应用于unCLIP上可以提高生成结果的质量和文本到图像的对齐性（在TIFA基准上从81.4提高到83.17）。

二十三、数据增广

74、SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation

在最近几年中，语义分割已成为处理和解释卫星图像的关键工具。然而，监督学习技术的主要限制仍然是需要专家进行大量手动标注。本研究探索使用生成图像扩散来解决地球观测任务中标注数据稀缺性的潜力。主要思想是学习图像和标签的联合数据流形，借助于最近在去噪扩散概率模型中的进展。

本文自称是第一个为卫星分割生成图像和相应掩膜的工作。获得的图像和掩膜对不仅在细粒度特征上具有高质量，而且确保了广泛的采样多样性。这两个方面对于地球观测数据至关重要，因为语义类别在尺度和出现频率上可能有严重变化。将新的数据实例用于下游分割，作为数据增强的一种形式。

实验与基于辨别性扩散模型或GAN的之前的工作进行比较。证明整合生成样本可以显著改善卫星语义分割的定量结果，不仅与基线相比，在仅使用原始数据进行训练时。

75、ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object

本文为视觉感知鲁棒性建立了严格基准。诸如ImageNet-C、ImageNet-9和Stylized ImageNet之类的合成图像提供了针对合成破坏、背景和纹理的特定类型评估，然而这些鲁棒性基准在指定的变化以及合成质量方面受到限制。这项工作引入生成模型作为用于合成检测深度模型鲁棒性的数据源。

借助扩散模型，生成具有比任何以前的工作更多样化的背景、纹理和材料的图像，将这个基准称为ImageNet-D。实验结果显示，ImageNet-D对于一系列视觉模型，从标准的ResNet视觉分类器到最新的基础模型如CLIP和MiniGPT-4，都导致了显著的精度降低，最高可降低60%。工作表明，扩散模型可以成为测试视觉模型的有效数据源。https://github.com/chenshuang-zhang/imagenet_d

二十四、医学图像

76、MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant

医学生成模型加快了医疗应用的快速增长。然而，最近研究集中在单独的医学生成模型上，针对不同的医学任务设计了不同的模型，而且对于医学多模态知识具有严重限制，限制了医学综合诊断。

本文提出MedM2G，一种医学多模态生成框架，其关键创新在于在统一模型中对医学多模态进行对齐、提取和生成。通过统一空间中的中央对齐方法有效对齐医学多模态，而不仅仅限于单个或两个医学模态。值得注意的是，框架通过维护每个成像模态的医学视觉不变性来提取有价值的临床知识，从而增强多模态生成的特定医学信息。通过将自适应的交叉引导参数条件到多流扩散框架中，模型促进了医学多模态之间的灵活交互用于生成。

MedM2G是第一个统一医学生成模型，可以完成文本到图像、图像到文本和医学模态（CT、MRI、X光）的统一生成，其可以在10个数据集上执行5个医学生成任务，并持续优于各种最先进的工作。

二十五、交通驾驶

77、Controllable Safety-Critical Closed-loop Traffic Simulation via Guided Diffusion

评估自动驾驶规划算法的性能需要模拟长尾交通场景。传统的生成关键场景的方法往往在逼真性和可控性方面存在不足。此外，这些技术通常忽略了代理之间的动态交互。为减轻这些限制，提出一种根植于引导扩散模型的新型闭环模拟框架。

方法具有两个明显优势：1）生成与真实世界条件非常接近的逼真长尾场景，2）增强可控性，实现更全面和互动式的评估。通过增强道路进展、降低碰撞和离线率的导向目标实现了这一目标。通过在去噪过程中引入对抗性项来开发一种通过模拟关键安全场景的新方法，允许对车辆规划者进行挑战，并确保场景中的所有代理都表现出反应灵敏和逼真的行为。

基于NuScenes数据集进行了实证验证，证明了逼真性和可控性的提升。这些发现证实了引导扩散模型为安全关键、互动式交通仿真提供了强大而灵活的基础，扩展了其在自动驾驶领域的实用性。https://safe-sim.github.io/

78、Generalized Predictive Model for Autonomous Driving

本论文提出自动驾驶领域中第一个大规模视频预测模型。为消除高成本数据收集的限制，并增强模型泛化能力，从网络上获取大量数据，并与多样化和高质量的文本描述配对。

数据集积累了超过2000小时的驾驶视频，涵盖世界各地的各种天气条件和交通情景。继承了最近潜在扩散模型的优点，模型名为GenAD，通过新的时间推理模块处理驾驶场景中具有挑战性的动力学。展示了它可以以零样本的方式泛化到各种未见驾驶数据集，超过一般或仅针对驾驶的视频预测对手。此外，GenAD可以调整为一个动作条件的预测模型或动作规划器，在实际驾驶应用中具有巨大潜力。

二十六、语音相关

79、FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models

提出FaceTalk1，一种新生成方法，用于从输入的音频信号生成高保真度的三维运动序列的人头部。为捕捉人头部的表达、细节特征，包括头发、耳朵和细微的眼动，提出将语音信号与神经参数化头部模型的潜空间相结合，以创建高保真度、时间连贯的运动序列。

提出一种用于此任务的新型潜力扩散模型，在神经参数化头部模型的表情空间中操作，用于合成由音频驱动的真实头部序列。在没有具有相应NPHM表情到音频的数据集的情况下，优化这些对应关系，以产生一组与说话人不断优化的NPHM表情相适应的音视频记录数据集。本文声称这是首次提出一个用于实现体积性人头部真实、高质量运动合成的生成方法，表示在音频驱动三维动画领域的重要进展。

方法在生成能产生与NPHM形状空间相耦合的高保真度头部动画的可信运动序列方面表现出色。实验结果证实FaceTalk有效性，在感知用户评估中超过现有方法75%。https://shivangi-aneja.github.io/projects/facetalk/

80、ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis

手势在人类交流中起着关键作用。最近方法可以生成与语音节奏对齐的动作，但在生成与话语语义对齐的手势方面仍存在困难。与自然对齐音频信号的节奏手势相比，语义上连贯的手势需要对语言和人体动作之间的复杂互动进行建模，并可以通过关注特定单词来进行控制。

提出CONVOFUSION，一种基于扩散的多模态手势合成方法，它不仅可以基于多模态语音输入生成手势，还可以在手势合成中提供可控性。方法提出两个指导目标，允许用户调节不同条件模态（如音频与文本）的影响，并选择在手势过程中强调特定单词。方法非常灵活，既可以训练用于生成独白手势，也可以生成对话手势。为进一步推进多方交互手势研究，发布了DND GROUP GESTURE数据集，其中包含6小时的手势数据，5个人之间的互动。将方法与几种近期工作进行比较，并展示方法在各种任务上的有效性。https://vcai.mpi-inf.mpg.de/projects/ConvoFusion/

81、Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

视频和音频内容的创建是电影行业和专业用户的核心技术。最近，现有的基于扩散的方法单独处理视频和音频生成，这阻碍从学术界到工业界的技术转移。这项工作提出一个经过精心设计的基于优化的跨视听和联合视听生成框架。

提出利用已有的强大模型和一个共享的潜空间来搭建桥梁，而不是从头开始训练庞大的模型。具体来说，提出一个多模态潜空间对齐器，与预训练的ImageBind模型相似。潜空间对齐器与分类器引导具有相似的核心，在推理过程中引导扩散去噪过程。

通过精心设计的优化策略和损失函数，展示方法在联合视频音频生成、以视频为导向的音频生成和以音频为导向的视觉生成任务上的优越性能。https://yzxing87.github.io/Seeing-and-Hearing/

二十七、姿势估计

82、Object Pose Estimation via the Aggregation of Diffusion Features

从图像中估计物体的姿态是三维场景理解的关键任务，近期方法在非常大的基准数据集上取得有希望结果。然而这些方法在处理未见过的物体时性能显著下降。这是由图像特征的有限通用性导致的。

为解决这个问题，对扩散模型的特征进行深入分析，如稳定扩散，这些特征在建模未见过的物体方面具有重要潜力。基于这个分析，引入这些扩散特征来进行物体姿态估计。为实现这一目标，提出三种不同的架构，可以有效地捕获和聚合不同粒度的扩散特征，极大地提高了物体姿态估计的通用性。

方法在LM、O-LM和T-LESS三个常用的基准数据集上的性能优于现有方法，特别是在未见过的物体上更是达到了更高的准确率：在未见过的LM数据集上，方法的准确率为98.2%，而之前最好的方法为93.5%；在未见过的O-LM数据集上，准确率为85.9%，而之前最好的方法为76.3%，展示方法强大通用性。https://github.com/Tianfu18/diff-feats-pose

二十八、图相关

83、DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Reassembly任务在许多领域中起着基础作用，并且存在多种方法来解决具体问题。在这种背景下，一个通用的统一模型可以有效解决所有这些问题，而不管输入数据类型是图像、三维等。

提出DiffAssemble，一种基于图神经网络（GNN）的架构，用扩散模型学习。方法将2D贴片或3D对象碎片的元素视为空间图的节点。训练过程中，将噪声引入元素的位置和旋转，并通过迭代去噪来重建一致的初始姿态。DiffAssemble在大多数2D和3D任务中取得最先进的结果，并且是第一个解决旋转和平移的2D拼图的基于学习的方法。此外，强调其在运行时间上的显著减少，比最快的基于优化的方法快11倍。https://github.com/IIT-PAVIS/DiffAssemble

二十九、动作检测或生成

84、Action Detection via an Image Diffusion Process

动作检测，旨在定位视频中动作实例的起始点和终止点，并预测这些实例的类别。本文观察到动作检测任务的输出可以被表达为图像。因此，从一个新的角度出发，通过提出的Action Detection Image Diffusion（ADI-Diff）框架，通过三个图像生成过程生成起始点、终止点和动作类别的预测图像。

此外，由于本文所指图像与自然图像不同并且具有特殊属性，进一步探索离散动作检测扩散过程和行列Transformer设计，以更好处理它们的处理。ADI-Diff框架在两个广泛使用的数据集上取得了最先进的结果。

85、Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

提出Lodge，根据给定音乐生成极长舞蹈序列的网络。将Lodge设计为一个两阶段的粗到精扩散架构，提出characteristic dance primitives，作为两个扩散模型之间的中间表示。

第一阶段是全局扩散，重点在于理解粗粒度的音乐-舞蹈关联性和生成特征舞蹈。第二阶段是局部扩散，通过舞蹈和编排规则的指导，同时生成详细的动作序列。此外，提出一个足部精炼模块，优化脚与地面之间的接触，增强了动作的物理逼真感。

方法平衡全局编舞模式和局部动作质量和表现力之间的关系。大量实验证实方法有效性。https://li-ronghui.github.io/lodge

86、OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

近期在逼真的文本到运动生成方面取得进展。然而，现有方法在处理未见过的文本输入时往往失败或产生不合理的动作，限制了应用的范围。

本文提出一个新框架OMG，从零样本开放词汇的文本提示中生成引人注目的动作。关键思想是将预训练-微调范式精心调整为文本到运动生成。在预训练阶段，模型通过学习丰富的领域外内在运动特征来改善生成能力。为此，将一个大规模无条件扩散模型扩展到10亿个参数，以利用超过2000万个无标签的运动实例数据。在随后的微调阶段，引入运动控制网络(ControlNet)，通过一个可训练的预训练模型和提出的新型混合控制器(MoC)块，将文本提示作为调节信息进行融合。MoC块通过交叉注意机制自适应地识别子运动的各个范围，并使用专门针对文本token的专家进行分段处理。这样的设计有效地将文本提示的CLIP令牌嵌入到各种范围的紧凑和富有表现力的运动特征中。

大量实验证明，OMG在零样本文本到运动生成上取得了显著改进，优于最先进方法。https://tr3e.github.io/omg-page/

三十、机器人规划/智能决策

87、SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

扩散模型已展示在机器人轨迹规划方面的潜力。然而，从高级指令生成连贯的轨迹仍具有挑战性，特别是对于需要多个序列技能的长距离组合任务。

提出SkillDiffuser，一个端到端的分层规划框架，将可解释的技能学习与条件扩散规划相结合。在更高层面上，技能抽象模块从视觉观察和语言指令中学习离散、人类可理解的技能表示。然后，使用这些学习到的技能嵌入来调节扩散模型，以生成与技能相吻合的定制化潜在轨迹。这样可以生成符合可学习技能的多样化状态轨迹。通过将技能学习与条件轨迹生成结合起来，SkillDiffuser能够在不同任务中按照抽象指令生成连贯的行为。

在Meta-World和LOReL等多任务机器人操纵基准上的实验证明了SkillDiffuser在性能和人类可解释的技能表示方面的先进性。https://skilldiffuser.github.io/

三十一、视觉叙事-故事生成

88、Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

生成模型最近在文本到图像生成方面展示了出色的能力，但仍然难以连贯地生成图像序列。这项工作关注一个新颖而具有挑战性的任务，即基于给定故事情节生成连贯的图像序列，被称为开放式视觉叙事。

做出了以下三个贡献：(i)为完成视觉叙事的任务，提出一种基于学习的自回归图像生成模型StoryGen，采用一个新的视觉-语言上下文模块，使得生成的当前帧能够以相关文本提示和之前的image-caption对作为条件；(ii)为解决视觉叙事数据的不足，通过在线视频和开源电子书收集成对的图像-文本序列，建立了一个包含多样化角色、故事情节和艺术风格的大规模数据集的处理流程，命名为StorySalon；(iii)定量实验和人类评估验证StoryGen的优越性，展示了StoryGen可以在没有任何优化的情况下推广到未见过的角色，并生成具有连贯内容和一致性的图像序列。https://haoningwu3639.github.io/StoryGen_Webpage/

三十二、因果归因

89、 ProMark: Proactive Diffusion Watermarking for Causal Attribution

生成AI(GenAI)通过高级提示的能力，正在改变创意工作流程，合成和操作图像。然而，创意者们缺乏得到对他们在GenAI训练中使用的内容的认可或奖励的支持。为此，提出ProMark，一种因果归因技术，将生成图像归因于其训练数据中的概念，如对象、主题、模板、艺术家或风格。概念信息被主动嵌入到输入训练图像中，使用察觉不到的水印，扩散模型（无条件或条件）被训练以在生成的图像中保留相应的水印。

展示可以将多达2^16个独特的水印嵌入训练数据中，每个训练图像可以包含多个水印。ProMark可以保持图像质量，同时优于基于相关性的归因。最后，展示了一些定性的示例，提供了水印的存在传达了训练数据和合成图像之间的因果关系。

三十三、隐私保护-对抗估计

90、Robust Imperceptible Perturbation against Diffusion Models

文本到图像扩散模型可从参考照片中生成个性化图像。然而这些工具如果落入不良之徒手中，可能制造误导性或有害内容，危及个人安全。为解决这个问题，现有防御方法对用户图像进行微不可察觉的扰动，使其对恶意使用者“无法学习”。这些方法两个局限性：一是由于手工设计的启发式方法导致sub-optimal结果；二是缺乏对简单数据转换（如高斯滤波）的鲁棒性。

为解决这些挑战，提出MetaCloak，用元学习框架，通过额外的转换采样过程来构建可转移和鲁棒的扰动。具体而言，用一组替代扩散模型来构建可转移和模型无关的扰动。此外，通过引入额外的转换过程，设计一个简单的去噪误差最大化损失，足以在个性化生成中引起转换鲁棒的语义失真和降级。

在VGGFace2和CelebA-HQ数据集上进行实验，表明MetaCloak优于现有方法。值得注意的是，MetaCloak能够成功欺骗Replicate等在线训练服务，以黑盒方式展示了MetaCloak在实际场景中的有效性。https://github.com/liuyixin-louis/MetaCloak

三十四、扩散模型改进-补充

91、Condition-Aware Neural Network for Controlled Image Generation

提出Condition-Aware Neural Network (CAN)，一种为图像生成模型添加控制的新方法。与以前的条件控制方法并行，CAN通过动态操纵神经网络的权重来控制图像生成过程。为此，引入一个条件感知的权重生成模块，根据输入条件生成用于卷积/线性层的条件权重。

在ImageNet上进行了类条件图像生成和在COCO上进行了文本到图像生成的测试。CAN一致地提供了对扩散transformer模型的显著改进，包括DiT和UViT。特别是，CAN结合EfficientViT（CaT）在ImageNet 512×512上实现了2.78 FID，超过了DiT-XL/2，同时每个采样步骤所需的MAC数量减少了52倍。https://github.com/mit-han-lab/efficientvit

三十五、交互式可控生成

92、Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation

基于点的交互式编辑，是一种重要工具，补充现有生成模型的可控性。DragDiffusion根据用户输入更新扩散潜在图，这导致原始内容的保存不精确和编辑失败。提出DragNoise，提供稳健且加速的编辑，无需追溯潜在图。

DragNoise核心在于将每个U-Net的预测噪声输出作为语义编辑器。这种方法基于两个关键观察：首先，U-Net的瓶颈特征本质上具有适于交互式编辑的语义丰富特征；其次，高级语义在去噪过程的早期阶段建立，随后在后续阶段显示出最小的变化。利用这些见解，DragNoise在单个去噪步骤中编辑扩散语义，并有效地传播这些变化，确保扩散编辑的稳定性和效率。

对比实验表明，与DragDiffusion相比，DragNoise实现了更好的控制和语义保留，并将优化时间缩短了50%以上。https://github.com/haofengl/DragNoise

三十六、图像恢复-补充

93、Generating Content for HDR Deghosting from Frequency View

从多个低动态范围（High Dynamic Range，LDR）图像中恢复高动态范围（HDR）图像，在LDR图像出现饱和和显著运动时具有挑战性。最近，在HDR成像领域引入扩散模型（DM）。然而DM需要用大模型进行广泛迭代来估计整个图像，从而导致效率低下，阻碍实际应用。

为应对这一挑战，提出适用于HDR成像的低频感知扩散（LF-Diff）模型。LF-Diff的关键思想是在高度紧凑的潜在空间中实施DM，并将其整合到基于回归的模型中，以增强重建图像的细节。具体来说，鉴于低频信息与人的视觉感知密切相关，利用DM来创建紧凑的低频先验，用于重建过程。此外，为充分利用上述低频先验，通过基于回归的方式进行动态HDR重建网络（DHRNet），以获得最终的HDR图像。

在合成和真实世界基准数据集上进行的大量实验证明，LF-Diff相比几种最先进的方法表现出较好的性能，并且比之前基于DM的方法快10倍。

三十七、域适应/迁移学习

94、Unknown Prompt, the only Lacuna: Unveiling CLIP’s Potential for Open Domain Generalization

深入研究开放领域泛化（Open Domain Generalization，ODG），其特点是训练标注好的源域和测试未标注的目标域之间的域和类别转换。现有ODG解决方案面临限制，因为传统CNN骨干的泛化受限，并且在没有先验知识的情况下，无法检测到目标开放样本的错误。为解决这些问题，提出ODG-CLIP，利用视觉-语言模型CLIP的语义能力。框架带来三个主要创新：

首先，与现有范例不同，将ODG概念化为一个多类分类挑战，包括已知类别和新类别。方法的核心在于设计了一个独特的用于检测未知类别样本的提示，并且为训练这个提示，采用一个易于获得的扩散模型，优雅地生成开放类别的代理图像proxy image。

其次，设计一种新的视觉风格中心的提示学习机制，以获得针对特定领域的分类权重，同时确保精度和简易性的平衡。

最后，将从提示空间衍生的类别区分知识注入图像中，以增强CLIP的视觉嵌入的准确性。引入了一种新目标，以确保这种注入的语义智能在不同领域间的连续性，特别是对于共享类别而言。

通过在涵盖封闭集和开放集DG上下文的多个数据集上进行严格测试，ODG-CLIP展示了明显的优势，性能提升在8%-16%之间，始终领先于同行方法。https://github.com/mainaksingha01/ODG-CLIP

三十八、手交互

95、Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

本文介绍第一个文本导向的、生成3D环境中手-物体交互（hand-object interaction）序列的工作。主要挑战在于缺乏带标签的数据，现有实际数据集在交互类型和物体类别上都不具有普适性，限制从文本提示中对多样化3D手物体交互进行正确的物理推断（例如接触和语义）的建模。

为解决这个问题，将交互生成任务分解为两个子任务：手-物体接触生成、手-物体运动生成。对于接触生成，基于VAE的网络以文本和物体网格为输入，生成在交互过程中手部和物体表面之间接触的概率。该网络学习到了与对象类别无关的各种对象的本地几何结构变化，因此适用于一般对象。对于运动生成，基于Transformer的扩散模型利用这个3D接触图作为强先验，根据文本提示生成可能的手-物体运动，通过从扩充的带标签数据集中学习。

实验证明方法能够生成比其他基线方法更逼真和多样化的交互。还展示方法适用于未见过的对象。https://github.com/JunukCha/Text2HOI

96、InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion

提出InterHandGen，一个学习双手交互（ two-hand interaction）生成式先验的新框架。从模型中进行采样可以得到在有或没有物体的情况下与之互动的双手形状。先验可以被融入到任何优化或学习方法中，以减少不适定问题中的模糊性。关键观察是，直接对多个实例的联合分布进行建模会导致学习复杂度高，因为它具有组合的特性。因此，提出将联合分布建模分解为分解单实例分布的无条件和条件建模。具体而言，引入一个扩散模型，该模型通过条件dropout学习单手的无条件和条件分布。对于采样，结合了抗穿透（anti-penetration）和无分类器指导，以实现合理的生成。

此外，建立严格的双手综合评估协议，其中方法在真实性和多样性方面明显优于基准生成模型。还证明了扩散先验可以提升从单目野外图像中的双手重建的性能，实现了最先进的准确性。https://jyunlee.github.io/projects/interhandgen/

三十九、伪装检测

97、LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion

伪装视觉感知，是具有许多实际应用的重要视觉任务。由于收集和标注成本高昂，这个领域面临着一个主要瓶颈，即其数据集的物种类别仅限于少数几种物种。然而，现有伪装生成方法需要手动指定背景，因此无法以低成本方式扩展伪装样本的多样性。

本文提出一种用于伪装图像生成的基于潜在背景知识的扩散方法（LAKE-RED）。贡献主要包括：（1）首次提出一种不需要接收任何背景输入的伪装生成范式。（2）LAKE-RED是第一种具有可解释性的知识检索增强方法，提出一种将知识检索和推理增强明确分开的思想，以减轻任务特定挑战。此外，方法不局限于特定的前景目标或背景，为将伪装视觉感知扩展到更多不同的领域提供了潜力。（3）实验结果表明，方法优于现有方法，生成更逼真的伪装图像。https://github.com/PanchengZhao/LAKE-RED

四十、多任务学习

98、DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data

最近，对从部分标注数据中学习多个密集场景理解任务（ dense scene understanding task）的实际问题引起了越来越多的兴趣，其中每个训练样本只为一部分任务进行了标注。训练中任务标签的缺失导致预测质量低下且噪声较大。

为解决这个问题，将部分标注的多任务密集预测重新定义为像素级去噪问题，并提出一种新的多任务去噪扩散框架，称为DiffusionMTL。设计一种联合扩散和去噪模式，以对任务预测或特征图中的潜在噪声分布进行建模，并为不同任务生成修正输出。为在去噪中利用多任务一致性，进一步引入多任务条件策略，它可以隐式地利用任务的互补性来帮助学习未标注的任务，从而提高了不同任务的去噪性能。

定量和定性实验证明，所提出的多任务去噪扩散模型可以显著提高多任务预测图的性能，并在两种不同的部分标注评估设置下优于最先进的方法。https://prismformore.github.io/diffusionmtl/

四十一、轨迹预测

99、SingularTrajectory: Universal Trajectory Predictor Using Diffusion Model

有五种类型的轨迹预测（trajectory prediction）任务：确定性、随机性、域适应、瞬时观察和少样本。这些关联任务由各种因素定义，如输入路径的长度、数据拆分和预处理方法。有趣的是，尽管它们通常将观察的连续坐标作为输入，并以相同坐标推断未来路径，但为每个任务设计专门的架构仍是必要的。对于其他任务，泛化问题可能导致次优性能。

本文提出SingularTrajectory，一种基于扩散的通用轨迹预测框架，以减少这五个任务之间的性能差距。SingularTrajectory的核心是统一关联任务中各种人体动力学表示形式。为此，首先建立一个Singular空间，将每个任务中的所有类型的运动模式投影到一个嵌入空间中。然后，引入一个适应性锚点来工作在Singular空间中。与有时会产生不可接受路径的传统固定锚点方法不同，适应性锚点可以根据一个可穿越性图将不正确放置的正确锚点纳入其中。最后，采用基于扩散的预测器，通过级联去噪过程进一步增强原型路径。

统一框架确保在各种基准设置（如输入模态和轨迹长度）下的泛化效果。在五个公共基准测试上的广泛实验表明，SingularTrajectory在估计人体运动的一般动态方面明显优于现有模型，凸显其在估计人体运动的一般动态方面的有效性。https://github.com/inhwanbae/SingularTrajectory

四十二、场景生成

100、SemCity: Semantic Scene Generation with Triplane Diffusion

提出“SemCity”，一个用于语义场景在真实室外环境中生成的三维扩散模型。大多数三维扩散模型专注于生成单个对象、合成室内场景或合成室外场景，而生成真实室外场景的研究很少。本文致力于通过学习真实室外数据集上的扩散模型来生成真实室外场景。与合成数据不同，真实室外数据集通常由于传感器限制而包含更多的空白空间，这在学习真实室外分布时会带来挑战。

为解决这个问题，利用三平面表示（triplane representation）作为场景分布的代理形式，由扩散模型进行学习。实验结果，三平面扩散模型与现有工作相比在真实室外数据集SemanticKITTI上显示出有意义的生成结果。还可以轻松地添加、删除或修改场景中的对象，同时也能够实现场景扩展到城市规模。最后，将方法评估在语义场景完成细化上，其中扩散模型通过学习场景分布来提高语义场景完成网络的预测。https://github.com/zoomin-lee/SemCity

四十三、3D相关/流估计

101、DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement

场景流估计，是计算机视觉领域的一项基础任务，旨在预测动态场景的每个点的三维位移。然而，前期的工作通常由于局部限制的搜索范围导致相关性不可靠，并且由于粗到细结构而产生累积误差。

为缓解这些问题，提出一种新的基于扩散概率模型的场景流估计网络(DifFlow3D)来推断不确定性。设计迭代扩散的细化过程，以增强相关性的鲁棒性和对挑战性情况(如动态场景、噪声输入、重复图案等)的韧性。为抑制生成多样性，在扩散模型中使用了三个与流相关的关键特征作为条件。

此外，还在扩散中开发了一个不确定性估计模块，用于评估估计的场景流的可靠性。DifFlow3D实现了最先进的性能，在FlyingThings3D和KITTI 2015数据集上分别减少了6.7%和19.1%的EPE3D。值得注意的是，方法在KITTI数据集上实现了空前的毫米级准确性(EPE3D为0.0089m)。此外，基于扩散的细化范式可以轻松地作为即插即用模块集成到现有的场景流网络中，提高它们的估计准确性。

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

不是一杯奶茶喝不起，而是我T M直接用来跟进 AIGC+CV视觉前沿技术，它不香？！

ICCV 2023 | 最全AIGC梳理，5w字30个diffusion扩散模型方向，近百篇论文！

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！