赞
踩
草图绘制可以实现许多令人兴奋的应用,特别是图像检索。然而,恐惧素描问题(即“我不会素描”)已被证明是致命的,因为它被广泛采用。本文正面解决了这种“恐惧”,并首次为现有的检索模型提出了一个辅助模块,主要让用户不必担心草图。我们首先进行了一项试点研究,揭示了秘密在于存在嘈杂的笔画,但没有那么多“我不会素描”。因此,我们设计了一个笔画子集选择器来检测嘈杂的笔画,只留下那些对成功检索有积极贡献的笔画。我们基于强化学习的公式根据笔画对检索的贡献程度来量化给定子集中存在的每个笔画的重要性。当与预训练的检索模型作为预处理模块相结合时,我们实现了比标准基线高出8%-10%的显着收益,从而报告了新的最先进的性能。最后但并非最不重要的一点是,我们演示了选择器经过训练后,也可以以即插即用的方式使用,以以前不可能的方式为各种草图应用程序提供支持。
code:https://github.com/AyanKumarBhunia/NoiseTolerant-SBIR
注:代码没有说明文档
基于细粒度草图的图像检索 (FG-SBIR)
解决了在给定用户查询草图的情况下检索特定照片实例的问题。然而,它的广泛适用性受到以下事实的阻碍:绘制草图需要时间,大多数人都在努力绘制完整而忠实的草图。在本文中,我们重新制定了传统的FG-SBIR框架来应对这些挑战,最终目标是以尽可能少的笔画数检索目标照片。我们进一步提出了一种即时设计,一旦用户开始绘图,它就会开始检索。为了实现这一目标,我们设计了一个基于强化学习的跨模态检索框架,该框架直接优化了完整草图绘制情节中地面真实照片的排名。此外,我们引入了一种新的奖励方案,该方案规避了与不相关的草图笔画相关的问题,从而在检索过程中为我们提供了更一致的排名列表。在两个公开可用的细粒度草图检索数据集上,我们实现了优于最先进的方法和替代基线的早期检索效率。
code:https://github.com/AyanKumarBhunia/on-the-fly-FGSBIR
注:只有强化学习部分代码公开
基于草图的图像处理是一种交互式图像编辑任务,用于根据用户的输入草图修改图像。现有方法通常将此任务转换为条件修复问题,这需要用户使用额外的掩码来指示要修改的区域。然后,遮罩区域被视为缺失,并由以草图为条件的修复模型填充。使用此公式,可以通过随机创建遮罩并提取边缘或轮廓来轻松获得配对训练数据。尽管此设置简化了数据准备和模型设计,但它使用户交互复杂化,并丢弃了屏蔽区域中的有用信息。为此,我们提出了一种基于草图的图像处理的新框架,该框架只需要用户的草图输入并利用整个原始图像。给定图像和草图,我们的模型会自动预测目标修改区域并将其编码为与结构无关的样式向量。然后,生成器根据样式矢量和草图合成新的图像内容。最后通过将发生器输出混合到原始图像的修改区域中来生成处理后的图像。我们的模型可以通过从样式向量和草图中学习图像区域的重建,以自监督的方式进行训练。所提出的框架为基于草图的图像处理提供了更简单、更直观的用户工作流程,并提供了比以前方法更好的结果。代码和交互式演示可以在补充材料中找到。
code:https://github.com/zengxianyu/sketchedit
注:有demo,没有训练代码
从3D草图重建2D形状长期以来一直是一个悬而未决的问题,因为草图仅提供非常稀疏和模糊的信息。在本文中,我们使用编码器/解码器架构进行草图网格翻译。这使我们能够利用其潜在参数化来表示和优化3D网格,使其投影与草图中勾勒的外部轮廓相匹配。我们将证明这种方法易于部署,对样式更改具有鲁棒性且有效。此外,它可用于仅单笔划的形状细化。我们将我们的方法与最先进的草图方法(手绘和合成)进行比较,并证明我们优于它们。
我们展示了矢量化草图的生成可以被识别为笔划变形过程的反转。这种关系是通过扩散模型建立的,该模型学习真实人类草图的笔画点位置和笔状态的数据分布。给定随机分散的笔划点,草图生成变成了一个基于变形的去噪过程,其中生成器在每个时间步长校正笔划点的位置,以收敛于可识别的草图。
一个关键的创新是将可识别性嵌入到反向时间扩散过程中。据观察,反转过程中估计的噪声与草图分类精度密切相关。因此,在数据采样过程中,使用辅助递归神经网络(RNN)来量化可识别性。因此,基于可识别性得分,还可以设计一个采样捷径函数,该函数可以用更少的采样步骤绘制出质量更好的草图。最后表明,该模型可以很容易地扩展到一个传统的生成框架中,在给定不完整和不忠实的草图的情况下,它会产生一个更具视觉吸引力和更高可识别性的生成框架。
code:https://github.com/XDUWQ/SketchKnitter
有训练代码
草图,作为一种手绘的简化版的图像描述,在图像表达中具有重要的研究价值,我们针对草图到自然图像的检索问题进行了深入的研究。考虑到草图与自然图像可能存在多视角的特征表达,且不同的视角作用差异较大,我们提出了一种基于视角选择的多视角跨模态匹配算法。通过引入结构化稀疏约束,我们可以在多模态子空间学习的同时自动区分不同视角之间的判别性,进而有效建模草图与其对应自然图像之间的一致特性。我们在两个经典的细粒度草图-图像数据集上进行了大量的实验,结果表明所提出的方法可以有效利用多模态多视角特性并提升检索性能。
现有大规模数据集(如最近的 QuickDraw集合)中的草图通常以矢量格式存储,笔触由顺序采样的点组成。然而,大多数现有的草图识别方法将矢量草图栅格化为二值图像,然后采用图像分类技术。在本文中,我们提出了一种新颖的端到端单分支网络架构RNN-光栅化-CNN(简称Sketch-R2CNN),以充分利用草图的矢量格式进行识别。Sketch-R2CNN将矢量草图作为输入,并使用RNN提取矢量空间中每个点的特征。然后,我们开发了一个神经线光栅化模块,将矢量草图和每点特征转换为多通道点特征图,然后将其馈送到CNN以提取像素空间中的卷积特征。我们的神经线光栅化模块以可区分的方式设计,用于端到端学习。我们在现有的大规模草图识别数据集上进行实验,并表明RNN-光栅化设计比CNN基线带来了一致的改进,并且Sketch-R2CNN的性能大大优于最先进的方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。