当前位置:   article > 正文

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 17 日论文合集)_denoising diffusion probabilistic model for retina

denoising diffusion probabilistic model for retinal image generation and seg

一、分割|语义相关(12篇)

1.1 MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

MEVIS:一种基于运动表达的大规模视频分割基准

https://arxiv.org/abs/2308.08544
  • 1

本文致力于运动表达式引导的视频分割,其重点是分割对象的视频内容的基础上,一句话描述的对象的运动。现有的参考视频对象数据集通常集中在显著对象上,并且使用包含可能潜在地使得能够在单个帧中识别目标对象的过多静态属性的语言表达。这些数据集淡化了视频内容中的运动对于语言引导的视频对象分割的重要性。为了研究使用运动表达式地面和分割视频中的对象的可行性,我们提出了一个大规模的数据集MeViS,其中包含了许多运动表达式,以指示在复杂环境中的目标对象。我们对5种现有的参考视频对象分割(RVOS)方法进行了基准测试,并在MeViS数据集上进行了全面的比较。结果表明,目前的RVOS方法不能有效地解决运动表达指导的视频分割。我们进一步分析了挑战,并提出了一个基线方法,建议MeViS数据集。我们的基准测试的目标是提供一个平台,使有效的语言引导的视频分割算法,利用运动表达式作为对象分割在复杂的视频场景的主要线索的发展。拟议的MeViS数据集已在https://henghuiding.github.io/MeViS上发布。

1.2 Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment

基于贴片级感知和语义信用分配的基于似然的文本到图像评价

https://arxiv.org/abs/2308.08525
  • 1

近年来,文本到图像的合成技术取得了令人鼓舞的进展,引起了人们的广泛关注。然而,在该领域中流行的评估度量,如初始得分和Fr’echet初始距离,引发了若干问题。首先,它们不能明确地评估生成的图像的感知质量,并且很难反映每个文本-图像对的语义对齐。此外,它们效率低下,需要采样数千张图像以稳定评估结果。在本文中,我们提出评估文本到图像生成性能,通过直接估计所生成的图像的可能性使用预先训练的基于似然的文本到图像生成模型,即,较高的似然性指示较好的感知质量和较好的文本-图像对准。为了防止被所生成的图像的非关键部分占主导地位的可能性,我们提出了几个新的设计,开发一个信用分配策略的基础上的语义和感知意义的图像补丁。在实验中,我们评估了多个流行的文本到图像生成模型和数据集在访问感知质量和文本图像对齐的建议度量。此外,它可以成功地评估这些模型的生成能力,少至一百个样本,使其在实践中非常有效。

1.3 Integrating Visual and Semantic Similarity Using Hierarchies for Image Retrieval

基于层次结构的视觉和语义相似度相结合的图像检索

https://arxiv.org/abs/2308.08431
  • 1

基于内容的图像检索(CBIR)的大部分研究集中在开发强大的功能表示,可以有效地检索实例从数据库中的图像,在视觉上类似的查询。然而,检索到的图像有时包含与查询在语义上不相关的结果。为了解决这个问题,我们提出了一种CBIR的方法,捕捉视觉和语义的相似性使用的视觉层次结构。该层次结构是通过在为分类而训练的深度神经网络的潜在空间中合并具有重叠特征的类来构建的,假设重叠类具有高度的视觉和语义相似性。最后,构建的层次被集成到距离计算度量的相似性搜索。标准数据集上的实验:CUB-200-2011和CIFAR 100,以及使用硅藻显微图像的真实用例表明,我们的方法实现了优越的性能相比,现有的图像检索方法。

1.4 Improving Audio-Visual Segmentation with Bidirectional Generation

利用双向生成技术改进视听分割

https://arxiv.org/abs/2308.08288
  • 1

视听分割(AVS)的目的是精确地区分视频中的可听对象到像素级。传统的方法通常通过组合来自各种模态的信息来解决这一挑战,其中每个模态的贡献被隐式或显式地建模。然而,不同模态之间的相互联系往往被忽视在视听建模。在本文中,灵感来自人类的能力,精神上模拟的声音的物体和它的视觉外观,我们介绍了一个双向生成框架。该框架建立了对象的视觉特性和其相关的声音之间的鲁棒相关性,从而增强AVS的性能。为了实现这一点,我们采用了一个视觉到音频的投影组件,从对象分割掩模重建音频特征,并最大限度地减少重建误差。此外,认识到,许多声音链接到对象的移动,我们引入了一个隐式体积运动估计模块来处理时间动态,可能是具有挑战性的捕捉使用传统的光流方法。为了展示我们的方法的有效性,我们对广泛认可的AVSBench基准进行了全面的实验和分析。因此,我们建立了一个新的国家的最先进的性能水平,在AVS基准,特别是在具有挑战性的MS3子集,涉及分割多个声源。为了促进再现性,我们计划发布源代码和预训练模型。

1.5 MEDOE: A Multi-Expert Decoder and Output Ensemble Framework for Long-tailed Semantic Segmentation

MEDOE:一种面向长尾语义切分的多专家解码输出集成框架

https://arxiv.org/abs/2308.08213
  • 1

传统方法往往忽略语义类别的长尾分布,导致尾类别的语义切分效果不理想。在本文中,我们专注于长尾语义分割的问题。虽然一些长尾识别方法(例如,重新采样/重新加权),它们可能会损害关键的上下文信息,因此很难适应长尾语义分割的问题。为了解决这个问题,我们提出了MEDOE,一个新的框架长尾语义分割通过上下文信息集成和分组。建议的两圣框架包括一个多专家解码器(MED)和多专家输出合奏(MoE)。具体而言,MED包括若干“专家”。基于像素频率分布,每个专家以根据特定类别掩蔽的数据集为输入,自适应地生成用于分类的上下文信息; MoE采用可学习的决策权重的专家的输出的合奏。作为一个模型不可知的框架,我们的MEDOE可以灵活有效地与各种流行的深度神经网络(例如,DeepLabv 3+,OCRNet和PSPNet),以提高其在长尾语义分割中的性能。实验结果表明,该框架优于目前的方法在城市景观和ADE 20 K数据集上的mIoU高达1.78%和mAcc的5.89%。

1.6 Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis

学习在文本-图像合成中为更高的文本-图像对应生成语义布局

https://arxiv.org/abs/2308.08157
  • 1

现有的文本到图像生成方法已经为真实感和文本-图像对应设置了高标准,这在很大程度上受益于web规模的文本-图像数据集,其可以包括多达50亿对。然而,在特定领域的数据集(如城市场景、医学图像和人脸)上训练的文本到图像生成模型仍然由于缺乏文本图像对而遭受低文本图像对应性的影响。此外,为特定领域收集数十亿的文本图像对可能是耗时且昂贵的。因此,在不依赖于网络规模的文本图像数据集的情况下确保高文本图像对应性仍然是一项具有挑战性的任务。在本文中,我们提出了一种新的方法,利用可用的语义布局来增强文本图像对应。具体而言,我们提出了一个高斯分类扩散过程,同时生成图像和相应的布局对。我们的实验表明,我们可以引导文本到图像生成模型知道的语义的不同的图像区域,通过训练模型生成的语义标签的每个像素。我们证明,我们的方法实现了更高的文本图像对应性相比,现有的文本到图像生成方法在多模态CelebA-HQ和Cityscapes数据集,其中文本图像对是稀缺的。代码可在此https://pmh9960.github.io/research/GCDP

1.7 Hierarchical Uncertainty Estimation for Medical Image Segmentation Networks

医学图像分割网络的分层不确定性分析

https://arxiv.org/abs/2308.08465
  • 1

学习医学图像分割模型本质上是一项模糊的任务,因为在用于模型训练的图像(噪声)和手动注释(人为错误和偏差)两者中存在不确定性。为了建立一个可靠的图像分割模型,不仅要评估其性能,而且要估计模型预测的不确定性。大多数最先进的图像分割网络采用分层编码器架构,从细到粗的多个分辨率级别提取图像特征。在这项工作中,我们利用这种分层图像表示,并提出了一个简单而有效的方法来估计多个层次的不确定性。多级不确定性通过跳过连接模块建模,然后采样以生成用于预测图像分割的不确定性图。我们证明,当使用这种分层不确定性估计模块实现深度学习分割网络(如U-net)时,可以实现高分割性能,同时提供可用于分布外检测的有意义的不确定性图。

1.8 Prediction of post-radiotherapy recurrence volumes in head and neck squamous cell carcinoma using 3D U-Net segmentation

3D U-net分割预测头颈部鳞状细胞癌放疗后复发量

https://arxiv.org/abs/2308.08396
  • 1

局部复发(LRR)仍然是头颈部鳞状细胞癌(HNSCC)患者治疗失败的常见部位。 基于预处理成像的高危亚体积识别是生物靶向放射治疗的关键。我们研究了卷积神经网络(CNN)能够预测HNSCC患者的LRR体积的程度,基于治疗前18F-氟脱氧葡萄糖正电子发射断层扫描(FDG-PET)/计算机断层扫描(CT)扫描,从而使用CNN识别生物高风险体积的潜力。 对于37名接受了口咽鳞状细胞癌初次放疗的患者,5名肿瘤学家在复发CT扫描上描绘了复发体积。每个患者的治疗前FDG-PET/CT、大体肿瘤体积(GTV)和轮廓复发的数据集被随机分成训练(n=23)、验证(n=7)和测试(n=7)数据集。我们比较了从头开始训练的CNN、预训练的CNN、SUVmax阈值方法以及直接使用GTV。 SUVmax阈值方法包括体积中位数为4.6立方厘米(cc)内的7个复发起点中的5个。GTV轮廓和最佳CNN分割均包括7次中的6次复发起源,中值体积分别为28和18 cc。 CNN包括相同或更多数量的复发体积PO,具有显著较小的复发体积。我们的新发现表明,CNN可以预测LRR,但需要进一步的工作数据集开发,以达到临床有用的预测准确性。

1.9 GAEI-UNet: Global Attention and Elastic Interaction U-Net for Vessel Image Segmentation

用于血管图像分割的全局关注度和弹性交互U网

https://arxiv.org/abs/2308.08345
  • 1

血管图像分割在医学诊断中起着关键作用,有助于血管疾病的早期检测和治疗。虽然基于深度学习的分割已经显示出有希望的结果,但有效分割小结构并保持它们之间的连接性仍然具有挑战性。为了解决这些限制,我们提出了GAEI-UNet,一个新的模型,结合了全球的注意力和弹性互动为基础的技术。GAEI-UNet利用全球空间和信道上下文信息来增强U-Net架构内的高级语义理解,从而实现对小血管的精确分割。此外,我们采用弹性相互作用为基础的损失函数,以改善这些精细结构之间的连通性。通过捕获目标和预测形状之间的不对准所产生的力,我们的模型有效地学习保持血管网络的正确拓扑结构。视网膜血管数据集- DRIVE的评估证明了GAEI-UNet在SE和小结构的连通性方面的优越性能,而不显着增加计算复杂性。本研究旨在推进血管图像分割领域的研究,为医学界提供更准确可靠的诊断工具。实现代码可在Code上获得。

1.10 Denoising Diffusion Probabilistic Model for Retinal Image Generation and Segmentation

视网膜图像生成与分割的去噪扩散概率模型

https://arxiv.org/abs/2308.08339
  • 1

专家使用视网膜图像和血管树来检测和诊断各种眼睛,血液循环和大脑相关的疾病。然而,视网膜图像的手动分割是一个耗时的过程,其需要高度的专业知识,并且由于隐私问题是困难的。已经提出了许多方法来分割图像,但对大视网膜图像数据集的需要限制了这些方法的性能。几种方法基于生成对抗网络(GAN)合成深度学习模型,以生成有限的样本品种。本文提出了一种新的去噪扩散概率模型(DDPM),优于GANs的图像合成。我们开发了一个视网膜树(ReTree)数据集,包括视网膜图像,相应的血管树,和一个分割网络的基础上的DDPM训练的图像从ReTree数据集。在第一阶段,我们开发了一个两阶段的DDPM,生成血管树的随机数属于一个标准的正态分布。随后,引导模型从给定的血管树和随机分布生成眼底图像。所提出的数据集进行了定量和定性评估。定量评估指标包括Frechet起始距离(FID)分数、Jaccard相似性系数、Cohen’s kappa、Matthew’s Correlation Coefficient(MCC)、精确度、召回率、F1分数和准确度。我们用合成数据训练血管分割模型,以验证我们数据集的效率,并在真实数据上进行测试。我们开发的数据集和源代码可在https://github.com/AAleka/retree获得。

1.11 CARE: A Large Scale CT Image Dataset and Clinical Applicable Benchmark Model for Rectal Cancer Segmentation

CARE:用于直肠癌分割的大规模CT图像数据集和临床适用的基准模型

https://arxiv.org/abs/2308.08283
  • 1

直肠癌CT图像的分割对于临床的及时诊断、放射治疗和随访起着至关重要的作用。虽然目前的分割方法已经显示出描绘癌组织的前景,但它们仍然遇到挑战,实现高分割精度。这些障碍来自直肠复杂的解剖结构和直肠癌鉴别诊断的困难。此外,主要障碍是缺乏用于直肠癌分割的大规模、精细注释的CT图像数据集。为了解决这些问题,这项工作介绍了一种新的大规模直肠癌CT图像数据集CARE与像素级注释的正常和癌变直肠,作为算法研究和临床应用开发的宝贵资源。此外,我们提出了一个新的医学癌症病灶分割基准模型U-SAM。该模型是专门设计来解决所带来的挑战,通过结合提示信息的腹部器官的复杂的解剖结构。U-SAM包含三个关键组件:可提示信息(例如,点)以帮助靶区域定位;卷积模块用于捕获低级别病变细节;跳过连接以在编码-解码过程期间保留和恢复空间信息。为了评估U-SAM的有效性,我们系统地比较了它的性能与几种流行的分割方法的CARE数据集。在WORD数据集上进一步验证了模型的泛化能力。大量的实验表明,建议的U-SAM优于国家的最先进的方法,这两个数据集。这些实验可以作为未来研究和临床应用开发的基线。

1.12 AATCT-IDS: A Benchmark Abdominal Adipose Tissue CT Image Dataset for Image Denoising, Semantic Segmentation, and Radiomics Evaluation

AATCT-IDS:一个用于图像去噪、语义分割和放射组学评估的基准腹部脂肪组织CT图像数据集

https://arxiv.org/abs/2308.08172
  • 1

方法:在这项研究中,基准{腹部脂肪组织CT图像数据集}(AATTCT-IDS)包含300名受试者的准备和出版。AATTCT-IDS公开了13,732个原始CT切片,研究人员分别注释了其中3,213个具有相同切片距离的切片的皮下和内脏脂肪组织区域,以验证去噪方法,训练语义分割模型并研究放射组学。针对不同的任务,结合可视化结果和评估数据,对AATTCT-IDS上各种方法的性能进行了比较和分析。从而验证本数据集在上述三类任务中的研究潜力。 结果:在图像去噪的对比研究中,采用平滑策略的算法以牺牲图像细节为代价抑制了混合噪声,获得了较好的评价数据。BM 3D等方法更好地保留了原始图像结构,尽管评估数据略低。结果表明,它们之间的显着差异。在腹部脂肪组织语义分割的对比研究中,各模型对脂肪组织的分割结果表现出不同的结构特征。其中,BiSeNet以最短的训练时间获得仅略逊于U-Net的分割结果,并有效地分离小而孤立的脂肪组织。此外,基于AATTCT-IDS的放射组学研究揭示了受试者群体中的三种脂肪分布。 结论:AATTCT-IDS包含腹部CT切片中脂肪组织区域的基础事实。这个开源数据集可以吸引研究人员探索腹部脂肪组织的多维特征,从而在临床实践中帮助医生和患者。AATCT-IDS免费发布用于非商业目的:\url{https://figshare.com/articles/dataset/AATTCT-IDS/23807256}.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/761141?site
推荐阅读
相关标签
  

闽ICP备14008679号