当前位置:   article > 正文

【CLIP综述】CLIP在医学影像中的应用(一)_pmc-clip

pmc-clip

  最近好迷茫,好焦虑,我太难了,翻译记录一篇CLIP的综述。

  原文传递:CLIP in Medical Imaging: A Comprehensive Survey

  其他综述篇:
  【SAM综述】医学图像分割的分割一切模型:当前应用和未来方向


摘要

  CLIP(Contrastive Language-Image Pre-training)是一种简单而有效的预训练范式,它成功地将富含语义的文本监督引入视觉模型,并因其通用性和可解释性在各种任务中显示出良好的效果(连接文本与图像)。其在医学图像领域大放光彩,不仅可作为医学图像和文本对齐的预训练范式,还可作为各种临床任务的预训练关键部分(鼓掌)。
  本文对医学成像领域内的CLIP范式进行深入探索,包括 改进的CLIP预训练基于CLIP的应用。(1)首先,介绍CLIP的基本原理。(2)然后,研究了CLIP预训练在医学领域的适应性,重点研究了如何在给定医学图像和报告特征的情况下优化CLIP。(3)随后,探索了CLIP预训练模型在各种任务中的实际应用,包括分类、密集预测和跨模态任务(重头戏)。(4)最后,讨论了CLIP在医学成像领域的局限性,并提出了前瞻性方向,以满足医学成像领域的需求。
  持续论文更新列表:https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging


1、前言

  尽管视觉智能(vision intelligence)在过去十年中取得了实质性进展,但单独的视觉模型,通常是在预定义的标注类别上进行训练的,这将极大地限制编码知识的范围(需要标签,推理已见过的类别)。自监督方法可以消除这些限制,但它们仍然局限于训练集中出现的视觉特征。
  相比之下,文本监督的形式自然具有丰富的语义内容,而相应的语言模型,特别是大型语言模型,通常包含大量的知识。因此,一个很自然的想法是,在视觉任务中引入文本监督(嗯,就是一种感觉)。
  尽管一些早期的研究,已经研究了引入文本监督的方法,但大多数研究要么专注于特定任务(例如分类、视觉问答),要么效果有限。Radford等受到对比预训练(contrastive pre-training)的启发,提出了CLIP,这是一种简单的预训练范式,通过图像-文本对齐,来利用丰富的文本知识进行监督。
  大多数对比预训练方法通常只关注视觉信息,优化同一图像的不同视图之间的距离,CLIP将文本信息视为图像的语言视图,并在潜在空间中拉近图像和文本表示(忍不住为这个想法舞蹈起来)。通过这种方式,图像-文本信息在CLIP的视觉编码器和文本编码器中很好地对齐,增强了多模态和单模态的视觉任务。故,CLIP从文本监督中获得了广泛的知识,并被证明在各种下游领域都很有用,包括图像生成、分割、检测和分类。
  
Figure 1:在医学成像领域中,以CLIP为重点的研究分类
在这里插入图片描述

  近年来,CLIP在医学成像领域也受到越来越多的关注,因为它能够编码视觉模型中的广泛知识。医学影像的解释通常需要专业的临床知识,这对于纯视觉模型来说不是一个容易实现的目标(完,被嫌弃了)。之前的研究试图通过细粒度的注释来解决这个问题,如边界框和分割掩码。然而,细粒度标注非常耗时,难以展开。相反,通过CLIP将临床知识编码到深度学习模型中似乎是一种可行的解决方案(希望这不就来了)。
  在医学领域,现有的CLIP研究可分为两类,一是改进的CLIP预训练(refined CLIP pre-training),二是基于CLIP的应用(CLIP-driven application)。前者试图将CLIP预训练范式,应用到医学图像和相应的临床报告中,以满足医学成像领域的特定要求。后者致力于将预训练的CLIP模型作为所提出方法的关键组成部分,实现各种临床任务(如胸部疾病诊断、多器官分割)。
  
Figure 2:近年来关注CLIP的医学成像论文数量(指数级增长)
在这里插入图片描述


2、背景

  近年来,在视觉和医学成像领域,与CLIP相关的研究取得了迅速的进展。在本节中,将简要概述CLIP及其变体。此外,总结了医学图像-文本对的可用数据集,以满足有需要的人。

2.1 Contrastive Language-Image Pre-training(CLIP)

  CLIP是OpenAI开发的一种预训练方法,基于对比预训练(contrastive pre-training)的方法,联合优化视觉编码器和文本编码器,使配对的图像-文本信息在编码的联合图像-文本潜在空间中尽可能接近。CLIP在大量图像-文本对的基础上进行训练,通过自然语言监督学习视觉表示。由于CLIP没有明确引入手工监督或丰富的先验设计,它在自然图像上取得了令人印象深刻的泛化性能,这符合奥卡姆剃刀的原理(大道至简,减少约束)。

2.1.1 结构(Architecture)

  就其体系结构而言,CLIP无缝地将视觉模型与语言模型集成在一起。视觉编码器可以基于ResNet或 Vision Transformer(ViT),而语言编码器则采用基于Transformer的模型,如BERT。如图3示,CLIP在每次迭代中接收一批图像及其相应的文本描述作为输入。在编码过程之后,将嵌入归一化并映射到一个联合的图像-文本嵌入空间。也就是说,输入的图像和文本分别被编码成 I ∈ R N × D { I∈R^{N×D} } IRN×D T ∈ R N × D { T∈R^{N×D} } TRN×D,其中 N {N} N 表示批处理大小, D {D} D 表示嵌入维度。
  
Figure 3:基于PMC-OA数据集的CLIP展示
在这里插入图片描述

2.1.2 对比预训练(Contrastive pre-training)

  与传统的单一预定义任务的模型不同,CLIP的学习轨迹围绕着成对图像-文本信息之间的对比预训练。具体来说,在批处理大小为 N {N} N 的情况下,可以构造 N 2 {N^2} N2 个图像-文本对,其中有 N {N} N 个匹配的图像-文本对(正对),以蓝色显示, N 2 − N {N^2-N} N2N 个不匹配的图像-文本对(负对),则图像编码器的预训练目标被表示为:
L i m g = − 1 N ∑ i = 1 N log ⁡ exp ⁡ ( Φ ( I i , T i ) / τ ) ∑ j = 1 N exp ⁡ ( Φ ( I j , T j ) / τ ) {L_{img}} = - \frac{1}{N}\sum\limits_{i = 1}^N {\log \frac{{\exp \left( {\Phi \left( {{I_i},{T_i}} \right)/\tau } \right)}}{{\sum\nolimits_{j = 1}^N {\exp \left( {\Phi \left( {{I_j},{T_j}} \right)/\tau } \right)} }}} Limg=N1i=1Nlogj=1Nexp(Φ(Ij,Tj)/τ)exp(Φ(Ii,Ti)/τ)  其中 Φ ( ⋅ , ⋅ ) \Phi \left( { \cdot , \cdot } \right) Φ(,) 表示余弦相似度, τ \tau τ 为可学习的温度参数, I i {I_i} Ii T i {T_i} Ti 分别表示第 i {i} i 幅图像嵌入和文本嵌入。文本编码器的目标是对称定义的:
L t x t = − 1 N ∑ i = 1 N log ⁡ exp ⁡ ( Φ ( T i , I i ) / τ ) ∑ j = 1 N exp ⁡ ( Φ ( T j , I j ) / τ ) {L_{txt}} = - \frac{1}{N}\sum\limits_{i = 1}^N {\log \frac{{\exp \left( {\Phi \left( {{T_i},{I_i}} \right)/\tau } \right)}}{{\sum\nolimits_{j = 1}^N {\exp \left( {\Phi \left( {{T_j},{I_j}} \right)/\tau } \right)} }}} Ltxt=N1i=1Nlogj=1Nexp(Φ(Tj,Ij)/τ)exp(Φ(Ti,Ii)/τ)  因此,CLIP的总优化目标由上面两个式子的平均值计算(这个损失有点神奇):
L t o t a l = L i m g + L t x t 2 {L_{total}}=\frac{{L_{img}}+{L_{txt}}}{2} Ltotal=2Limg+Ltxt

2.1.3 Zero-shot 能力

  由于CLIP是预先训练来预测图像是否与文本描述相匹配的,因此它很适合 zero-shot 识别,尽管最初并没有打算这样做(好像有这个打算)。这个过程是通过比较图像嵌入和文本嵌入来完成的,文本编码器接收感兴趣类别的文本描述(自定义类别)。
  设 I 1 {I_1} I1 表示图像编码器对给定图像 x {x} x 提取的图像特征。设 W i i K {{W_i} _i^K} WiiK 为文本编码器生成的类嵌入集合。此处, K {K} K 表示类的数量,每个 W i {W_i} Wi 都来自于一个类似于 “a photo of a [CLASS]” 的提示符,其中 class token 被替换为特定的类名。预测概率计算如下:
p ( y = i ∣ I 1 ) = exp ⁡ ( Φ ( W i , I 1 ) / τ ) ∑ j = 1 K exp ⁡ ( Φ ( W j , I 1 ) / τ ) {p(y=i|{I_1})} = \frac{{\exp \left( {\Phi \left( {{W_i},{I_1}} \right)/\tau } \right)}}{{\sum\nolimits_{j = 1}^K {\exp \left( {\Phi \left( {{W_j},{I_1}} \right)/\tau } \right)} }} p(y=iI1)=j=1Kexp(Φ(Wj,I1)/τ)exp(Φ(Wi,I1)/τ)  式中, τ \tau τ 是预训练过程中学习到的参数, Φ ( ⋅ , ⋅ ) \Phi \left( { \cdot , \cdot } \right) Φ(,) 表示余弦相似度。与传统的分类器学习方法(从随机向量中学习闭集(closed-set)视觉概念)相比,CLIP预训练允许通过高容量文本编码器探索开集(open-set)视觉概念(有点绕但理解)。这具有更广泛的语义空间,从而使学习到的表示更容易转移到下游任务。

2.1.4 CLIP的通用性(Generalizability)

  当应用于医学成像等专业领域时,CLIP预训练模型的通用性变得明显。虽然最初是在广泛的互联网图像及其文本描述上进行训练,但CLIP已经证明了识别和分类医学图像的能力。
  图4通过域辨识(domain identification)说明了CLIP的通用性,其中文本提示符(text prompt)中的类标记(class token)被替换为特定的类名称,例如 “Chest X-ray”、“Mammography”、“Knee X-ray” 或 “Dental X-ray”。它的zero-shot 推理能力允许它识别给定医学图像的域,而无需在这些数据集上进行预训练。虽然需要进一步的研究和验证,但初步研究结果表明,CLIP的 zero-shot 能力可以减少对大量标记医疗数据集的依赖,并为未来更有效的人工智能驱动的诊断工具铺平道路。
  
Figure 4:通过domain identification说明CLIP的通用性
在这里插入图片描述

2.2 CLIP的变体

  在简要介绍了CLIP之后,我们在这里介绍了几种在医学成像领域具有实际应用的CLIP变体,它们不仅可以识别图像中的目标,还可以理解它们的具体细节和描述。
  遵循CLIP的理念,GLIP 通过将每个区域或边界框与相应的文本短语对齐,将 detection 重新制定为 grounding 任务。GLIP 同时训练了图像编码器和语言编码器,以准确预测区域和单词之间的关联。进一步提出融合模块来增强图像和文本信息之间的对齐,提高模型学习语言感知视觉表示的能力。GLIP 在 object level上进行了专门的预训练,表现出了显著的性能,在 zero-shot 目标检测和 phrase grounding 任务(将短语和目标区域进行关联)中,甚至可以与完全监督的方法相媲美。
  同时,CLIPSegCRIS 将CLIP扩展到分割领域。CLIPSeg 固定了预训练CLIP的图像编码器和文本编码器,同时为分割任务引入了可训练的解码器。将编码后的 text prompt 和图像进行融合,然后输入到可训练的解码器中,生成预测的分割 mask。CRIS中提出了类似的范式。这些具有代表性的变异具有通用性,进一步显示了CLIP的适应性(adaptability)。
  这些变体的潜力在于它们对细节的关注。他们可以将视觉和文本信息结合起来,对医学图像提供更细致入微的理解。对于医学图像来说,准确识别特征是至关重要的,如肿瘤或骨折,可能能够根据提供的 prompt 定位临床发现,如“恶性肿块”或“钙化”。

2.3 医学 image-text 数据集

  图像-文本对齐的实现依赖于大规模的数据集。因此,在这里总结了公开可用的医疗数据集,每个数据集在医学成像领域都具有相对较大的规模,如下表所示。
在这里插入图片描述


3、CLIP在医学图像文本预训练中的应用

  现有的 CLIP 预训练模型通常是基于一般知识进行训练的,没有针对医学影像学知识的特异性。因此,已经做出了一些努力来克服医学成像领域带来的挑战,并使CLIP范式适应特定领域(例如胸部x射线,脑MRI等),以期在该领域具有一个强大专业知识的 foundation model。
  注意,像BiomedCLIP和PMC-CLIP这样的研究在本节中没有涉及,因为它们是在包含许多不同类型图像的数据集上进行预训练的(见表1),并且没有对改进CLIP预训练框架做出贡献。
  本节中,将讨论医学图像-文本预训练的具体挑战,并提供现有研究的解决方案。

3.1 CLIP预训练的挑战

  CLIP最初是在自然图像数据集上提出的,有三个关键挑战,可能导致在医学图像上的性能不理想。

3.1.1 细粒度特征(Fine-grained features)

  自然图像域和医学成像域的一个主要区别是细节对潜在疾病的诊断有重要意义(嗯,对齐颗粒度)。对于像胸部x光这样的医学成像,病变区域通常只占很小的比例,这使得仅用全局表示很难有效地表示这些微妙但至关重要的视觉线索。
  此外,医学报告往往比自然图像的说明文字更复杂。自然图像标题通常是简洁的,并提供图像的全局特征的概述。相反,如图5所示,医学报告由多个句子组成,每个句子描述一个特定区域的图像发现。例如,图5中的第一句话(以绿色突出显示)描述了肿块的存在,这对于准确诊断至关重要。
  
Figure 5:医学图像-文本对的细粒度特征演示。医学报告由几句话组成,每句话都侧重于区域层面的特征,而不是全局层面的特征。句子通常是相互独立的,它们通常具有不同程度的意义。
在这里插入图片描述
  总的来说,在预训练过程中应该考虑局部图像特征(区域级或像素级)和局部文本特征(句子级或单词级),这对基线CLIP预训练提出了挑战,其中图像和文本信息仅在全局级别对齐(靠,好有道理)。

3.1.2 数据稀缺性(Data scarcity)

  与自然图像-文本数据集可以轻松达到十亿规模不同,具有配对图像和报告的医学数据集具有相对有限的规模(量不够,方法凑)。由于数据集的规模会对基于尺度规律的CLIP-style预训练产生重大影响,有限的医疗数据会阻碍其在医学成像领域的性能(模型性能、计算预数据量之间的幂律关系)。

3.1.3 对专业知识要求高(High demands for specialized knowledge)

  各种临床概念之间的层次依赖性可能是复杂和高度专业化的。如图6所示,该图是根据胸部x光片的专家观点构建的,考虑了临床表现的相关性、特征和发生位置。
  
Figure 6:胸部x光片临床表现的层次依赖性图示
在这里插入图片描述

  缺乏对医学概念的深入了解可能会导致在面对来自shifted distributions的数据时,性能下降。因此,为了提高可靠性和鲁棒性,在预训练过程中显式地加入知识可能是一种可行的解决方案。(怎么加呢

  这些挑战突出了在医学图像-文本数据集上直接应用CLIP预训练的不可行性,激励了相关工作来改进医学成像领域的CLIP式预训练。

3.2 Fine-grained image-text contrast

  尽管一些早期研究试图将CLIP预训练扩展到医学成像领域,但它们仍然遵循原CLIP中提出的全局水平对比,因此在涉及密集预测(如语义分割和目标检测)的下游任务上表现不佳。为了解决这个问题,一些研究试图进行 global-local 图像-文本对齐。
  Huang等人在该领域做出了开创性的贡献,他们引入了全局-局部对比(global-local contrast)的概念,如图7所示。在全局图像-文本对齐的背景下,他们的方法被命名为GLoRIA,遵循了与CLIP类似的范式。然而,它的独特之处在于,通过对比图像子区域注意加权和单词表示来引入局部图像-文本对齐。具体而言,GLoRIA通过计算文字文本特征和子区域图像特征之间的相似性矩阵来启动该过程。随后,它利用相似度矩阵为每个单词表示获得注意力加权的局部图像表示,促进了细粒度的局部图像-文本对齐。
  
Figure 7:GLoRIA概览,它提出以 global-local 方式而不是单独的 global level 来执行图像-文本特征对齐
在这里插入图片描述

  图8显示,局部 text-to-image 对齐能够正确地识别给定单词的重要图像子区域。例如,基于“肺炎”一词的注意力正确地定位了右下叶中包含提示肺炎的异质性实变混浊的区域。此外,与“气胸”相关的注意权重准确地强调右肺尖的透明度,表明气胸。类似的结果可以在“水肿”和“不透明”中观察到,突出了 local-level 对齐的效能。
  
Figure 8:在GLoRIA中局部 text-to-image 对齐的可视化
在这里插入图片描述

  所提出的 global-local 对齐是直观的,但它仍然有一些明显的弱点。(1)每个局部文本表示都被平等对待,而医疗报告中的不同句子对诊断的重要性程度不同,如图5所示。(2)局部对齐设计不对称。文本到图像的对齐是通过注意加权子区域特征,即 text-to-image 的局部特征来实现的,而 image-to-text 的对齐则被忽略。(3)虽然通过局部图像特征的加权求和来计算 text-to-image 的局部特征是直观的,但它可能难以捕获图像特征和文本特征之间的隐含语义相关性。

  基于上述局限性,Muller等人提出了一种对称的 global-local 对齐框架LoVT,涵盖了 text-to-image 的局部对齐和 image-to-text 的局部对齐(抓住别人的缺点,改进自己的方案)。在LoVT中,局部文本特征和局部图像特征通过 transformer 的注意力图(attention map)进行自适应加权,而不是数值相似度。此外,为了更好地捕获隐含的语义特征,text-to-image 的局部特征和 image-to-text 的局部特征都是通过 transformer layers 而不是加权求和来学习的。
  Cheng等人在LoVT的基础上扩展了该方法,将图像和文本表示的条件重建任务纳入其中。这种扩展促进了跨模态特征的交互,并学习了更细粒度的特征。此外,他们还提出了一个用于句子级嵌入的原型记忆库(prototype memory bank),希望在联合图像-文本空间中学习高级文本特征。在一项平行研究中,采用了类似的方法。然而,它专注于重建原始文本报告,而不是使用原型记忆库。

  除了这方面的研究,还有许多其他的研究关注于细粒度的 global-local 对比。Liao等优化了局部图像特征与句子级文本表示之间估计的互信息,实现了局部特征对齐。
  Seibold等人假设每个句子可以传达不同的诊断信息,并提出进行 image-sentence 对齐。
  此外,Palepu等人试图将 text-token 的熵惩罚到 image-patch 相似分数。
  
Figure 9:外部知识整合的说明(以胸部x光片为例)
在这里插入图片描述

3.3 Data efficient pre-training

  由于伦理问题,具有配对报告的大规模医学成像数据集难以获得,这对CLIP预训练的有效性产生了不利影响,因为它需要数据。为了应对这一挑战,各种研究都在努力以更有效的方式实现对比 image-text 预训练,大致分为两类。

3.3.1 语义驱动的对比(Semantic-driven contrast)

  一些研究设法提高了基于报告间语义相似度的对比预训练的效率。医学报告和图片说明的一个显著区别在于,医学报告是为了明确的诊断目的而编写的。由于一小部分疾病/发现通常涵盖了大多数病例,因此医学报告之间的语义重叠可能很明显,特别是对于正常病例,如图10所示。因此,简单地将未配对的图像和报告视为负对可能导致假阴性问题,并降低预训练的效率(细细思索,好有道理)。
  
Figure 10:假阴性对的说明
在这里插入图片描述

  受到这一观察结果的启发,Wang等人按照NegBio的做法测量了报告间的相似性,并构建了一个语义相似性矩阵。该矩阵来源于医学报告,然后将其作为软优化目标,用于对齐图像和文本,从而有效利用未配对的假阴性报告。
  同样,另一项研究直接采用每个样本的 multi-hot label 来构建相似矩阵。
  SDA-CLIP 将该方法扩展到手术视频数据。它遵循监督对比学习,计算了预测的 frame-text 相似度分布和 ground truth annotation 分布之间的 KL 散度。
  此外,一项研究基于报告间相似性将所有图像-文本对分为正对、负对和中性对。这种改进的样本对分类允许更精确地挖掘假阴性对。
  MGCA 关注疾病级(disease level)的语义信息,这是一种比图像级语义更高的抽象级别,并设计了一种新的跨模式 disease-level 对齐框架。
  对于多模态大脑MRI和相应的模态报告,UniBrain 首先对齐 modality-wise 的图像-文本特征,然后将这些特征拼接在一起,实现 subject-wise 的图像-文本对齐。

3.3.2 数据增强(Data augmentation)

  同时,许多其他研究试图通过数据增强或挖掘补充信息来提高训练效率。在诊断报告中,Findings 部分提供了临床观察的详细描述,而 Impression 通常概括了这些发现并提供了总体评估。
  虽然以前的研究主要集中在从原始诊断报告中提取 Findings 部分,通常忽略了 Impression,但Boecking等人将后一部分纳入其中,以丰富图像-文本对齐的可用信息。由于句子之间的依赖性较弱(参见图5),他们还提出了一种数据增强技术,该技术涉及在每个部分中随机变换句子。
  CXR-CLIP 探索并利用了不确定性注释。它基于不确定性注释生成 prompts ,为图像-文本对齐提供补充信息。

3.4 显式知识增强(Explicit knowledge enhancement)

  虽然3.2节和3.3节的研究本质上仍然关注数据集的内部(internal)信息,但也有一些研究探讨了外部(external)医学知识的整合,以增强预训练过程。
  现有研究采用 统一医学语言系统(unified medical language system, UMLS) 作为医学概念的外部知识库,通常在 study level 和 domain level 进行知识增强(我理解的是一个通识,一个专业)。
  在 study level ,采用命名实体识别工具ScispaCy 从每份报告中提取医学实体,并将其与 UMLS 中相应的医学概念相关联,以消除实体歧义。然后,根据 UMLS 或 RadGraph 中定义的关系构建特定研究的知识图谱,其中 UMLS 建立一般医学概念之间的关系,RadGraph 专门用于胸部x线的解释。这些 study-specific 的图表能够提供结构化的知识,以指导每个图像-文本对中的对齐。
  对于 domain-level 增强,知识通常表示为 domain-specific 的知识图(例如,胸部x射线,脑MRI)或描述性知识 prompt ,涵盖相关器官,组织或临床发现。domain-level 图既可以定义为可训练的符号图,也可以定义为所有预训练语料库中最常出现的 top-K 三元组实体的集合。描述性知识 prompt 通常提供对所包含实体的详细观察或解释。

  将外部知识纳入预训练阶段通常涉及引入辅助知识编码器。该编码器用于将外部知识转换为知识嵌入,促进与图像和文本嵌入的无缝交互、融合和对齐。知识编码器可选择图神经网络或利用在专门语料库上预训练的 BERT 模型。
  具体来说,Chen等人对训练集中的所有医学报告进行预处理,并利用 UMLS 中定义的关系为每个报告构建 study-specific 知识图。进一步采用 TransE 算法训练图注意网络作为知识编码器,在训练过程中将知识信息与图像和文本嵌入相结合。
  相比之下,KoBoFLAIR 优先考虑 domain-level 增强。例如,KoBo 从 UMLS 中提取了一个包含特定于放射学领域的临床病理学概念的子图。提出了知识语义增强模块和知识语义引导模块,分别通过知识引导来缓解负样本噪声和调节语义漂移。
  类似地,FLAIR 利用了眼底成像已建立的领域专家知识描述,将每个类别与详细的文本描述相关联,包含相关发现和类间关系。
  此外,也有研究同时采用了 study level 和 domain level 的知识增强。
  MedKLIP 预处理每个原始文本报告,并提取实体三元组,构成 study level 知识。然后,在实际实现中识别出最常见的 top-K 实体,K=75,形成一个实体查询集,作为 domain level 知识。此处, study level 知识作为对应图像的对比优化目标, domain level 知识通过其提出的知识融合模块对视觉嵌入进行约束。
  KAD 也采用了这种范式。MOTOR 采用关于关键临床发现的 symbolic graph 作为 domain level 知识,并提取基于报告的 knowledge graph 用于 study level 增强。改进后的结果表明,显式知识增强在 CLIP-style 预训练中的合理性。

3.5 总结

  表2中展示了本节中包含的代表性方法(见原论文嗷)。对他们的图像域、方法类别、评估任务和研究亮点进行了展示,旨在为研究领域提供有价值的见解。
  评价任务是指在不做太多修改的情况下,直接观察预训练视觉编码器和文本编码器在一些专门任务上的表现,对预训练视觉编码器和文本编码器的质量进行评价,这与第4节中提到的应用任务不同,CLIP只是作为整个方法框架的一部分来考虑。

  虽然现有的方法通常可以根据我们之前概述的分类法进行分类,但也存在例外,并且某些偏差可以作为灵感来源。如表2所示,SATTCSA 采用 fine-grained alignment 和 data-efficient 预训练,而 UniBrainKoBo 将 data-efficient 预训练与 explicit knowledge enhancement 相结合。这些研究鼓励在未来的工作中探索这三种解决方案的适当结合。
  此外,还有许多有趣的研究可能为潜在的研究提供见解。M-FLAG 关注的是崩溃解(collapse solution)问题,即将图像和文本特征编码到相同的恒定特征嵌入中,以最小化它们在潜在空间中的距离。它在预训练期间保持预训练文本编码器的冻结状态,并采用正交性损失来鼓励视觉表征的正交性。
   CMTAPathOmics 研究组学表格数据和病理图像之间的一致性,这可能会激发将其他形式的数据与诊断报告之外的图像对齐的探索。


  下一篇接着为 CLIP-driven applications 以及当前挑战与未来发展方向喔~

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号