当前位置:   article > 正文

Nature 子刊 | 构建基于CLIP图像特征的数据集和编码模型解释人类高级视觉皮层...

clip模型对图像稀疏表征

07d601b685d2bef6f627535c4a610fa8.png

近期,通过图像和自然语言联合训练以及增大数据集的规模和多样性,高性能的视觉神经网络取得了显著进步。研究人员使用预训练模型CLIP来研究视觉表征,通过构建基于CLIP图像特征的编码模型,可以预测大脑对真实世界图像的反应。相比仅使用图像或文本进行训练的模型,使用CLIP预训练的ResNet50在解释体素响应方差方面达到了79%的准确度。研究人员的研究结果表明,语言反馈和大规模、多样化的数据集对解释高级视觉脑区的反应至关重要。此外,通过模型嵌入和主成分分析的可视化,研究人员发现模型能够捕捉到人类视觉皮层中表示的全局和细粒度语义维度。

23de6b15e353fc5ba3c4e022ca397d2c.png

视觉神经科学旨在理解研究人员如何通过视觉输入与物理世界进行互动和理解。传统的视觉模型只能解释早期视觉皮层之外的一小部分变化,而深度学习的进展使得新一代计算机视觉模型能够预测以前未考虑的大脑反应。然而,这些模型主要学习低维任务,并且使用的训练集相对有限。相比之下,自然视觉整合了多样的感知、概念和语言来源。最近的研究表明,结合自然语言和图像预训练的模型在视觉和语言任务上取得了显著性能提升。其中一种代表性的模型是Contrastive Language-Image Pretraining (CLIP),它利用来自图像标题和场景图像的监督学习表示。研究结果显示,CLIP在大脑预测任务中表现更好,能够解释更多复杂的人类场景处理的视觉变化。

c117340f31302bd22d24f2b9e4b04849.png

图1. 模型流程、动机和ResNetCLIP视觉编码器的预测性能。该模型使用CLIP图像和文本编码器提取图像和标题的最后一层表示,并用于预测大脑对每个图像的响应。通过比较ResNetCLIP和ResNetImageNet嵌入的相似性,可以看到它们在不同类型的图像中表现出不同的相似度。在整个大脑中,大多数体素的预测接近其噪声天花板,而有些体素高于85%的噪声天花板。

多模态嵌入最能预测高级视觉皮层

研究人员的研究目标是探索如何将自然语言和图像结合起来,以更好地理解人类的视觉认知。研究人员使用了两个不同的神经网络模型进行实验,其中一个是用于图像分类的模型,另一个是用于图像和文本关联的模型。通过比较这两个模型对图像的表示,研究人员发现它们有所不同。图像分类模型更加注重图像的视觉特征,而图像和文本关联模型则更注重图像的语义信息。这意味着它们可以从不同的角度理解图像。研究人员进一步测试了这些模型在预测大脑活动方面的表现。通过使用功能磁共振成像(fMRI)技术,研究人员可以观察到大脑在观看图像时的活动。研究人员发现,使用图像和文本关联模型预测的大脑活动与实际观察到的活动非常相似,表明该模型可以很好地理解人类的视觉认知。此外,研究人员还尝试使用文本信息来预测大脑活动,发现结果与使用图像信息预测的效果相当。这表明研究人员的模型能够将图像和文本信息联系起来,并在大脑中得到对应的表示。总的来说,研究人员的研究表明,将自然语言和图像预训练与大规模数据集相结合可以帮助研究人员更好地理解人类的视觉认知,并在大脑中找到对应的表示方式。这对于进一步研究人类视觉认知和开发智能系统具有重要意义。

adcd35d69c00506481299180f1ac8699.png

图2. 展示了CLIP文本编码器在被试S5上的预测表现。使用图像标题作为输入,CLIP文本编码器能够准确预测许多功能定义的ROI中的fMRI数据。这一结果表明,在高级视觉区域中编码的信息与语义相关。

可视CLIP嵌入解释了更多独特的差异

为了评估联合自然语言和图像预训练对模型的影响,研究人员比较了ResNetCLIP图像编码器和ResNetImageNet在解释唯一方差方面的表现。研究发现,ResNetCLIP在高级视觉皮质中能够更好地解释唯一方差,特别是涉及场景和人物感知的区域。除了早期视觉区域外,对于大多数高级区域中的体素,ResNetCLIP的表现更佳。而且,与心灵和语言相关的区域也更容易被ResNetCLIP解释。总体而言,ResNetCLIP被证明是对视觉皮质最好的预测模型。

2c55acdd0c46cf4b240b2e643954741d.png

图3. 展示了使用ResNetCLIP和ResNetImageNet作为比较的结果。在整个大脑中,ResNetCLIP在总方差和唯一方差方面的预测效果要好于ResNetImageNet。在高级视觉皮层中,ResNetCLIP能够解释更多的方差,而ResNetImageNet只能在V1和V4的一些区域解释较多的方差。这些结果表明,与传统的图像分类模型相比,使用CLIP模型进行大脑成像分析可以更好地捕捉到大脑中的视觉信息。

ResNetCLIP增强了编码人类/场景交互的区域

研究人员使用CLIP模型构建的编码模型进行了大脑成像分析。通过主成分分析,研究人员发现不同主成分在大脑中对应于特定的语义组织。例如,PC1将有生命和无生命的图像分隔开来,其大脑投影对应于身体和面部区域。PC2将场景和食物图像分隔开来,其大脑投影对应于场所区域和食物区域。研究人员还发现PC1上具有较大负值的体素与ResNetCLIP解释最独特方差的体素重叠,并且这些体素聚集在特定的大脑区域。通过投影的图像,研究人员可以解释哪些图像在使用ResNetCLIP进行大脑预测时具有最大的益处。例如,在PC1负面的图像中,参与体育活动的人占据了重要位置,这与ResNetCLIP在身体区域提供最佳预测的体素相一致。总体而言,ResNetCLIP比使用图像/标签对训练的模型更有效地捕捉场景语义。这些发现揭示了CLIP模型中学习到的语义维度,并为研究人员理解大脑中的语义组织提供了有价值的见解。

4d5d70a7394f167e012baf86fc1fd56f.png

图4. 展示了使用CLIP进行训练的模型中,对包含人物的场景更好表示的解释。通过受试者S5的例子,图中呈现了ResNetCLIP解释的唯一方差在平面图上的分布。此外,体素散点图和图像类别分布验证了一个观察结果:相对于正向投影的图像,负向投影的图像包含更多的人物、动物和运动场景。

从其他模型属性中分离语言反馈

CLIP训练过程中采用了自然语言监督和更大的训练数据集,这可能导致模型具有更大的多样性。为了评估这些因素对预测的影响,研究人员进行了三个方差分析实验。实验结果显示,CLIP模型在脑预测方面表现优于ResNetImageNet模型,而与SSL模型相比,差异较小。为了深入了解模型反馈、数据集大小和多样性对个体体素预测的影响,研究人员进行了三个体素分析的实验。实验结果显示,在控制数据集参数的情况下,语言反馈对于EBA、FFA和RSC边界周围体素的预测有更大的影响。在控制数据分布、反馈类型和模型架构的情况下,数据集大小对于EBA、FFA和RSC外部区域的预测也有一定影响。而在控制反馈类型、数据集大小和模型架构的情况下,数据分布对于EBA、FFA和RSC外部区域的预测有更大的影响。总的来说,这些实验结果表明,在分析大脑预测时,需要针对体素级别进行分析,而不仅仅是ROI级别。另外,数据集大小的增加对于改善脑预测的影响有限,而数据集的多样性可能是提高模型性能的关键因素之一。

106b086b7563014ce1a7555e58542ff1.png

图5.显示了进行了方差分析,控制了模型架构、数据分布和数据集大小,结果表明语言输入对于体素预测的影响更大。研究发现,包含语言反馈的模型在高级脑区域的唯一方差解释上优于不包含语言反馈的模型;良好的数据分布也能解释一些高级视觉区域的唯一方差,而数据集大小对唯一方差的改善影响较小。

讨论

总的来说,较高性能的模型通过使用自然语言反馈以及更大、更多样化的训练集,能够更好地预测对复杂的现实场景的脑部响应。具体来说,CLIP模型在预测大脑对场景的响应方面表现出非凡的能力,这部分归因于模型架构、多模态预训练、数据集大小和数据多样性等因素的综合作用。研究结果表明,训练时使用自然语言反馈的模型具有一致的优势,并且足够的数据多样性和数据集大小也是提高脑部预测性能的关键因素。因此,结合自然语言训练和大规模、多样化数据集的视觉模型在预测脑部响应方面具有出色的能力,为深入了解人类大脑的功能架构开辟了新的可能性。

方法、数据集

fMRI数据

研究使用了NSD24数据集,包括了八名受试者的7T全脑高分辨率fMRI响应。受试者观看了约10,000张自然场景图像,每张图像重复三次。采集了30-40个扫描会话的fMRI数据,图像呈现时长为3秒,间隔1秒。数据经过了多项预处理步骤,最终得到了对每个图像的平均fMRI响应。同时使用了FreeSurfer软件生成了皮层表面重建,并使用Pycortex软件进行了大脑可视化。

自然场景图像

NSD和研究人员的实验中使用的所有刺激图像都来自于COCO数据集。COCO数据集是一个独特的大规模图像数据集,其中的图像包含了上下文关系和非典型(或非经典)的物体视角。与ImageNet相比,COCO包含的标注类别较少(91个),但每个类别有更多的示例(82个类别中有超过5000个示例)。需要注意的是,ImageNet中许多标注的类别是属于下位级别的,而COCO很可能包含了至少同样数量的未标注下位级别的类别。完整的COCO图像集和其他详细信息可以在COCO网站上找到:https://cocodataset.org

模型细节和特征提取

在分析中使用的模型包括:OpenAI训练的CLIP模型(使用ViT-32 Transformer和ResNet50骨干);YFCC训练的SLIP、CLIP和simCLR模型;在LAION 400M和LAION 2B上训练的Open CLIP模型;在ImageNet上预训练的ResNet50模型。

YFCC是一个包含1亿个多媒体“对象”的数据集,其中包括了来自Flickr的1500万张带有标题的照片。而LAION是一个大规模数据集,包含了58.5亿个多语言的CLIP过滤的图像-文本对。所有NSD的刺激图像都被输入到这些模型中。为了进行模型比较,研究人员使用CLIP模型中的“图像编码器”的输出以及ImageNet训练模型中倒数第二层作为编码模型的特征空间。各个模型特征空间的维度如下:ImageNet训练的ResNet50为2048;OpenAI CLIP(使用ViT-32骨干)为512;OpenAI CLIP(使用ResNet50骨干)为1024;YFCC simCLR为768;YFCC SLIP为512;YFCC CLIP为512;LAION 400M CLIP为512;LAION 2B CLIP为512。

对于图像标题,研究人员使用COCO数据集提供的每个NSD图像的人工生成标题,并将其输入到BERT和基于CLIP的模型的文本编码器中进行逐层激活。平均而言,COCO为每个图像提供了五到六个标题。图像的标题嵌入是单独提取的,并在编码模型中使用其平均值。

体素编码模型

研究人员使用岭回归模型预测每个受试者每个体素对每个图像的平均fMRI响应。研究人员将数据集随机分成训练集和测试集,使用7折交叉验证来选择每个体素的正则化参数。模型性能使用Pearson相关系数和确定系数(R2)在测试数据上进行评估。为了确定预测的显著性,研究人员进行了一次随机测试。

来源:

https://www.nature.com/articles/s42256-023-00753-y

—— End ——

仅用于学术分享,若侵权请联系管理员删侵!

51fae681980020c992392fc31a063224.png

   加入社群  

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBCI【备注:姓名+行业/专业】。

加QQ群:913607986

  欢迎来稿  

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

2.加入社区成为兼职创作者,请联系微信:RoseBCI

a7397a891aa0ca894691d8f2586c9e1a.jpeg

22e769ba8039035620385aac8d97eb47.png

146faacceda09c1260c31408da625584.png

一键三连「分享」、「点赞」和「在看」

不错每一条脑机前沿进展 ~ 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/1000435
推荐阅读
相关标签
  

闽ICP备14008679号