当前位置:   article > 正文

给大语言模型“开天眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源...

大语言模型辅助图像检测模块有哪些内容

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。

文源 西风 发自 凹非寺 量子位 QbitAI

不靠多模态数据,大语言模型也能看得懂图?!

话不多说,直接看效果。

就拿曾测试过BLIP-2的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:

79a6e44480a798c3c1d9e4ac6ca1e203.png

再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:

31ecd2b9bf485d3735b5a861b0481d5b.png

故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:

25f02008967b503e2df4cf6a86fc116e.png

这就是最近研究人员提出的一种新模块化框架——LENS声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签