当前位置:   article > 正文

给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源...

lens csdn
西风 发自 凹非寺
量子位 | 公众号 QbitAI

不靠多模态数据,大语言模型也能看得懂图?!

话不多说,直接看效果。

就拿曾测试过BLIP-2的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:

a21ea66357e0899405521c5e61509ca2.png

再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:

0054bff70e8e2d45d9ad4fa96e7ea3bb.png

故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:

03ecc858dadd8ca04b122f0705f64865.png

这就是最近研究人员提出的一种新模块化框架——LENS

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/102282
推荐阅读
相关标签