赞
踩
不靠多模态数据,大语言模型也能看得懂图?!
话不多说,直接看效果。
就拿曾测试过BLIP-2的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:
再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:
故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:
这就是最近研究人员提出的一种新模块化框架——LENS声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/102282