当前位置:   article > 正文

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了
丰色 发自 凹非寺  量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题,一个没做对:

1f82f6cb693e68f428f63e8d9e6cad73.png

读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”

8d0a7992d4fbbfd009f9695cbac9f059.png

但是呢,这种人类乍一看绝对会错的图,它又成功答对:

66ecd165a93aa5fd7be055eb1267f8d0.png

以及这样的错位图,它对了又没完全对。。

f1f20fc1dae744d6131cd3362573bee2.png

(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

看完这些,是不是觉得很迷?

整个一“该对的不对,该错的又对了”。

08662c6db2a99b3a064d329df1ac1ffe.png
3e7c6d3fc745b3e7d33a0d095962693e.png

测试者则表示:

在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。

55654ec44afb99081e667b7f14b70a0f.png

不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!

6d7e4fecea5e4fa71ed78f87b42b4277.png

所以,这到底怎么回事?

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

(1)除了开头的两颗小树图,还有这个:

问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。

ae7973731d1f7eed7e350f88768b43fa.png

(2)还有这张稍微复杂一点的:

两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。

52a9280d881199ce306984ddd3e61ebe.png

(3)这张就更别提了,直接被糊弄地死死的。

293508d7d37cf7da09ef5435c782426b.png

当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色

其次是会产生动态错觉的图。

(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。

6ab756ec5e924d2c29bf81869df92431.png

(2)这张也没有难倒它。

但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。

42a8e9ce093ba8a8686a6d9a774b3320.png

接下来是另一类比较平面的错觉图。

(1)如开头所示的这张:

6eed1ee6532afe87e685e8abfc93eab1.png

一般人类真的表示很懵圈,但是GPT-4V居然对了。

But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。

dd167eef5274d34a39a3bd1d5a260619.png

然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。

86b690cf4a96001ea21682c9844b89d7.png

大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。

dc139221e40d739f38cb16a578f743d4.png

总的来说,对于这种错觉陷阱是完全没问题。

(2)我们自己也测了一个长度错觉题:

结果是so easy~

1b73d8bdf515e2ef274fdc267d30674e.png

再来一组找隐藏信息的图。

很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。

c8d24078170993589239c815c06a6c4e.png

(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。

fab1ae4b95457f4e2115adfbb4089505.png

它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。

e136453f65de29eed8e0f28bfa7b1bed.png

最后是一组真实世界的错位图。

(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。

70952c6ef9e89977342a1b3757ace63b.png

(2)这张惊悚图,也OK。

f59c3aac4f1b499613490a6edc09f3fc.png

(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。

3d55866ef7dcef26e96f6145fbd74f69.png

(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。

740e9fa31825fdbd5533e7e617844426.png

为什么会这样?

所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

首先,对于颜色错觉的图,网友首先认为是提示词的问题。

就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。

67e61ff0726e54e6686b5eed53e8a287.png

我们自己的测试也是如此:

480527b88d8303a412cf4086c14fb447.png

但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。

d957e74c4144503b4153c05eaf0e63ad.png

不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。

cfbf72ef811eb3c10fea4749e94f0fa1.png

甚至有网友还用测色计实测了一把:

d81ce114590da1783cf818cf895617ff.png
87947249ac4b468809bfb0a271f6b79c.png

但!又有人指出如果只显示一部分时,两者明明一样。

46f66ba2b60991ee981d65352db1dfda.png

暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

另外,网友发现:

如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答

578e86373bcc8e8d75e1cd797ea85455.png

至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。

fb7109c54b6450b4368cefd2cb34d53a.png

因此,还有人戏谑:

看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。

45bc5f37e75aa60540b5b6dfaf2c36ff.png

(手动狗头)

你认为该如何让GPT-4V的错觉识别能力更强呢?

One More Thing

值得一提的是,我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

比如这张判断球颜色的:

392e234ec68794bcd5b9a5111513bd10.png

还有这个:

尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。

bc29feb58f19d4a46bc259e626410e96.png

参考链接:
[1]https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

c32c3bc4391a0dff83f1249127e73fc1.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/902806
推荐阅读
相关标签
  

闽ICP备14008679号