当前位置:   article > 正文

复旦大学NLP实验室发布大模型高考数学测评结果,国内AI大模型成绩超GPT-4o,如何看待这一结果?_星火大模型 数学高考 复旦大学 原文

星火大模型 数学高考 复旦大学 原文

每年高考都是备受全社会关注的一件大事,而今年略有不同,因为除了鱼跃龙门的高三学子们,还多了许多陪他们一同参加考试的 AI 大模型

在所有的考试科目中,数学显然一直都是最难的那一门,不论是对考生还是对大模型。因为数学最考验逻辑思维和计算能力,而大模型是从自然语言训练,即便是公认最强的 ChatGPT 也被诟病不懂数学。

去年高考,国产大模型还远不像今天这样生机勃勃。今年就不一样了,一年多的百模大战让国产大模型也能凑满一整个考场。考试刚结束网上就有很多 AI 大战高考的文章。

不过其中一些测试显然太过简单粗暴,比如直接上传数学试卷的截图,然后就下结论说国产 AI 不如 GPT-4o,因为这就不是在比数学能力了,而是在比 OCR 能力,能做出这种测试的自媒体我想大概连 LaTeX 是什么都不知道…

而复旦大学NLP实验室的测试就更加严谨准确了,以高考数学真题单选、多选、填空的客观题为测评集,采取文本转义或 LaTeX 格式对国内外主流大模型进行了考试。先看一下考试结果吧(LaTeX版):

新课标I卷

新课标II卷:

从结果可以看出:

1、少数大模型已经能在高考数学题目中拿到70%以上正确率;且模型之间拉开了较为显著的差距,一些主攻文本的模型显然数学能力不足;

2、在两张试卷的测试中,GPT-4o、Gemini-1.5都没能打赢国产大模型;

3、如果把GPT-4o、Gemini-1.5作为两个大模型数学能力的基准划分为优、中、差三等,能稳定优于GPT-4o则为优,介于GPT-4o和Gemini-1.5之间则为中,否则为差。以此可以将国产大模型划分为三档,优档中则只有Qwen2-72B和讯飞星火两个模型。

这个结果说实话挺出乎意料的:

一来是因为大模型之间明显拉开了差距。我上次拿公务员行测考试的题目测试国产大模型,而行测中语文和常识题比较多,区分度不够,大家上下也不过相差几分,看来数学能力依然很多大模型的短板弱项;

二来是像Qwen-72B这样的开源模型在两次考试中分别位居一二,要知道这可不是1+1=2那样的简单计算,也不是鸡兔同笼那种被训烂了的二元一次方程组,而是实实在在涵盖了集合、虚数、向量、根式、函数、曲线等高难度题目的高考真题啊。

Qwen2-72B作为一个开源模型,怎么就能拿到这么好的成绩?强的有点不真实了…莫非选择题是蒙对的?所以我们还是得自己动手测几道题吧。

测评地址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

第一题:

第二题:

第三题:

前三道简单题显然没什么问题,过程也是对的。时间关系我直接从后面再测两道题。

第12题:一顿操作还是算错了。

第13题:能解出正确答案 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/754405
推荐阅读
相关标签