当前位置:   article > 正文

首届“AI高考”落幕,21款顶尖大模型及格率仅33%,“冠亚季军”都是谁?_baichuan4

baichuan4

首届“AI高考”落幕,21款顶尖大模型及格率仅33%,“冠亚季军”都是谁?

AINLP 2024-06-21 19:38 江苏

以下文章来源于FishAI ,作者三郎的浪的狼

FishAI.

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑,打破信息茧房。

首届“AI高考”落幕,21位大模型宝宝参加高考,及格率只有 33%!其中,OpenAI 的 GPT-4-Turbo、智谱AI 的 GLM-4-0520 和 GLM-4-Air 分别斩获COT 版本考试中前三甲。

自从2022 年底的ChatGPT呱呱落地,顺利破圈后,这两年大模型迎来全面的野蛮的发展。各个奶爸费尽心机,为自己娃儿争取更高质量的奶粉(数据)、给自己的娃儿雇佣了一堆具有全球视野的精专人才(大量的人才)、买了大量的GPU点读机(哪里不会怼哪里)、还引入的众多网友的无私调教、参加各类才艺表演比赛(MMLU、CMMLU 等)。

每个娃在他爹眼中就是全世界最亮的宝,那么经过素质教育后的娃即将引来第一届高考,那么谁才是大模型中的别人家的娃儿?谁家的娃儿最能打?谁家的娃儿又最坑爹

图片

考生情报

本次精选21位大模型宝宝参加高考,下面是考生情报

国际组

图片

图片

图片

图片

国内组

图片

图片

图片

图片

图片

图片

考试方法

考试目的:使用训练集中不可能出现的24年高考数学题,“管中窥豹”各大模型AI 宝宝的推理能力、稳定性以及对提示词的敏感程度,了解大模型AI的定价与哪些因素有关。

试卷来源:抽样自上海卷,北京卷,新课标1,新课标2,全国甲卷(理)共29道单项选择题。

考题处理:为降低 OCR 识别导致的误差,满足考试目地的要求,考题进行一下预处理。

1)使用gpt4o进行ocr转换为Latex格式文本,并进行人工校对 

2)对每道题的选项ABCD进行倒序A->D,B->C,C->B,D->A构造镜像的29道逆序题

答题过程:正序和倒序题使用Vanila Prompt(简单直出)和CoT Prompt(经典step by step)调用模型答题,每题答2次。因此每个待测模型的总答题数为29x2x2x2=232次,待测21个模型,有些娃儿不听话,需要多问几遍...因此四舍五入...因此本次测试6000次。

记分规则:2次都答对得1分,对1次得0.5分,都不对得0分,满分29分推理

增量定义:△Reason:=CoT Prompt得分-Vanilla Prompt得分,反映模型因思维链推理额外获得的分数提升推理采样的超参数:temperature=0.2,frequency_.penalty=0

为了方便后续阅读,里面的分数还原成百分制,满分 100 分。

讲人话版本:兄弟测试了接近6000次,熬了5个夜晚,一个周末,终于把不听话的娃儿都测完了。请各位看官不要忘记一键三连。

1. Vanila Prompt(简单直出) ,相当于模型利用一堆QKV和全连接层的参数在脑子里算,简单理解 = 心算。

2. CoT Prompt(经典step by step),将中间过程写在纸上边打草稿边算,相当于手算。

图片

为调参与感,我们开通打榜通道,为您喜欢的 AI 模型投下宝贵一票

看看谁是你心目中的 Top1,待会一起看看是不是如你所想?

考生情报提前提出,https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT 由FishAI 维护,LangGPT 首发的大模型跑分数据库的提供早期情报,方便大家慎重投票。您的一票将维护您心中的最好的 AI

图片

Y 轴出场费情况,越往上越贵,不要小看出场费,最贵的 Claude3 是最便宜的GLM-Flash 的 1000倍。

X轴是MMLU的测试情况,一般大模型他爹会主动公布的,不公布的大概率 Hmmm,当然还是有不少没有公布的,目前截取都是有公布成绩

是不是最贵一定最好呢

是不是分数最好一定最好呢

!!!猛按投票!一人一票,票完看成绩!

我们郑重承诺,本次测试绝不受投票影响,绝对不抽卡(因为要钱啊 QAQ)

票选你心目中,最佳大模型!预测下谁能第一 单选

Claude3 - API 贵榜第一,出场费最贵,打破OpenAI的阴影“大模型中最会说的”,封号狂魔,一言不合封封封

GPT-4-Turbo - 一直都被认为是别人家的孩子,强到不行!

GPT-4o - 演示惊艳全世界,MMLU 跑分第一,是OpenAI 吹最喜欢的模型

Gemini-1.5-Pro - 原生多模态,首家支持视频原生识别,他爹是谷歌

Gemini-1.5-Flash - 原生多模态,闪电般速度!价格杀到 3 元人民币!

LLama3-70B - Facebook的最新开源大模型!普及 AI 技术,能打还免费!

GLM-4 - 智谱清言当家大模型!跑分也没怎么输过!

GLM-4-AIR - 智谱清言新模型!价格 1 元钱,其他情报尚未公开

Qwen2.0-70B - 他爹是阿里巴巴,娃儿养的杠杠的, 全球亮相,AI 品牌名片

Moonshot 月之暗面 - Kimi背后的 API,看过这个孩子都要夸一句 “这文艺范儿可太足了。”

DeepSeekv2 - 率先打响 API 价格战,只要一元钱!他爹的爹是搞金融的,早就跟着他爹一起赚钱,实战经验丰富!

01-Large - 这娃儿悄咪咪的发育, 从他爹听说,这娃儿挺好的,能打!

baichuan4 百川智能 - 他爹叫王小川,所以叫百川!

投票

首届AI高考分数排行(CoT Prompt)

图片

GPT-4-Turbo 获得 COT 版本考试

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/951389
推荐阅读
相关标签