寸_铁

这个屌丝很懒，什么也没留下！

热门标签

首届“AI高考”落幕，21款顶尖大模型及格率仅33%，“冠亚季军”都是谁？_baichuan4

作者：寸_铁 | 2024-08-09 04:12:16

踩

baichuan4

首届“AI高考”落幕，21款顶尖大模型及格率仅33%，“冠亚季军”都是谁？

AINLP 2024-06-21 19:38 江苏

以下文章来源于FishAI ，作者三郎的浪的狼

FishAI.

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑，打破信息茧房。

首届“AI高考”落幕，21位大模型宝宝参加高考，及格率只有 33%！其中，OpenAI 的 GPT-4-Turbo、智谱AI 的 GLM-4-0520 和 GLM-4-Air 分别斩获COT 版本考试中前三甲。

自从2022 年底的ChatGPT呱呱落地，顺利破圈后，这两年大模型迎来全面的野蛮的发展。各个奶爸费尽心机，为自己娃儿争取更高质量的奶粉(数据）、给自己的娃儿雇佣了一堆具有全球视野的精专人才（大量的人才）、买了大量的GPU点读机（哪里不会怼哪里）、还引入的众多网友的无私调教、参加各类才艺表演比赛（MMLU、CMMLU 等）。

每个娃在他爹眼中就是全世界最亮的宝，那么经过素质教育后的娃即将引来第一届高考，那么谁才是大模型中的别人家的娃儿？谁家的娃儿最能打？谁家的娃儿又最坑爹？

考生情报

本次精选21位大模型宝宝参加高考，下面是考生情报

国际组

国内组

考试方法

考试目的：使用训练集中不可能出现的24年高考数学题，“管中窥豹”各大模型AI 宝宝的推理能力、稳定性以及对提示词的敏感程度，了解大模型AI的定价与哪些因素有关。

试卷来源：抽样自上海卷，北京卷，新课标1，新课标2，全国甲卷（理）共29道单项选择题。

考题处理：为降低 OCR 识别导致的误差，满足考试目地的要求，考题进行一下预处理。

1)使用gpt4o进行ocr转换为Latex格式文本，并进行人工校对

2)对每道题的选项ABCD进行倒序A->D,B->C,C->B,D->A构造镜像的29道逆序题

答题过程：正序和倒序题使用Vanila Prompt(简单直出)和CoT Prompt(经典step by step)调用模型答题，每题答2次。因此每个待测模型的总答题数为29x2x2x2=232次，待测21个模型，有些娃儿不听话，需要多问几遍...因此四舍五入...因此本次测试6000次。

记分规则：2次都答对得1分，对1次得0.5分，都不对得0分，满分29分推理

增量定义：△Reason:=CoT Prompt得分-Vanilla Prompt得分，反映模型因思维链推理额外获得的分数提升推理采样的超参数：temperature=0.2,frequency_.penalty=0

为了方便后续阅读，里面的分数还原成百分制，满分 100 分。

讲人话版本：兄弟测试了接近6000次，熬了5个夜晚，一个周末，终于把不听话的娃儿都测完了。请各位看官不要忘记一键三连。

1. Vanila Prompt(简单直出) ，相当于模型利用一堆QKV和全连接层的参数在脑子里算，简单理解 = 心算。

2. CoT Prompt(经典step by step)，将中间过程写在纸上边打草稿边算，相当于手算。

为调参与感，我们开通打榜通道，为您喜欢的 AI 模型投下宝贵一票

看看谁是你心目中的 Top1，待会一起看看是不是如你所想？

考生情报提前提出，https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT 由FishAI 维护，LangGPT 首发的大模型跑分数据库的提供早期情报，方便大家慎重投票。您的一票将维护您心中的最好的 AI

Y 轴出场费情况，越往上越贵，不要小看出场费，最贵的 Claude3 是最便宜的GLM-Flash 的 1000倍。

X轴是MMLU的测试情况，一般大模型他爹会主动公布的，不公布的大概率 Hmmm，当然还是有不少没有公布的，目前截取都是有公布成绩

是不是最贵一定最好呢

是不是分数最好一定最好呢

！！！猛按投票！一人一票，票完看成绩！

我们郑重承诺，本次测试绝不受投票影响，绝对不抽卡（因为要钱啊 QAQ）

票选你心目中，最佳大模型！预测下谁能第一单选

Claude3 - API 贵榜第一，出场费最贵，打破OpenAI的阴影“大模型中最会说的”，封号狂魔，一言不合封封封

GPT-4-Turbo - 一直都被认为是别人家的孩子，强到不行！

GPT-4o - 演示惊艳全世界，MMLU 跑分第一，是OpenAI 吹最喜欢的模型

Gemini-1.5-Pro - 原生多模态，首家支持视频原生识别，他爹是谷歌

Gemini-1.5-Flash - 原生多模态，闪电般速度！价格杀到 3 元人民币！

LLama3-70B - Facebook的最新开源大模型！普及 AI 技术，能打还免费！

GLM-4 - 智谱清言当家大模型！跑分也没怎么输过！

GLM-4-AIR - 智谱清言新模型！价格 1 元钱，其他情报尚未公开

Qwen2.0-70B - 他爹是阿里巴巴，娃儿养的杠杠的，全球亮相，AI 品牌名片

Moonshot 月之暗面 - Kimi背后的 API，看过这个孩子都要夸一句 “这文艺范儿可太足了。”

DeepSeekv2 - 率先打响 API 价格战，只要一元钱！他爹的爹是搞金融的，早就跟着他爹一起赚钱，实战经验丰富！

01-Large - 这娃儿悄咪咪的发育，从他爹听说，这娃儿挺好的，能打！

baichuan4 百川智能 - 他爹叫王小川，所以叫百川！

投票

首届AI高考分数排行(CoT Prompt)

GPT-4-Turbo 获得 COT 版本考试

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/951389

推荐阅读

相关标签