赞
踩
AINLP 2024-06-21 19:38 江苏
以下文章来源于FishAI ,作者三郎的浪的狼
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑,打破信息茧房。
首届“AI高考”落幕,21位大模型宝宝参加高考,及格率只有 33%!其中,OpenAI 的 GPT-4-Turbo、智谱AI 的 GLM-4-0520 和 GLM-4-Air 分别斩获COT 版本考试中前三甲。
自从2022 年底的ChatGPT呱呱落地,顺利破圈后,这两年大模型迎来全面的野蛮的发展。各个奶爸费尽心机,为自己娃儿争取更高质量的奶粉(数据)、给自己的娃儿雇佣了一堆具有全球视野的精专人才(大量的人才)、买了大量的GPU点读机(哪里不会怼哪里)、还引入的众多网友的无私调教、参加各类才艺表演比赛(MMLU、CMMLU 等)。
每个娃在他爹眼中就是全世界最亮的宝,那么经过素质教育后的娃即将引来第一届高考,那么谁才是大模型中的别人家的娃儿?谁家的娃儿最能打?谁家的娃儿又最坑爹?
本次精选21位大模型宝宝参加高考,下面是考生情报
国际组
国内组
考试目的:使用训练集中不可能出现的24年高考数学题,“管中窥豹”各大模型AI 宝宝的推理能力、稳定性以及对提示词的敏感程度,了解大模型AI的定价与哪些因素有关。
试卷来源:抽样自上海卷,北京卷,新课标1,新课标2,全国甲卷(理)共29道单项选择题。
考题处理:为降低 OCR 识别导致的误差,满足考试目地的要求,考题进行一下预处理。
1)使用gpt4o进行ocr转换为Latex格式文本,并进行人工校对
2)对每道题的选项ABCD进行倒序A->D,B->C,C->B,D->A构造镜像的29道逆序题
答题过程:正序和倒序题使用Vanila Prompt(简单直出)和CoT Prompt(经典step by step)调用模型答题,每题答2次。因此每个待测模型的总答题数为29x2x2x2=232次,待测21个模型,有些娃儿不听话,需要多问几遍...因此四舍五入...因此本次测试6000次。
记分规则:2次都答对得1分,对1次得0.5分,都不对得0分,满分29分推理
增量定义:△Reason:=CoT Prompt得分-Vanilla Prompt得分,反映模型因思维链推理额外获得的分数提升推理采样的超参数:temperature=0.2,frequency_.penalty=0
为了方便后续阅读,里面的分数还原成百分制,满分 100 分。
讲人话版本:兄弟测试了接近6000次,熬了5个夜晚,一个周末,终于把不听话的娃儿都测完了。请各位看官不要忘记一键三连。
1. Vanila Prompt(简单直出) ,相当于模型利用一堆QKV和全连接层的参数在脑子里算,简单理解 = 心算。
2. CoT Prompt(经典step by step),将中间过程写在纸上边打草稿边算,相当于手算。
为调参与感,我们开通打榜通道,为您喜欢的 AI 模型投下宝贵一票
看看谁是你心目中的 Top1,待会一起看看是不是如你所想?
考生情报提前提出,https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT 由FishAI 维护,LangGPT 首发的大模型跑分数据库的提供早期情报,方便大家慎重投票。您的一票将维护您心中的最好的 AI
Y 轴出场费情况,越往上越贵,不要小看出场费,最贵的 Claude3 是最便宜的GLM-Flash 的 1000倍。
X轴是MMLU的测试情况,一般大模型他爹会主动公布的,不公布的大概率 Hmmm,当然还是有不少没有公布的,目前截取都是有公布成绩
是不是最贵一定最好呢
是不是分数最好一定最好呢
!!!猛按投票!一人一票,票完看成绩!
我们郑重承诺,本次测试绝不受投票影响,绝对不抽卡(因为要钱啊 QAQ)
票选你心目中,最佳大模型!预测下谁能第一 单选
Claude3 - API 贵榜第一,出场费最贵,打破OpenAI的阴影“大模型中最会说的”,封号狂魔,一言不合封封封
GPT-4-Turbo - 一直都被认为是别人家的孩子,强到不行!
GPT-4o - 演示惊艳全世界,MMLU 跑分第一,是OpenAI 吹最喜欢的模型
Gemini-1.5-Pro - 原生多模态,首家支持视频原生识别,他爹是谷歌
Gemini-1.5-Flash - 原生多模态,闪电般速度!价格杀到 3 元人民币!
LLama3-70B - Facebook的最新开源大模型!普及 AI 技术,能打还免费!
GLM-4 - 智谱清言当家大模型!跑分也没怎么输过!
GLM-4-AIR - 智谱清言新模型!价格 1 元钱,其他情报尚未公开
Qwen2.0-70B - 他爹是阿里巴巴,娃儿养的杠杠的, 全球亮相,AI 品牌名片
Moonshot 月之暗面 - Kimi背后的 API,看过这个孩子都要夸一句 “这文艺范儿可太足了。”
DeepSeekv2 - 率先打响 API 价格战,只要一元钱!他爹的爹是搞金融的,早就跟着他爹一起赚钱,实战经验丰富!
01-Large - 这娃儿悄咪咪的发育, 从他爹听说,这娃儿挺好的,能打!
baichuan4 百川智能 - 他爹叫王小川,所以叫百川!
投票
GPT-4-Turbo 获得 COT 版本考试
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。