当前位置: article > 正文

AI界“华山论剑“：12大热门LLM模型排行榜“出炉”_open llm leaderboard

作者：weixin_40725706 | 2024-08-10 11:00:05

踩

open llm leaderboard

“大模型潮”汹涌澎湃！

当下，大模型多到令人眼花，它们横跨众多领域，从自然语言处理到计算机视觉，从语音识别到推荐系统，每一款都携带着独特的架构设计与优化策略，仿佛是智慧的万花筒，让人目不暇接。

这些模型不仅规模庞大，参数动辄数十亿乃至上千亿，而且在不断进化中融入了更深层次的理解能力和创造力，挑战着我们对人工智能边界的认知。

为了应对这股“大模型潮”，行业内外构建了一系列的评估体系和平台，为研究者、开发者以及对大模型有兴趣的公众指明方向。

这些平台通过详尽的测试和比较，揭示出每个模型的优势与局限，帮助用户在纷繁复杂的选项中找到最适合自身应用场景的解决方案。

Open LLM Leaderboard

开放式LLM排行榜

每周都有大量新的LLM（大型语言模型）和聊天机器人涌现，这使得辨别真正的技术进步与市场炒作变得极为困难。

为了应对这一挑战，Open LLM Leaderboard采取了一项举措，它利用Eleuther AI的语言模型评估工具，针对六个核心任务对各模型进行严格的基准测试：包括AI2推理挑战、HellaSwag、MMLU（多项选择常识推理）、TruthfulQA（诚实性问答）、Winogrande以及GSM8k（数学问题理解）。

这些基准测试涵盖了广泛的能力范围，从逻辑推理到常识应用，全方位评估模型性能。用户若想深入了解每款模型的具体得分和详细技术规格，可访问Hugging Face平台获取全面信息。

榜单地址**：https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard**

MTEB Leaderboard

MTEB 排行榜

文本嵌入的常规评估往往基于源自单一任务的有限数据集，这种做法无法充分展示它们在其他应用场景（例如聚类或序列重排）中的有效性。由于评估的局限性，追踪该领域的发展进步受到了阻碍。

为了解决这一难题，海量文本嵌入基准（MTEB）应运而生，**它覆盖了八大核心嵌入任务，横跨58个不同的数据集及112种语言，极大地拓宽了评估的广度和深度。**MTEB通过对33种不同模型的详尽基准测试，提供了迄今为止最为全面的文本嵌入性能评估。

研究发现揭示了一个重要结论：没有任何单一的文本嵌入技术能够在所有任务上都达到最优表现，这明确指出，研发更加泛化、适应性强的文本嵌入方法是一个亟待推进的方向。

榜单地址：https://huggingface.co/spaces/mteb/leaderboard

Big Code Models Leaderboard

大型代码模型排行榜

受到Open LLM Leaderboard的启迪，这一排名系统专为多语言代码生成模型设计，尤其侧重于在HumanEval与MultiPL-E基准测试上的性能对比。HumanEval基准通过164道Python题目验证模型的功能准确性，而MultiPL-E则进一步将这些题目拓展至18种编程语言中。

评估不仅考量了模型解决问题的能力，还测度了在1至50不等的批次大小下的处理速度（吞吐量）。评估过程综合运用了原始基准提示、为基线与指令优化模型定制的提示，以及多元化的评估设置。

模型的排名依据是其平均首位通过率（pass@1 score）与跨语言任务的成功比率，同时，内存使用效率也作为一个关键指标，由Optimum-Benchmark工具来进行专业评估。

榜单地址：https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard

SEAL Leaderboards

SEAL 排行榜

SEAL 排行榜采用 Elo 等级分制度来系统地对比不同数据集上模型的表现。具体而言，经过训练的人工评估员会根据模型对给定提示的反应质量进行打分，这些评分进而决定了模型间的胜负或平局关系。

利用Bradley-Terry模型进行统计分析，通过对BT系数进行最大似然估计并最小化二元交叉熵损失，以精确量化模型之间的相对优势。排行榜的构建基于多语言任务的平均得分和胜利频率，并采用Bootstrap法来估算每个排名的置信区间，从而增强了评估的全面性和可靠性。

此严谨的方法论确保了对模型性能的深入且准确的评价。对于用户而言，关键模型的性能可以通过灵活多样的API接口轻松查询，实时提供最新且具有针对性的性能对比信息，助力决策者和研究人员快速把握模型间的性能差异，指导技术选型与研究方向。

榜单地址：https://scale.com/leaderboard

Berkeley Function-Calling Leaderboard

伯克利大模型函数调用排行榜

伯克利函数调用排行榜（BFCL）专注于评估大型语言模型（LLMs）在调用函数和实用工具方面的能力，这是支撑诸如Langchain和AutoGPT等先进应用的核心功能。BFCL具备一个多元化数据集，该集合涵盖了2,000对跨越多种编程语言及应用场景的问答对，从基本到复杂的任务均有涉及，并且包含了并行函数调用的实例，以此全面检验模型效能。

该排行榜不仅评估模型识别函数关联性、执行效率及输出准确性的能力，还详尽记录了成本消耗和响应延迟等关键性能指标。

当前排行榜上的佼佼者包括GPT-4、OpenFunctions-v2以及Mistral-medium这些模型，它们展现了在函数调用领域的顶尖性能。BFCL不仅仅是一份排名列表，它还深入分析各模型的优势所在及常犯错误，为优化和提升函数调用功能提供了宝贵的导向，助力未来技术的迭代与创新。

榜单地址：https://gorilla.cs.berkeley.edu/leaderboard

Occiglot Euro LLM 排行榜

这是对Hugging Face平台上Open LLM排行榜的一个补充版本，特别增添了翻译任务的评估维度。鉴于每周都有大量的大型语言模型（LLMs）和聊天机器人新登场，从众多宣传中区分出真实的技术飞跃成为一大挑战。

Occiglot Euro LLM排行榜借鉴并扩展了Eleuther AI语言模型评估工具，针对五项关键基准进行模型性能测试：包括AI2推理挑战、HellaSwag、MMLU（多项选择常识推理）、TruthfulQA（诚实性问答），以及新增的Belebele（一项多语言理解测试）。这些基准旨在全面检验模型在多样任务和不同语言环境下的表现力。

详尽的测评结果与模型具体信息，均可在Hugging Face平台上查阅获得。值得注意的是，部分标注的模型可能需要用户格外小心使用，暗示着在特定场景下可能存在局限性或未经充分验证的性能。

榜单地址：https://huggingface.co/spaces/occiglot/euro-llm-leaderboard

LMSYS Chatbot Arena Leaderboard

LMSYS 聊天机器人竞技场排行榜

LMSYS Chatbot Arena 是一个面向公众的众包平台，专门用于评测大型语言模型（LLMs）在对话交互中的表现。该平台通过累计超过一百万次的人工配对比较，利用 Bradley-Terry 模型对模型性能进行科学排序，并以直观的Elo等级形式展现。截至2024年5月27日，该排行榜已收录了102个不同的模型，总计收获了1149962票的用户评价。

LMSYS Chatbot Arena 不断进化，新添了诸如代码生成和处理长篇用户查询等新颖的评估类别，目前正处于预览阶段，邀请用户参与体验。广大用户可以登录chat.lmsys.org，亲自参与投票，为模型的排名贡献自己的一份判断。

在决定模型排名时，系统充分考虑了统计学上的置信区间，确保排名的稳健性和可靠性。关于排名机制的详细方法论，在其发布的学术论文中有全面而深入的阐述，为外界提供了透明度和可复现性的保障。

榜单地址：https://chat.lmsys.org/?leaderboard=

Artificial Analysis LLM

Performance Leaderboard

人工分析LLM性能排行榜

Artificial Analysis 专注于在无服务器API端点上对大型语言模型（LLMs）实施基准测试，这一过程从终端用户的视角出发，综合评价模型的性能与质量。这些无服务器端点采纳基于令牌的计费策略，其中输入与输出令牌的计费标准各异，精确反映使用成本。

性能基准涵盖三大核心指标：首次令牌响应时间（TTFT），衡量初次反馈速度；吞吐量，即每秒处理令牌的数量，彰显持续处理能力；以及在生成100个输出令牌情境下的总响应时间，直接关联用户等待时长。

至于质量评估，则通过结合MMLU（多项选择语言理解）、MT-Bench（机器翻译基准）及Chatbot Arena Elo Score的标准化分数并加以加权平均完成，以此全面评判模型的语言理解和对话互动水平。

**此测试体系每日运行，针对多样化的提示长度与负载情境设计，旨在准确模拟现实世界中，不同规模请求对模型表现的影响。**最终得出的测试结果，如实反映了既包括私有定制也涵盖开源权重模型在内的广泛类型模型，在贴近实际应用场景中的表现与用户体验。

榜单地址：https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard

Open Medical LLM Leaderboard

开放医学模型排行榜

开放医学法学硕士排行榜致力于监测、排序并分析法学硕士（此处似乎应指法律或医学硕士，但鉴于上下文更偏向医学，理解为医学硕士更为合适）在解决医学相关问题的能力。该排行榜依托一系列专业医学数据集执行评估，例如MedQA（面向美国执业医师资格考试）、PubMedQA、MedMCQA，以及MMLU中特定于医学和生物学的子集。

这些数据集广泛涉及医学领域，包括临床实践知识、解剖学、遗传学等内容，题目形式多样，既有需要深度医学理解的多项选择题，也有开放式问答。

评估的核心标准是准确率（ACC）。参与者可通过“提交”页面递交模型，随后系统将自动执行评估流程，采用Eleuther AI提供的语言模型评估工具进行打分。

值得注意的是，GPT-4与Med-PaLM-2的成绩直接引自它们各自的官方研究论文；特别是Med-PaLM-2的性能对比是以五次测试的平均准确率来进行的。而Gemini模型的结果，则是引用了最近在临床自然语言处理领域会议（NAACL 2024）上发表的论文所得数据。

对于希望深入了解数据集构成、评估技术细节的读者，排行榜的“关于”页面及配套讨论论坛提供了丰富的额外信息资源。

榜单地址：https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard

Hughes Hallucination Evaluation

Model (HHEM) Leaderboard

休斯幻觉评价模型（HHEM）排行榜

休斯幻觉评估模型（HHEM）排行榜专注于衡量语言模型（LLM）所生成的文档摘要中出现幻觉现象的频度。所谓“幻觉”，在此背景下指的是模型在摘要内容中插入了与事实不符或无关信息的情况。

该排行榜利用Vectara开发的HHEM工具，针对源自CNN/Daily Mail语料库等在内的1006篇文档，对幻觉程度进行量化评分，评分范围设定在0至1之间。

评估指标具体涵盖以下几个关键方面：

幻觉率：统计得分低于0.5的摘要占比，以此反映模型产生明显幻觉内容的比例。

事实一致性率：评估摘要内容与原文实情相符的程度。

答案率：考量生成摘要非空的有效性比率。

平均摘要长度：提供摘要长度的统计平均值，以便分析模型输出的紧凑性或详尽性。

对于未能直接在Hugging Face平台上获得的模型，尤其是GPT系列的变体，HHEM团队亲自介入进行评估，并将结果上传至排行榜，确保了评估覆盖的全面性和公正性。

这一举措不仅促进了模型间性能的透明比较，也为研究者和开发者提供了宝贵的参考依据，帮助他们更好地理解和优化模型在生成摘要时的准确性与可靠性。

榜单地址：https://huggingface.co/spaces/vectara/leaderboard

OpenVLM Leaderboard

OpenVLM 排行榜

该平台借助开源评价工具VLMEvalKit，展示了针对63款视觉语言模型（VLM）的综合评估概况，这些评估结果反映了模型在跨领域的性能表现。评估覆盖了直至2024年5月27日为止的23项多模态基准测试，涉及的前沿模型包括GPT-4v、Gemini、QwenVLPlus及LLaVA等。

评估的核心指标概述如下：

平均分数：汇总所有VLM在各个基准测试中的表现，得分经过标准化处理，范围设定在0至100之间，旨在直观展示模型的整体效能，其中高分代表更优性能。

平均排名：计算各模型在所有基准测试中的平均排名位置，此数值越小，表明模型总体表现越靠前。

评估的重点聚焦于八项关键基准测试：MMBench_V11、MMStar、MMMU_VAL、MathVista、OCRBench、AI2D、HallusionBench以及MMVet，这些基准全面检验了模型在视觉与语言融合任务上的能力。

此外，平台还提供额外的分页内容，详尽展示了每个数据集上的具体评估细节，便于用户深入了解各模型的专项优势与潜在局限。

榜单地址：https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

LLM-Perf Leaderboard

LLM-Perf 排行榜

LLM-Perf Leaderboard依托Optimum-Benchmark，对部署在多样化的硬件、后端及优化方案中的大型语言模型（LLM）进行了全方位的性能评测，具体涵盖延迟、吞吐量、内存占用及能耗四大关键指标。

社区参与者可通过访问Open LLM Leaderboard提交新基准模型的评估申请，并能利用LLM-Perf Leaderboard或Optimum-Benchmark的仓库提出针对特定硬件、后端及优化配置的测评需求。

为了确保测试的一致性和可比性，所有评估均在单一GPU环境下执行，采用含有256个令牌的提示作为输入，模型在单一批次下运行，目标是在不少于10次迭代内，或至少持续10秒的时间内，生成64个令牌。

能耗测量则采用CodeCarbon工具，以千瓦时(kWh)为单位精确计量。内存使用情况则通过最大分配内存、最大保留内存及最大使用内存这三个维度来综合考量。所有上述基准测试均统一采用benchmark_cuda_pytorch.py脚本执行，以此来强化实验的可复现性。

榜单地址：https://huggingface.co/spaces/optimum/llm-perf-leaderboard

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】