ChatGLM3 刷新 SuperCLUE-Agent 基准国内最好成绩

作者：你好赵伟 | 2024-06-03 00:37:20

踩

superclue-agent

近日，清华&智谱 AI 推出的全自研第三代基座大模型 ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了优异成绩，刷新了国内模型最高分，暂列榜单首位。相较于 ChatGLM 二代模型，ChatGLM3 在各项智能体关键能力上有了显著提升，尤其在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平。扫码下载智谱清言App，感受和体验大模型最新的能力。

1. 测评背景

SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试，包括 3 大核心能力、10 大基础任务，可以用于评估大语言模型在核心 Agent 能力上的表现，包括工具使用、任务规划和长短期记忆能力。

2. 测评结果

在 SuperCLUE-Agent 测评中，ChatGLM3 的表现十分出色，刷新了国内模型最高分，并超过了 gpt-3.5-turbo 和 Claude2-100K 的分数。在工具使用、任务规划、长短期记忆的三个 Agent 维度上，ChatGLM3 均刷新了国内模型的最好成绩。

3. 定量分析

ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡，尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。与二代 GLM 模型相比，ChatGLM3 在所有任务上均有明显提升，其中任务分解、多文档问答的能力提升最大。

4. 定性分析

通过典型示例对比，ChatGLM3 在任务分解、规划 API 等关键基础能力上接近并优于 gpt-3.5-turbo，但在自我反思和思维链的能力上仍有待提升。

总结：

ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了国内大模型第一梯队的成绩，表现优异。在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平，但在自我反思、思维链任务上有一定的优化空间。这充分展示了 ChatGLM3 在智能体能力上的强大实力，进一步巩固了我国在人工智能领域的领先地位。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/665029