当前位置:   article > 正文

ChatGLM3 刷新 SuperCLUE-Agent 基准国内最好成绩

superclue-agent

近日,清华&智谱 AI 推出的全自研第三代基座大模型 ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了优异成绩,刷新了国内模型最高分,暂列榜单首位。相较于 ChatGLM 二代模型,ChatGLM3 在各项智能体关键能力上有了显著提升,尤其在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平。扫码下载智谱清言App,感受和体验大模型最新的能力。

1. 测评背景

SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试,包括 3 大核心能力、10 大基础任务,可以用于评估大语言模型在核心 Agent 能力上的表现,包括工具使用、任务规划和长短期记忆能力。

2. 测评结果

在 SuperCLUE-Agent 测评中,ChatGLM3 的表现十分出色,刷新了国内模型最高分,并超过了 gpt-3.5-turbo 和 Claude2-100K 的分数。在工具使用、任务规划、长短期记忆的三个 Agent 维度上,ChatGLM3 均刷新了国内模型的最好成绩。

3. 定量分析

ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡,尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。与二代 GLM 模型相比,ChatGLM3 在所有任务上均有明显提升,其中任务分解、多文档问答的能力提升最大。

4. 定性分析

通过典型示例对比,ChatGLM3 在任务分解、规划 API 等关键基础能力上接近并优于 gpt-3.5-turbo,但在自我反思和思维链的能力上仍有待提升。

任务分解

规划API

自我反思

思维链

总结:

ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了国内大模型第一梯队的成绩,表现优异。在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平,但在自我反思、思维链任务上有一定的优化空间。这充分展示了 ChatGLM3 在智能体能力上的强大实力,进一步巩固了我国在人工智能领域的领先地位。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/665029
推荐阅读
相关标签
  

闽ICP备14008679号