赞
踩
近日,清华&智谱 AI 推出的全自研第三代基座大模型 ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了优异成绩,刷新了国内模型最高分,暂列榜单首位。相较于 ChatGLM 二代模型,ChatGLM3 在各项智能体关键能力上有了显著提升,尤其在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平。扫码下载智谱清言App,感受和体验大模型最新的能力。
1. 测评背景
SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试,包括 3 大核心能力、10 大基础任务,可以用于评估大语言模型在核心 Agent 能力上的表现,包括工具使用、任务规划和长短期记忆能力。
2. 测评结果
在 SuperCLUE-Agent 测评中,ChatGLM3 的表现十分出色,刷新了国内模型最高分,并超过了 gpt-3.5-turbo 和 Claude2-100K 的分数。在工具使用、任务规划、长短期记忆的三个 Agent 维度上,ChatGLM3 均刷新了国内模型的最好成绩。
3. 定量分析
ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡,尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。与二代 GLM 模型相比,ChatGLM3 在所有任务上均有明显提升,其中任务分解、多文档问答的能力提升最大。
4. 定性分析
通过典型示例对比,ChatGLM3 在任务分解、规划 API 等关键基础能力上接近并优于 gpt-3.5-turbo,但在自我反思和思维链的能力上仍有待提升。
总结:
ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了国内大模型第一梯队的成绩,表现优异。在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平,但在自我反思、思维链任务上有一定的优化空间。这充分展示了 ChatGLM3 在智能体能力上的强大实力,进一步巩固了我国在人工智能领域的领先地位。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。