当前位置:   article > 正文

GLM-4-9B性能究竟如何?_glm-4-9b 模型的输入tokens是多少

glm-4-9b 模型的输入tokens是多少

GLM-4-9B 开源系列模型

前言

QQ截图20240605201737.png

自 2023 年 3 月 14 日 ChatGLM-6B 开源以来,GLM 系列模型受到广泛认可。特别是在 ChatGLM3-6B 开源后,针对让小模型能够拥有更为强大的能力这一目标,GLM 技术团队展开了诸多的探索性工作。历经将近半年的探索历程,他们成功推出了第四代 GLM 系列的开源模型,即 GLM-4-9B。

介绍GLM-4-9B

QQ截图20240605201931.png

GLM-4-9B在预训练时引入大语言模型进入数据筛选流程,获得 10T 高质量多语言数据,数据量超 ChatGLM3-6B 模型 3 倍多,且采用 FP8 技术高效预训练,训练效率比第三代模型提高 3.5 倍。考虑多数用户显存大小后,将模型规模提升至 9B,预训练计算量增加 5 倍。

综合各种技术升级和经验,GLM-4-9B 模型有更强推理性能、更长上下文处理能力、多语言、多模态和 All Tools 等突出能力。其系列包括基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。

基于强大预训练基座,GLM-4-9B 的中英文综合性能比 ChatGLM3-6B 提升 40%,在一些方面如 AlignBench、IFeval、Natural Code Bench 等显著提升,对比 Llama 3 8B 模型也不逊色,中文学科方面提升达 50%。其上下文从 128K 扩展到 1M tokens,可处理约 200 万字输入。GLM-4-9B-Chat-1M 模型在 1M 上下文长度下进行“大海捞针”实验显示出出色无损处理能力。

多语言方面支持 26 种语言,还改进了 tokenizer 词表大小,编码效率提高 30%,在多语言测试中显著超越 Llama-3-8B-Instruct。Function Call 能力大幅升级,与 GPT-4 相当。All Tools 能力即能理解和使用一系列外部工具,GLM-4 模型已升级此能力,GLM-4-9B 也具备,且开源仓库有完整 All Tools Demo。

同时,还首次推出基于 GLM 基座的开源多模态模型 GLM-4V-9B,采用类似 CogVLM2 架构设计,能处理高分辨率输入,通过降采样减少 token 开销,未引入额外视觉专家模块,直接混合文本和图片数据训练,性能优势明显,在一些任务中与 GPT-4V 不相上下。

总结

​GLM 技术团队经近半年努力推出 GLM-4-9B 开源模型,它具有更强推理性能、更长上下文处理等突出能力和诸多特点,这也展示出了GLM团队在AI方面的成果。

如果你对算力感兴趣或有需求,可以来厚德云官方看看!厚德云是专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/794488
推荐阅读
相关标签
  

闽ICP备14008679号