赞
踩
MLM之GLM-4-9B:GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略
背景痛点:目前主流的大语言模型如GPT-3等,在多轮对话能力、多语言能力、长文本理解能力以及对工具和代码调用能力等方面存在一定限制。
解决方案:
>> 在2024年6月5日,智谱AI重磅发布GLM-4系列开源模型,包括GLM-4-9B、GLM-4-9B-Chat等基础模型,以及GLM-4-9B-Chat-1M等支持长文档的模型。
>> GLM-4系列模型通过在预训练阶段采用自回归填空任务,加入额外任务数据,提升了多轮对话、多语言、长文本和工具调用等综合能力。
>> 并发布GLM-4V-9B多模态语言模型,支持视觉理解能力。
核心思路和步骤:
>> 使用自回归任务进行预训练,填空任务让模型学习全面理解上下文。
>> 在预训练阶段加入工具调用和代码执行等额外数据,使模型具备相关能力。
>> 提供开源实现,开放接口和基线,方便其他研究者使用和进一步优化模型。
>> 通过公开任务和数据集,验证模型在各个方面的优异性能,比如多轮对话、多语言、长文本等综合性能超越现有模型。
>> 发布GLM-4V-9B多模态模型,支持视觉理解任务,在评测中也表现出优异成绩。
GLM-4系列试图通过自回归预训练任务和额外数据,提升语言模型在综合能力方面的表现,并开源实现和接口,方便应用和研究。
目录
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
Model | Type | Seq Length | Download | Online Demo |
---|---|---|---|---|
GLM-4-9B | Base | 8K | https://www.wpsshop.cn/w/你好赵伟/article/detail/711270 推荐阅读 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。 |