大模型ChatGLM简介及应用情景_chatglm产品架构设计

作者：知新_RL | 2024-02-25 00:33:41

踩

chatglm产品架构设计

本节介绍生成模型GLM系列模型的新成员——中英双语对话模型ChatGLM。

ChatGLM分为6B和130B（默认使用ChatGLM-6B）两种，主要区别在于其模型参数不同。ChatGLM是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于GLM（General Language Model）架构，如图16-3所示。

图16-3 ChatGLM架构

结合模型量化技术，使用ChatGLM-6B用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需6GB显存）。表16-2展示了ChatGLM的硬件资源消耗。

接下来将以ChatGLM-6B为基础进行讲解，在讲解过程中，如果没有特意注明，默认使用ChatGLM-6B。更大的模型GLM-130B在使用上与ChatGLM-6B类似，只是在参数量、训练层数以及落地的训练任务方面有所区别，有条件的读者可以自行尝试。

16.2.1 ChatGLM简介及应用前景

ChatGLM基于GLM架构，针对中文问答和对话进行了优化。经过约1TB[T1] [王2] 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿个参数的ChatGLM-6B虽然规模不及千亿模型的ChatGLM-130B，但大大降低了推理成本，提升了效率，并且已经能生成相当符合人类偏好的回答。具体来说，ChatGLM-6B具备以下特点。

充分的中英双语预训练：ChatGLM-6B在1:1比例的中英语料上训练了1T[T3] B[王4] 的Token量，兼具双语能力。
优化的模型架构和大小：吸取 GLM-130B训练经验，修正了二维 RoPE 位置编码实现，使用传统FFN结构。6B（62亿）的参数大小，使得研究者和个人开发者自己微调和部署ChatGLM-6B成为可能。
较低的部署门槛：在FP16半精度下，ChatGLM-6B至少需要13GB的显存进行推理，结合模型量化技术，这一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。
更长的序列长度：相比 GLM-10B（序列长度为1024），ChatGLM-6B的序列长度达2048，支持更长的对话和应用。
人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人工强化学习反馈（RLHF）等方式，使模型初具理解人类指令意图的能力。输出格式为Markdown，方便展示。

因此，ChatGLM-6B在一定条件下具备较好的对话与问答能力。

在应用前景上，相对于宣传较多的ChatGPT，其实ChatGLM都适用。表面来看，ChatGPT无所不能，风光无限。但是对于绝大多数企业用户来说，和自身盈利方向有关的垂直领域才是最重要的。

在垂直领域，ChatGLM经过专项训练，可以做得非常好，甚至有网友想出了用收集ChatGPT不熟悉领域的内容，再由ChatGLM加载使用的策略。

比如智能客服，没几个人会在打客服电话的时候咨询相对论，而大型的ChatGPT的博学在单一领域就失去了绝对优势，如果把企业所在行业的问题训练好，那么就会是一个很好的人工智能应用。

比如将ChatGLM在语音方面的应用依托于大模型就很有想象力，有公司已经能很好地进行中外语言的文本转换了，和大模型结合后，很快就能生成专业的外文文档。

比如在人工智能投顾方面造诣颇深，接入大模型后进行私有语料库的训练，可以把自然语言轻松地转换成金融市场的底层数据库所能理解的复杂公式，小学文化水平理解这些复杂的炒股指标不再是梦想。

再比如工业机器人领域，初看起来和ChatGPT、ChatGLM没什么关联，但是机器人的操作本质上是代码驱动的，如果利用人工智能让机器直接理解自然语言，那么中间的调试过程将大大减少，工业机器人的迭代速度很可能呈指数级上升。

本文节选自《从零开始大模型开发与微调：基于PyTorch与ChatGLM》，获出版社和作者授权共享。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/137203