小蓝xlanll

这个屌丝很懒，什么也没留下！

热门标签

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略

作者：小蓝xlanll | 2024-05-20 09:31:29

踩

internlm-20b

导读：2023年09月20日，由上海人工智能实验室等团队发布了InternLM-20B的大模型。它在OpenCompass提出的5个能力维度上(语言、知识、理解、推理、学科)全面领先于同规模开源模型，InternLM-20B 在综合能力上全面领先于13B量级的开源模型，同时在推理评测集上接近甚至超越Llama-65B的性能。并且支持从单GPU到数千GPU(1024个)规模的扩展，千卡规模下训练吞吐超过180TFLOPS，平均单卡每秒处理的 token 数量超过3600。
更高质量和更高知识密度的数据集：相较于InternLM-7B，InternLM-20B使用的预训练数据经过了更高质量的清洗，并补充了高知识密度和用于强化理解和推理能力的训练数据。
基于 2.3T的Tokens+16k上下文+深度整合Flash-Attention+Apex+构建 Hybrid Zero 技术+LMDeploy一键部署：InternLM-20B 在超过 2.3T Tokens 包含高质量英文、中文和代码的数据上进行预训练，支持16k语境长度，其中 Chat 版本还经过了 SFT 和 RLHF 训练。InternLM 深度整合了 Flash-Attention, Apex 等高性能模型算子，提高了训练效率。通过构建 Hybrid Zero 技术，实现计算和通信的高效重叠，大幅降低了训练过程中的跨节点通信流量。提供LMDeploy一键部署工具，支持产品化部署应用。

论文简介

LLMs之InternLM：InternLM-7B模型的简介、安装、使用方法之详细攻略

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略

T1、手动安装环境(安装复杂但环境控制高)：

T2、基于提供的Docker镜像安装(安装简单但环境控制低)：镜像配置及构造、镜像拉取、容器启动

2、数据处理：tokenizer.py文件

2.1、【预训练阶段】的数据集：读取不同输入文件格式(txt/json/jsonl)转为bin文件

2.2、【微调阶段】的数据集

3、预训练

3.1、训练配置，configs/7B_sft.py

LLMs之InternLM-20B：源码解读(train.py文件)—初始化配置→数据预处理(txt/json/jsonl等需转换为bin/meta文件再入模)→模型训练(批处理加载+内存分析+支持在特定步数进行验证评估+TensorBoard可视化监控+支持分布式训练【多机多卡训练同步更新】)+模型评估(ACC+PPL)+性能监控(日志记录+性能分析+内存监控等)

T1、若在 slurm 上启动分布式运行环境，多节点 16 卡的运行命令如下所示

T2、若在 torch 上启动分布式运行环境，单节点 8 卡的运行命令如下所示

3.3、运行结果

4、模型转换—转换为主流的Transformers 格式使用

InternLM-20B的使用方法

1、利用三种工具实现应用

T1、通过 Transformers 加载

T2、通过 ModelScope 加载

T3、通过前端网页对话

T4、利用 LMDeploy基于InternLM高性能部署

第一步，首先安装 LMDeploy:

第二步，启动服务执行对话

论文简介

LLMs之InternLM：InternLM-7B模型的简介、安装、使用方法之详细攻略

LLMs之InternLM：InternLM/InternLM-7B模型的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客

代码实战

更新中……

地址	GitHub地址：GitHub - InternLM/InternLM: InternLM has open-sourced a 7 and 20 billion parameter base models and chat models tailored for practical scenarios and the training system.
时间	2023年09月20日
作者	上海人工智能实验室+商汤科技+香港中文大学+复旦大学

InternLM-20B的简介

InternLM 是一个开源的轻量级训练框架，旨在支持大模型训练而无需大量的依赖。通过单一的代码库，它支持在拥有数千个 GPU 的大型集群上进行预训练，并在单个 GPU 上进行微调，同时实现了卓越的性能优化。在1024个 GPU 上训练时，InternLM 可以实现近90%的加速效率。基于InternLM训练框架，我们已经发布了两个开源的预训练模型：InternLM-7B 和 InternLM-20B。 InternLM-20B 在超过 2.3T Tokens 包含高质量英文、中文和代码的数据上进行预训练，其中 Chat 版本还经过了 SFT 和 RLHF 训练，使其能够更好、更安全地满足用户的需求。

InternLM 20B 在模型结构上选择了深结构，InternLM-20B 的层数设定为60层，超过常规7B和13B模型所使用的32层或者40层。在参数受限的情况下，提高层数有利于提高模型的综合能力。此外，相较于InternLM-7B，InternLM-20B使用的预训练数据经过了更高质量的清洗，并补充了高知识密度和用于强化理解和推理能力的训练数据。因此，它在理解能力、推理能力、数学能力、编程能力等考验语言模型技术水平的方面都得到了显著提升。总体而言，InternLM-20B具有以下的特点：
>> 优异的综合性能
>> 很强的工具调用功能
>> 支持16k语境长度（通过推理时外推）
>> 更好的价值对齐

1、模型结果性能

在OpenCompass提出的5个能力维度上，InternLM-20B都取得很好的效果（粗体为13B-33B这个量级范围内，各项最佳成绩）。总体而言，InternLM-20B 在综合能力上全面领先于13B量级的开源模型，同时在推理评测集上接近甚至超越Llama-65B的性能。

评估结果来自 OpenCompass 20230920。
由于 OpenCompass 的版本迭代，评估数据可能存在数值上的差异，所以请参考 OpenCompass 的最新评估结果。

能力维度	Llama-13B	Llama2-13B	Baichuan2-13B	InternLM-20B	Llama-33B	Llama-65B	Llama2-70B
语言	42.5	47	47.5	55	44.6	47.1	51.6
知识	58.2	58.3	48.9	60.1	64	66	67.7
理解	45.5	50.9	58.1	67.3	50.6	54.2	60.8
推理	42.7	43.6	44.2	54.9	46.4	49.8	55
学科	37.3	45.2	51.8	62.5	47.4	49.7	57.3
总平均	43.8	47.3	49.4	59.2	48.9	51.9	57.4

下表在一些有重要影响力的典型数据集上比较了主流开源模型的表现

	评测集	Llama-13B	Llama2-13B	Baichuan2-13B	InternLM-20B	Llama-33B	Llama-65B	Llama2-70B
学科	MMLU	47.73	54.99	59.55	62.05	58.73	63.71	69.75
	C-Eval (val)	31.83	41.4	59.01	58.8	37.47	40.36	50.13
	AGI-Eval	22.03	30.93	37.37	44.58	33.53	33.92	40.02
知识	BoolQ	78.75	82.42	67	87.46	84.43	86.61	87.74
	TriviaQA	52.47	59.36	46.61	57.26	66.24	69.79	70.71
	NaturalQuestions	20.17	24.85	16.32	25.15	30.89	33.41	34.16
理解	CMRC	9.26	31.59	29.85	68.78	14.17	34.73	43.74
	CSL	55	58.75	63.12	65.62	57.5	59.38	60
	RACE (middle)	53.41	63.02	68.94	86.35	64.55	72.35	81.55
	RACE (high)	47.63	58.86	67.18	83.28	62.61	68.01	79.93
	XSum	20.37	23.37	25.23	35.54	20.55	19.91	25.38
推理	WinoGrande	64.64	64.01	67.32	69.38	66.85	69.38	69.77
	BBH	37.93	45.62	48.98	52.51	49.98	58.38	64.91
	GSM8K	20.32	29.57	52.62	52.62	42.3	54.44	63.31
	PIQA	79.71	79.76	78.07	80.25	81.34	82.15	82.54
编程	HumanEval	14.02	18.9	17.07	25.61	17.68	18.9	26.22
	MBPP	20.6	26.8	30.8	35.6	28.4	33.6	39.6

2、训练性能

InternLM 深度整合了 Flash-Attention, Apex 等高性能模型算子，提高了训练效率。通过构建 Hybrid Zero 技术，实现计算和通信的高效重叠，大幅降低了训练过程中的跨节点通信流量。InternLM 支持 7B 模型从 8 卡扩展到 1024 卡，千卡规模下加速效率可高达 90%，训练吞吐超过 180TFLOPS，平均单卡每秒处理的 token 数量超过3600。下表为 InternLM 在不同配置下的扩展性测试数据：

GPU Number	8	16	32	64	128	256	512	1024
TGS	4078	3939	3919	3944	3928	3920	3835	3625
TFLOPS	193	191	188	188	187	185	186	184

TGS 代表平均每GPU每秒可以处理的 Token 数量。更多的性能测试数据可参考训练性能文档进一步了解。

InternLM-20B的安装

0、下载模型

0.1、下载模型权重

模型在三个平台上发布：Transformers、ModelScope 和 OpenXLab

Model	Transformers	ModelScope	OpenXLab	发布日期
InternLM Chat 20B	https://www.wpsshop.cn/w/小蓝xlanll/article/detail/597151 推荐阅读 article NLP vs. LLMs: 理解它们之间的区别_llm算法工程师和nlp算法工程师的区别... 随着人工智能持续发展并在无数行业解决问题，技术的一个关键部分是能够无缝地桥接人类语言和机器理解之间的差距。这就是自然语言... 赞踩 article LLMs：ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集... LLMs：ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)... 赞踩 article 吴恩达ChatGPT《Finetuning Large Language Models》笔记_202... 介绍了什么是微调，微调的作用和重要性，从数据准备到训练再到评估模型的步骤。_2023吴恩达新课微调大模型finetuni... 赞踩 article 【InternLM 实战营第二期-笔记5】LMDeploy 量化部署 LLM&VLM实战_llmde... 书生·浦语是上海人工智能实验室和商汤科技联合研发的一款大模型,很高兴能参与本次第二期训练营，我也将会通过笔记博客的方式记... 赞踩 article 作业（3）——微调_在 oasst1 数据集上微调 internlm-7b-chat... 数据集：./data/personal_assistant.json(数据集 .json文件格式)可以使用python脚... 赞踩 article LLMs Benchmarks基准测试 GLUE,Super GLUE, MMLU, BIG-ben... 正如你在上一个视频中所看到的，大型语言模型（LLMs）是复杂的，而像Rouge和BLEU分数这样的简单评估指标只能告诉你... 赞踩 article 中国大模型列表 Awesome LLMs In China_贝壳belle大模型... 大模型相关的，文心一言，清言，豆包，通义千问，混元，星火_贝壳belle大模型贝壳belle大模型 ... 赞踩相关标签自然语言处理人工智能 elasticsearch 大数据搜索引擎全文检索自然语言处理技术基础大模型 chatgpt prompt llm llama finetune 笔记 python 机器学习大模型 AI LLM Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。闽ICP备14008679号

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略

相关文章

论文简介

LLMs之InternLM：InternLM-7B模型的简介、安装、使用方法之详细攻略

LLMs之InternLM：InternLM-20B的简介、安装、使用方法之详细攻略

代码实战

InternLM-20B的简介

1、模型结果性能

2、训练性能

InternLM-20B的安装

0、下载模型

0.1、下载模型权重