搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【笔记】windows下如何安装git:cmd中出现 git 不是内部或外部命令,也不是可运行的程序_scm' 不是内部或外部命令,也不是可运行的程序
2
一文搞懂大模型从入门到精通!(大模型入门必读)
3
js中value^= 是什么意思_js ^=
4
git提示POST git-upload-pack或refusing to merge unrelated histories以及Pulling is not possible becauseyou
5
数据挖掘(简单分析)_最简单的数据挖掘
6
Win10系统读不出U盘的四种解决方法_win10u盘不识别怎么办
7
SDN-Postman及python编程对流表的操作_output-node-connector_基于python 主流web 编程框架django 设计开发一款sdn 流表管理应用,实现流表管理
8
【Git】国内代码托管中心码云(Gitee)_码云官网
9
Paragon NTFS 15 MacV15.4.19终身免费版
10
汽车免拆诊断案例 | 2010款劳斯莱斯古斯特车中央信息显示屏提示传动系统故障
当前位置:
article
> 正文
InternLM 技术报告解读(一)- 训练框架,模型架构,数据处理_llm预训练 所用 训练框架
作者:喵喵爱编程 | 2024-08-18 22:25:05
赞
踩
llm预训练 所用 训练框架
大型语言模型的发展包括预训练、监督微调(SFT
)和基于人类反馈的强化学习(
RLHF
)
等主要阶段。
过去关于LLM
的技术报告
很少关注预训练数据的处理。
InternLM2详细描述了如何为预训练 准备文本、代码和长文本数据。
如何有效地延长LLM
的上下文长度目前是研究的热点,因为许多下游应用,如检索增强生成(RAG
)
和代理模型
,依赖于长上下文。
本次技术报告就详细的阐述关于数据处理,预训练以及微调模型的技术细节。
一. 训练框架以及模型架构
1.1 InternEvo
在开始之前,我们首先选择我们的训练框架,我们使用的高效的轻量级预训练框架InternEvo进行模型训练。
这个框架使得我们能够在数
千个
GPU
上扩展模型训练。它通过数据(
Data Parallelism
)、张量(
Tensor Parallelism,
2019
)、序列(
Sequence Parallelism,
2023
)和管道(
Pipeline Parallelism,
2019
)并行技
术来实现这一点。为了进一步提升
GPU
内存效率,
InternEvo
整合了各种
Zero Redundancy
Optimizer (ZeRO,
2020
)策略,显著减少了训练所需的内存占用。此外,为了提高硬件利用
我们还引入了
FlashAttention
技术(
2023
)和混合精度训练(
Mixed Precision Training,
2017
),使用
BF16。
InternEvo在序列长度方面也表现出强大的扩展性, 支持训练不同规模的
LLM
, 例如
在
256,000
个令牌的序列长度下训练
InternLM-7B
, 可以达到接近
88%
的
MFU
。 相比之
下,
DeepSpeed-Ulysses
和
Megatron-LM
只能达到大约
65%
的
MFU
。对于更大规模的
LLM
,
如
300
亿或
700
亿参数的模型,训练性能的提升也同样明显。
1.2 模型架构
我们选择遵循
LLaMA
的结构设计原则。
为了提高效率,我们将
W
k
、
W
q
和
W
v
矩阵合并,这在预训练阶段带来了超过
5%
的训练加速。此外,为了 更好地支持多样化的张量并行(tp
)变换,我们重新配置了矩阵布局。对于每个头的
W
k
、
W
q
和
W
v
,我们采用了交错的方式,如下图所示。
二. 训练数据集
2.1 文本数据
我们的预训练数据集中的文本数据可以根据来源分为网页、论文、专利和书籍。为了将这
些来源转化为预训练数据集,我们首先将所有数据标准化为特定格式,按类型和语言分类,
并以
JSON Lines (jsonl)
格式存储。然后,我们对所有数据应用一系列处理步骤,包括基于
规则的过滤、数据去重、安全过滤和质量过滤。这最终形成了丰富、安全且高质量的文本
数据集。
整个数据处理流程首先将来自 不同来源的数据标准化,得到格式化数据
(
Format data
)。接着,通过应用启发式统计规则 进行数据筛选,获取清洗数据
(
Clean data
)。然后,使用局部敏感哈希(
LSH
)方法进行 数据去重,得到去重数据
(
Dedup data
)。随后,我们采用复合安全策略过滤数据,得到
安 全数据(
Safe data
)。针对不同来源的数据,我们采用了不同的质量过滤策略,最终获得
高 质量预训练数据(
High-quality pre-training data
)
2.2 代码数据
同时,我们也加入了大量的代码数据,
我们从多个来源收集数据,包括直接从
GitHub
爬取,公共数据集,以及与编
程和编码相关的在线资源(如问答论坛、教程网站和
API
文档),数据来源统计如图。
所有数据转换为统一的
Markdown
格式。然而,一小部分数据仍然存在损坏
的
HTML
或
XML格式。
代码数据的去重与处理自然语言类似,只是在分词(
tokenization
)上有所区别,
这影响了超参数的选择。
3.3 长文本数据
处理非常长的上下文(
¿32K
个令牌)在研究大语言模型(
LLMs
)中越来越受到关注,这拓
宽了应用范围,包括书籍摘要、支持长期对话以及处理涉及复杂推理步骤的任务。预训练
数据是扩展模型上下文窗口的关键因素。我们遵循
Lv et al.
(
2024
)
中提到的长文本预训练数
据准备过程,包括数据过滤管道,统计过滤器,语言模型困惑度过滤器,阈值选择等。
所有提议过滤器前后的数据分布。整个过滤过程去除了大部分网页数据 (Common Crawl)和专利数据,而书籍和论文数据大部分得以保留。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/999453?site
推荐阅读
article
Solana
之旅3:
PoH
_
solona
共识
机制
...
本文深入探讨
Solana
区块链中的Proof of History (
PoH
)
机制
,包括其工作原理、如何确保时间戳的准确...
赞
踩
article
什么
是
地理信息
系统
(
GIS
)?_
gis
系统
...
什么
是
地理信息
系统
(
GIS
)?
GIS
是一个收集、显示、管理和分析地理信息的
系统
。让我们进一步探讨
地理信息
系统
的所有方面。...
赞
踩
article
【
初阶
数据结构
】
通讯录
项目
(
可
用作
课程设计
)...
本文主要是实现
通讯录
这个
项目
,该
项目
可
以让你熟练的运用顺序表的知识,以及该
项目
可
以作为
课程设计
,
项目
代码已全部给出。【初...
赞
踩
article
Mysql
文档
记录
_
mysql
文本
记录
...
一、语言结构字符串是一个字节或字符序列,包含在单引号(’)或双引号(&q...
赞
踩
article
操作系统
学习笔记2--
内存
虚拟化
_
windows
内存
虚拟化
技术
...
相关的算法有成百上千种,包括传统的最优匹配(best-fit,从空闲链表中找最接近需要分配空间的空闲块返回)、最坏匹配(...
赞
踩
article
Pytorch
-----
循环
神经网络
RNN
--基础部分(
RNN
Cell
) 附代码解读~~学...
前两天学
的
卷积
神经网络
,今天学
循环
神经网络
RNN
。之前在用卷积
神经网络
的
是,一张图片上像素做卷积,所用到
的
卷积核明确且...
赞
踩
article
月薪
过万
的
测试
员
,是一种什么样
的
生活
状态?你愿意再战一次吗..._
测试
岗
月薪
一万
怎么样
...
在北上广深
月薪
过万
的
测试
员
的
生活
真
的
和大城市一样绚烂吗?前几天笔者在知乎上看到了这么一则问题,在人均
过万
的
社交平台现状中...
赞
踩
article
2
0
2
4年最全
Android
Studio
修改常用设置(
2
)
,
2
0
2
4年最新
2
0
2
4非科班生的An...
算法知识点繁多
,
企业考察的题目千变万化
,
面对越来越近的“金九银十”
,
我给大家准备好了一套比较完善的学习方法
,
希望能帮助大...
赞
踩
article
测试
工程师
,
必备这“
7
”个
,
手机
测试
技能
...
移动应用安全近几年越来越被重视
,
目前针对移动端的应用也越来越多
,
每天有大量的数据从移动端发出
,
部分数据在移动端进行处理
,
...
赞
踩
article
真
免费
!10 款必备
的
语言
类
AI
大
模型
_
国内
免费
语言
大
模型
...
通义千问是阿里云推出
的
一个
大
型
语言
模型
,它是通义系列
的
最新成果,能够回答问题、创作文字,还能表达观点、撰写代码,具备丰富...
赞
踩
article
WebSocket
_
websocket
.open...
WebSocket
:也是一种协议,基于tcp协议,这里来和Http协议做一个对比场景:http或https协议只能用来从...
赞
踩
article
FPGA
实现
AXI4
总线
的读
写
_如何
写
axi4
逻辑_
axi4
arsize
...
通道信号源信号描述全局信号aclk主机全局时钟aresetn主机全局复位,低有效
写
通道地址与控制信号通道主机
写
地址ID,...
赞
踩
article
一些
好用
的
免费
的
开源
大
模型
推荐,
豆包
,文心一言,
kimi
,
poe
,通义千问等,对科研党极其友好_
豆包
...
上面是我使用过
的
五种比较
好用
的
大
模型
了,尤其是在写论文
的
时候,如果你觉得你哪一段英文语言或者中文语言,写
的
逻辑不是很好,...
赞
踩
article
pycharm
中的
python
怎么
下载
多个
版本
...
Python,代码示例相关视频讲解:
python
的or运算赋值用法用
python
编程Excel有没有用处?011_编程到...
赞
踩
article
Python
os
模块_
python
中
os
模块...
本文详细介绍了
Python
的
os
模块,涵盖了文件和目录操作、路径处理、环境变量管理、进程启动、系统信息获取、权限控制以及...
赞
踩
article
MySQL
常见
的
4种
数据
类型
,
一篇文章带你搞懂!_
为什么
mysql
设置
类型
只有四种...
本文详细介绍了
MySQL
中
的
数据
类型
,
包括串
数据
类型
如CHAR、VARCHAR、TEXT
,
数值
数据
类型
如INT、DECI...
赞
踩
article
梯度
下降
与
反向
传播
算法
的
原理与推导_
梯度
反传...
本文深入探讨了
梯度
下降
算法
及其在多层神经网络中
的
应用。
反向
传播
算法
通过
反向
传播
误差来更新权重,简化了多层神经网络
的
优化过...
赞
踩
article
二、
vhost
-
user
--------
踏上
vhost
-
user
之旅_
vhost
-
net
和
vhost
...
vhost
-
user
--------
踏上
vhost
-
user
之旅_
vhost
-
net
和
vhost
-
user
vhost
-n...
赞
踩
article
ai
引擎地址-
chatgpt
-
不定期
更新...
ai
引擎地址-
chatgpt
-
不定期
更新
ai
引擎地址-
chatgpt
-
不定期
更新 shy...
赞
踩
article
来了!
Python
官方
文档
中文版
...
(给
Python
开发者加星标,提升
Python
技能)原创:
Python
开发者(id:
Python
Coder)2018 年...
赞
踩
相关标签
区块链
去中心化
智能合约
arcgis
gis
地理信息
遥感
介绍
数据结构
课程设计
c语言
java
Mysql文档
学习
笔记
pytorch
python
程序人生
测试工程师
软件测试
单元测试
android
面试
人工智能