搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
天景科技苑
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
IDEA快捷键(Ctrl + tab)非常好用 切换最近使用的编辑器选项卡_idea怎么使用快捷键切换tab标签页
2
大数据项目之实时数仓项目_大数据物流数仓项目
3
工业软件架构2:(QT和C++实现)
4
欧拉服务器指定静态IP openeuler固定ip地址_欧拉系统配置静态ip
5
wordpress博客搬家心得
6
Mybatis-Plus实现存储以及读取Java对象_mybatisplus longblob 存储
7
android 圆形相机预览拍照_Flutter自定义相机,Flutter相册选择照片
8
Android 实现动态换行显示的 TextView 列表
9
如何备份电脑所有数据?四个方法实现一键备份所有数据
10
解决Unable to fetch some archives, maybe run apt-get update or try with --fix-missing?_e: unable to fetch some archives, maybe run apt-ge
当前位置:
article
> 正文
【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练_chalm3进行lora训练_chatglm3训练
作者:天景科技苑 | 2024-08-23 06:22:24
赞
踩
chatglm3训练
目录导航
1.什么是ChatGLM3-6B
2.什么是LORA微调技术
3.算力平台
4.环境搭建
4.1 虚拟环境conda工具搭建并激活
4.2 CUDA版本查看和torch版本匹配
4.3 git lfs下载
4.4 模型下载和代码拉取
4.5 依赖下载
5 模型微调
5.1 数据准备
5.2 LORA微调
5.3 微调前后对比
6 总结
1.什么是ChatGLM3-6B
ChatGLM3
是智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
更强大的基础模型:
ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,* ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能*。
更完整的功能支持:
ChatGLM3-6B 采用了全新设计的 Prompt 格式 ,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
更全面的开源序列:
除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。以上所有权重对学术研究完全开放 ,在填写 问卷 进行登记后亦允许免费商业使用。
2.什么是LORA微调技术
LoRA(Low-Rank Adaptation)微调技术
是一种用于微调大型预训练语言模型的方法。这种技术的核心思想是通过在原有的模型中引入少量的额外参数来实现模型的微调,而不是改变模型的全部参数。这样做可以在保持预训练模型的大部分知识的同时,使模型适应特定的任务或数据集。
LoRA
主要通过在模型的每个变换器层中引入两个低秩矩阵(A 和 B)来实现。这些矩阵与原始的注意力矩阵或前馈网络权重矩阵相乘,以引入新的可训练参数。在实践中,通过这种方式添加的参数数量远少于原始模型的参数总量,从而大幅减少了微调过程中的计算和存储需求。
LoRA技术
特别适合于需要在资源受限环境下迅速部署模型的场景,例如在移动设备上或在云端服务中处理大量用户请求时。此外,这种方法也适用于那些需要对模型进行频繁更新的应用
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/天景科技苑/article/detail/1019834
推荐阅读
article
ChatGLM3
-6B和
langchain
知识库
阿里云
部署
...
看了几天chatglm和
langchain
的
部署
,经过不断报错,终于试出了可以运行的方案,不过本地
知识库
搭建还有问题,要...
赞
踩
article
基于
Qwen2
大
模型
微调
技术详细教程(
LoRA
参数高效
微调
和
SwanLab
可视化监控)_基...
我之前曾把大
模型
比作成一位无所不能无所不知且不知疲惫的“大师”。我们在日常工作、学习中等一些通用知识方面的问题,通常情况...
赞
踩
article
peft
lora
微调代码解析,
llama2
-7b
lora
微调实战_
module
peft
.tun...
运行微调使用的
peft
版本是v0.11.1, 代码解析使用的
peft
版本是0.11.2.dev0,这个版本单独将dora...
赞
踩
article
[Lora][微调]
Qwen
-VL/
Qwen
-VL-
chat
微调问题_
assertionerror
...
错误一参考github中issue253给出的意见,修改下的相关内容。# visual.py 第18行# visual....
赞
踩
article
FLUX
+
LoRA
实测,
AI
绘画
开启新纪元,5分钟带你部署体验_
flux
lora
...
玩转
AI
绘画
新秀
FLUX
+
LoRA
_
flux
lora
flux
lora
...
赞
踩
article
AI
绘画之
SD
从入门
到
放弃--
Lora
模型
_
sd
lora
...
AI
GC技术的未来发展前景广阔,随着人工智能技术的不断发展,
AI
GC技术也将不断提高。未来,
AI
GC技术将在游戏和计算领...
赞
踩
article
ChatGLM3
-6B部署_
chatglm3
-
6b
修改
流式
输出
...
参考services: # 开始定义服务列表glm3_api: # 服务名称为 glm3_apiimage: pytho...
赞
踩
article
ChatGLM3
-6B详细
安装
过程记录(
Linux
)_
linux
进入
chatglm3
环境...
这篇博客详述了在
Linux
系统上
安装
和配置
ChatGLM3
-6B的过程,包括通过Gradio和Streamlit创建网页...
赞
踩
article
用通俗易懂方式讲解:大
模型
ChatGLM3
进行
LORA
高效
微调
全流程_
lora
微调
chatg...
lora
微调
原理论文:_
lora
微调
chatglm
lora
微调
chatglm
...
赞
踩
article
[大
模型
]#
Yi
-
6B
-
Chat
Lora
微调_yi-6b
模型
加载出错...
本文详细介绍了如何使用transformers和peft框架对大规模语言
模型
Yi
-
6B
-
Chat
进行
Lora
微调,涉及环...
赞
踩
相关标签
langchain
阿里云
云计算
人工智能
大语言模型
ai大模型
LLM
Qwen2
lora
大模型微调
nlp
语言模型
深度学习
python
AI作画
stable diffusion
SD插件分享
fastapi
开发语言
chatgpt
ChatGLM
大模型
算法
机器学习
模型微调