赞
踩
AI之HardWare:人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPU/TPU、GeForce【3090-4090】/Tesla【A800-A100/V100】)、服务器搭建(GPU集群、节点、GPU卡/显卡)之详细攻略
目录
A1、基于Windows系统平台:CPU=16GB、NVIDIA GPU=2GB
T3、利用任务资源管理器(Ctrl+Alt+Del)工具实时查看CPU、GPU内存
(1)、对比:永久存储ROM(如硬盘)、运行内存RAM(搭配CPU)、运行内存VRAM(搭配GPU+访问速度更快+实时的吞吐量):运行内存都是临时存储正在运行的应用程序及其数据
(2)、大模型场景下——训练过程中硬盘、CPU内存、GPU显存之间关系梳理,以及LLMs场景下各组件如何协同工作?
3.1、CPU、GPU(图形处理单元)、TPU(张量处理单元)
3.2、GeForce系列【消费级游戏+不适合多卡】、Tesla 系列【企业级数据中心+双精度】
(1)、A800和A100的区别:A800是类A100中国特供版GPU芯片、是A100的NVLink降速版(多卡集群计算理论性能降低33%)
4.1、术语简介—GPU集群、节点(Node)、GPU卡/显卡(Card)
1、推理和训练的区别:训练阶段(需存储更多中间变量)、推理阶段
2、4090与H100/A100在大模型训练和推理场景下的性能和成本
(1)、H100、A100、4090的性能参数对比:内存、通信
对比:训练0.04B参数的模型,单卡4090(耗时6.5分钟)、双卡4090(耗时5.5分钟),时间仅提高了20%左右,性价比很低
OPT-30B模型:3台服务器共24卡(12 张PP并行+2 张DP)训练OPT-30B
Colaboratory:手把手教你使用Google免费的云端IDE进行深度学习(免费的GPU加速)的详细攻略
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。