小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

增量预训练baichuan-13b-chat遇到的那些坑_百川13b需要多少显存

作者：小丑西瓜9 | 2024-05-16 05:34:35

赞

踩

百川13b需要多少显存

文章目录

前言
- 资源
- deepspeed
一、训练的坑
二、推理的坑
三、继续训练的坑
总结

前言

资源

单机两4090，如图
在这里插入图片描述

单卡24G，baichuan-13b-chat单卡推理需要至少26G，因此仅用一张卡，我们是无法加载百川13B的模型，所以，无论是推理还是训练，我们都必须并行！

deepspeed

核心思想：GPU显存不够，CPU内存来凑

虽然我们两张卡加起来有48G，按理说显存是足够的，实则不是。

就两张卡而言，分别为GPU0和GPU1，两块GPU上分别有一半模型参数，即6.5B，占用13G，在使用

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/577167

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号