AllinToyou

这个屌丝很懒，什么也没留下！

热门标签

CPU和GPU跑深度学习差别有多大？_cpu训练resnet和gpu的差距

作者：AllinToyou | 2024-03-20 17:06:53

踩

cpu训练resnet和gpu的差距

作者：带萝卜
链接：https://www.zhihu.com/question/273812506/answer/1271840613
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Intel曾经用自己最强的CPU和NVIDIA的GPU做过性能对比。

首先是ResNet-50的推理性能对比：

可见，两块Xeon 9282（五十六核处理器）的性能是与一块V100非常接近的，但是功率却是V100的两倍多。至于价格方面，据说9282的价格在2.5w-5w美元之间，两块的价格就是5w-10w美元了。

Hands on with the 56-core Xeon Platinum 9200 CPU: Intel’s Biggest CPU Package Everwww.anandtech.com

而V100的32GB版的价格约为1w美元（16GB版的大概7000美元），价格差距比能耗差距要大得多。

然后是Bert上使用Xeon6240和Tesla T4的速度对比：

可见在大模型上，GPU的优势更加明显。

消费级GPU和普通服务器CPU的对比

不过这种凡人用不起的CPU对比起来意义不大。下面是一般公司常用的E5 2630V3（中关村在线查询价格为7000RMB左右，经评论区提醒，淘宝价格仅为几百元，有没有大佬来解释一下为何价格差距这么大）和几种常用的GeForce GPU的速度对比：

总结：1. 同等价格的CPU和GPU速度差可能在十倍以上；

2. 同等性能的CPU和GPU的价格可能也会接近十倍；

3. 在Ubuntu这种重启一下就会掉驱动的系统里搞深度学习，装CUDA和显卡驱动是必备技能，多装几次就熟练了。

参考：

Intel的CPU和Nvidia的GPU能耗对比

Intel Highlighted Why NVIDIA Tensor Core GPUs Are Great for Inference | NVIDIA Blogblogs.nvidia.com

2. 常见网络准确率以及在不同设备上的速度对比：

https://github.com/jcjohnson/cnn-benchmarksgithub.com

编辑于 07-09

作者：ivy zheng
链接：https://www.zhihu.com/question/273812506/answer/1316662695
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

如果跑CNN，肯定是GPU啊，CPU完全跑不动。

刚开始搞CNN的时候，自己手工实现了一个框架，一个5层的神经网络，跑了一阵子，算了一下，如果跑20万次迭代（这里的一次迭代指一个mini-batch，不是一个epoch），大概需要23天时间，遂放弃，下了个CAFFE。

CAFFE在GTX980上跑，还是这个5层的神经网络，跑完20万次迭代，大概需要24小时，也就是天和小时的差距。

后来突然想到测试CPU性能，CAFFE调成CPU模式，跑那个5层网络，发现24天左右，跟我写的一个数量级，终于发现并不是我写的代码效率低，而是CPU就差一些。

当然这个差别跟网络模型也有关系。毕竟那时候刚接触深度学习，不知道全连接如此耗时，后来要用GoogLeNet v3还有点发怵，用了以后才发现人家几十层网络20万次迭代也是跑24小时左右。

然而（最后一个转折了），你要是在深度学习中用双调排序，就省下了把数据从GPU中搬运出来，排序完再搬回去的时间，于是效率又比CPU有了提升。

编辑于 07-04

都是在夸GPU的，我来泼个冷水降降温。

小模型无脑上GPU，那有没有考虑过工业级的大模型呢？

动辄几亿的词表，仅embedding就耗费几十G，如过再用Adam之类的高阶优化器，耗费再翻几倍……V100的显存也不够塞牙缝。

为了能在GPU上训练，各种重计算，垃圾清理机制叠加，也只能一点点加batchsize试，祈祷不会显存超限。

为了能在工业界，特别是推荐搜索领域用起来，还是得依赖分布式深度学习框架。

回到题目：两者的差别有多大？理论和实际的差别有多大，两者差别就有多大。脱开具体场景和模型讨论差距有误导性。

编辑于 06-24

作者：库仑定律
链接：https://www.zhihu.com/question/273812506/answer/1299265473
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

作者：丽台科技
链接：https://www.zhihu.com/question/273812506/answer/1351680299
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

之前看到网上总结的一句话，CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强，计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。

深度学习是模拟人脑神经系统而建立的数学网络模型，具备很大的数据集来训练，GPU多核并行计算的优势就突显出来了，而且GPU核心数很多，运算浮点能力强，可以支撑大量数据的并行计算，而且拥有更高的访存速度，就这，GPU就比CPU更适合深度学习了。

N卡中有很多系列适用于跑深度学习，如Tesla系列，今年发布的A100更是有史以来最大的7nm芯片，由54B晶体管、40gb的HBM2 GPU存储器和1.5tb/s的GPU存储器带宽组成，能为深度学习（DL）训练提供了高达624 TF的FP16算术吞吐量，为DL推理提供了多达1248个INT8算术吞吐量的TOP。

可以看下A100、V100和T4在图像分类训练和推理方面的数据：

具体数据可参考：

NVIDIA Data Center Deep Learning Product Performancedeveloper.nvidia.com

发布于 07-21

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/275225