赞
踩
近日,沐曦发布了一篇名为《沐曦与智谱AI完成兼容性测试 共建软硬件一体化解决方案》的公众号,表示曦云®C500千亿参数AI大模型训练及通用计算GPU与智谱AI开源的中英双语对话语言模型ChatGLM2-6B完成适配。测试结果显示,曦云®C500在智谱AI的升级版大模型上充分兼容、高效稳定运行。
据悉,在2023年算力大会期间算能科技、寒武纪等国产GPU厂商也获得了ChatGLM2-6B模型适配认证,下面我们就国产化GPU和高端GPU到底有多大差距和ChatGLM2-6B模型是什么模型,能决绝那些问题等方面展开聊一下。
GPU,全称为图形处理器,是一种专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作,提高计算机图形和图像的性能和质量。GPU相对于CPU而言,具有更多的处理单元和更高的并行处理能力,因此可以更快地处理大量的图形和图像数据。
随着人工智能技术的飞速发展,GPU的应用场景不断细分,出现了 GPGPU、 NPU、 DCU 等新的概念。
曦彩®G100是一款面向数据中心和工作站应用的图形处理GPU。它内置工艺先进、算力强大的MXG100GPU处理器,具备超强的图形处理能力。曦彩®G100可广泛应用于云游戏、元宇宙、数字李生、云渲染、影视动画制作、专业制图等场景。
曦云®C500基于自主研发的高性能GPU IP,具有强大的多精度混合算力、 64GB 大容量高带宽内存、先进的多卡互联技术、全兼容主流GPU生态的MXMACA®软件栈,特别适合千亿参数AI大模型的训练和推理;全面 兼容CUDA生态,实现用户零成本迁移;通过自主知识产权的MetaXLink实现 单机8卡GPU全互联,提供构建高密度算力和云计算部署的优秀国产GPU解决方案;可广泛应用于千亿参数AI大模型训练与推理、AIGC内容生成、推荐系统、自动语音识别、语音合成、图像分割检测,以及科学计算、数据库加速等多种场景。
产品代号 | 羲云®C500 PCIe | 羲云®C500 OAM |
---|---|---|
算力 | FP32(vector):15TFLOPS FP32(matrix):30TFLOPS TF32: 120 TFLOPS FP16:240TFLOPS BF16:240 TFLOPS INT8:480 TOPS | FP32(vector):18TFLOPS FP32(matrix):36TFLOPS TF32: 140 TFLOPS FP16:280TFLOPS BF16:280 TFLOPS INT8:560 TOPS |
内容规格 | 64GBHBM2e,带宽18TB/s | 64GBHBM2e,带宽18TB/s |
视频/JPEG解码 | 160路1080p@30FPS | 160路1080p@30FPS |
视频/JPEG编码 | 12路1080p@30FPS | 12路1080p@30FPS |
互联 | MetaXLink 2卡4卡全互联 | MetaXLink 8卡全互联 |
虚拟化示例 | 1/2/4/8 | 1/2/4/8 |
功耗 | 350W | 450W |
曦思®N100是一款人工智能推理GPU,拥有 160TOPS AI峰值算力,及128路编码和96路解码超高密度视频处理能力;高速互联和多卡扩展等功能使其具有高带宽、低延时的属性,可应用与智慧交通、智慧安防、智能转码等人工智能领域。
Al加速卡SC5搭载算丰AI处理器BM1684.是面向 AI推理的算力卡。可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融智慧电信、智慧工业等领域进行AI赋能。
算力:
编解码和转码能力:
Al加速卡SC7是面向AI推理的算力卡可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融、智慧电信、智慧工业等领域进行AI赋能。
算力:
编解码和转码能力:
产品代号 | V100(NVLink) | A100(SXM) | H100(SXM) | A800(SXM) |
---|---|---|---|---|
FP64 | 7.8 TFLOPS | 9.7 TFLOPS | 34 TFLOPS | 9.7 TFLOPS |
FP64 Tensor Core | - | 19.5 TFLOPS | 67 TFLOPS | 19.5 TFLOPS |
TF32 | - | 156 TFLOPS/312 TFLOPS | 989 TFLOPS | 156 TFLOPS/312 TFLOPS |
FP16 Tensor Core | - | 312 TFLOPS/624 TFLOPS | 1979 TFLOPS | 312 TFLOPS/624 TFLOPS |
INT8 Tensor Core | - | 624 TOPS/1248 TOPS | 3958 TOPS | 624 TOPS/1248 TOPS |
显存 | 32/16GB HBM2 | 80GB HBM2 | 80GB | 80GB HBM2 |
显存带宽 | 900 GB/s | 1935 GB/s | 3.35TB/s | 2039 GB/s |
功耗 | 300W | 400W | 700W | 400W |
近年,美国政府出台新政策,禁止美国公司向中国的超算公司和高性能计算机制造商出售高端图形处理器(也就是高端GPU)和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU从短期来看,这个政策可能会对中国的算力行业带来一定的压力,目前中国仍然需要使用高端GPU进行生产但从长远来看,对于国产GPU行业发展而言是一个机遇。
禁令出现后英伟达也是做出了应对措施,推出了A100/H100的阉割版本,A800、H800 GPU,主要是在NVLink模式下的带宽从600GB/s下降到400GB/s,其他参数均保持致。即使是阉割版本国内也是一卡难求,我们在今年3月份询的A800服务器价格在110万/台,6月现货价格在135万/台,期货130万每台,还需要全款后2月内交付。第三季度又放出A800停止发货消息。
产品代号 | 寒武纪思元370 | 寒武纪思元290 | 昇腾910 | 燧原云燧T20/T21 | 海光DCU | 羲云C500 | 算能SC7 |
---|---|---|---|---|---|---|---|
FP64 | - | - | - | - | 11.5 TFLOPS | - | - |
FP32 | 24 TFLOPS | - | - | 32 TFLOPS | - | 18 TFLOPS/36 TFLOPS | 6 TFLOPS/16 TFLOPS |
TF32 | - | - | - | 128 TFLOPS | - | 140 TFLOPS | - |
FP16 | 96 TFLOPS | - | 320TFLOPS | 128 TFLOPS | - | 280 TFLOPS | 48 TFLOPS/128 TFLOPS |
BP16 | 96 TFLOPS | - | - | 128 TFLOPS | - | 280 TFLOPS | 48 TFLOPS/128 TFLOPS |
INT16 | 128 TFLOPS | 256 TFLOPS | - | - | - | - | - |
INT8 | 256 TOPS | 512 TOPS | 640 TOPS | 256 TOPS | - | 560 TOPS | 96 TOPS/256 TOPS |
显存 | 24GB LPDDR5 | 32 HBM2 | - | 32 HBM2E | 32 HBM2E | 64 HBM2E | - |
显存带宽 | 307.2 GB/s | 1228 GB/s | - | 1.6 TB/s | 1 TB/s | 1.8 TB/s | - |
功耗 | 150W | 350W | 310W | 300W | 260-350W | 450W | - |
目前这些GPU多用在国产商用机、国内服务器、云端计算以及AI计算等方面。从上面的参数可以看出,昇腾910、羲云C500在国产AI加速卡中极具竞争力,海光DCU更适合超算领域,但是和行业主流厂商相比还有较大差距,差距不仅仅是纸面参数方面,在多卡互联能力、高速计算网络、可靠性、可持续迭代和生态等多方面。海外各种禁令虽然短期内会在相应领域上给我们带来不小的麻烦,但也会促进国内公司在相应的领域上发力,这对于这些公司而言未尝不是一个机会。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。