当前位置:   article > 正文

【藏经阁一起读】(68)__《ECS技术实战指南》

【藏经阁一起读】(68)__《ECS技术实战指南》

【藏经阁一起读】(68)__《ECS技术实战指南》

目录

一、知识收获

(1)、CIPU

(2)、RDMA

二、个人建议


一、知识收获

(1)、CIPU

1、多模态、海量数据、超大模型成为发展方向,模型参数规模的快速增长,以及在工程上极难处理,这种发展趋势也带来了巨大的计算挑战。

大模型在训练,微调和应用上线的阶段是最消耗算力的。预训练之后的模型还需要Finetune,大模型业务的几个关键环节,对应算力的需求都十分惊人,带来的算力挑战不小。文中全面解释了,大模型时代如何利用弹性计算服务应对大算力挑战

2、AIACC是基于阿里云laaS资源推出的神龙A1性能加速套件,用于优化基于Al主流计算框架搭建的模型,能显著提升训练和推理性能。

AIACC神龙Ai推理加速套件由AIACC—Torch(Pytorch推理加速引擎)、AIACC—MLIR(MLIR推理加速引擎)、AIACC—HRT(AIACC算子深度加速引擎)等组件构成。AIACC神龙Ai性能加速套件能够为SD提供加速优化支持。

文章中同时详细介绍了SD的使用方法,举例对比普通状态下和阿里云AIACC加速下的出图和计算速度的不同

3、AIGC,全称是Al Generated Content,是指Al内容生成,本质上是一种生成式AI。

它所覆盖的范围比较广,包括LLM,即大语言模型。从广义上来讲,大语言模型就是从大规模数据集上进行自监督训练,参数量级在10亿、百亿甚至更多。

这种语言模型训练任务可以分为以下两个部分:
Pretrain:大量数据提取共性特征,作为不同场景的基础模型,它的定位是通用性,对训练资源要求比较高,是各大公司实现通用基础模型的必要途径;
Finetune:少量数据适应特定领域模型,它面向的是下游任务,定位在于特定性,这个在目前这种大语言模型场景下对训练要求也很高,也是各个公司希望基于自已有的基础模型和特有数据集,做定制化产业升级和创新应用开发的实现方式。

4、阿里云云基础设施处理器CIPU技术是取代传统CPU的新一代云计算体系架构的核心。

在云的环境下,CIPU解决云的弹性、多租户问题。它把存储资源、网络资源、CPU资源,全部通过CIPU纳管,就是物理资源加上CIPU后就是一个云化的虚拟计算资源池。

CIPU和CPU、GPU的差别:
(1)、安全
(2)、加速数据。CPU是通用计算,GPU加速计算、CIPU加速数据。
(3)、laas池化。

5、弹性RDMA ,是阿里云自研的云上弹性 RDMA网络,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。
基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将 VPC网络替换成弹性RDMA 网络,加速应用性能。

(2)、RDMA


6、软件跨架构迁移的原理和实践(x86->ARM)
7、云原生算力时代-倚天实例技术架构与最佳实践解析

二、个人建议

本书是阿里云弹性计算技术公开课的演讲合辑,实用,干货,是一本非常有用的参考书。

个人建议能否在文章中附上阿里云相关的课程训练营、相关的实验,这样读完书可以继续学习相关知识,有同时学习这方面的人可以一起讨论相关问题,动手实验可以加深学习的效果。

         推荐阅读:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/950364
推荐阅读
相关标签
  

闽ICP备14008679号