当前位置:   article > 正文

算子算力计算_算子算力需求计算

算子算力需求计算
  1. 仅基于算力或者算子算法的公司成功率比较低,只有少数头部企业赢者通吃:反例寒武纪被华为抛弃,正例如英伟达也要持续观察,即便是正例,也要看到TESLA抛弃它做FSD,蔚来小鹏蠢蠢欲动想做自己的芯片。
  2. 基于场景看比较容易成功,软硬结合护城河比较深:比如监控识别的海康大华,自动驾驶的Mobileye、可能成功的地平线。扫地机器人的科沃斯和石头科技,都是对细分场景理解深刻的。
    3.大数据的积累非常重要,自学习的基础:自动驾驶的路测数据;医院的CT片、案例等
    嵌入式AI框架Tengine的架构、算子定制和引擎推理
    本文主要分为以下几个部分:
    1、嵌入式AI面临的挑战和Tengine的解决方案
    2、Tengine架构解析
    3、Tengine API简介
    4、实践1:Tengine扩展,定制和添加算子
    5、实践2:Tengine在CPU/GPU/NPU/DLA上的推理
    Tengine是一个嵌入式AI计算框架,公司的一个核心产品,首先在算力层面做了许多工作,通过与国内众多芯片厂商建立深度合作关系,采用各种技术方案去充分发挥硬件的计算性能,所以,在全力打造一个AI的算力生态平台,希望通过Tengine,能够很方便的调用到底层芯片的算力。
    其次,提供一系列的产品和工具包,方便算法训练出来后,面对端侧落地时需要解决的各种问题,能够有一套标准且快速的方法去解决这些问题,加速整个AI产业的落地。这是一个目标,所以未来的Tengine会演化为一个AIoT的开发和部署平台,而不仅仅是一个推理框架。
    嵌入式AI面临的挑战和Tengine的解决方案
    在这里插入图片描述

目前,嵌入式AI存在哪些问题呢?首先,可以看到AI对日常生活的渗透变得越来越强烈,可以说AI如电力将无处不在,这个趋势的形成主要有两方面的原因,第一是端侧计算算力的提升,即CPU的演进和各种各样NPU的出现;第二是算法本身的进步,可以看到从最早的VGG到Inception v1、v2、v3再到EfficientNet,算法本身也在不断的轻量化,导致以前只能跑在服务器上的AI应用,现在可以在端侧运行。另一个问题是大家对于数据安全和隐私越来越关注,这也导致越来越多人希望AI计算能够在本地上运行,就尽量不在云端上运行。对于端侧AI,16年是元年,到现在为止还处于一个快速的爆发期。
上面主要介绍前端的应用需求,那具体的产业链是什么情况呢?产业的情况目前是非常不友好的,第一体现在硬件的多样性,AIoT市场硬件的多样性是天然存在的,现在各种各样AI加速的IP出现导致多样化更严重。而且随着AI的进一步应用,以前认为不太可能跑AI的硬件,如MCU等,现在也可以跑一些AI的算法,所以整个硬件平台多样性越来越严重。
第二体现在软件的多样性,现在有很多种训练框架,那训练框架训练出来的模型送入嵌入式平台,目前也是处于百花齐放的状态,各种各样的框架也很多,训练框架有的是原生的,也有第三方开发的。所以对于应用开发人员来说,怎样把一个算法落地到平台上,这中间的过程还是非常长的。
以上是针对应用开发人员,那对算法开发人员,这也是一个很严重的问题。训练好的模型,要把它落地到一个算力有限的嵌入式平台,可能需要对模型做调整,把它的规模减小,还需要做量化及很多工作之后,才能实现落地。如果还想用嵌入式平台上的加速芯片,还需针对芯片做一些调整,可能有些算子不支持,需要做替换,或者定义上有差别。所以,整个的生态是非常不友好的。
在这种多样性环境下,可以看到整个AI产业链工作效率非常低下。对于芯片公司,擅长做算力的提升,但发现如果只做芯片,做简单的驱动,很多的AI的开发者是没办法用起来的,所以它需要投入大量的资源去做上层的开发平台和开发环境,例如国内的华为公司,从芯片到ID环境到部署环境,整个一条产业链都做了
算法和应用公司也发现如果不去完成底层硬件的适配,训练好的一个模型可能在训练时效果会非常好,真正落地到平台上时,要么性能特别慢,要么精度特别差。所以,需要亲自把模型适配并优化好,这样算法才能真正的应用与落地。觉得整个产业链分工非常不明确,效率低下,这也是去试图改进和解决的问题。
在这里插入图片描述

算法和应用公司也发现如果不去完成底层硬件的适配,训练好的一个模型可能在训练时效果会非常好,真正落地到平台上时,要么性能特别慢,要么精度特别差。所以,需要亲自把模型适配并优化好,这样算法才能真正的应用与落地。觉得整个产业链分工非常不明确,效率低下,这也是去试图改进和解决的问题。
1&

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号