赞
踩
边缘计算设备,是相对于云计算而言的。不同于云计算的中心式服务,边缘服务是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,为了产生更快的网络服务响应。满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。由于数据处理和分析,是在传感器附近或设备产生数据的位置进行的,因此称之为边缘计算。
某些场景下,直接使用GPU服务器做视频分析,存在几个问题:
(1) 算力有限:常常在几丁~几十T INT8 OPS之间。
(2) 功耗低:功耗在5-30W,可以通过太阳能供电,进行户外移动作业。
(3) 硬件接口丰富:便于与其他设备/系统对接。
(4))体积小,重量轻:安装简便灵活,便于分布式部署和扩展。
(1) 训练平台:通常以英伟达Nvidia-GPU为主;
(2) 推理平台:云端和设备端, CPU(x86 arm), GPU, NPU, TPU, FPGA, ASIC;
(1)基础平台开发:深度学习分析引擎、业务中台、管理平台;
(2)模型转换、验证及优化:使用硬件平台厂商提供的模型转换工具套件将caffe、tensorflow、pytorch、 mxnet、darknet、onnx等模型转换为目标平台模型,必要时进行模型量化以及模型fnetune;对不支持的模型或层,自定义算子、插件实现;
(3)视频结构化引擎代码适配:主要是视频流及图片编解码、推理等模块,任务管理、流程控制、前后处理等其他代码通常都是跨平台的;
(4)交叉编译及测试:使用交叉编译工具链编译及调试代码,交叉编译工具工具链主要包括2部分内容,linaro gcc g++编译及调试器和包含了目标平台系统环境及软件库的所有代码文件;
(5)业务代码实现:针对不同场景的业务需求开发业务逻辑处理代码;
(6) 系统部署:通常使用docker部署,使用docker-compose编排多个docker容器或使用K8S管理多个分布式节点。
目前大多数深度学习算法模型要落地对算力要求比较高,如果在服务器上,可以使用GPU进行加速,但是在边缘端或者算力匮乏的开发板子上,不得不对模型进一步的压缩或者改进,也可以针对特定的场景使用市面上现有的推理优化加速框架进行推理。目前来说比较常见的几种部署方案为:
TensorRT的优化原理:
算子op补充:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。