赞
踩
1、最近的APA项目以及slam项目科研计划都推进到研究嵌入式平台的阶段
2、智能平台方案替换美系方案的工作是必然,最近国内芯片商接触频繁
3、算法方案商的合作中也在思考未来的智能驾驶的智能平台方案
CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。还有一个叫做cudnn,是针对深度卷积神经网络的加速库。
这个方案在短时间内L4,L5 的方案部署都是较好的。
华为MDC智能驾驶计算平台也具有L4,L5的能力
特斯拉 HW3.0 FSD 控制器。
参考图:
采集自己的IP深度学习加速核,前期在FPGA上验证开发IP核。
一般设计时,DDR 与ARM 之间有cache;神经网络加速器NPU与DDR之间没有cache。arm与NPU交互需要首先刷新内存。
需要关注latency 核DDR带宽优化的取舍。
一般目前的地平线J3 黑芝麻A1000 不支持3D卷积(医学领域常用),BERT,NLP等(该信息需要与最新的文档保持,这里仅仅是目前了解的信息)
定点一般4bits,8bits,16bits
1、有利于模型精度
1、有利于设计开发
1、目前如果可以,建议采样api 加自定义层(如果支持)的方案,复杂但最直接。有利于调试。注意:在自研IP核的方案上无法实现自定义OP;在cuda方案可以实现自定义OP。
2、利用caffe 部署,应该是面向过去的粗颗粒度的方案
3、先转换成ONNX模型,然后浮点转定点,然后部署。其中,转换成ONNX的时候可能会由于自定义OP导致,ONNX中生成较多小OP,影响效率以及框架兼容性下降。可以考虑利用框架中的API自定义或者寻找替代相似OP。一般自研IP不支持API自定义深度学习网络层
自定义层的替换,或者API实现;胶水OP;不支持OP回退CPU等问题。专门一篇文章讲讲相关风险点。
注意:部署中前处理,后处理都需要去掉后生成ONNX网络,有利于部署。前处理对于图像一般有CV或者IPU等加速器实现(resize,crop,金字塔);对于激光雷达可能需要用arm出来。后处理一般放到arm上运行.
现阶段,对于面向量产的智能驾驶域控制器开发来说,已经有非常完备的工具链支持了。
包括:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。