赞
踩
Inference是用于测试系统使用训练有素的模型处理输入和产生结果的速度。
随着人工智能应用的崛起,其在不同的硬件芯片平台上的性能也逐渐变成了比较不同硬件和芯片的重要参考。然而,最初由各个芯片厂商自行公布的跑分结果往往很难直接比较,因为其中包括了许多不同的参数,例如模型版本(例如同一个ResNet50可以延伸出许多不同的版本,不同厂商可能会选取对自己芯片最有利的版本来做跑分),模型数字精度(浮点数还是整数)等等,这时候就需要一个统一的测试方法与指标了。
MLPerf就出现了,该跑分(benchmark)平台是一个由第三方机构(MLCommons)维护的平台,不同的机构则可以上传这些标准模型在自己的硬件芯片上的跑分结果,并且由MLCommons收集并验证后统一公布在网站上。这样一来,不同硬件芯片平台在做AI模型跑分的时候,就可以有一个统一的模型,也可以直接相互比较。
涵盖了图像分类(ResNet)、医学影像分割(U-Net3D)、目标物体检测(SSD)、目标物体检测(Mask R-CNN)、语音识别(RNN-T)、自然语言理解(BERT)、智能推荐(DLRM)以及强化机器学习(Minigo)8类AI应用场景。
SUT:被测系统(System under test)
mAP:平均精度均值(Mean average precision)
mIoU:平均交并比(Mean intersection over union)
FPS:每秒帧率(Frame per second)
FAR:误识率(False accept rate)
FRR:拒识率(False reject rate)
IR:识别正确率(Identification rate)
WER:词错误率(Word error rate)
SER:句错误率(Sentence error rate)
Scenario (场景) | Query Generation | Duration | Samples/query | Latency Constraint | Tail Latency | Performance Metric |
Single stream | LoadGen sends next query as soon as SUT completes the previous query:串行方式,query一次完整再下一次 | 1024 queries and 60 seconds | 1 | None | 90% | 90%-ile measured latency |
Multiple stream | LoadGen sends a new query every latency constraint if the SUT has completed the prior query, otherwise the new query is dropped and is counted as one overtime query 1、query 的samples随机 2、 如果超过latency constraint,query完成不会立刻query即drop,而是下个周期再query,导致总的耗时变长 | 270,336 queries and 60 seconds | Variable, see metric | Benchmark specific | 99% | Maximum number of inferences per query supported |
Server | LoadGen sends new queries to the SUT according to a Poisson distribution:根据泊松分布query | 270,336 queries and 60 seconds | 1 | Benchmark specific | 99% | Maximum Poisson throughput parameter supported |
Offline | LoadGen sends all queries to the SUT at start:极限性能(极限处理能力) | 1 query and 60 seconds | At least 24,576 | None | N/A | Measured throughput |
最大吞吐量性能、平均前向推理速率、前向推理时延、功耗、能效比、模型推理准确度等
待完善
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。