赞
踩
问题描述:
【功能模块】
【模型训练】【mindinsight】【timeline】
【操作步骤&问题现象】
1、训练模型,跑了两个epoch,耗时大概十分钟
2、下载timeline
3、导入到chrome的tracing功能中
【截图信息】
timeline:
看到timeline中颜色条集中在两个地方,一个是0days附近,一个是在2.315days前那里。从timeline上看一个用时超过1天。而且在下载timeline的那个地方,显示Total operator execution time:597285262.1108ms,相当于6.9天
但从loss-step的折线图看,2个epoch总共才用了624秒:
为什么程序实际上只跑了十分钟,但timeline那里却显示那么久?
解决方案:
是AIcpu和AIcore算子的时间戳没有对齐。我们正在修复,会尽快合入master分支。您可以基于现有的timeline文件,主要关注AIcore算子的信息(Process 0下的算子)进行性能分析。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。