赞
踩
训练神经网络前,别管代码,先从预处理数据集开始。一定要认认真真先去了解数据的分布并找出其中的规律。在检查数据的过程中,可能会发现重复的、标记错误的样本,在早期发现这些错误都可以避免以后走弯路。
由于神经网络实际上是数据集的压缩版本,因此您将能够查看网络(错误)预测并了解它们的来源。如果你的网络给你的预测看起来与你在数据中看到的内容不一致,那么就会有所收获。
一旦从数据中发现规律,可以编写一些代码对他们进行搜索、过滤、排序。把数据可视化能帮助我们发现异常值,而异常值总能揭示数据的质量或预处理中的一些错误。
在数据集很大的情况下,建议先用 1/100、1/10 的数据跑一跑,对模型性能和训练时间有个底,外推一下全量数据到底需要跑多久。在没有足够的信心前不做大规模实验。
batchsize通常影响没那么大,除了特殊的算法需要batch大一点。Rnn模型如果不考虑时间,试一试 batch size=1。
如果初步训练效果还不错,就可以试一试增广数据,但是增广不能违反数据的基本规律,比如行人识别一般就不会加上下翻转的,因为不会碰到头朝下的情况。
处理完数据集,还是不要着急训练模型,下一步应该做的是建立一个完整的训练+评估框架。
在这个阶段,要选择一
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。