loss function (单个样本) 和 cost function (整个网络) 的选取:不同的问题不同的 loss function 和 cost function 可能影响最终的目标函数是不是为凸的,这也就最终决定了能不能保证最终的结果时最优的。比如对于二分类问题,理想的 loss function 为下式,而传统的均方根误差将导致最终的目标函数存在多个局部最优点。
二、Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization
train, develop, test set 的划分。之前由于数据量通常较小,通常的划分是 80%-20% 或者 60%-20%-20%。但随着数据量的不断增大,由于develop 的作用只是选取超参数,因此其实一定量的数据就已经足够了。因此针对大数据的划分,可能是 98%-1%-1%。同时,由于 test set 只是为了在最后给出得到的神经网络的无偏性能评估,因此如果需要评估结果,其实可以不设置 test set。
Bias Variance trade off:high bias low variance,欠拟合,模型复杂度不够;low bias high variance,过拟合,模型复杂度过高;high bias high variance,模型在某些区域欠拟合,又在某些区域过拟合,这在高维场景更常见。不过,对于不同任务 high 和 low 的判断是相对的。比如对于某些简单问题,人的错误率是0%,因此10%就是high;而对于复杂问题,10%有时也是可以接受的。
R-CNN。相比于前面提到的一步得到检测结果和候选框,R-CNN首先通过图像分割算法得到可能存在目标的候选框,再针对每个候选框进行分类和框的调整。但是R-CNN速度很慢,后续又推出了 Fast R-CNN,它通过上面提到的卷积操作,同时对所有的候选框进行处理。进一步,Faster R-CNN 使用卷积操作来进行图像分割,进一步加快候选框的提取速度。