赞
踩
1. 如何构建一个机器学习算法
构建一个学习算法的推荐方法为:
1). 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法 ;
2). 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择 ;
3). 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势 .
2. 机器学习的数据
1)机器学习的数据量可以根据‘应用机器学习的建议’中数据量的确定方式进行确定;
2)数据量越大越好:也许给许多不同的算法(性能好和性能不好)大量数据后,不同的算法性能几乎都一样,因此,引起了一种在机器学习中的普遍共识:"取得成功的人不是拥有最好算法的人,而是拥有最多数据的人"。
3.模型偏差的度量
(1)回归模型的度量
回归模型常用的度量指标为‘准确率’和‘均方根误差’。
(2)分类模型的度量
A. 分类模型常用的度量指标为‘查准率’和‘查全率’。
1) 正确肯定(True Positive,TP):预测为真,实际为真
2) 正确否定(True Negative,TN):预测为假,实际为假
3) 错误肯定(False Positive,FP):预测为真,实际为假
4) 错误否定(False Negative,FN):预测为假,实际为真
查准率(Precision)=TP/(TP+FP)例,在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高 越好。
查全率(Recall)=TP/(TP+FN)例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越 好。
B. ‘查准率’和‘查全率’的平衡
这两个指标应该根据实际业务场景进行确定,例如:
如果我们希望只在非常确信的情况下预测为真(肿瘤为恶性),即我们希望更高的查准
率,我们可以使用比 0.5 更大的阀值,如 0.7,0.9。这样做我们会减少错误预测病人为恶性
肿瘤的情况,同时却会增加未能成功预测肿瘤为恶性的情况。
如果我们希望提高查全率,尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检
查、诊断,我们可以使用比 0.5 更小的阀值,如 0.3。
我们希望有一个帮助我们选择这个阀值的方法。一种方法是计算 F1 值(F1 Score),其
计算公式为:
我们选择使得 F1 值最高的阀值。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。