赞
踩
定义:机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测
1、sciket-learn(Python)
https://scikit-learn.org/stable/
2、Mahout(Hadoop生态圈基于MapReduce)
http://mahout.apache.org/
3、Spark MLlib
http://spark.apache.org/
算法是核心,数据和计算是基础。这句话很好的说明了机器学习中算法的重要性。机器学习的几种分类:
概念:
用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
概念:
与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
概念:
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是监督学习和无监督学习的结合;
分类
通过分类模型,将样本数据集中的样本映射到某个给定的类别中
聚类
通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
回归
反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则
获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Ubuntu中 创建一个基于Python3的虚拟环境:
mkvirtualenv -p /usr/local/bin/python3.6 ml3
在ubuntu的虚拟环境当中运行以下命令
pip3 install Scikit-learn
然后通过导入命令查看是否可以使用:
import sklearn
算法名称 | 算法描述 |
---|---|
C4.5 | 分类决策树算法,决策树的核心算法,ID3算法的改进算法。 |
CART | 分类与回归树(Classification and Regression Trees) |
kNN | K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别(物以类聚,人以群分) |
NaiveBayes | 贝叶斯分类模型;该模型比较适合属性相关性比较小的时候。如果属性相关性比较大的时候,决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的) |
SVM | 支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中。 |
EM | 最大期望算法,常用于机器学习和计算机视觉中的数据集聚领域 |
Apriori | 关联规则挖掘算法 |
K-Means | 聚类算法,功能是将n个对象根据属性特征分为k个分割(k<n);属于无监督学习 |
PageRank | Google搜索重要算法之一 |
AdaBoost | 迭代算法;利用多个分类器进行数据分类 |
在实际工作中,我们可以使用业务数据进行机器学习开发,但是在学习过程中,没有业务数据,此时可以使用公开的数据集进行开发,常用数据集如下:
对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵。
例子:
模型选择:对特定任务最优建模方法的选择或者对特定模型最佳参数的选择。
在训练数据集上运行模型(算法)并在测试数据集中测试效果,迭代进行数据模型的修改,这种方式被称为交叉验证(将数据分为训练集和测试集,使用训练集构建模型,并使用测试集评估模型提供修改建议)。
模型的选择会尽可能多的选择算法进行执行,并比较执行结果。
对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。
例如:
在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)
http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html
https://en.wikipedia.org/wiki/Confusion_matrix
TP(True Positive):被预测成了正类的正类,即正确预测的正类
FP(False Positive):被预测成了正类的负类
TN(True Negetive):被预测成了负类的负类,即正确预测的负类
FN(False Negetive):被预测成了负类的正类
准确率跟正类负类没多大关系,表示在预测结果中,正确预测的数量 / 样本总数。
在预测结果中,正确预测的正类数 / 预测为正类的数量 : TP / (TP+FP)
在预测结果中,正确预测的正类数 / 原本即为正类的数量 : TP / (TP+FN)
用precision和recall两个指标不直观,索性把他们合并为一个变量——F-measure:Recall * Precision * 2 / (Recall + Precision)(越大越好,1为理想状态,此时precision为1,recall为1)
ROC(Receiver Operating Characteristic)最初源于20世纪70年代的信号检测理论,描述的是分类混淆矩阵中FPR-TPR两个量之间的相对变化情况, ROC曲线的纵轴是“真正例率”(True Positive Rate 简称TPR),横轴是“假正例率” (False Positive Rate 简称FPR)。
如果二元分类器输出的是对正样本的一个分类概率值,当取不同阈值时会得到不同的混淆矩阵,对应于ROC曲线上的一个点。那么ROC曲线就反映了 FPR与TPR之间权衡的情况,通俗地来说,即在TPR随着FPR递增的情况下,谁增长得更快,快多少的问题。TPR增长得越快,曲线越往上屈,AUC就越大, 反映了模型的分类性能就越好。当正负样本不平衡时,这种模型评价方式比起 一般的精确度评价方式的好处尤其显著。
AUC 即 ROC 曲线对应的面积,面积越大越好。
AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准 是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好, 而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
从AUC判断分类器(预测模型)优劣的标准:
回归结果度量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。