赞
踩
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它试图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。
“数据”-----------到 --------“算法”
如何实现 “数据” 到 "算法"的过程?
数据采集(Python)—>数据分析(Python)—> 数据挖掘(hadoop)—> 模型建立(算法)—> 预测未来 (机器)
•美国卡内基梅隆大学(Carnegie Mellon University)机器学习研究领域的著名教授Tom Mitchell对机器学习的经典定义
①算法(T):根据业务需要和数据特征选择的相关算法, 也就是一个数学公式
②模型(E):基于数据和算法构建出来的模型
③评估/测试( P):对模型进行评估的策略
机器学习是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。
训练数据
训练指的是一种学习行为 将学到的转化为:“经验”-----通过经验采集的数据才是训练数据!
训练数据是存在很大的不合理性! 并不能满足机器的学习使用!
数据集
数据集就是一种算法的实现!
数据集不是训练数据,能满足机器的学习使用!
x(i)
表示第i个样本的x向量
xi : x向量的第i维度的值
拟合
构建的算法符合给定数据的特征
鲁棒性
健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据
过拟合
算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合
欠拟合
算法不太符合样本的数据特征
用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。
无监督学习一般是作为有监督学习的前期数据处理,功能是从原始数据中抽取出必要的标签信息。
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题,是有监督学习和无监督学习的结合。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
它的成立依赖于模型假设,主要分为三大类:平滑假设、聚类假设、流行假设;其中流行假设更具有普遍性。
主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维。
抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来的发展主要是聚焦于新模型假设的产生。
算法名称 | 算法描述 |
---|---|
C4.5 | 分类决策树算法,决策树的核心算法,ID3算法的改进算法。 |
CART | 分类与回归树(Classification and Regression Trees) |
kNN | K近邻 分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别 |
NaiveBayes | 贝叶斯分类模型;该模型比较适合属性相关性比较小的时候,如果属性相关性比较大的时候,决策树模型比贝叶斯分类模型效果好(原因:贝叶斯模型假设属性之间是互不影响的) |
SVM | 支持向量机,一种有监督学习的统计学习方法,广泛应用于统计分类和回归分析中。 |
EM | 最大期望算法,常用于机器学习和计算机视觉中的数据集聚领域 |
Apriori | 关联规则挖掘算法 |
K-Means | 聚类算法,功能是将n个对象根据属性特征分为k个分割(k<n); 属于无监督学习 |
PageRank | Google搜索重要算法之一 |
AdaBoost | 迭代算法;利用多个分类器进行数据 |
在实际工作中,我们可以使用业务数据进行机器学习开发,但是在学习过程中,没有业务数据,此时可以使用公开的数据集进行开发,常用数据集如下:
① http://archive.ics.uci.edu/ml/datasets.html
② https://aws.amazon.com/cn/public-datasets/
③ https://www.kaggle.com/competitions
④ http://www.kdnuggets.com/datasets/index.html
⑤ http://www.sogou.com/labs/resource/list_pingce.php
⑥ https://tianchi.aliyun.com/datalab/index.htm
⑦ http://www.pkbigdata.com/common/cmptIndex.html
指的是将采集的 "数据集"通过 算法,变为满足无监督 、有监督、半监督的学习过程数据!
对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式,对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵
模型的测试一般以以下几个方面来进行比较,分别是准确率/召回率/精准率/F值
①准确率(Accuracy)=提取出的正确样本数/总样本数
②召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率
③精准率(Precision)=正确的正例样本数/预测为正例的样本数
④F值=PrecisionRecall2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值
附:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。