赞
踩
大数据和机器学习的区别:
大数据是做大量数据的存储,机器学习是通过算法从存储的大数据中挖掘出有价值的数据。
项目名称:电信日志分析系统
项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目数据量在1T-20T左右,集群数量在10台到100台。
项目架构分析:
项目职责:
项目优化:
人工智能的三次浪潮
人工智能场景应用:
人工智能 > 机器学习 > 深度学习
机器学习是人工智能的一个分支
深度学习
人工智能如何落地
数据:观测值或测量值
信息:可信的数据
数据分析:数据------信息
数据挖掘:信息------有价值的信息提取
模式识别:图像识别
深度学习方法----->机器学习方法------>数据挖掘事情(模式识别)
数据-------数据分析-------信息---------数据挖掘-------有价值信息
机器学习 = 机器 + 学习
人类学习 = 大脑 + 经验
机器学习 = CPU + GPU(图形图像处理器)+ 数据 + 算法(智能)
概念:机器学习致力于研究如何通过计算的手段,在给定算法结合数据构建模型,通过模型达到预测的功能。
如何判断问题是否为机器学习问题?
基于规则的学习:是硬解码的方式进行学习
基于模型的学习:是通过数据构建机器学习模型,通过模型进行预测
X ---------> f ----------> Y
自变量 函数 因变量 -----(初中)
定义域 映射 值域 -----(高中)
特征 模型 结果 -----(机器学习)
机器学习最终目的求解y=kx+b中的k和b
机器学习学习的是什么?
什么样的数据集
数据集的行 ----- 样本、字段(关系型)
数据集的列 ----- 特征、属性(机器学习)
特征组成的空间 ------ 特征或属性空间:由特征张成的空间
组成属性空间中的点 ------ 特征或属性向量
将数据集切分成训练集和测试集
使用训练集+算法构成模型解决实际问题
训练集:X(特征) + Y(类别标签)
(+算法)
-----------> 训练模型Model
-----------> 预测结果y_pred
误差error:进行校验结果情况
(1)y-y_pred
(2)|y-y_pred| ---- 绝对误差
(3)(y-y_pred)^2 ---- 平方误差 注 python语法(y-y_pred)**2
(4)训练误差:训练集
(5)测试误差:测试集
(6)泛化误差:新数据预测
如果对于非数值的特征,需要进行特征转换
如何对二分类问题进行评价?
概念学习:关于布尔函数的学习方式
关系式:X------->F------->Y
引出了机器学习分类:
根据是否是连续值的预测,分为
分类问题-------离散值预测,如小明学习水上运动、邮件分类
回归问题-------连续值预测,如房价预测
机器学习处理问题框架:
1.将数据集切分为训练集和测试集
2.通过训练集训练模型
3.通过测试集测试模型,给出评价指标
监督学习和无监督学习区别:是否有类别标签 监督学习 ------ 有标签 是否具备连续值的预测 分类 (邮件分类):决策树算法、贝叶斯算法、KNN算法、SVM算法、LR算法 回归 (房价预测):线性回归、LASSO回归、Ridge回归、Elasticnet回归 无监督学习(非监督学习) ------ 没有标签 聚类 通过特征之间的相似性 降维 通过机器学习算法达到降维目的,区别于特征选择 半监督学习 主动学习 纯半监督学习/直推学习 强化学习 解决连续决策问题,如围棋 迁移学习 解决小数据集和个性化问题 深度学习 解决小数据集和个性化问题 深度(特征)+ 强化(连续决策)+ 迁移(模型适应性问题)
手写体文字识别案列
车牌识别、图像识别
机器学习模型 = 数据 + 算法 + 策略
首先明确:
对于多个模型如何选择?
模型的泛化能力:
例如
A:60% B:58%
例如
A:100% B:80%
A:100% B:40%
如图,训练集的点都连上了,但测试集有的拟合度80%,有的拟合度才40%
数据
算法
策略
正则项(即正则罚项/正则化项)
简单交叉验证:
因为现在有了很多成熟的机器学习库
做到:在深入原理的基础上,结合已有的机器学习框架,解决实际问题
哪些库
主要以python为主展开。
思维导图:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。