赞
踩
1有监督学习
分类问题
回归问题
2无监督学习不能通过对答案的方法进行学习
聚类
3半监督学习通过对少量的有标注的训练数据和大量的未标记的数据进行学习
4增强学习
只对输出的给评价
5多任务的学习
多个相关的任务放在一起进行学习
莺尾花分类
1.数据处理
数据清洗
数据的完整性
数据的合法性
数据的权威性
数据的唯一性
数据的一致性
数据采样
对不平衡的数据进行过采样和欠采样的方法,
数据集的拆分
①训练数据
②验证数据
③测试数据
(留出法)一般采用70%为训练,30%测试
()
2.特征工程特征编码,特征选择,特征降维,规范化
特征编码
将数据转化为为数值形式
3.数据建模回归,分类,聚类,其他问题
4.结果评估拟合度量,查准率,查全率
分类问题是监督学习的一种核心问题
二分类
多分类
核心算法
决策树,贝叶斯,SVM,逻辑回归
决策树的算法
ID3,C4.5,CART算法
1.计算先验概率
2.为每个数学计算条件概率
3.计算后验概率
是一种有监督学习。
包括三种情况
logistics回归
使用了sigmoid函数,满足(0,1)的概率分布,满足单调性,具有良好的连续性
通过多个弱分类器集成在一起,共同完成学习任务
两大类方法
1.bagging方法
2.boosting方法
预测输入与输出的问题的关系,对已知的数据进行拟合,包括一元回归,多远,线性/非线性,简单/多重回归分析。
假设特征和结果是满足线性关系。
线性回归扩展算法
多项式拟合:
当出现过拟合的时候
使用岭回归,加入二范数。
使用lasso回归,压缩系数。适用于样本量小,高维统计。
无监督学习
最后进行迭代,直到中心点不再变化。
单高斯模型(正态分布)
高斯混合模型
em算法与k-mean算法相似
用于语音识别,自然语言处理,生物信息
LDA和CRF均与自然语言相关
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。