赞
踩
马上就要考研复试了,如果你的导师不搞机器学习领域,那真的皆大欢喜。如果他在搞机器学习,我不得不预判导师的走位和他要放的技能。我心里是非常惶恐的,别说机器学习,就是python也略知一二。万一导师提到机器学习,对于小白一样的我来说,就是青铜遇上了王者,分分钟被吊打。
怎么跟导师对线机器学习:首先,要预判导师的预判。导师也知道,大学生对机器学习只是简单地了解而非系统的学习,他不会出太难的问题刁难我们,所以他的提问也只是基础问题,我们也不用深入理解太难的原理。
而且,我们短时间内也不可能深入学习机器学习,所以在答题时不用长篇大论把原理论述,可以寥寥几句简答即可。比起不学的同学来说,足以让导师对你青睐了。
目录
机器模拟人的学习过程,通过输入打量数据,机器不断自行改进算法,得出能预测结果的模型。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
数据预处理、特征工程、机器学习、模型评估
科学计算库使用numpy;
数据集,学习阶段用sklearn数据集;
pandas数据预处理和数据清洗;
特征工程使用sklearn。
通过有无标签分类:
有监督学习、无监督学习、半监督学习。
与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
通过功能性分类:
分类、回归、聚类、降维
给定一个样本特征 ,希望预测其对应的属性值 , 如果是离散的, 那么这就是一个分类问题,反之,如果 是连续的实数, 这就是一个回归问题。
给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在多维空间的分布, 比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题。
如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。
由特征值和目标值构成的集合。
将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据模型的准确性。
特征抽取、特征预处理、特征降维。
特征提取:将任意数据转换为可用于机器学习的数字特征。例如字典型特征提取、文本型特征提取。
特征预处理:预先处理,包括归一化标准化、异常样本清洗、样本数据不平衡问题处理。
特征降维:降低的对象是多维数组。降低的是特征的个数,得到一组“不相关”的主变量的过程
包括归一化、标准化。
归一化:将原始数据映射到一个区间内,异常值可能会影响归一化。
标准化:准化后会使每个特征中的数值平均变为0,标准差变为1。
标准化方式:L1L2范数标准化、(L1范数生成稀疏矩阵,L2可以利用正则化防止过拟合)
有过滤式和嵌入式。
过滤式:方差选择(过滤掉低方差的特征);相关系数(两个特征的相关性)如果两个特征相关性强①选择一个②加权变成新特征
嵌入式:决策树、正则化、深度学习
目的是,将高维数据转化为低维数据,尽可能降低源数据的维数,损失少量信息
过拟合:机器学习训练的模型在训练集中表现非常好,但缺少泛化性,导致在测试集中表现不佳。
欠拟合:机器学习训练的模型在训练集中表现就很差。
处理过拟合:1. 添加训练数据 2. 减少特征个数 3. 增加lamda的值 4.正则化L1 L2正则化
处理欠拟合:1. 增加特征个数 2. 降低lamda的值
给定一组数据,用一个函数去拟合这组数据,如果数据中有噪声,那么函数的波动就会比较大,函数不够平滑就会出现过拟合现象。用正则化,给参数一个取值范围,就可以减少噪声的影响,减少过拟合现象的发生。正则化的表现形式是通过在函数末尾加一个正则化项来实现的。
1、分类:
朴素贝叶斯
贝叶斯分类法是基于贝叶斯公式(先验概率和后验概率的关系)的统计学分类方法。
它通过预测一个给定的元组属于一个特定类的概率,来进行分类。
logistic回归(逻辑回归)
logistic回归得出预测值后,根据预测值大小进行分类。(通常是二分类)
决策树
基于树的结构来进行决策
KNN算法
支持向量机(SVM)算法
2、回归
线性回归
用直线进行拟合。
逻辑回归
用logistic函数拟合。
3、聚类
K-means算法
4、降维
主成分分析法
knn算法是监督学习算法,处理分类问题classification;
kneans算法是无监督学习算法,处理聚类问题;
未完待续。。。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。