当前位置:   article > 正文

机器学习自学笔记_胡浩基机器学习笔记

胡浩基机器学习笔记

来自B站浙江大学胡浩基老师的教学视频,一点点添加内容

一、机器学习的定义

机器学习是利用非显著性编程,通过经验、数据自动学习,寻找最大化收益函数的行为模式。其中,收益函数是根据具体情况人为规定的。

二、机器学习的分类

划分并不绝对

1、根据是否有标签 分类:

1.1 监督学习

每一个数据都有对应的标签,例如支持向量机、人工神经网络、深度神经网络等算法。

1.2 非监督学习

所有的训练数据都没有对应的标签,需要假设同一类的训练数据在空间中距离更近,由此根据样本的空间信息,设计算法把数据聚集为两类,例如聚类、EM算法、主成分分析等等。

1.3 半监督学习

训练数据中一部分有标签一部分没有标签。

1.4 强化学习

计算机通过与环境的互动逐渐强化自己的行为模式。

2、根据标签的固有属性 分类 监督学习:

2.1 分类

标签的离散的值,例如人脸识别。

2.2 回归

标签是连续的值,例如预测房价走势。

三、机器学习算法的过程

1、特征提取

通过训练样本获得的,对机器学习任务有帮助的多维度数据。不同煤质不同任务,提取特征的方式千变万化。

2、设计合适算法

不同的算法会对特征空间做不同划分,获取不同的结果,研究新的机器学习算法以便适应新的场景,是机器学习领域重要的理论问题。

**没有免费午餐定理:**任何一个预测函数,如果在一些训练样本上表现好,必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。

四、支持向量机

1.解决线性可分问题
2.将线性可分问题中获得的结论推广到线性不可分情况

1、线性可分

简而言之,存在一条直线将“o”和“x”分开。

2、线性不可分

简而言之,存在一条直线将“o”和“x”分开。

3、支持向量机算法

3.1 线性可分情况下,支持向量机寻找的最优分类应满足:

基于二维特征空间的结果:

  • 该直线分开了两类;
  • 该直线最大化间隔;
  • 该直线处于间隔正中间,到所有支持向量距离相等。

寻找最优分类即寻找最佳超平面的优化问题,可以表示为:
1、最小化:1/2||w||2
2、限制条件:yi=(wTxi+b)>=1,(i=1~N)
其中,(Xi,yi),i=1~N 是已知的,(w,b) 是待求的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/767885
推荐阅读
相关标签
  

闽ICP备14008679号