当前位置:   article > 正文

机器学习算法资料汇总

算法资料

首先,提到机器学习,必然少不了《西瓜书》,由南京大学周志华教授主编的全面概述和讲解机器学习的专著,给人们学习和认识并且改造机器学习带来了极大帮助。首先推荐一个比较靠谱的学习笔记:https://github.com/Vay-keen/Machine-learning-learning-notes

除了周志华教授的《机器学习》之外,还有台湾大学林田轩教授的《机器学习基石》,深入浅出,非常具有感染力。课程视频网址:https://www.bilibili.com/video/av12463015/ 课后习题答案汇总链接:https://blog.csdn.net/a1015553840/article/details/51085129
林田轩教授的***原生态课程***连接:https://www.csie.ntu.edu.tw/~htlin/mooc/
在这里插入图片描述
机器学习第一、二讲:
【1】什么时候用机器学习:首先定义学习(通过观察—>学习—>技能)VS 机器学习(data—>机器—>技能—>改善预测准确性)
【2】give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.
【3】使用机器学习方式必须要有三个前提条件:存在某些规则联系、不知道如何数学化定义规则、必须要有数据

机器学习第三讲:
【1】food: 基于Twitter数据(根据语义、位置等)----> 判断出食物中毒
clothing: 基于销售数据+客户数据 ---->推荐顾客偏好衣服
housing: 基于过去相似房子特征和能源配置----->预测新建房子的能耗
transportation: 基于交通信号的语义和图片数据---->准确辨别交通号
education: 线上的教学系统和测试---->预测学生是否可以准确答出题目
entertainment: 基于观影者的评价—>使用推荐系统算法(Netflix电影线上推荐系统)

【2】补充:KDDCup全球性的机器学习算法比赛。基本上所有领域都可以用上机器学习!!!

机器学习第四讲:
【1】信用卡授权发卡给用户,直接算作是一种机器学习的模型。
X:表示输入,Y:表示输出 F:这个映射关系是无法直接找出来的,采用机器学习能够得到近似假设(G)。这个G关系和F关系越靠近表示性能越好。
在这里插入图片描述
机器学习第五讲:
KDD(资料的勘探):
(1)机器学习与数据挖掘,基本上是相互依存的,必须都要会;
(2)机器学习与人工智能:机器学习是实现人工智能的一种方法,从大量的数据中来进行学习,与传统的博弈树不一样;
(3)机器学习:来源于统计学。

机器学习第六讲:
在这里插入图片描述
这里主要讲解了多维度的输入,输出为符号函数Sign,threshold为门槛值。

在这里,我们把输出Y称之为“标签”,perceptrons(感知器)又可以成为“线性分类器”

机器学习第七讲:
在所有的H空间里面,找到一个G函数,保证是最优的情况,然后与输出相匹配。

初始化:任选一条线,再进行试错,修正,如此循环,直至不再犯错,即可停止计算。(PLA:perceptron learning algorithm 演算法)

演算法在分类的过程中,不一定会收敛。如果需要演算法停止下来,则必须满足:线性可分的条件。

机器学习第八讲:全部都是数学推导,关于收敛性的证明。

机器学习第九讲:存在一定的噪声。
在这里插入图片描述
在这里表示:寻找一个函数,使得分类出错的总次数是最少的。

机器学习第10讲:
多类别分类,与经典的二元分类存在较大差别。
回归分析:预测股票+天气变换情况(输出要是一个实数)
自然语言辨识:根据词性来进行判断。

机器学习第11讲:
监督学习:
非监督学习:聚类算法
半监督学习:照片的标签标注+没有标注的照片
在这里插入图片描述
(1)强化学习:非常不同于机器学习
采用奖励、惩罚的方式来对机器进行训练、学习。没有直接的输出训练结果,而是利用部分的信息来进行学习。

机器学习第12讲:
(1)batch演算法方式:(batch表示一堆的数据资料)最常用的人与机器沟通方式协议。这个是“填鸭式”学习:给你所有的资料,自己去学
(2)online学习方式:不是直接将所有的数据输入机器,而是来一个数据,就对G函数进行调整更新。这个是教学式学习:老师给一个知识要求,机器再学习
(3)强化学习方式:不是一步到位,而是逐步递进的。
(4)主动学习:机器可以主动且“有技巧”的问问题。通常用在数据标签的标注资料代价太大情况下。

机器学习第13讲:
对于数据的输入端存在的相关细节:
(1)具有明确的数据特征:存在人类的智能。
(2)原始特征:对于机器来说更加困难。需要抽取数据的特征,这样训练学习才更有效。
(3)总结:四个维度:在这里插入图片描述
应对不同的输出空间(有分类、回归和结构式两种)、
应对不同的输出数据标签(有监督式:全部的数据标签都已弄好、半监督式:部分标记,部分数据没有标注、无监督式:全部数据都没有标注特征、强化学习:是间接的数据学习,鼓励奖惩机制,不是一步到位的)、
应对不同与机器打交道的协议(堆叠式数据学习、在线学习、主动式学习:机器对于不清楚的分类会进行提问)
应对数据的输入端(有明确数据特征学习、原始特征学习和抽象特征学习)

机器学习第14讲:(Feasibility of Learning)
(1) 当使用机器学习算法的时候,只有在确定的数据情况下,我们才能够确切地说f与g相同的,处理的结果也是类似的。
(2)在处理非确定的情况时,存在不同的环境设置,因此假设不同,得出的结果也不一样,这样也就导致学习结果存在偏差。

机器学习第15讲:(Inferring Something Unknown)
(1) Hoeffding Inequality. (霍夫丁不等式)
在这里插入图片描述
在这里插入图片描述
首先从这个Hoeffding Inequality不等式开始计算,我们可以知道:在大概率情况下,抽样的概率与原始数据出现的概率是相同的。前提条件是:在计算过程中,我们可以看出样本足够大的时候,样本出现概率就与真是数据出现概率相同。

机器学习第16讲:(连接学习)
在这里插入图片描述
要解决Learnign 的问题,可以用h(x)为止的错误率来表征学习的正确率。在这里面,我们可以看出:我们可以通过已知的情况来推断未知的情况。

当仅存在一个hypothesis时,这样你不需要进行学习,只要进行Verification.

机器学习第17讲:
(1)增加很多的hypothesis,则需要进行选择。
(2)如何来评价资料的好坏?? 主要是看E_in与E_out之间的差异,差异越大,则资料的数据效果越差,越接近则越好。
(3)演算法必须要能进行自由选择:采用bad的统计学习的方式:
在这里插入图片描述
在数据处理的时候,我们只要发现存在一个“BDA”(糟糕的情况),则我们就称该数据集对于hypothesis是无效的。
在这里插入图片描述
在这里,利用学习算法我们可以选择出一个比较靠谱的hypothesis中的一个h.

机器学习第18讲:
为什么可以使用机器学习??
在这里插入图片描述
机器学习第19讲:对出错的概率进行推导和计算:
在这里插入图片描述
在这里,作者需要计算的是存在一个h函数(直线)来对这三个数据点进行分类。总共有8情况,其中画叉叉的那两种情况不存在。

在这里插入图片描述

机器学习第20讲:Dichotomy: mini-hypotheses
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四种典型的成长函数!!!

机器学习第21讲:未完待续

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/sysmno/article/detail/62324
推荐阅读
相关标签
  

闽ICP备14008679号