赞
踩
本文章主要是以复习机器学习这门学科对付期末考试为主,课本上每章节的内容没有写全,而是围绕老师讲的重点来做笔记,我知道小伙伴们可能和我的老师不一样,但是可以看一眼目录就知道老师讲的是不是一个课本,如果是的话那么重点内容应该不会差的太多。因为我在找复习内容的时候没有找到合适的索性自己做了一个笔记,本来是软件上直接复制下来,但草稿里还要重新排版,整理不易,还望大家多多支持、点赞收藏!也希望大家能够有所收获,期末取得好的成绩!
内容具体说明:把每一章的内容分成了块,每一块上面写的有重点,下面有基本的概要。有的没有重点是因为那一章内容较少针对某一算法比如k-近邻算法,或者承接上一章比如第12章。整体是结合老师的PPT进行学习加上自己的理解来整理,概念性的东西比较多所以看起来会比较干,有的例题可能会考代码题比如第五章可能会考但在文章里没有说明,需要额外参考老师所讲重点来学,可能存在有些遗漏知识点没有总结全,需要大家结合课本自查。
目录
第一章 概述
重点:每章节课后习题
分类问题和回归问题
监督学习、半监督学习、无监督学习区别
掌握模型评估内容:训练误差、泛型误差区别,过拟合、欠拟合,正则化作用
构建一个完整的机器学习算法需要三个方面要素:数据、模型、性能度量准则(用来指导机学模型进行模型参数求解---训练)
人工智能-->机器学习-->深度学习
生成模式 判别模式(区别:是否用于产生新的数据
分类与回归的区别:
1.输出不同:分类问题输出物体所属的类别,回归问题输出的是物体的值
前者定性,后者定量
2.目的不同:前者为寻找 决策边界
后者为找到 最佳拟合
3.结果不同:前者结果没有逼近,对就是对错就是错
后者是对真实值的一种逼近原则
根据(是否包含标签和标签的多少)进行机器学习分类可分为
1.监督学习:在建立预测模型中,将预测结果与训练数据的实际结果比较,不断调试,直到得到达到预期的准确率。(分类回归任务,决策树,贝叶斯,支持向量机,深度学习)
2.无监督学习:数据不被特别标识,计算机自行分析数据内部规律、特征,进而得出一定的结果。(如内部结构、主要成分
3.半监督学习:介于前二者之间
输入数据部分被标识,未标识部分往往远大于标识部分
(可以用来预测但需要学习数据的内在结构以便更合理组织数据进行预测
训练误差:模型在数据集上的误差
泛型误差:模型在新样本上的误差
二者区别:前者为已知数据上的表现,后者为未知数据上的表现
机器学习目标:得到泛型误差较小的模型/学习器
数据划分为
训练集:对模型参数进行训练
验证集:对训练的模型进行验证挑选、辅助调参
测试集:用于测试训练好的模型的泛化能力
过拟合:模型过于复杂,过度拟合训练集的细节
(训练集上表现好,测试集上表现差)
欠拟合:模型过于简单,捕捉不到足够的规律、特征
(训练集、测试集表现都不好)
处理过拟合:
①获取更多训练集:获得更多更有效的特征,见效噪声的影响
②降维:丢弃一些不能帮助预测的特征
③正则化:保留所有特征减少参数大小
④集成学习方法:多模型集成一起降低单模型风险
欠拟合处理:
①添加新特征:特征不足或现有特征与样本标签相关性不强时
②增加模型复杂度:简单模型学习能力较差。如神经网络模型中增加网络层数或神经元个数
③减小正则化系数:正则化是防止过拟合的,但是模型出现欠拟合时,需要针对性的减少正则化系数
④增加训练过程的迭代次数。
正则化:
基于数据的损失函数称为经验损失
正则化项称为结构损失
存在模型的经验损失和结构损失之间进行平衡的超参数(训练之前调整的参数)(可以不记帮助理解后面的概念或者结合课本第一章简单了解)
第二章 线性回归
重点:线性回归本身理解和实现过程
逻辑回归
评价指标:含义及曲线理解
用一条曲线对数据点进行拟合,该曲线为最佳拟合曲线,这个拟合过程称为回归。当曲线为一条直线时就是线性回归
线性回归:将线性回归模型输出的连续值进行离散化。
求解回归模型的的基本方法是最小二乘法(不带条件的最优解)
优化目标是:试图找到一条直线,使所有样本集合上的预测值和真实值欧式距离之和最小
梯度下降算法步长是其中重要的超参数(结合课件梯度下降算法内容)
特点:研究自变量和因变量之间的线性关系
构建线性分类器的关键:如何将线性回归模型输出的连续性取值进行离散化。
逻辑回归:
由于样本集合给定样本是否属于某类别概率非0即1无法使用最小二乘法求解。可以考虑极大似然估计求解
按逻辑回归基本原理,求解分为三个步骤:(课件有具体过程)
1.找一个合适的预测分类函数,用来预测分类结果
2.构造一个损失函数,表示预测输出和训练数据之间的偏差
3.找到最小偏差值,值越小预测结果准确度越高。求解损失函数最小值采用梯度下降算法实现
评价指标
混淆矩阵:
包含四部分信息
1.真阴tn
2.假阳fp
3.假阴fn
4.真阳tp
大部分指标建立在混淆矩阵上,包括准确率、精确率、召回率、F1-score、AUC
准确率:
样本不平衡情况下不能作为很好的指标衡量结果
精确率:又叫查准率,针对预测结果而言。表示在所有被预测为正的样本中实际为正的样本的概率
召回率:又叫查全率,针对原样本而言。召回率表示在实际为正的样本中被预测为正样本的概率
PR曲线:以查全率为横坐标,以查准率为纵坐标(分母分别为所在混淆矩阵TP的行和列)
ROC曲线:横轴假阳率,纵轴真阳率(分母为所在混淆矩阵行)
在ROC曲线和AUC曲线中,对于某个二分类分类器来说,输出结果标签往往取决于置信度以及预定的置信度阈值
- 置信度阈值较低时,大量预测为正例,召回率较高,精确率较低
- 置信度阈值较高时,大量预测为负例,召回率较低,精确率较高
最大熵模型优缺点(没说考)
优点:
- 最大限度利用已知信息做出最小的假设
- 可以处理不同类型特征
- 训练和测试速度快,可用于大规模数据集
缺点:
- 理论上可拟合任意分布,实际上需要大量数据
- 假设性较强不能保证最优解
- 参数估计过程需要反复迭代优化
- 对离群点敏感,易受异常样本影响
第三章 k-邻近算法
k-邻近算法:k个邻近的类别来判断该样本的类别
该算法的三个研究方面:k值的选取、距离的度量、如何快速地进行k个近邻的检索
k-邻近算法是有监督学习算法
k值大小的影响:
较小的k值:
- 用较少训练实例预测,非常相似的实例才起作用,学习的近似误差会减小
- 预测结果与少量实例有关,对近邻数据敏感,学习的估计误差会增大
- 噪声敏感
- k值减小模型变复杂,容易过拟合
较大的k值:
- 用较多的训练实例进行预测,学习的估计误差会减小
- 与输入数据距离较远的实例也会起作用,学习的近似误差会增大
- k值增大意味着模型变简单,容易欠拟合
距离的度量(结合课件)
欧氏距离:最常见的距离度量方法,xy差的平方和平方根
易理解
对不同特征尺度有不同数据,距离会被某些特征值主导,从而影响分类结果
曼哈顿距离: 又称城市街区距离,xy差绝对值的和
对不同尺度的特征值不敏感
多维空间中,会高估距离
切比雪夫距离:两个样本在各维度的最大值,xy差绝对值的最大值
对不同尺度特征值不敏感
高维空间中计算复杂度较高
第四章 决策树模型
重点:构建过程
特征选择
指标
决策树算法 既可用于分类也可用于回归
从根节点开始一步步到叶子节点
树形结构,每个内部节点表示在一个属性上的测试,每个分支表示一个测试输出,每个叶节点表示一种类别
决策树学习是以实例为基础的归纳学习
决策树学习采用的是自顶向下的递归方法
根节点:第一个决策节点
非叶子节点与分支:中间过程
叶子节点:最后的决策结果
基本思路:首先根据某种分类规则得到划分特征,计算最优特征子函数,并创建特征的划分节点,按照划分节点将数据集分为若干子数据集。然后再在子数据集上使用判别规则,构建出新的节点作为树的新分支。重复递归执行,直到满足递归终止条件。(理解记忆)
三种经典的决策树生成算法:
基于信息增益的ID3算法
(以信息增益最大的属性为分类特征,基于贪心策略自顶向下搜索遍历决策树空间,通过递归方式构建决策树)
(属性取值种类越多,越有可能称为分裂属性)
(不能处理连续分布的数据特征)
基于信息增益率的C4.5算法
(总体思路和ID3一样,区别在于分支处理,属性的选择ID3以信息增益作为度量,而C4.5算法引入信息增益率为度量)
基于基尼指数的CART算法
(递归的构建二叉决策树,用基尼系数最小化准则进行特征选择,生成二叉树)
(关键问题:递归结束条件:直到:叶子节点纯了--达到最大深度--达到某一性能指标)
衡量标准---熵(熵是表示随机变量不确定性的度量
信息增益率定义为:信息增益和属性分布的熵之比
决策树易产生过拟合现象,因此进行剪枝,预剪枝易造成欠拟合
第五章 朴素贝叶斯算法
重点:相关公式
先验概率
后验概率
贝叶斯统计学: 基于 总体信息+样本信息+先验信息进行统计推理的方法和理论
先验信息:抽样前,有关推断信息中未知参数的一些信息通常来自经验或历史资料
总体信息:当前总体样本符合某种分布
样本信息:通过抽样得到的部分样本的某种分布
朴素贝叶斯算法
考虑特征概率来预测分类:分类时需要计算各种类别的概率,取其中概率最大者为分类预测值
思想本质是极大似然估计
朴素贝叶斯分类器为生成模型
采用“特征属性独立性假设”的方法,即对已知类别,假设所有特征属性相互独立。假设每个特征独立地对分类结果发生影响
通俗来讲,朴素贝叶斯分类器可以看作:对于给定的待分类项,求解在该分类项出现的条件下,各个类别出现的概率。根据各个类别出现的概率,哪个最大,就将其划归为那个类别。
先验概率:根据以往的经验和分析得到的概率。
后验概率:基于新的信息,修正原来的先验概率后所得到的更接近实际情况的概率估计。
先验概率就是在没有任何结果出来的情况下进行估计,后验概率则是在有一定依据后的重新估计。
可能考5.5实例代码部分
拉普拉斯平滑处理(结合课本课件不详述)
当样本集合不够大时,可能无法覆盖特征的所有可能取值,为避免实际应用中采用平滑处理
第六章 支持向量机模型SVM
重点:算法执行过程、原理
深度学习出现之前,SVM被认为机器学习近十几年来最成功,表现最好的算法
是基于统计学习理论的监督学习方法
应用:人脸识别、文本分类、笔记识别等
典型的支持向量机是一种二分法算法
基本思想:对于空间中的样本点集合,可用一个超平面将样本点分成两部分,一部分为正,一部分为负。优化目标就是一个超平面,使得空间中离超平面几何间隔尽可能大,这些点就成为支持向量
支持向量:决定分类面上可以平移的范围(可平移范围内)的数据点
SVM解决三种不同类型的问题:当训练集
线性可分时,硬间隔最大化,学习一个线性可分支持向量机
近似线性可分,软间隔最大化,学习一个线性支持向量机
不可分,核技巧以及软间隔最大化,学习一个非线性支持向量机
对于非线性情况,SVM选择一个核函数,通过将数据映射到高维空间,解决原始空间中线性不可分问题
核技巧:核函数直接计算映射到空间后实例间的内积,一次代替先做映射后做内积
(核函数负责输入变量与变量之间的映射)
常用核函数:
- 线性核函数
- 多项式核函数
- 镜像基核函数(高斯核)
- SIgmoid核函数
SVM优点:
- 训练好的模型向量机复杂度由向量个数决定,而不是由数据维度决定的
- SVM训练出来的模型完全依赖向量,训练集中所有非支持向量的点都被去除,重复训练过程,结果得到完全一样的模型
- 如果训练得出的支持向量个数比较小,SVM训练出的模型比较容易泛化
纠错输出码:分为编码和解码两个阶段(课后题)
SVM和感知机模型很大的一个区别:由于优化目标不同,造成解的个数不同
第七章 集成学习
重点:集成学习概念、分类
具体算法执行过程在课件上
集成学习不是一种算法,而是一种思想。
基本原理:通过融合多个模型,从不同角度降低模型的方差或偏差。
三种典型集成学习框架:Bagging、Boosting、Stacking
主要包括三个部分:个体的生成方法、个体(基)学习器、结论的集(合)成方法。(其中基学习器可以是同质的弱学习器,也可以是异质的弱学习器,目前同质的应用最为广泛,最多的就是CART决策树和神经网络)
同质个体学习器按照个体学习器之间是否存在依赖关系可分为两类:
- 存在强依赖关系,对之前训练中错误的样本赋以较高的权重值,以提高整体的预测效果。(Boosting算法)
- 不存在强依赖关系,可以并行生成这些个体学习器,并行方法的原理是利用学习器之间的独立性,通过平均可以显著降低错误率(Bagging和Random Forest算法)
根据集成学习的用途不同,结论合成的方法也各不相同
随机森林算法原理(random forest):
- 抽样产生每棵决策树的训练数据集。
- 构造n棵决策树
- 生成随机森林
提升算法原理(Boosting):(说了不考,理解)
从初始训练集训练一个基学习器,然后根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器。如此反复,直至基学习器数量达到事先设定的值n,最后将这n个基学习器进行加权结合。
是一种将弱学习器提升为强学习器的算法。
分成两个阶段:训练阶段、检验阶段
我们的最终目的是学习一个模型使其更加接近这个真实模型(数据集合上将损失最小化)
偏差bias:预测结果和真实值之间的偏差。是用所有可能的训练数据集训练出来的所有模型输出的平均值与真实模型输出值之间的差异
方差variance:多个或多次模型之间的离散差异。
泛化误差可以分解为:偏差、方差、噪声(无法解决,数据质量决定学习上限)
一般来说,简单的模型会有较大的偏差和较小的方差,复杂模型偏差较小而方差较大。
欠拟合:模型不能适配训练样本,有很大的偏差
过拟合:模型很好的适配训练样本,但在测试集上表现很糟,有一个很大的方差
(回顾第一章)
如何解决方差偏差问题?
- 在避免偏差时,尽量选择正确的模型,如非线性问题一直用线性问题解决高偏差难免
- 有了正确模型,还要慎重选择数据集大小,通常越大越好,达到一定程度有一定代表性以后,不能在提升了反而会增加计算量。数据集太小一定不好,模型过拟合,复杂度太高方差就会很大,不同的数据集训练出来的模型变化很大。
- 复杂程度高的模型通常对训练数据有较好的拟合能力
第九章 PCA降维算法
重点:PCA降维算法原理、步骤
主成分分析
不考奇异值分解
- 降维:采用线性或非线性的映射方法,将原高维空间中的数据点映射到低维空间中。
- 通过降维,可以减少冗余信息所造成的误差,提高识别的准确率。此外通过降维可以寻找数据内部本质结构特征。
- 低价的低维数据更方便存储、处理、计算和使用
- 降维能够去除数据噪声、降低算法开销
- 降维还可应用于文本分类和数据压缩等领域
- 降维可以得到原始数据的简化表示以加速后续处理或者改进结果,因此它已成为很多算法数据预处理的重要手段
降维对数据的处理主要包含特征筛选和特征提取
常见降维算法分类:
线性算法:
- 主成分分析(PCA)
- 独立成分分析(ICA)
- 线性判别分析(LDA)
非线性算法:(也称流形学习方法)目标是:从高位采样数据中恢复低维流行结构,不改变数据本身的拓扑特性
- 基于保持全局结构信息
- 关注局部结构信息
PCA:
- 最常用的降维方法,目标是通过某种线性映射,将高维数组映射到低维空间中,并期望所在投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。
- PCA是丢失源数据信息最少的一种线性降维方法,最接近原始数据
- PCA算法目标是求出样本数据的协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向
原理:矩阵的主成分就是协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次第二以此类推。
方差越大,特征的重要程度越高;方差越小,特征的重要程度越低
PCA算法步骤:
- 将原始数据按行组成m行n列的矩阵X
- 将X的每一列(代表一个属性字段)进行零均值化,即减去这一列的均值
- 求出协方差矩阵
- 求出协方差矩阵的特征值即对应的特征向量r
- 将特征向量按对应特征值大小从左到右按列排成矩阵,取前k列组成矩阵p
- 计算降维到k的数据
PCA算法的优点:
- 仅仅需要以方差衡量信息量,不受数据集以外的因素影响
- 各主成分之间正交,可消除原始数据成分间的相互影响的因素
- 计算方法简单,主要运算是特征值分解,易于实现
PCA算法的缺点
- 主成分各特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
- 方差小的非主成分也可能含有对样本信息差异的重要信息,降维丢弃的数据可能对后续数据处理有影响
第十章 聚类算法
重点:K-Means聚类算法
包括度量方法、表达式、优缺点
有监督:数据点有已知的结果
无监督:数据点没有已知的结果
(回顾第一章)
聚类和分类的区别:
- 聚类是将集合划分成由类似的对象组成的多个类的过程(根据数据的相似性将数据划分为多类的过程)
- 聚类分析是研究分类问题的一种统计分析方法
- 聚类要求划分的类未知,一般把它理解为无监督学习(样本无明确标签)。分类算法有训练样本,属于监督学习。(有明确的标签)
利用无标签的数据学习的分布或数据之间的关系称作无监督学习
无监督和监督学习最大区别就是数据有无标签(标签且理解为具体特征、类别)
无监督最常用的场景是聚类和降维
(回顾第一章)
K-Means聚类又称K-均值聚类
聚类:识别数据中未知的结构
降维:使用数据中的结构特征简化数据
聚类是一种无监督的数据挖掘任务
聚类过程中需要计算样本之间的相似程度
评估不同样本间相似性:通常方法就是计算样本之间的距离
聚类要求:
- 生成的簇内部的任意两个对象之间有较高的相似度
- 属于不同簇的两个对象间具有较高的相似度
聚类和分类区别:是否有预先定义的类和样本(标签与否)
常见聚类算法分类
- 划分聚类:大部分基于距离分类(K-Means、K-Medoids、Clarans)
- 密度聚类:基于节点密度的聚类算法。Dbscan、Optics
- 层次聚类:Birch、Cure、Chameleon
- 网格聚类:处理以网格为基本单位。Sting、Clique、Wave-cluster
聚类算法中存在的问题:
- 高维数据集中存在大量无关的属性,所有维中存在簇的可能性几乎为0
- 高维空间中数据较低维空间中数据分布稀疏,其中数据间距离几乎相等很普遍
- 高位聚类分析已成为聚类分析重点研究方向,也是聚类技术难点。数据收集变得越来越容易,导致数据库规模越来越大复杂性越来越高。
距离度量:
大部分聚类分析是以相似性计算为基础,同一个聚类中的个体模式相似,在不同一聚类中的个体模式则相异。
以下是一些概念结合课件:
闵可夫斯基距离
欧氏距离
曼哈顿距离
切比雪夫距离
皮尔逊相关系数
余弦相似度
杰卡德相似系数
K-Means算法
基于距离的聚类算法
以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低
处理过程:
- 随机选k个点作为初始距离的聚类中心
- 对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇
- 对每个簇,计算所有的点的均值作为新的聚类中心
- 重复2、3直到聚类中心不再发生变化
基本概念:
- 要想得到簇的个数,需要指定k值
- 质心:均值,即向量各维取平均即可
- 距离的度量:常用欧几里得距离和余弦相似度(先标准化)
聚类评价指标:(结合课件)
Inertia(簇内平方和)
- 每个数据点x距其聚簇中心C的距离平方和
- 值越小表示聚簇越紧密
轮廓系数
- 对每个数据点计算一个轮廓系数
- a=此数据点到同簇中所有其他点的平均距离----凝聚度
- b=此数据点到最近簇中所有其他点的平均距离----分离度
- 将所有数据点的轮廓系数取平均值就得到一个总的评分
- 取值在[-1,1]之间,值越大聚类效果越好
K-Means算法优点:
- 算法简单,易于理解
- 对球形簇样本聚类效果好
- 二分k均值等变种算法运行良好,不受初始化问题的影响
缺点:
- 不能处理非球形簇、不同尺寸和不同密度的簇
- 对离群点、噪声敏感
第十一章 神经网路和深度学习
重点:神经网络的区别、优缺点
深度学习函数、区别、图像
损失函数
卷积神经网络
(该章占比较高!!还需要结合课本和课件理解记忆)
BP神经网络
卷积神经网络
人工神经网络:随机初始化输入参数,并开启循环计算输出结果,与实际结果进行比较从而得到损失函数,并更新变量是损失函数的结果值极小,到达误差阈值即可停止循环
神经网络训练的目的是希望能学习到下一个模型,实现一个期望的目标值。学习的方式是在外界输入样本的刺激下不断改变网络的连接权值
- 前馈神经网络将神经元分层排列,分别是输入层、中间层、输出层。按层数不同划分为单层前馈神经网络、多层神经反馈网络。感知机、BP网络、RBF网络
- 反馈神经网络每个神经元同时将自身的输出信号作为输入信号反馈给其他神经元,Hopfield神经网络是其中最简单且广泛应用的模型。
- 自组织神经网络是无导师学习网络通常采用竞争原则进行网络学习
前馈神经网络是一种单向多层的网络结构,即信息从输入层开始,逐层向一个方向传递,一直到输出层结束。
所谓“前馈”是指输出信号的传播方向为前方,此过程并不调整各层的权值参数,而反传播是将误差逐层向后传递,从而实现使用权值参数对特征的记忆,即通过反向传播(BP)算法来计算各层网络中神经元之间边的权重。
误差反向传播算法:是一种按照误差逆向传播算法训练的多层神经网络
BP神经网络的基本思想是梯度下降算法,利用梯度搜索,以期使网络的实际输出值和期望输出值的误差均方差最小。
BP神经网络的核心思想是由后层误差推到前层误差,一层一层反传最后获得各层的误差估计,从而得到参数的权重值。
算法包括信号的前向传播和误差的反向传播,计算误差输出时,按从输入到输出的方向进行;而调整权值和阈值,按从输出到输入方向进行
反馈神经网络与前馈神经网络相比,前者内部神经元之间有反馈,可用一个无项完全图表示,包括了Hopfield网络、BAM网络、Elman网络。。
自组织神经网络又称kohonen网,特点是当接收到外界信号刺激时,不同区域对信号自动产生不同的响应。
激活函数经常使用Sigmoid函数、tanh函数、ReLu函数
损失函数
第十二章 卷积神经网络(单独分一章其实是第十一章的内容)
- 感知机网络:解决线性可分问题
- BP神经网络:解决线性不可分问题
- 深度神经网络:海量图片分类
常见的深度神经网络:CNN、RNN、LSTM、GRU、GAN、DBN、RBM
深度神经网络应用:
- 计算机视觉
- 语音识别
- 自然语言处理
- 人机博弈
传统机器学习算法:输入--》人工特征提取--》权重学习--》预测结果
深度学习算法:输入--》基础特征提取--》多层复杂特征提取--》权重学习--》预测结果
深度学习优势:具有共享权值的网络结构和局部感知(也成稀疏连接),能够降低网络的运算复杂度,因为减少了权值的数量,并可以直接将图像作为输入进行特征提取,避免了对图像的预处理和显示的特征提取。
BP神经网路缺陷:
- 不能移动
- 不能变形
- 运算量大
解决办法:
- 大量物体位于不同位置的数据训练
- 增加网络隐藏层个数
- 权值共享(不同位置拥有不同权值)
卷积神经网络CNN
生物神经元,所能处理信息的复杂程度被陈伟神经元的感受野,而神经元对信息位置与方向变化不敏感的特性被称为平移不变性,卷积神经网络正是根据生物神经系统的这些特性而提出。
大致过程:卷积、非线性映射、池化、全连接、输出
(卷积可以理解为两个函数来回翻转叠加)
池化主要作用是通过去除输入的 特征图中不重要的信息,使特征图变小,进行特征压缩,进一步减小参数量,且同时提取其中的有效信息。结果是特征减少、参数减少,一定程度上可以避免过拟合。
卷积的目的:从信号或图像中提取特征
全连接层:
- 当抓取到足以识别图片的特征接下来就是分类
- 全连接层(前馈层)可以用来将最后的输出映射到线性可分的空间
- 卷积网络的最后会将末端得到一个长长的向量,并送入全连接层配合输出层进行分类
卷积神经网络主要执行了四个操作
- 卷积
- 非线性
- 池化(或下采样)
- 分类(全连接层)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。