当前位置:   article > 正文

模式识别期末复习问题合集_关于c均值准则函数减少

关于c均值准则函数减少

1.什么是模式?监督模式识别和非监督模式识别的典型过程分别是什么?

模式:指需要识别且可测量的对象的描述

 2.基本的基于最小错误率的贝叶斯决策规则是什么?

3.最小错误率的贝叶斯决策规则的等价形式有哪些?

 4.多类问题中基于最小错误率的贝叶斯决策规则是什么? 

例题:

5.基于最小风险的贝叶斯决策规则是什么?

例题:

 

 6. 基于最小错误率的贝叶斯决策与最小风险的贝叶斯决策是什么关系? 

 7.在正态分布概率模型下,当各类的协方差矩阵相等,并且都是对角阵时,各类的判别函数形式是什么?其分类面有什么特点?各类别的先验概率是否相等对分类面有什么影响?

(1)判别函数

 

(2)分类面

(3)先验概率对分类面的影响

 

8.在正态分布概率模型下,当各类的协方差矩阵相等,均值任意,各类的判别函数形式是什么?其分类面有什么特点?各类别的先验概率是否相等对分类面有什么影响?

(1)判别函数

 

 (2)分类面、先验概率

 10.参数估计的主要工作是什么?

参数估计中,已知概率密度函数的形式,但其中部分或者全部参数未知,概率密度函数的估计问题就是用样本估计这些参数。

监督参数估计――样本所属类别(标签)已知,样本的类条件概率密度函数的形式已知,但参数未知(例如,已知高斯分布,但参数或未知),即已知规律但未知参数。

非监督参数估计――已知总体概率密度函数的形式,但样本所属类别未知,要求推断出概率密度函数的某些参数,称为非监督参数估计。

11.最大似然估计的基本思想是什么?

从样本中随机抽取n个样本,而模型的参数估计量使得抽取的这n个样本的观测值的概率最大。最大似然估计是一个统计方法,它用来求一个样本集的概率密度函数的参数。

 12.什么是似然函数?对数似然函数的形式是什么?

13.贝叶斯估计的基本思想是什么?

是把待估计的参数本身也看作随机变量,然后根据观测数据对参数的分布进行估计。

14.非参数概率密度估计的原理是什么

 

 15.最大似然估计和贝叶斯估计的区别是什么?

最大似然估计是把待估计的参数当作未知但固定的参数,要做的是根据观测数据估计这个参数的取值;
贝叶斯估计则是把待估计的参数本身也看作随机变量,要做的是根据观测数据对参数的分布进行估计。

16.非参数的概率密度估计的方法有哪些?如何实现?

(1)Parzen窗估计

 

 (2)kN近邻估计

采用一种可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数Kn,即在总样本数为N时我们要求每个小舱内拥有的个数,求在x处的密度估计p(x)时,我们调整包含x的小舱的体积,直到小舱内恰好落入Kn个样本。

17.如何根据训练样本直接设计分类器?思想是什么?

 18. 线性判别函数的一般表达式是什么?各个参数有什么含义?

 19.Fisher线性判别的基本思想是什么?

20. D维的样本经过投影后得到的是一个什么矢量还是一个标量?为什么?

矢量????

21.Fisher线性判别准则里的两个重要参数是什么?

最佳投影方向W*

分类阈值w0

 

 22.按照Fisher线性判别准则得到的投影方向和决策面是什么关系?

Fisher判别函数最优的解本身只是给出了一个投影方向,并没有给出我们所关心的分类面,要得到分类面,需要在投影后的方向(一维空间)上确定一个分类阈值w0,过分类阈值并与投影方向垂直的超平面就是决策面。

23.决策面的位置由什么决定?

投影方向W*和分类阈值W0

24.什么是样本的增广化和规范化?

增广化:增加一维

 规范化:

 25. 在解空间中的解向量应该满足什么条件?

 26.感知器准则函数的形式是什么?有什么含义?

 27. 梯度下降法求解感知器准则函数的原理是什么?

 28.批处理的感知器算法是怎么实现的?

 29.单样本修正中的固定增量法和变增量法指的是什么?用变增量法有什么好处?

 

 用变增量发可以根据错分样本改变步长,可以减少迭代次数

在感知器准则中, 要求全部样本是线性可分的 。此时,经 过有限步的迭代梯度下降法就可以收敛到一个解向量a* 。 当样本不是线性可分时,如果仍然使用感知器算法,则算 法不会收敛。

30.最小平方误差判别的准则函数是什么?

 

这个函数的最小化主要有两类方法:伪逆法求解和梯度下降法求解

①伪逆法求解:Js(a)在机制处对a的梯度应该为0,依次可以得到:

 ②梯度下降法:

 31.widrow-hoff算法的思想是什么? 

同样也是梯度下降算法:

 32.什么是最优分类超平面?

最优超平面: 一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面 之间的距离是最大的,则我们把这个超平面称作最优分类超 平面( Optimal Seperating Hyperplane ),简称最优超平 面( Optimal Hyperplane )。两类样本中离分类面最近的样 本到分类面的距离称作 分类间隔 margin ),最优超平面也 称作最大间隔超平面。
32.什么是支持向量?
中间最粗的平面为我们要求的超平面,两边的虚线为支撑平面, 支撑平面上的点就是支持向量,通过放缩超平面的w和b值,使支持向量到超平面的函数距离为1,支持向量是距超平面最近的点,所以其他向量点到超平面的函数距离一定大于等于1。

34.支持向量机的工作原理?

支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。

对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化。

支持向量机中的支持向量是指训练样本集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值;“机”是机器学习领域对一些算法的统称,常把算法看做一个机器,或者学习函数。

SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。

35.分段线性判别函数的基本思想是什么?

 36. 当各类数据是多峰分布时,如何用基于最小距离的分类方法进行分类?

 37.在样本每一类的子类数目已知,但是子类具体的划分情况未知的情况下,如何设计分段线性分类器?

 

 

 38.当样本每一类的子类数量也无法确定时,如何设计分段线性分类器?

 

 39.在设计二分树线性分类器时,初始权值对结果是否有影响?一般如何确定初始权值?

这种方法对初始权向量的选择很敏感,其结果随初始权向量的不同而大不相同。此外,在每个节点上所用的寻找权向量ai的方法不同,结果也将各异。通常可以选择分属两类的欧氏距离最小的一堆样本,取其垂直平分面的法向量作为a1的初始值,然后求得局部最优就a1*作为第一段超平面的法向量。对包含两类样本的各自类的划分也可以采用同样的方法。

40.二次判别函数确定的决策面是什么曲面?

它确定的决策面是一个超二次曲面,包括超球面、超椭球面、超双曲面等。

41.当两类样本符合正态分布时,

1)如何定义每一类的判别函数?

2)如何确定判别函数中的相关参数?

3)如果是两类问题,其决策面是什么?

4)如果出现错误时,可以采用什么调节方法来减少错误率?

1)每一类的判别函数

 2)确定判别函数中的相关参数

 3)如果是两类问题,其决策面是什么?

 直线,超平面,双曲线等等二次曲面

4)如果出现错误时,可以采用什么调节方法来减少错误率?

通过选择合适的Ki来减少错误率

42.如果一类样本呈现团状分布,另外一类样本均匀分布在其周围时,如何进行决策?决策面是什么形状?

 

 

 43.使用Parzen窗法进行概率密度函数估计时的方法是什么?(第三章)

计算样本xi是否落到小窗中,定义窗函数,反映了一个观测样本xi对在x处的概率密度估计的贡献,与样本xi与x的距离有关。

 

 

44. 非监督模式识别与监督模式识别的区别是什么?

 45.非监督模式识别的基本思想是什么?非监督模式识别的方法分为哪两类?

 

 46.聚类的基本思想是什么?

我们认为,所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)聚合为另一类......关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。

47 .动态聚类方法的三个要点是什么?

 48.C均值算法的准则函数是什么?

 49.C均值算法中确定初始代表点的方法有哪些?

 

 

 50.C均值算法中如何对样本进行初始分类?

 51. C均值算法有什么缺点?

52.K-L变换是如何应用于人脸识别的? 

一幅N*N像素的组成的图像就是一个N*N的矩阵,因此一张人脸的图像可以看作是一个特征为N^2维向量的样本。由于维数太高,需要对这些特征进行降维,提取较少的特征来表示所有的样本。用总协方差矩阵作为产生矩阵,用K-L变换对样本进行降维,降到m*m(m代表图片个数)。

53.近邻法的基本思想是什么?

近邻法在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板,用测试样本 与每个模板做比较,看与哪个模板最相似(即为近邻), 就以最近似的模板的类别作为自己的类别。

54.最近邻法和k近邻法有什么不同?K的选取有什么要求?

最近邻法是k近邻法的一种特例,K=1时就是最近邻法,k的选取要取奇数。

55. 为提高近邻法的时间效率和空间效率,有什么改进措施?

 

56.快速搜索近邻法的思想是什么?

 57.剪辑近邻法的基本思想是什么?

58. 剪辑近邻法的算法的具体做法是什么?

 59.压缩近邻法的基本思想是什么?

压缩近邻法压缩样本的思想很简单,它利用现有样本集,逐渐生成一个新的样本集。使该样本集在保留最少量样本的条件下, 仍能对原有样本的全部用最近邻法正确分 类,那末该样本集也就能对待识别样本进行分类, 并保持 正常识别率
60.压缩近邻法的算法的具体做法是什么?

 61.决策树的分类原理是什么?

 62.建立决策树时特征选取的原则是什么?

 63.ID3算法选择特征的方法是什么?

信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来
建立决策树的当前节点。(信息增益最大,那么熵就是最小的)
64.随机森林进行分类的思想是什么?

65.C4.5算法在哪方面有改进?
(1)用信息增益率来选择属性
(2)将连续的特征离散化

66.C4.5算法如何对连续特征进行离散化处理?

67.cart算法建立的决策树的形式是什么?依据什么选择特征? 

结构简洁的二叉树

 68.GIni指数怎么计算?

69.为什么要对决策树进行剪枝?

如果一个算法在训练数据上表现很好,但在测试数据或未来的新数据上的表现于在训练数据上差别很大,则我们说这个算法遇到了过学习或者过适应的问题。生成的决策树太大,结点太多,分支过深,导致分类错误率高,因此我们要对决策树进行剪枝

70.决策树有哪些剪枝的方法?

剪枝可以分为两种:先剪枝后剪枝

 

71.什么是特征的选择?什么是特征的提取?二者的区别是什么?

特征选择:用计算的方法从一组给定的特征中选择一部分特征进行分类

特征提取:通过适当的变换,把原有的D个特征变成d个特征(d<D).

72. 常用的特征评价判据有哪些?

  (1)基于类内类间距离的可分性判据

(2)基于概率分布的可分性判据

(3)基于熵的可分性判据

73.基于类内类间距离的可分性判据的基本思想是什么?(Jd越大,可分性越好)

计算各类特征向量之间的平均距离,考虑两种最简单的情况,可以用两类中任意两两样本间的平均来代表两个类之间的距离。

74.基于概率分布的可分性判据的基本思想是什么?(Jd越大,可分性越好)

用两类分布密度函数间的距离(或重叠程度)来度量可分性,构造基于概率分布的可分性判据。重叠程度反映了概密函数间的相似程度。

75 .基于熵的可分性判据的思想是什么?(Je越小,可分性越好)

在信息论中,熵(Entropy)表示不确定性,熵越大不确定性越大

76.特征选择的最优算法有哪些?

(1)穷举法

(2)分支定界法

77.分支定界法的基本思想是什么?

按照一定的顺序将所有可能的组合排成一棵树,沿树进行搜索,避免一些不必要的计算,使找到最优解的机会最早。
78.特征选择的次优算法有什么?

 

 

 79.特征提取的方法有哪两种?

(1)主成分分析PCA算法

  (2)K-L变换

80.主成分分析的基本方法是什么?主成分指的是什么?

出发点是从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。
m个主成分分别是协方差(相关)矩阵的m个较大的特征值所对应的特征向量。
81.在主成分分析方法中新特征的选择标准是什么?
求特征方程对应的特征根,从大到小进行排序,并选定前m个特征值

82.如何确定主成分的数量?

 83.主成分分析的步骤有哪些?

84.K-L变换的原理是什么?

Uj,j=1,…,d组成了新的特征空间,样本x在这个新空间上的展开系数aj=ujTx,j=1,…,d就组成了样本的新的特征向量。这种 特征提取方法称为K-L变换,其中的矩阵称为K-L变换的产生矩阵.

85.K-L变换所使用的准则函数是什么?

 

 

 86.K-L变换的产生矩阵可以是什么形式?

协方差矩阵、自相关矩阵等。

87.K-L变换与PCA有什么区别和联系?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/430728
推荐阅读
  

闽ICP备14008679号