赞
踩
模式:指需要识别且可测量的对象的描述
2.基本的基于最小错误率的贝叶斯决策规则是什么?
3.最小错误率的贝叶斯决策规则的等价形式有哪些?
4.多类问题中基于最小错误率的贝叶斯决策规则是什么?
例题:
5.基于最小风险的贝叶斯决策规则是什么?
例题:
6. 基于最小错误率的贝叶斯决策与最小风险的贝叶斯决策是什么关系?
7.在正态分布概率模型下,当各类的协方差矩阵相等,并且都是对角阵时,各类的判别函数形式是什么?其分类面有什么特点?各类别的先验概率是否相等对分类面有什么影响?
(1)判别函数
(2)分类面
(3)先验概率对分类面的影响
8.在正态分布概率模型下,当各类的协方差矩阵相等,均值任意,各类的判别函数形式是什么?其分类面有什么特点?各类别的先验概率是否相等对分类面有什么影响?
(1)判别函数
(2)分类面、先验概率
10.参数估计的主要工作是什么?
参数估计中,已知概率密度函数的形式,但其中部分或者全部参数未知,概率密度函数的估计问题就是用样本估计这些参数。
监督参数估计――样本所属类别(标签)已知,样本的类条件概率密度函数的形式已知,但参数未知(例如,已知高斯分布,但参数或未知),即已知规律但未知参数。
非监督参数估计――已知总体概率密度函数的形式,但样本所属类别未知,要求推断出概率密度函数的某些参数,称为非监督参数估计。
11.最大似然估计的基本思想是什么?
从样本中随机抽取n个样本,而模型的参数估计量使得抽取的这n个样本的观测值的概率最大。最大似然估计是一个统计方法,它用来求一个样本集的概率密度函数的参数。
12.什么是似然函数?对数似然函数的形式是什么?
13.贝叶斯估计的基本思想是什么?
是把待估计的参数本身也看作随机变量,然后根据观测数据对参数的分布进行估计。
14.非参数概率密度估计的原理是什么?
15.最大似然估计和贝叶斯估计的区别是什么?
最大似然估计是把待估计的参数当作未知但固定的参数,要做的是根据观测数据估计这个参数的取值;
贝叶斯估计则是把待估计的参数本身也看作随机变量,要做的是根据观测数据对参数的分布进行估计。
16.非参数的概率密度估计的方法有哪些?如何实现?
(1)Parzen窗估计
(2)kN近邻估计
采用一种可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数Kn,即在总样本数为N时我们要求每个小舱内拥有的个数,求在x处的密度估计p(x)时,我们调整包含x的小舱的体积,直到小舱内恰好落入Kn个样本。
17.如何根据训练样本直接设计分类器?思想是什么?
18. 线性判别函数的一般表达式是什么?各个参数有什么含义?
19.Fisher线性判别的基本思想是什么?
20. D维的样本经过投影后得到的是一个什么矢量还是一个标量?为什么?
矢量????
21.Fisher线性判别准则里的两个重要参数是什么?
最佳投影方向W*
22.按照Fisher线性判别准则得到的投影方向和决策面是什么关系?
Fisher判别函数最优的解本身只是给出了一个投影方向,并没有给出我们所关心的分类面,要得到分类面,需要在投影后的方向(一维空间)上确定一个分类阈值w0,过分类阈值并与投影方向垂直的超平面就是决策面。
23.决策面的位置由什么决定?
投影方向W*和分类阈值W0
24.什么是样本的增广化和规范化?
增广化:增加一维
规范化:
25. 在解空间中的解向量应该满足什么条件?
26.感知器准则函数的形式是什么?有什么含义?
27. 梯度下降法求解感知器准则函数的原理是什么?
28.批处理的感知器算法是怎么实现的?
29.单样本修正中的固定增量法和变增量法指的是什么?用变增量法有什么好处?
用变增量发可以根据错分样本改变步长,可以减少迭代次数
在感知器准则中, 要求全部样本是线性可分的 。此时,经 过有限步的迭代梯度下降法就可以收敛到一个解向量a* 。 当样本不是线性可分时,如果仍然使用感知器算法,则算 法不会收敛。
30.最小平方误差判别的准则函数是什么?
这个函数的最小化主要有两类方法:伪逆法求解和梯度下降法求解
①伪逆法求解:Js(a)在机制处对a的梯度应该为0,依次可以得到:
②梯度下降法:
31.widrow-hoff算法的思想是什么?
同样也是梯度下降算法:
32.什么是最优分类超平面?
34.支持向量机的工作原理?
支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。
对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化。
支持向量机中的支持向量是指训练样本集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点。SVM中最优分类标准就是这些点距离分类超平面的距离达到最大值;“机”是机器学习领域对一些算法的统称,常把算法看做一个机器,或者学习函数。
SVM是一种有监督的学习方法,主要针对小样本数据进行学习、分类和预测,类似的根据样本进行学习的方法还有决策树归纳算法等。
35.分段线性判别函数的基本思想是什么?
36. 当各类数据是多峰分布时,如何用基于最小距离的分类方法进行分类?
37.在样本每一类的子类数目已知,但是子类具体的划分情况未知的情况下,如何设计分段线性分类器?
38.当样本每一类的子类数量也无法确定时,如何设计分段线性分类器?
39.在设计二分树线性分类器时,初始权值对结果是否有影响?一般如何确定初始权值?
这种方法对初始权向量的选择很敏感,其结果随初始权向量的不同而大不相同。此外,在每个节点上所用的寻找权向量ai的方法不同,结果也将各异。通常可以选择分属两类的欧氏距离最小的一堆样本,取其垂直平分面的法向量作为a1的初始值,然后求得局部最优就a1*作为第一段超平面的法向量。对包含两类样本的各自类的划分也可以采用同样的方法。
40.二次判别函数确定的决策面是什么曲面?
它确定的决策面是一个超二次曲面,包括超球面、超椭球面、超双曲面等。
41.当两类样本符合正态分布时,
1)如何定义每一类的判别函数?
2)如何确定判别函数中的相关参数?
3)如果是两类问题,其决策面是什么?
4)如果出现错误时,可以采用什么调节方法来减少错误率?
1)每一类的判别函数
2)确定判别函数中的相关参数
3)如果是两类问题,其决策面是什么?
直线,超平面,双曲线等等二次曲面
4)如果出现错误时,可以采用什么调节方法来减少错误率?
通过选择合适的Ki来减少错误率
42.如果一类样本呈现团状分布,另外一类样本均匀分布在其周围时,如何进行决策?决策面是什么形状?
43.使用Parzen窗法进行概率密度函数估计时的方法是什么?(第三章)
计算样本xi是否落到小窗中,定义窗函数,反映了一个观测样本xi对在x处的概率密度估计的贡献,与样本xi与x的距离有关。
44. 非监督模式识别与监督模式识别的区别是什么?
45.非监督模式识别的基本思想是什么?非监督模式识别的方法分为哪两类?
46.聚类的基本思想是什么?
我们认为,所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)聚合为另一类......关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。
47 .动态聚类方法的三个要点是什么?
48.C均值算法的准则函数是什么?
49.C均值算法中确定初始代表点的方法有哪些?
50.C均值算法中如何对样本进行初始分类?
51. C均值算法有什么缺点?
52.K-L变换是如何应用于人脸识别的?
一幅N*N像素的组成的图像就是一个N*N的矩阵,因此一张人脸的图像可以看作是一个特征为N^2维向量的样本。由于维数太高,需要对这些特征进行降维,提取较少的特征来表示所有的样本。用总协方差矩阵作为产生矩阵,用K-L变换对样本进行降维,降到m*m(m代表图片个数)。
53.近邻法的基本思想是什么?
54.最近邻法和k近邻法有什么不同?K的选取有什么要求?
最近邻法是k近邻法的一种特例,K=1时就是最近邻法,k的选取要取奇数。
55. 为提高近邻法的时间效率和空间效率,有什么改进措施?
56.快速搜索近邻法的思想是什么?
57.剪辑近邻法的基本思想是什么?
58. 剪辑近邻法的算法的具体做法是什么?
59.压缩近邻法的基本思想是什么?
61.决策树的分类原理是什么?
62.建立决策树时特征选取的原则是什么?
63.ID3算法选择特征的方法是什么?
66.C4.5算法如何对连续特征进行离散化处理?
67.cart算法建立的决策树的形式是什么?依据什么选择特征?
结构简洁的二叉树。
68.GIni指数怎么计算?
69.为什么要对决策树进行剪枝?
如果一个算法在训练数据上表现很好,但在测试数据或未来的新数据上的表现于在训练数据上差别很大,则我们说这个算法遇到了过学习或者过适应的问题。生成的决策树太大,结点太多,分支过深,导致分类错误率高,因此我们要对决策树进行剪枝
70.决策树有哪些剪枝的方法?
剪枝可以分为两种:先剪枝和后剪枝
71.什么是特征的选择?什么是特征的提取?二者的区别是什么?
特征选择:用计算的方法从一组给定的特征中选择一部分特征进行分类
特征提取:通过适当的变换,把原有的D个特征变成d个特征(d<D).
72. 常用的特征评价判据有哪些?
(1)基于类内类间距离的可分性判据
(2)基于概率分布的可分性判据
(3)基于熵的可分性判据
73.基于类内类间距离的可分性判据的基本思想是什么?(Jd越大,可分性越好)
计算各类特征向量之间的平均距离,考虑两种最简单的情况,可以用两类中任意两两样本间的平均来代表两个类之间的距离。
74.基于概率分布的可分性判据的基本思想是什么?(Jd越大,可分性越好)
用两类分布密度函数间的距离(或重叠程度)来度量可分性,构造基于概率分布的可分性判据。重叠程度反映了概密函数间的相似程度。
75 .基于熵的可分性判据的思想是什么?(Je越小,可分性越好)
在信息论中,熵(Entropy)表示不确定性,熵越大不确定性越大。
76.特征选择的最优算法有哪些?
(1)穷举法
(2)分支定界法
77.分支定界法的基本思想是什么?
79.特征提取的方法有哪两种?
(1)主成分分析PCA算法
(2)K-L变换
80.主成分分析的基本方法是什么?主成分指的是什么?
82.如何确定主成分的数量?
83.主成分分析的步骤有哪些?
84.K-L变换的原理是什么?
85.K-L变换所使用的准则函数是什么?
86.K-L变换的产生矩阵可以是什么形式?
协方差矩阵、自相关矩阵等。
87.K-L变换与PCA有什么区别和联系?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。