当前位置:   article > 正文

机器学习面经---SVM_svm面经

svm面经

SVM与Logistic的区别与联系

两者其实只有损失函数的区别。SVM使用的是合页损失,分对的loss为0,分错的loss如下; Logistic分对分错都有损失,采用的是对数损失。
在这里插入图片描述

SVM的处理方法是只考虑分类效果不够好的样本,对于已经分类正确的样本,就不再更新他们了,给他们0损失;逻辑回归希望正样本尽可能的大,副样本尽可能的小,所以就算已经分类正确了,也还是会给分类正确的样本一个损失。

辅导员(SVM)关心的是挂科边缘的人,常常找他们谈话,告诫他们一定得好好学习,不要浪费大好青春,挂科了会拿不到毕业证、学位证等等,相反,对于那些相对优秀或者良好的学生,他们却很少去问,因为辅导员相信他们一定会按部就班的做好分内的事;有的教师(逻辑回归)却不是这样的,他们关心的是班里的整体情况,不管你是60分还是90分,都要给我继续提升。

LR基于概率理论,通过极大似然估计方法估计出参数的值,然后计算分类概率,取概率较大的作为分类结果。SVM基于几何间隔最大化,把最大几何间隔面作为最优分类面。

SVM只考虑分类面附近的局部的点,即支持向量,LR则考虑所有的点,与分类面距离较远的点对结果也起作用,虽然作用较小。

svm与与感知器的联系和优缺点比较

感知机学习算法会因采用的初值不同而得到不同的超平面。而SVM试图寻找一个最佳的超平面来划分数据。感知机简单求解快速,但是无法解决非线性分类问题,svm可以通过引入核技巧来实现非线性分类但是计算复杂度相对于感知机要高。

理解SVM目标函数的由来;理解SVM中核技巧的使用;将目标函数转化成对偶问题的推导(软间隔、硬间隔);为什么要转换成对偶问题求解,求解的权重个数(一系列相关的细节问题);多个角度解释逻辑回归与SVM之间的关系

在这里插入图片描述
最大化几何间隔,因为函数间隔的变化我们总有办法使得w和b同比例变化使其为1或其他数,并且几何间隔不会随着w/b的同比例变化而变化,所以我们在这里把函数间隔记为1。

目标函数:最大化几何间隔
将目标函数转化为对偶函数的求导:L函数其实就是原始函数的整合,加上了一个变量。
在这里插入图片描述
在这里插入图片描述

为什么是maxmin

因为我们的目的是最小化f(w)并在约束条件下,通过L函数可以看出那么如果有变量w违反了原始条件,那么最大化可以得到无穷大,因为这个时候只要让α无穷大就可以了–因为g大于0。所以,只有满足原始条件下 拉格朗日函数才等价于f(w)。因此,这样就确保了我们后面对f的极小化是在原始条件下进行的。----所以最大化可以确保我们的值是约束条件下的,否则就是无穷大了。然后接下来就可以安心极小化了。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

为什么引入对偶函数

因为对偶函数更易求解,并且可以更加容易引入 核函数。
2、高斯核为什么有效?

3、SVM的松弛因子作用
软间隔,使得原来线性不可分问题变为线性可分,部分函数间隔y *(w x + b )无法满足大于1的条件的样本点 加上松弛变量之后,函数间隔可以大于1。因此可以使用线性可分的解法求解。

4、 理解SVM目标函数的由来;理解SVM中核技巧的使用;将目标函数转化成对偶问题的推导(软间隔、硬间隔);为什么要转换成对偶问题求解,求解的权重个数(一系列相关的细节问题);多个角度解释逻辑回归与SVM之间的关系

5、SMO算法
因为如果训练样本的容量很大,那么算法会变得低效。如果解决这个问题呢:就可以通过SMO算法:

SMO是为了解决对偶问题。启发式的算法,基本思路是 如果所有变量的解满足次最优化问题的KKT条件,那么最优化问题的解就得到了。KKT条件是充分必要条件,否则 选择两个变量,固定其他变量,针对这两个变量构建一个二次规划问题,不断将原问题分解为子问题并对子问题进行求解,进而达到求解原问题的目的。

SVM,高斯核实映射到多少维,为什么

KKT条件?

SVM对偶需要满足的条件是?

核函数解决的问题是?

核函数的定义

说点SVM,什么是支持向量?

核函数有哪些?写一下?

4.讲讲svm吧,svm对错分点怎么处理的,svm是什么问题

svm的多分类

  1. SVM优化的目标是啥?问了SVM推导以及拉格朗日对偶法,从数学角度来说明。

  2. 讲一下合页损失函数

  3. SVM当线性不可分的时候怎么办?(楼主答用核函数升维)

  4. 知道哪几种核函数?

  5. 介绍一下高斯核函数

  6. 核函数的作用,核函数为什么有用?从数学角度说明

svm仅仅依靠几个支持向量是什么意思

SVM为什么用hinge loss,解释hinge loss

.svm引入拉格朗日算子之后原问题其实就可以求解,为什么要转换成对偶问题,两者的适用情况分别是什么

为什么高斯核能够拟合无穷维度,因为他可以无穷泰勒展开。

SVM原理,支撑向量越多越好还是越少越好

加大训练数据量一定能提高SVM准确率吗?定义为所有误分类点到超平面的几何距离之和

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/740180
推荐阅读
相关标签
  

闽ICP备14008679号