当前位置:   article > 正文

机器学习复习

机器学习复习


https://yoyoyohamapi.gitbooks.io/mit-ml/content/逻辑回归/articles/多分类问题.html

  1. pac overfitting解决,如何从100个特征中选20个特征,有哪些方法
  2. 垃圾短信多分类任务(如何分开发票,广告,商铺信息等),有什么思路
  3. 6现在做的机器学习相关项目
  4. 7是否上过相关公开课,详细说明
  5. 8自己的长处
  6. 9未来工作意向 L1正则和L2正则的区别
  7. 朴素贝叶斯为什么被称为“朴素”?
  8. 请详细介绍一下朴素贝叶斯分类器。
  9. 什么是深度学习?深度学习和机器学习的区别是什么?
  10. 在无监督学习中,如何进行文件聚类?
  11. 如何找到与某些查询语句/搜索相关的文件?
  12. 解释下TF-IDF技术。
  13. 根据我的经验来看,TF-IDF技术在文件分类或聚类上效果并不好,你将如何改进?
  14. 什么是word2vec模型?
  15. 解释下python中的可变对象和不可变对象。
  16. 你在python中使用过什么数据结构?
  17. 解释一下支持向量机(SVM)如何学习非线性边界。
  18. 训练决策树时,其参数是什么?
  19. 在决策树的某个节点处进行分割,其分割标准是什么?
  20. 基尼系数的计算公式是什么?
  21. 熵的计算公式是什么?
  22. 决策树如何决定在哪个特征处必须进行分割?
  23. 如何利用数学计算收集来的信息?
  24. 简述随机森林的优点。
  25. 简述boosting算法。
  26. 梯度提升算法(gradient boosting)是怎样工作的?
  27. 简述AdaBoost算法工作原理。
  28. SVM中用到了哪些内核?SVM的优化技术有哪些?
  29. SVM如何学习超平面?论述下其数学运算细节。
  30. 谈一谈无监督学习?都有哪些算法?
  31. 如何定义K-Means聚类算法中K的值?
  32. 列举至少3中定义K-Means聚类算法中K的方法。
  33. 除此之外你还知道哪些聚类算法?
  34. 介绍一下DB-SCAM算法。
  35. 简述下分层凝聚聚类(Hierarchical Agglomerativeclustering)的工作原理。
  36. 解释一下主成分分析算法(PCA),简述下使用PCA算法的数学步骤。
  37. 20.使用 PCA算法有哪些缺点?
  38. 谈谈卷积神经网络的工作原理?详细说明其实现细节。
  39. 解释一下卷积神经网络中的反向传播。
  40. 你如何部署机器学习模型?
  41. 我们大部分情况下都要用C++从零开始搭建一个机器学习模型,这一点你能做到吗?
  42. 在不平衡数据集中,你会选择什么模型:随机森林还是Boosting?为什么?
  43. 你所了解的Boosting技术有哪些?
  44. 采用监督学习解决分类问题,你会选择哪个模型?假设有 40-50个分类!
  45. 你怎样使用合奏(Ensemble)技术?
  46. 简述支持向量机(SVM)的工作原理。
  47. 什么是Kernel?简单介绍一下。
  48. 如何实现非线性回归?
  49. 什么是Lasso回归和Ridge回归?
  50. Sigmoid 函数的范围是什么?
  51. 说出scikit-learn能够实现逻辑回归的包的名称。
  52. 标准正态分布的均值和方差分别是多少?
  53. 你在Python中都使用什么数据结构?
  54. 文本分类的方法有哪些?你会怎么做分类?
  55. 解释TF-IDF技术及其缺点,如何克服TF-IDF的缺点?
  56. 什么是双词搭配(Bigrams)和三词搭配(Trigrams)?用一个文本语句解释一下双词搭配和三词搭配的TF-IDF技术。
  57. 举例说明word2vec有哪些应用。
  58. 如何设计一个神经网络?如何做到“深度”?这是一个基础的神经网络问题。
  59. 简述LSTM的工作原理。它是如何记住文本的?
  60. 什么是朴素贝叶斯分类器?
  61. 抛10次硬币,4次是正面的概率是多少?
  62. 如何获取Python列表中元素的索引?
  63. 如果合并两个pandas数据集?
  64. 从用户行为来看,你需要模拟一个欺诈活动,你会如何解决这个问题?这是可能是一个异常检测问题或分类问题!
  65. 决策树和随机森林,你更喜欢哪一个?
  66. 逻辑回归和随机森林有什么区别?
  67. 你会用决策树还是随机森林来解决分类问题?随机森林有什么优点?

SVM

Support Vector Machine,希望求得每没类元素最近的距离最远,

  • 训练数据线性可分:硬间隔最大化
  • 训练集近似线性可分:软间隔最大化
  • 线性不可分:和技巧及软间隔最大化
  • 离散集合:核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积
  • 和方法:隐式的从高维的特征空间中学习线性支持向量机。

感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个。线性可分支持向量机利用间隔最大化求解最优分离超平面。

一个点距离分离平面的远近可以表示分类预测的确信程度,在超平面wx+b=0确定的情况下,|wx+b|能够相对的表示点x距离超平面的远近,而wx+b的符号与标记y的符号是否一致能够表示分类是否正确

函数间隔就是y(wx+b),但是随着w的改变,可能平面不变,但是函数间隔会变,因此几何间隔提取出了真正的距离,除以一个权重的值。

逻辑回归是一种分类的方法,主要用于二分类,从训练数据特征学习出一个0/1分类模型,以一个线性组合作为自变量,使用逻辑函数将自变量映射到(0,1)上,LR分类器实际上就是求解一组权值,带入逻辑函数中,得到一个类别为1和类别为0的概率。

可以用梯度下降求解

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/527589
推荐阅读
相关标签
  

闽ICP备14008679号