当前位置:   article > 正文

NLP面试题目16-20_nlp工程师笔试题

nlp工程师笔试题

16.决策树有哪些常用的启发函数?如何对决策树进行剪枝?

引言

  决策树是一种自上向下,对样本数据进行树形分类的过程。结点分为内部结点和叶节点。每个内部结点代表一个特征,叶节点代表类别。从顶部根节点开始,所有样本聚在一起。经过根节点的划分,样本被划分到不同子节点,再根据子节点特征进一步划分,直到所有样本都被归到某一个类别(叶节点)。
  决策树可用于分类与回归问题,应用于集成学习可得到随机森林、GBDT等模型。简单直观、可解释性强。
  决策树的生成过程包含了特征选择、树的构造、树的剪枝三个过程。
  我们既希望决策树能够拟合数据,有良好分类效果。也希望控制复杂度,有一定泛化效果。
  常见决策树算法有ID3、C4.5、CART

ID3----最大信息增益

  所谓的最大信息增益是指选择能够带来最大的信息增益的那个特征
  信息熵是衡量样本集合纯度最常用的方法。
对于样本集合D,类别数为K,其中 C k C_k Ck是D中第k类的样本子集,| C k C_k Ck|是该子集元素个数,|D|表示样本中元素个数。信息熵表示为:
E n t ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ Ent(D) = -\sum_{k=1}^{K}\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|} Ent(D)=k=1KDCklog2DC

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/747359
推荐阅读
相关标签
  

闽ICP备14008679号