当前位置:   article > 正文

a星算法的优缺点_轻松理解机器学习算法:C4.5算法

c4.5和ripper的优缺点
a5ad723d20beee38af8a3c7fe7f57560.png

1、C4.5简介

C4.5算法是Ross Quinlan开发的一种生成决策树的算法。C4.5算法是ID3算法的延伸,由C4.5生成的决策树可以用于分类,因此,C4.5也被称为统计分类器。与ID3算法一样,C4.5算法也使用了信息熵的概念,通过学习数据来建立决策树。Weka机器学习软件的开发者描述C4.5算法为“具有里程碑意义的决策树程序,也可能是机器学习中训练数据的主力”。

C4.5算法针对ID3算法在以下方面进行了改进:

  • 用信息增益比来选择属性;
  • 在决策树的构造过程中对树进行剪枝;
  • 可以处理非离散数据;
  • 可以处理不完整数据。

2、C4.5算法的核心思想

  • 引入悲观剪枝策略进行后剪枝;
  • 引入信息增益率作为划分标准;
  • 将连续特征离散化,假设 n 个样本的连续特征 A 有 m 个取值,C4.5 将其排序并取相邻两样本值的平均数共 m-1 个划分点,分别计算以该划分点作为二元分类点时的信息增益,并选择信息增益最大的点作为该连续特征的二元离散分类点;
  • 对于缺失值的处理采用两种策略:1)对于具有缺失值特征,用没有缺失的样本子集所占比重来折算;2)针对缺失该特征值的样本,将样本同时划分到所有子节点,调整样本的权重值,以不同概率划分到不同节点中。

3、C4.5算法的应用

C4.5算法具有条理清晰,能处理连续型属性,防止过拟合,准确率较高和适用范围广等优点,是一个很有实用价值的决策树算法,可以用来分类,也可以用来回归。C4.5算法在机器学习、知识发现、金融分析、遥感影像分类、生产制造、分子生物学和数据挖掘等领域得到广泛应用。

4、C4.5算法的优缺点

优点

  • 克服了ID3算法通过信息增益来选择属性的不足;
  • 克服ID3算法不能处理连续型数据的缺陷;
  • 解决了ID3算法中可能出现的过拟合问题;
  • 能够处理具有缺失属性值的训练数据;
  • 产生的分类规则易于理解且准确率较高。

缺点

  • 剪枝策略可以进一步优化;
  • C4.5 使用多叉树,效率不高;
  • C4.5 使用的熵模型中涉及大量耗时的对数运算,且连续值还有排序运算,影响计算效率;
  • C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存中的数据集,当训练集较大且内存无法存储时,程序无法运行。

(本文部分内容来自https://www.pianshen.com/article/8949815446/)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/398772
推荐阅读
相关标签
  

闽ICP备14008679号