赞
踩
【五分钟机器学习】可视化的决策过程:决策树 Decision Tree
关键词记忆:
纯度
、选择最优特征分裂
、熵
、基尼不准度
、均方误差
决策树是一种常用于分类和回归的监督学习算法。它模拟了人类决策过程的思维方式,通过构建一个树形结构,其中每个内部节点代表一个属性上的判断,每个分支代表该判断的结果,而每个叶节点代表一个预测结果。下面是关于决策树的详细解释,包括其构建过程和常见算法。
随机森林分类时使用
分割数据集:
一旦选择了一个特征,数据集会根据该特征的不同取值被分割成不同的子集。这个过程会递归地在每个子集上重复进行,直到满足停止条件。
递归构建树:
对每个子集应用相同的方法,递归地构建决策树的每个分支,直到达到某个停止条件,例如设置的最大深度、节点中的最小样本数或节点的纯度(比如,所有样本都属于同一类别)。
剪枝:
树构建完成后,为防止过拟合,通常需要对树进行剪枝。剪枝可以通过预剪枝(在构建过程中提前停止树的增长)或后剪枝(删除树的某些部分)来实现。
ID3(Iterative Dichotomiser 3):
C4.5:
CART(Classification and Regression Trees):
随机森林采用的方法
优点:
缺点:
决策树是机器学习中非常基础且强大的模型,常作为许多先进算法(如随机森林、梯度提升树
)的基石。理解其基本原理和操作是掌握更复杂模型的关键。
随机森林通常使用的决策树模型是 CART(Classification and Regression Trees)树。CART 是一种广泛使用的决策树学习技术,它可以用于分类和回归任务。CART 树使用基尼不纯度(Gini impurity)作为在单棵树中用于指导如何进行节点分裂从而构建决策树的默认标准,;均方误差(Mean Squared Error, MSE)或平均绝对误差(Mean Absolute Error, MAE)来处理回归问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。