赞
踩
无监督学习算法,根据样本之间的相似度将样本分为多个类别。K-Means简单易懂易于实现,但也与生俱来有一些明显的缺陷,比如算法依赖K值的选择、初始点的选择、样本的分布,以及对异常值非常敏感、在大样本数据集上性能较差。K-means的损失函数是求所有数据点与所在簇的中心点的距离之和
是一种广义的线性回归模型,主要用于数据挖掘、疾病自动诊断、经济预测等。常用于二分类场景,通过sigmoid来把输出结果映射为0-1的概率值
逻辑回归的优势最为突出的两点就是其模型简单和模型的可解释性强
是基于贝叶斯定理与特征条件独立假设的分类方法,特点是结合先验假设
和后验概率的,避免出现了先验概率的主观偏见,也避免了单独使用样本信息的过拟合
是一种按监督学习的方式来对数据进行二元分类的广义线性分类器,是N维空间的分类超平面,他将空间切分成两部分,对于二维空间的话,他是一条线,对于三维空间的话,他是一个平面,对于更高维空间,他是超平面
k近邻分类算法是数据挖掘分类计算中最简单的方法之一。K近邻就是k个最近的邻居的意思,每个样本都可以用它最接近的k个近邻值来代表。就是你距离那个邻居近,那么你大概率也属于这个邻居的类
是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。Sigmoid
为什么用交叉熵而不用欧式距离做损失函数:欧式距离不是凸函数;交叉熵是凸函数;凸函数问题求解方便。
是一种树形结构,本质是一颗由多个判断结点组成的数,可以解决分类问题和回归问题。结点挂的样本类别都是同一个类别的、或者结点只有一个样本的时候才算决策树构建完毕
是一个包含多个决策树的分类器,训练多个弱学习器集成在一块来进行预测,多个弱学习器来进行平权投票,得到最终的结果。但是如果出现过拟合的话容易出现互相遏制
极端梯度提升树,在树深为0的时候开始分裂,每次分裂后形成两个叶子结点,新分裂一个结点后,需要检测这次分裂是否会给损失函数带来增益,当树深度到最大深度时会停止分裂,但是深度值设置过大的时候会造成树分的太细,造成过拟合。核心思想:在GBDT的基础上,目标函数增加了正则化项,并且在求解时做了二阶泰勒展开
是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)
是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。是回归树(不是分类树),GBDT用来做回归预测。核心思想:用加法模拟,更准确的说,是多棵决策树来拟合一个目标函数。每一棵决策树拟合的是之前迭代得到的模型的残差。求解时,对目标函数使用一阶泰勒展开,用梯度下降法训练决策树。
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好
1. ID3、C4.5(信息增益、信息增益率):使用多叉树,树过于简单,容易过拟合
2. CART(基尼指数):使用二叉树,树过于复杂,容易过拟合
3. 提升树(残差):多个弱学习器、通过拟合残差(真实值-预测值),提升预测精度
4. GBDT(负梯度):通过拟合损失函数负梯度,提升预测精度
5. XGBoost(自有分裂增益计算方法):通过拟合损失函数的二阶导,拟合精度提升,并在损失函数中考虑了树的复杂度
6. LightGBM(自有分类增益计算方法):通过对 XGBoost 算法多方面的优化,提升训练速度、减少内存占用
1. 通过直方图算法减少待计算的分裂点数量
2. 基于 leaf-wise 的生长策略,减少了树的分裂计算量
3. 支持类别特征提升了训练效率
4. 支持特征、数据维度的并行
准确率是(真正例TP+真反例TN)/(所有的元素)计算出来的
精确率就是查的准不准 所有是 (真正例TP)/(真正例TP+伪正例FP)算出来的
召回率就是 (真正例TP)/ (真正例TP+伪反例FN)
f1值的话是 (2*真正例TP)/(2*真正例TP+伪反例FN +伪正例FP)
图形的话通过浮点图来画这个曲线吧
什么是采样、欠采样、过采样:
采样
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。