赞
踩
预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待。
预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归。
神经网络是一组互相连接的输入、输出单元,其中每个连接都会与一个权重相关联。在学习阶段,通过调整这些连接的权重就能够预测输入观察值的正确类标号。人工神经网络的结构大致分为两类:前向型网络、反馈型网络。
神经网络通过输入多个非线性模型,以及不同模型之间的加权互联,最终得到一个输出模型,具体来说,多元输入层是指一些自变量,这些自变量通过加权结合到中间的层次,称为隐蔽层(所谓的黑箱部分),隐蔽层主要包含的是非线性函数,也称转换函数或者挤压函数。
利用神经网络模型建模的过程中,有5个重大的影响因素:
大部分神经网络模型的学习过程,都是通过不断地改变权重来使误差达到总误差的最小绝对值。比如,以常见的前向型网络模型为例,其设计原理如下:
神经网络的优势
神经网络的缺点和注意事项
决策树,其建模过程就是一棵树的成长,从树根、树干、树枝、树叶等。在决策树里,所分析的数据样本形成一个树根,经过层层分枝,最终形成若干个结点,每个结点代表一个结论。从决策树的根部到叶结点的一条路径就形成了对相应对象的类别预测。目前最常用的3种决策树算法分别是:CHAID、CART和ID3,包括后来的C4.5,乃至C5.0。
决策树的原理和核心要素
构造决策树采用的是自定向下的贪婪算法,它会在给个结点选择分类效果最好的属性进行分类,然后继续这个过程,直到这棵树能准确的分类训练样本,或者所有的属性被用完。决策树算法的核心是在对每一个结点进行测试后,选择最佳的属性,并且对决策树进行剪枝处理。
最常见的节点属性选择方法标准:有信息增益、信息增益率、Gini指数、卡方检验。
决策树的剪枝处理包括两种形式:先剪枝和后剪枝
CHAID算法又称卡方自动相互关系检测,采用的是局部最优的原则,利用卡方检验来选择对因变量有影响的自变量,首先对所有自变量进行逐一检测,利用卡方检验确定每个自变量和因变量之间的关系,具体来说,就是在检验时,每次从自变量里抽取两个既定值,与因变量进行卡方检验,如果卡方检验显示两者关系不显著,则证明上述两个既定值可以合并,如果合并过程中将会不断减少自变量的取值数量,知道该自变量的所有取值都显现显著性为止,在对每个自变量进行类似处理后,通过比较找出最显著的自变量,并且按自变量最终取值对样本进行分割,形成若干个新的生长节点。
CART算法采用的检验标准是基于Gini系数的,不是卡方检验的,CHAID采用的是局部最优的原则,而CART采用的是总体优化,而且CART所生产的二叉树。
ID 3算法,迭代的二分器,最大的特点在于自变量的挑选标准是基于信息增益度量的,即选择具有最高信息增益的属性作为节点的分裂属性。
决策树的应用优势
决策树的缺点和注意事项
回归分析主要是包括逻辑回归技术和多元线性回归技术。
逻辑回归的原理:当目标变量是二元变量的时候,逻辑回归分析是一个非常成熟的主流模型算法。对于二元的目标变量来说,逻辑回归的目的就是要预测一组自变量数值相对应的因变量是“是”的概率,概率是介于【0,1】之间的,需要用到专门的Sigmoid函数。
**可能性比率(ODDS)**是指一件事情发生的概率除以这件事情不发生的概率后得到的值。
逻辑回归使用的参数估计方法通常是最大似然法,利用最大似然法进行参数估计
对数似然函数。
回归中变量中的筛选方法
逻辑回归的应用优势
逻辑回归技术是最成熟、应用最广泛的。
逻辑回归应用中的注意事项
线性回归是逻辑回归的基础,同时,线性回归也是数据挖掘中常用的处理预测问题的有效方法。线性回归与逻辑回归最大的不同在于目标变量的类型,线性回归所针对的目标变量是区间型的,逻辑回归针对的是类别性的变量。
线性回归模型与逻辑回归模型的区别
线性回归的优势
线性回归应用中的注意事项
模型的过拟合是指模型在训练集离得表现非常令人满意,但是一旦应用到实际的业务场景中,效果会大打折扣。
过拟合产生的原因
从技术层次上解决过拟合
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。