赞
踩
用户特征分析不仅仅是数据化运营的的基础,即使是传统行业,只要企业足够关注用户,一定定会进行用户特征分析。
典型业务场景:
单纯从业务方对用户群体的熟悉程度来考虑,可以将用户特征分析拆分成3种分析类型:
RFM
RFM分析方法是指通过影响企业销售和利润的客户行为字段里最重要的三个变量:
在该方法中,3个变量的排列顺序是严格的,有轻重缓急和先后次序,客户新鲜度、客户消费频度、客户消费金额。RFM分析方法首先会将3个字段进行分箱处理,即离散化处理,使之成为类别型变量,然后按照低、中、高三个类别进行组合,会有27种组合,最优质的客户是新鲜度高、消费频度最多、消费金额最大的用户。
聚类技术的应用
如果参与聚类的变量数量较少,为了能够更好的支持用户特征分析的应用,非常有必要在聚类的基础上增加更多的与业务目标和商业备用相关的非聚类变量进行综合考虑。
决策树技术的应用
决策树技术最大的应用优势在于其结论非常直观易懂,容易被人理解。
预测(响应)模型中的核心自变量
如果要使用预测模型的思路和方法,那么要注意模型本身的目标变量与用户特征分析中的业务需求保持一致。
假设检验的应用
通过假设检验来筛选有显著性差异的核心变量,是用户特征分析应用中选择特征字段的一个有效方法。
业务落地应用得到检验,有两类检验:
在效果分析类型的业务场景中,统计技术里的假设检验是应用的最集中、最普遍、最频繁的,并且能够有效提供最终的评判结论。
假设检验应用最密切、最常用的一些技术和方法:
包括T检验、F检验、非参数检验、卡方检验、控制变量的方法和ABtest方法。
在日常生活中,经常会碰到对于总体的一些判断,比如用户群体的活跃度提升是否显著,答案要么是显著、要么是不显著,即是非判断,这两种选择对应的就是两个假设,一个是原假设H0,一个是备选假设H1。
在一次观察或者试验中几乎不可能发现的事情,称之为小概率事件,小概率事件再一次试验中发生的概率被称为显著性水平。
假设检验的基本思想和原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否会发生。如果在一次试验中,小概率发生了,那么说明假设在一定显著性水平下不可靠,因此有理由拒绝原假设,而接受备选假设;如果在一次试验中,小概率事件没有发生,只能说明没有足够的理由相信假设是错误了,但是并不能说明假设是正确的。
上述两类错误在其他条件不变的情况下是相反的,即α增大时,β就减小;α减小时,β就增大。α错误容易受分析人员的控制,因此在假设检验中,通常会先控制第I类错误发生的概率α,具体表现为:在假设检验之前先指定一个α的具体数值,通常取0.05,也可0.1、0.001。
T检验主要用于检验两组样本的均值相等的原假设。在某些场合中,各组观察值是独立的,比如两组测试样本群体,一组是运营组,一组是对照组,运营组的样本是用来进行有针对性的运营活动,而对照组的样本则会刻意避免有针对性的运营活动,前者的独立对比是在两组观察值相互独立的情况下进行的,称为独立组样本的比较,通常采用独立组样本T检验方式,后者的配对比较是在观察值本身进行前后对比,称为配对组样本的比较,通常采用配对组样本T检验方式。
两组独立样本T检验的假设和检验
两组独立样本T检验要求数据符合以下数据符合以下三个条件:
两组独立样本的非参数检验
虽然两组观察值是各自独立的,但是每组观察值不一定来自正态分布的总体,同时两个独立样本组的方差不一定相等,通常采用的方式是Wilcoxon秩和的一种比较两个独立组观察值的非参数检验。
配对差值的T检验
使用配对组差值进行T检验的条件:
配对差值的非参数检验
如果每对观察值与其他观察值相互之间是独立的,但是每组观察值不一定来自正态分布,这个时候就不能采用配对差值的T检验了,而应该使用配对差值的Wilcoxon秩和检验。
当我们的分析不限于两个独立样本组的时候,而是扩展到多个样本组,T检验就不适用了,在这个情况下,就需要进行方差分析(ANOVA)或者F检验。
方差分析是利用样本数据检验两个以上的总体均值是否有差异来进行分析的一种方法,能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的方法。
方差分析满足以下三个前提条件:
根据分析因素的个数不同,方差分析可以分为单因素方差分析和多因素方差分析。
单因素方差分析
单因素方差分析(ANOVA)主要研究单个因素对目标变量的影响,这种方式将通过因素的不同水平对目标变量进行分组计算,得到组间和组内方法,并利用方差比较对分组所形成的总体均值进行比较,从而对各总体均值相等的原假设进行检验。
如果多个样本组的数据不是来自正态分布的总体,或者各样本组的方差不相等,在这些场景中就不能使用方差分析的方法了,而只能采用非参数检验的方法。
卡方检验是一种应用非常广泛的假设检验方法,属于非参数检验的范畴,主要是比较两个和两个以上的样本率,以及对两个分类变量的关联性进行关联分析,其根本思想是比较理论频数和实际频数的吻合程度或者拟合度。
控制变量就是指在分析某个核心因素针对不同群体的运营效果时,为了防止其他因素的干扰,而人为的将考虑到的其他因素,即一些潜在的、重要的、可能影响运营效果的因素进行固话或者排除,从而在一个人为控制的比较单纯的数据中专门分析核心因素的影响。
AB test ,最容易想起的就是他实在网页设计优化中的一种比较策略,同一个功能页面,设计两种不同的页面布局,通过技术手段将两种不同风格的页面设计随机分配给浏览该功能页面的不同访问者,根据随机分配的页面浏览转换效果,来评价不同设计风格的优劣。
AB Test 最基本的含义就是对于一个运营活动的效果进行评价,在使用此方法时,一定要实现把同一类客户群体随机分成A组和B组,一组进行运营,一组不进行运营,这样才能比较合理的评估运营的效果。
使用AB Test方法时的注意点:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。