赞
踩
本文转自:用户画像实践篇
终于有人把用户画像的流程、方法讲明白了
通过分析用户的基础信息、特征偏好、社会属性等各维度的数据,刻画出用户的信息全貌,
从中挖掘用户价值,从而提供个性化推荐、精准营销等服务。
其核心是给用户打标签,即——将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。
一般我们的目标用户就是一个群体(可以通过一个个的标签来描述这个群体)。
用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。
而将用户的行为数据标签化以后,我们对用户就有了一个直观的认识。
同时计算机也能够理解用户,将用户的行为信息用于个性化推荐、个性化搜索、广告精准投放和智能营销等领域。
对于一个互联网产品,建立完善的用户画像体系,有着重大的战略意义。基于用户画像能够构建一套分析平台,用于产品定位、竞品分析、营收分析等,为产品的方向与决策提供数据支持和事实依据。在产品的运营和优化中,根据用户画像能够深入用户需求,从而设计出更适合用户的产品,提升用户体验。
是最为基础,最为常见的标签类型,构成了用户画像的基础。
例如:对于某个用户来说,其姓名、性别、年龄、地市、活跃时长等,
可以从其注册数据、消费数据中得出。
基于用户的行为以及规则,在实际开发画像的过程中,规则应由运营人员和数据人员共同协商确定。
因为运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉。
通过机器学习挖掘产生,根据用户的行为和规则进行预测和判断。
比如某个用户检查购买卫生巾,可通过这个行为来推出用户性别为女性。
在用户量大、业务复杂的公司,都会花很高的成本构建用户画像体系,在各个业务线上采集数据做分析,不断深入的了解用户才能提供更加精准的服务和多样化的运营策略。
通过现有用户的画像分析,在相关DMP广告平台做投放,重点推荐其平台上具有相关类似标签的用户,
为产品做用户引流,这里用的是相似用户快速扩量的概念。
快速分析新注册用户可能偏向的属性和兴趣偏好,实现服务快速精准推荐,
例如用户注册地所在区域,可以通过该区域用户的通用标签推测该新用户的特征。
根据丰富的用户画像分析,理解用户并提供精准服务或个性化服务。
提供好的服务自然能做到用户的深度沉淀。
这里场景相对偏复杂,通过一个案例描述,
例如在某个平台用手机号A注册,之后该手机号A丢失,换用手机号B之后,通过相关行为去理解用户是否手机号A的用户,
也可以根据同个手机序列识别不同用户或者多个手机序列识别相同用户。
基于精细化的标签和多个场景数据,对用户的沉默程度做快速识别,
基于画像分析制定运营策略进行激活召回减少用户流失。
用户画像的核心工作就是给用户打“标签”,构建用户画像的第一步就是搞清楚需要构建什么样的标签,而构建什么样的标签是由业务需求和数据的实际情况决定的。
用户画像的构建一般可以分为目标分析、标签体系构建、画像构建三步。
用户画像构建的目的不尽相同,有的是实现精准营销,增加产品销量;
有的是进行产品改进,提升用户体验。
明确用户画像的目标是构建用户画像的第一步,也是设计标签体系的基础。目标分析一般可以分为业务目标分析和可用数据分析两步。目标分析的结果有两个:
1. 画像的目标,也就是画像的效果评估标准;
2. 可用于画像的数据。
画像的目标确立要建立在对数据深入分析的基础上,脱离数据制定的画像目标是没有意义的。
对于标签体系的制定,既需要业务知识,也需要大数据知识,
因此在制定标签体系时,最好有本领域的专家和大数据工程师共同参与。
在制定标签体系时,可以参考业界的标签体系,尤其是同行业的标签体系。
用业界已有的成熟方案解决目标业务问题,不仅可以扩充思路,技术可行性也会比较高。
需要注意的是:标签体系不是一成不变的,随着业务的发展,标签体系也会发生变化。 例如电商行业的用户标签,最初只需要消费偏好标签,GPS标签既难以刻画也没有使用场景。但随着智能手机的普及,GPS数据变得易于获取,而且线下营销也越来越注重场景化,因此GPS标签也有了构建的意义。
用户标签的刻画是一个长期的工作,不可能一步到位,需要不断地扩充和优化。
一次性构建中如果数据维度过多,可能会有目标不明确、需求相互冲突、构建效率低等问题,
因此在构建过程中建议将项目进行分期,每一期只构建某一类标签。
画像构建中用到的技术有数据统计、ML和NLP等。
目前主流的标签体系都是层次化的。
首先标签分为几个大类,每个大类再进行逐层细分。
在构建标签时,只需要构建最下层的标签,就能够映射出上面两级标签。
上层标签都是抽象的标签集合,一般没有实用意义,只有统计意义。
例如可以统计有人口属性标签的用户比例,但用户有人口属性标签,这本身对广告投放没有任何意义。
用于广告投放和精准营销的一般是底层标签,对于底层标签有两个要求:
1. 每个标签只能表示一种含义,避免标签之间的重复和冲突,便于计算机处理;
2. 标签必须有一定的语义,方便相关人员理解每个标签的含义。
还需要注意的是:标签粒度太粗会没有区分度,过细又会导致标签体系太过复杂而不具有通用性。
下面列举了各个大类常见的底层标签:
人口标签:性别、年龄、地域、教育水平、出生日期、职业、星座
兴趣特征:兴趣爱好、使用App/网站、浏览/收藏内容、互动内容、品牌偏好、产品偏好
社会特征:婚姻状况、家庭情况、社交/信息渠道偏好
消费特征:收入状况、购买力水平、已购商品、购买渠道偏好、最后购买时间、购买频次
对于构建各类标签的优先级,需要综合考虑业务需求、构建难易程度等。这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系。
基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。
这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。
事实标签的构造过程,也是对数据加深理解的过程。对数据进行统计的同时,不仅完成了数据的处理与加工,也对数据的分布有了一定的了解,为高级标签的构造做好了准备。
模型标签是标签体系的核心(大多数用户标签的核心都是模型标签),也是用户画像中工作量最大的部分。
它的构建大多需要用到ML和NLP技术。
下文主要介绍模型标签的构建过程及具体构造算法。
最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。
只有完成基础标签的构建,才能够构造高级标签。
构建高级标签使用的模型,可以是简单的数据统计模型,也可以是复杂的机器学习模型。
我们把标签分为三类,这三类标签有较大的差异,构建时所用技术的差别也很大。
1. 人口属性:这一类标签比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;
2. 兴趣属性,这类标签随时间变化很快,标签有很强的时效性,标签体系也不固定;
3. 地理属性,这一类标签的时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新,所用的挖掘方法和前面两类也大有不同。
人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等。
这些标签基本是稳定的,构建一次可以很长一段时间不用更新,标签的有效期都在一个月以上。
同时标签体系的划分也比较固定。
很多产品(如QQ、Facebook等)都会引导用户填写基本信息,但完整填写个人信息的用户只占很少一部分。对于无社交属性的产品(如输入法、团购App、视频网站等),用户信息的填充率非常低,有的甚至不足5%。
在这种情况下,一般会用填写了信息的用户作为样本,把用户的行为
数据作为特征训练模型,对无标签的用户进行人口属性的预测。
这种模型把有标签用户的标签传给与他行为相似的用户,
可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。
一个标签扩散模型构建案例: 视频网站性别年龄画像。
某个视频网站希望了解自己的用户组成,于是对用户的性别进行画像。通过数据统计,有大约30%的用户在注册时填写了个人信息,将这30%的用户作为训练集,以构建全量用户的性别画像,所用数据如图所示。
下面来构建特征:
通过分析发现男性和女性对于影片的偏好是有差别的,因此使用用户观看的影片列表预测用户性别有一定的可行性。
此外,还可以考虑用户的观看时间、浏览器、观看时长等,
为了简化,这里只使用用户观看的影片特征。
由于观看影片特征是稀疏特征,所以可以调用MLlib,使用LR、线性SVM等模型进行训练。考虑到注册用户填写的用户信息的准确性不高,所以可以从30%的样本集中提取准确性较高的部分(如用户信息填写较完备的)用于训练,因此整体的训练流程如图所示。
对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。
对于人口属性标签,只要有一定的样本标签数据,并找到能够区分标签类别的用户行为特征,就可以构建标签扩散模型。其中使用的技术方法主要是机器学习中的分类技术(LR、FM、SVM、GBDT等)。
兴趣画像是互联网领域中使用最广泛的画像,互联网广告、个性化推荐、精准营销等领域最核心的标签都是兴趣标签。
兴趣画像主要是从用户海量的行为日志中进行核心信息抽取、标签化和统计,因此在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模。
内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致标签没有区分度。
例如用户在购物网上点击查看了一双“Nike AIR MAX跑步鞋”,如果用单个商品作为粒度,
画像的粒度就过细,结果是只知道用户对“Nike AIR MAX跑步鞋”有兴趣,
在进行商品推荐时,也只能给用户推荐这双鞋;
而如果用大品类作为粒度,如“运动户外”,将无法发现用户的核心需求是买鞋,
从而会给用户推荐所有的运动用品,如乒乓球拍、篮球等,
这样的推荐缺乏准确性,用户的点击率就会很低。
为了保证兴趣画像既有一定的准确性又有较好的泛化性,我们会构建层次化的兴趣标签体系,其中同时用几个粒度的标签去匹配用户兴趣,既保证了标签的准确性,又保证了标签的泛化性。
下面以用户的新闻兴趣画像举例,介绍如何构建层次化的兴趣标签。
新闻兴趣画像的处理难度要比购物兴趣画像困难,购物标签体系基本固定,比如京东页面已经有成熟的三级类目体系,如下图。
1. 内容建模
新闻数据本身是非结构化的,首先需要人工构建一个层次化的标签体系。考虑如图所示的一篇新闻,看看哪些内容可以表示用户的兴趣。
首先,这是一篇体育新闻,体育这个新闻分类可以表示用户兴趣,
但粒度太粗了,因为用户可能只对足球感兴趣,所以体育这个标签就显得不够准确。
其次,可以使用新闻中的关键词,尤其是里面的专有名词(人名、机构名),如“桑切斯”“阿森纳”“厄齐尔”,这些词也表示了用户的兴趣。
关键词的主要问题在于粒度太细,如果某天的新闻里没有这些关键词,就无法给用户推荐内容。
最后,希望有一个中间粒度的标签,既有一定的准确度,又有一定的泛化能力。
于是我们尝试对关键词进行聚类,把一类关键词当成一个标签,或者拆分一个分类下的新闻,
生成像“足球”这种粒度介于关键词和分类之间的主题标签。
我们可以使用文本主题聚类完成主题标签的构建。
至此,就完成了对新闻内容从粗到细的“分类-主题-关键词”三层标签体系的内容建模,新闻的三层标签如表所示。
可能会有疑问,既然主题的准确度和覆盖率都不错,只使用主题不就可以了吗?为什么还要构建分类和关键词这两层标签呢?这么做是为了针对用户进行尽可能精确和全面的内容推荐。
当用户的关键词命中新闻时,显然能够给用户更准确的推荐,这时就不需要再使用主题标签;而对于比较小众的主题(如体育类的冰上运动主题),若当天没有新闻覆盖,就可以根据分类标签进行推荐。层次标签兼顾了刻画用户兴趣的覆盖率和准确性。
2. 兴趣衰减
在完成内容建模以后,就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重。最简单的计数方法是,用户点击一篇新闻,就把用户对该篇新闻的所有标签兴趣值上加1,用户对每个词的兴趣计算使用如下的公式:
score(i+1)=score(i)+ C×weight
其中,词在这次浏览的新闻中出现,则C=1,否则C=0, weight表示词在这篇新闻中的权重。
这样做有两个问题:
1. 用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;
2. 用户的兴趣有很强的时效性,对一篇新闻昨天的点击要比一个月之前的点击重要的多,线性叠加无法突出用户的近期兴趣。
为了解决这个问题,需要对用户兴趣得分进行衰减,可使用如下的方法对兴趣得分进行次数衰减和时间衰减。
次数衰减的公式:
score(i+1)=α×score(i)+ C×weight, 0<α<1
其中,α是衰减因子,每次都对上一次的分数做衰减,最终得分会收敛到一个稳定值,α取0.9时,得分会无限接近10。
时间衰减的公式:
score(day+1)=score(day)×β, 0<β<1
它表示根据时间对兴趣进行衰减,这样做可以保证时间较早期的兴趣会在一段时间以后变得非常弱,同时近期的兴趣会有更大的权重。根据用户兴趣变化的速度、用户活跃度等因素,也可以对兴趣进行周级别、月级别或小时级别的衰减。
地理位置画像一般分为两部分( 常驻地,GPS),这两类画像的差别很大,常驻地画像比较容易构造且标签比较稳定,GPS画像需要实时更新。
1. 常驻地画像
常驻地包括国家、省份、城市三级,一般只细化到城市粒度。
在常驻地挖掘中,对用户的IP地址进行解析,并对应到相应的城市,再对用户IP出现的城市进行统计就可以得到常驻城市标签。
用户的常驻城市标签不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。
2. GPS画像
GPS数据一般从手机端收集,但很多手机App没有获取用户GPS信息的权限。
能够获取用户GPS信息的主要是百度地图、滴滴打车等出行导航类App,此外收集到的用户GPS数据比较稀疏。
百度地图使用该方法并结合时间段数据,构建了用户公司和家的GPS标签。
此外百度地图还基于GPS信息,统计各条路上的车流量,进行路况分析。
人口属性画像的相关指标比较容易评估,而兴趣画像的标签比较模糊,所以人为评估比较困难,对于兴趣画像的常用评估方法是设计小流量的A/B测试进行验证。
可以筛选一部分打了标签的用户,给这部分用户进行和标签相关的推送,看他们对相关内容是否有更好的反馈。
例如,在新闻推荐中,我们给用户构建了兴趣画像,从体育类兴趣用户中选取一小批用户,给他们推送体育类新闻,
如果这批用户对新闻的点击率和阅读时长明显高于平均水平,就说明标签是有效的。
最直接的方法就是:看其提升了多少实际业务。
如在互联网广告投放中,用户画像的使用效果主要看它提升了多少点击率和收入;
在精准营销过程中,主要是看使用用户画像后销量提升了多少等。
但是如果把一个没有经过效果评估的模型直接用在线上,风险是很大的,因此需要一些在上线前可计算的指标来衡量用户画像的质量。用户画像的评估指标主要是准确率、覆盖率、时效性等。
构建好用户画像并做了评估之后,就可以在业务中使用它。对此,一般需要一个可视化平台,对标签进行查看和检索。用户画像的可视化过程中,一般使用饼图、柱状图等对标签的覆盖人数、覆盖比例等指标做形象的展示。
此外,对于所构建的用户画像,还可以使用不同维度的标签,进行高级的组合分析,产出高质量的分析报告。
用户画像可以应用在智能营销、计算广告、个性化推荐等领域,具体的使用方法与应用领域紧密结合,在此不再详细介绍。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。