赞
踩
什么是画像呢?可能大家看到过一些外文资料或者演讲中出现过profile一词,其实和画像是一个概念,都是从不同的维度来表达一个人,这些维度可以是事实的,可以是抽象的;可以是自然属性,比如性别、年龄;可以是社会属性,比如职业、社交特征;可以是财富状况,比如是否高收入人群,是否有固定资产;可以是家庭情况,比如是否已经结婚,是否有孩子;可以是购物习惯,比如喜欢网购还是喜欢逛商场;可以是位置特征,比如在哪个城市生活;可以是其他行为习惯。总之,所有大家能想到的描述一个人的特征的都可以算作是画像的范畴,画像其实就是想方设法用数据来描述人的特征。
大家之所以要进行用户画像,就是为了解决业务问题,或者为了拓展一个新用户,或者为了获得一个新订单。想要获得新用户,首先必须知道自己产品定位的用户画像(也就是用户长什么样子,有什么行为特征),而很多产品设计的时候可能由于定位不清晰,对用户的了解不够,导致最后产品上线后效果与预期大相径庭。
这里举一个例子,A银行的电子支付团队计划与Uber公司合作,在春节后以短信推送优惠劵的方式进行营销,选择了多类人群进行投放,其中有“有打车需求且有车”和“有打车需求且无车”两类人群,本以为“有需求且无车”人群的广告触达的营销效果会更好,结果却完全相反,“有需求且有车”人群的广告触达的比例反而最高。这可能映射出无论是开车还是打车,习惯了车反而离不开车。用数据来画像正是帮助企业了解用户和定位产品的最直接的方法。
综上我们可以看到要向更好的解决业务问题,首先必须明确业务目标,而用户画像是帮助企业明确目标客群的重要手段之一。当企业了解了自己的用户都长什么样子以后,接下来的任务就是如何将有类似画像特征人群的潜在用户变成自己的用户,也就是在营销上获新客的过程。所以,从大的框架来看,用户画像承载了两个业务目标:
如果仔细琢磨这两个目标,其实在根源上逻辑是有些相悖的。了解现有用户的画像,需要的是少量、画像特征覆盖度全面的无倾斜的精准样本,这样能更精确的定位产品的用户。而通过画像结果做广告营销获取新用户,在一定程度上需要的是大量的相似样本。量的大小和精准度的不同决定了后续画像模型在应用设计中的不同。
提到用户画像就不得不提到一个词“标签”。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。举个例子,如果一款卖男装的app想在近期做营销,只筛选“男性”和“网络购物”这两个标签进行投放,可能效果并不一定理想。因为“性别(男/女)”可能有多种维度,真实性别男女是一种维度,网络购物特征男女是一种维度,性取向男女可能又是另外一种维度。因为网络的发展,你甚至都不知道网络的另一端是不是一个人,更何况是男女呢。想要正确的设计标签模型和计算处理数据,必须了解画像标签应用的场景和目标。
这完全取决于业务目标(需要什么样的画像标签)和有什么样的原材料(有什么类型的数据源),基于这两样才能确定使用什么样的模型设计和数据计算处理方式。就像做菜一样,要做一顿美味的晚餐,必须知道客户是想吃中餐还是西餐,配菜都有哪些鱼蛋肉和蔬菜,然后才能确定牛肉是红烧还是煎炸。
仍然以性别(男/女)为例,尝试演绎一下刚才的三个场景。
如果业务是征信场景,想知道的是这个人的真实性别(男/女),在没有全量真实数据的前提下可以采取如下的方法来处理,可以选取少量真实样本,使用这些真实样本追加一些特征因子,使用lookalike算法进行样本扩展,将该少数样本特征扩展到大量或者全量数据。当然,这些数据的准确度取决于样本的均衡程度和算法的质量。
如果业务是网络购物的电商场景,我们先不尝试判断真实购买男装的是否是男性(很多已婚人士是妻子负责网购丈夫的装备),仅仅考虑将来该网络账户实体是否会购买男装的角度考虑,需要的是“男装购买倾向”的标签,可以直接基于所有账户实体以往购买记录来计算处理该标签。
如果是业务场景是blued(一款同志交友app)定义的男性又是另外一个特殊群体,基于客户想拓展新客,这里定义的特殊男性群体或许可以定义为“男性同志”标签,而实现该标签可以考虑通过安装了类似同志交友的app人群或者以同志人群经常出现的聚集地进行计算处理。
所以说针对不同的行业,不同的应用场景,需要使用不同的数据源进行不同的标签设计和计算。
要支持以上这些标签的设计和计算,需要多种维度的数据源:
使用这些不同源的数据,我们如何计算处理业务需要的标签呢?一般都会经过如下几步:
一般标签计算无外乎以上过程,以“大学生”标签为例,假如我们需要针对移动终端人群设计一个大学生标签,而我们并没有每个大学生的入学信息和证件信息,我们该如何操作呢。首先进行业务分析,发现大学生的行为特征,一般大学生都会在大学校园内活动比较多,我们可以将全国2000多所高校的位置找到,根据移动终端设备的位置信息来筛选“大学生”人群;另外大学生可能还会使用一些特殊的app比如考研类、四六级、超级课程表等这些特殊app,我们可以通过app进行“大学生”人群的筛选。如果不用算法,就只用规则,我们想找精确的“大学生”人群,可以将位置和app行为两个特征叠加使用;如果我们想要扩展样本进行大规模广告投放,可以考虑含有位置、app行为任意一个特征的人群,同时还可以通过算法进行lookalike的扩展样本学习。注:以上表达的都是数据和标签处理的逻辑过程,实际业务中的数据处理要视具体情况而定。
如何定义画像主体?也可以理解为如何唯一标识一个实体?
如何打通不同源的数据?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。