赞
踩
用户画像就是与该用户相关联的数据的可视化的展现-------------用户信息标签化。
偏技术的定义
用户画像可以简单理解成是海量数据的标签,根据用户的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物原型 (personas)。
整个用户画像(UserProfile)项目中,数据、业务及技术流程图如下所示:
数据源存储在业务系统数据库:MySQL 数据库中
采用SQOOP全量/增量将数据抽取到HDFS(Hive表中)
通过转换为HFile文件加载到HBase表
关系数据库管理系统(Relational Database Management System:RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数据逻辑组织的系统。
eg:Oracle、IBM的DB2和微软的SQL Server。
HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。
我们可以搭建一个用户画像的管理平台,在这个平台上,我们可以按照不同的等级去管理标签,或者定义标签的执行周期,以及计算任务的提交等等操作.
数据来源:
一个是MySQL中的标签规则数据
另一个是HBase中的原始数据
通过SparkSQL对数据进行计算,将最终得到的结果标签存入HBase。
再用ES或者solr做二级索引,方便我们进行数据的查询操作。
HBase是一个高性能、列存储、可伸缩、实时读写的分布式存储系统
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。