赞
踩
摘 要
针对传统的大数据处理框架 Hadoop 在执行计算任务时抽象层次低、运行速度慢、无法实时计算等问题, 提出了一种基于内存的分布式框架 Spark 作为计算引擎的方法。结合 Hadoop 框架中的分布式文件存储 技术,设计了一个电商用户行为分析系统。首先根据数据特点建立用户画像,然后对用户访问行为数据 进行离线分析,计算网站页面转化率以及统计热门商品,最后对实时的广告数据进行分析。测试结果表 明,基于 Spark 框架的电商用户行为分析系统能够明显提升的运行速度与稳定性,增加数据处理效率。
关键词
大数据;spark;用户行为分析;数据处理
引言
随着计算机存储能力的提高和复杂算法的发展,数据体 量呈指数型增长,根据互联网数据中心的统计,到 2025 年 全球的数据量将会上升到 163 ZB[1],中国的数据量会增至 50 ZB。现如今,各网站对用户的争夺变得愈演愈烈,用户行 为分析系统也成为各企业不可或缺的业务。在网络技术普及 速度和电商行业发展趋势愈发迅速的时代,人们已经从实体 经济消费慢慢过渡到通过电商网站来满足购物需求,这也使 得电商网站后台每日产生大量日志数据。网络日志数据中包 含了大量有价值的用户行为信息,用户行为分析系统逐渐成 为互联网行业的转折点。
用户行为分析 ,指的是在获取到后台日志数据的前 提下,通过对相关数据进行统计、分析,挖掘出用户访问网 站时的行为规律和使用偏好,精准的制定出商业产品的定位 以及改善商品推荐策略,以满足使用者个性化的需求,达到 为电商企业提供帮助和支撑的目的。
1 系统设计
考虑到用户行为数据的特点以及互联网企业的需求,本 系统设计了离线数据分析和实时数据流分析两大功能模块。
1.1 离线数据分析模块 在运用 Spark 技术对离线数据进行分析计算的过程中, 本模块主要设计了以下功能:
(1)用户访问行为会话分析 用户访问行为会话(session)实际上指用户首次进入到系统页面后,用户将会被一个唯一的 Session ID 标识,用 户关闭浏览器,或者是长时间未进行一定操作,则意味着这 段 Session 生命周期的结束。电商企业的需求实际上就是获 得特殊用户群体(比如某类职业ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。