赞
踩
数据来源:阿里天池 - 淘宝用户商品行为数据
(在这里仅选用表名为 “tianchi_mobile_recommend_train_user” 中的数据,用作淘宝用户行为分析)
本数据分析报告,以阿里天池的淘宝平台交易数据集为基础,通过行业指标对淘宝用户行为进行分析,从而探索电商行业用户行为模式,并从拉新、留存、促活、转化等多运营维度提出优化建议。
表名:tianchi_mobile_recommend_train_user
包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据。
字段 | 字段说明 | 提取说明 |
---|---|---|
user_id | 用户标识 | 抽样&字段脱敏 |
item_id | 商品表示 | 字段脱敏 |
behavior_type | 用户对商品的行为类型 | 1 浏览、2 收藏、3 加购、4 购买 |
user_geohash | 用户位置的空间标识,可以为空 | 由经纬度通过保密的算法生成 |
item_category | 商品分类标识 | 字段脱敏 |
time | 行为事件 | 精确到小时 |
本次分析的目的是提高销量,将采用对比分析、多维度拆解分析、漏斗模型、RFM模型等方法,并从以下四个维度进一步拆解,通过假设检验、复合指标分析等方式,寻找优化切入点,并提出改进建议。
missing_count = data.isnull().sum()
missing = missing_count[missing_count>0].sort_values(ascending=False)
missing
[Out] user_geohash 8334824 dtype: int64
缺失值仅有地理位置这一项,而由于该项经过加密处理,可作为机器学习特征,而购买行为做预测,但对于实际行为分析意义不大,因此暂时不考虑该项。
# 从 time 特征中提取出 date 与 hour,方便在不改变原数据的基础上,得到利于后续分析的时间类别
data['date'] = data['time'].map(lambda x: re.compile(' ').split(x)[0])
data['hour'] = data['time'].map(lambda x: re.compile(' ').split(x)[1])
# 将数据中的 time 与 date 转换为 datetime 类别,将 hour 类别转换为数字类别
data['time'] = pd.to_datetime(data['time'])
data['date'] = pd.to_datetime(data['date'])
data['hour'] = data['hour'].astype('int64')
由于数据多为时间数据、id数据,describe() 得出结果意义不大,因此采用可视化的方式,观察指标。
# behavior_type:查看是否仅有 [1, 2, 3,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。