当前位置:   article > 正文

阿里天池:淘宝用户行为分析项目_针对淘宝用户行为分析的价值分析可以用机器学习

针对淘宝用户行为分析的价值分析可以用机器学习

数据来源:阿里天池 - 淘宝用户商品行为数据
(在这里仅选用表名为 “tianchi_mobile_recommend_train_user” 中的数据,用作淘宝用户行为分析)


项目未完待续,持续更新中。。。


一、项目背景

本数据分析报告,以阿里天池的淘宝平台交易数据集为基础,通过行业指标对淘宝用户行为进行分析,从而探索电商行业用户行为模式,并从拉新、留存、促活、转化等多运营维度提出优化建议。

  • 具体指标包括:PV、UV、付费率、复购率、漏斗流失分析、用户价值RFM分析等。
  • 具体分析方法:多维度拆解分析、对比分析、假设检验、复合指标分析等。

二、数据概览

表名:tianchi_mobile_recommend_train_user
包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据。

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品表示 字段脱敏
behavior_type 用户对商品的行为类型 1 浏览、2 收藏、3 加购、4 购买
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为事件 精确到小时

三、分析思路(多维度拆解)

本次分析的目的是提高销量,将采用对比分析、多维度拆解分析、漏斗模型、RFM模型等方法,并从以下四个维度进一步拆解,通过假设检验、复合指标分析等方式,寻找优化切入点,并提出改进建议。
在这里插入图片描述

四、数据清洗

4.1 缺失值处理
missing_count = data.isnull().sum()
missing = missing_count[missing_count>0].sort_values(ascending=False)
missing
  • 1
  • 2
  • 3

[Out] user_geohash 8334824 dtype: int64

缺失值仅有地理位置这一项,而由于该项经过加密处理,可作为机器学习特征,而购买行为做预测,但对于实际行为分析意义不大,因此暂时不考虑该项。

4.2 一致化处理(时间类别)
# 从 time 特征中提取出 date 与 hour,方便在不改变原数据的基础上,得到利于后续分析的时间类别
data['date'] = data['time'].map(lambda x: re.compile(' ').split(x)[0])
data['hour'] = data['time'].map(lambda x: re.compile(' ').split(x)[1])

# 将数据中的 time 与 date 转换为 datetime 类别,将 hour 类别转换为数字类别
data['time'] = pd.to_datetime(data['time'])
data['date'] = pd.to_datetime(data['date'])
data['hour'] = data['hour'].astype('int64')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述

4.3 异常值处理

由于数据多为时间数据、id数据,describe() 得出结果意义不大,因此采用可视化的方式,观察指标。

# behavior_type:查看是否仅有 [1, 2, 3,
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/888961
    推荐阅读
    相关标签
      

    闽ICP备14008679号