赞
踩
一、数据来源、分析目的和思路
1. 数据来源
为了做商品、用户购物行为分析,从阿里云天池搜索获取数据集:
(https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.100073.0.0.30a36fc1OydpSl&dataId=649)
该数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(点击、购买、加购、喜欢),数据集信息如下:
表1 变量信息
编号 | 变量 | 说明 | 数量 |
---|---|---|---|
1 | userid | 用户id | 987,994 |
2 | itemid | 商品id | 4,162,024 |
3 | categoryid | 商品类目id | 9,439 |
4 | type | 行为类型:pv(商品详情页pv,等价于点击)、buy(商品购买)、cart(将商品加入购物车)、fav(收藏商品) | 100,150,807 |
5 | timestamp | 时间戳 | - |
2. 分析目的
网站、商品、用户的购物行为分析。
二、 分析正文
1. 数据清洗
因数据量太大,随机选取了3000个用户的行为日志进行分析。共有304920条行为数据,假定该数据为网站总数据。没有缺失值。为考察异常值,绘制变量5的箱线图如下。
图1 timestamp异常值分析
由图可知t
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。