当前位置:   article > 正文

基于Hive的淘宝用户行为数据分析_基于hive的数据分析课程设计

基于hive的数据分析课程设计

基于Hive的淘宝用户行为数据分析

本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些举措。

一、 数据集介绍

本数据集取至阿里云天池的数据集,数据集名称为User behavior Data from Taobao for Recommendation,数据集包括用户ID,商品ID,商品类目ID,行为类型,时间戳,数据总条目数为100,150,807行。

1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

2、数据集展示:

img

图1-1 原始数据集部分截图

3、数据集介绍:

该数据集共有100,150,807行与5个属性,如表中的userid对应的是用户id,itemid对应的是商品id,categoryid对应的是商品类目ID,type对应的是行为类型,timestamp对应的是时间戳。

表1 淘宝用户数据集各字段说明

数据字段描述
userid用户id
itemid商品id
categoryid商品类目ID
type行为类型
timestamp时间戳

表2 type包含属性各字段说明

数据字段描述
pv商品详情页pv,等价于点击
buy商品购买
cart将商品加入购物车
fav收藏商品

二、 数据预处理

本课题的预处理方式主要是对数据进行数据清洗和数据规约。

(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集的日期范围是2017年11月25日至2017年12月2日,所以剔除这日期以外的数据

(2)数据规约:时间要在2017年11月25日至2017年12月2日

处理后数据集的部分截图如下:

img

图2-1 数据预处理结果(部分数据)

三、数据分析方法

1、分析目标

从用户id属性分析淘宝每日访问量的变化。

从时间属性分析用户在哪些时间、时段活跃。

从商品点击量维度分析热门商品类目有哪些。

统计出前10的热门商品。

2、分析思路与方法

根据数据集的特点,我们可以先从时间维度分析一下用户的一些行为习惯,比如哪个时间段是用户访问高发期,可以统计每天的访问量、每小时的访问量。直接统计商品分类前5名的分类,这样就可以按比例分配资源。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/362102
推荐阅读
相关标签
  

闽ICP备14008679号