当前位置:   article > 正文

python kaggle数据分析实战_适合做数据分析的kaggle数据集csdn

适合做数据分析的kaggle数据集csdn

一.数据来源: https://www.kaggle.com/carrie1/ecommerce-data
数据解释:该数据集是由 Machine Learning Repository 在基于一个英国电商公司从2010年月12月到2011年12月的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是各类经销商。数据集大小:541909行x8列数据集的特征:
InvoiceNo:订单号 C为退货订单
StockCode:商品编号
Description:商品名称/描述
Quantity:商品数量
InvoiceDate:订单日期
UnitPrice:商品单价
CustomerID:用户ID
Country:国家
二.研究目的:
1.购买商品数前10的国家
2.交易额前十的国家
3.哪个月份销量最佳
4.客单价多少
5.用户消费行为分析

三.数据处理
首先添加PYTHON中常用的数据分析库

import numpy as np 
import pandas as pd
import os 
import matplotlib.pyplot as plt
import plotly as py 
import plotly.graph_objs as go
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

设定默认路径,打开文档文件,观察数据。

os.chdir(r'C:\Users\Administrator\Desktop\jianli\python')  #修改路径
df = pd.read_csv('data.csv')  #读取文件
df.head()    #展示数据
  • 1
  • 2
  • 3

在这里插入图片描述
接下来查看数据的整体情况:

df.info()  #查看数据有效值
  • 1

在这里插入图片描述
其中可以看到 Description和CustomerID数据量与其他不同,存在缺失值。我们自定义函数,计算一下缺失率。

df.apply(lambda x : sum(x.isnull())/len(x))  #缺失率
  • 1

在这里插入图片描述
其中CustomerID:用户ID数据缺失较多。另外查看一下退货数据存在多少


                
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/742524
推荐阅读
相关标签
  

闽ICP备14008679号