赞
踩
一.数据来源: https://www.kaggle.com/carrie1/ecommerce-data
数据解释:该数据集是由 Machine Learning Repository 在基于一个英国电商公司从2010年月12月到2011年12月的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是各类经销商。数据集大小:541909行x8列数据集的特征:
InvoiceNo:订单号 C为退货订单
StockCode:商品编号
Description:商品名称/描述
Quantity:商品数量
InvoiceDate:订单日期
UnitPrice:商品单价
CustomerID:用户ID
Country:国家
二.研究目的:
1.购买商品数前10的国家
2.交易额前十的国家
3.哪个月份销量最佳
4.客单价多少
5.用户消费行为分析
三.数据处理
首先添加PYTHON中常用的数据分析库
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import plotly as py
import plotly.graph_objs as go
设定默认路径,打开文档文件,观察数据。
os.chdir(r'C:\Users\Administrator\Desktop\jianli\python') #修改路径
df = pd.read_csv('data.csv') #读取文件
df.head() #展示数据
接下来查看数据的整体情况:
df.info() #查看数据有效值
其中可以看到 Description和CustomerID数据量与其他不同,存在缺失值。我们自定义函数,计算一下缺失率。
df.apply(lambda x : sum(x.isnull())/len(x)) #缺失率
其中CustomerID:用户ID数据缺失较多。另外查看一下退货数据存在多少
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。