当前位置:   article > 正文

Python数据分析项目案例

python数据分析项目

第一部分:数据类型处理

  • 数据加载
    • 字段含义:
      • user_id:用户ID
      • order_dt:购买日期
      • order_product:购买产品的数量
      • order_amount:购买金额
  • 观察数据
    • 查看数据的数据类型
    • 数据中是否存储在缺失值
    • 将order_dt转换成时间类型
    • 查看数据的统计描述
    • 在源数据中添加一列表示月份:astype('datetime64[M]')

  1. df = pd.read_csv('./data/CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_dt','order_product','order_amount']) #sep='\s+' 分割间隔 一个或多个空格
  2. df.head()

  1. df.shape
  2. (69659, 4)
  3. #查看数据类型
  4. df.info()
  5. <class 'pandas.core.frame.DataFrame'>
  6. RangeIndex: 69659 entries, 0 to 69658
  7. Data columns (total 4 columns):
  8. user_id 69659 non-null int64
  9. order_dt 69659 non-null int64
  10. order_product 69659 non-null int64
  11. order_amount 69659 non-null float64
  12. dtypes: float64(1), int64(3)
  13. memory usage: 2.1 MB
 
  1. #order_dt转换成时间序列,且加一列为购买商品的月份
  2. df['order_dt'] = pd.to_datetime(df['order_dt'],format="%Y%m%d")
  3. df.head()

  1. df['month'] = df['order_dt'].astype('datetime64[M]')
  2. df.head()

 df.describe()  #对数据源中的数值型数据的描述

第二部分:按月数据分析

  • 用户每月花费的总金额
    • 绘制曲线图展示
  • 所有用户每月的产品购买量
  • 所有用户每月的消费总次数
  • 统计每月的消费人数
  1. #用户每月花费的总金额
  2. df.groupby(by='month')['order_amount'].sum()
  3. month
  4. 1997-01-01 299060.17
  5. 1997-02-01 379590.03
  6. 1997-03-01 393155.27
  7. 1997-04-01 142824.49
  8. 1997-05-01 107933.30
  9. 1997-06-01 108395.87
  10. 1997-07-01 122078.88
  11. 1997-08-01 88367.69
  12. 1997-09-01 81948.80
  13. 1997-10-01
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/148955
推荐阅读
相关标签
  

闽ICP备14008679号