赞
踩
Sprocket Central Pty Ltd是一家中等规模的自行车和自行车配件销售公司,该公司拥有与客户相关的大型数据集,但是他们的团队不确定如何有效地对其进行分析以帮助优化其营销策略。客户提供的数据集包括:
技术栈:Excel / Python
1、DOB出现了1843-12-21的记录,不符合现实,考虑是由于数据录入错误导致的,将其修改为1943-12-21
2、具有缺失值的列:last_name, job_title, job_industry_category, default, tenure,由于这些列对客户价值分群的影响程度未知,因此暂且忽视缺失值
3、gender列出现意义相同的值,为了方便后续分析,建议将F和Femal修改为Female,将M修改为Male
1、与客户属性表相比,缺失一条记录
2、由于客户属性表的ID范围是1~4000,而客户地址表出现了三条ID大于4000的记录,检查是否为录入错误,结合地址信息修正客户ID,并联系客户补充缺失的地址信息
3、state列出现意义相同的值,根据邮编可知,VIC和Victoria同属于一个地区,NSW和New South Wales同属于一个地区,因此将Victoria更新为VIC,将New South Wales修改为NSW
1、costomer_id列出现9条ID范围之外的记录,由于数据量较大,因此考虑删除异常记录
2、根据列名,product_first_sold_date应该为时间类型
3、product_id为0的交易订单可以单独成组分析或选择删除,这些记录的brand,poduct_line,product_class,product_size,standard_cost,product_first_sold_date都为空
4、online_order缺失值处理为Unknown
Sprocket Central Pty Ltd已向我们提供了1000个潜在客户的新列表,其中包括他们的人口统计和属性。但是这些客户在组织中没有交易记录,现要求根据客户的特征和属性定位高价值客户,并以PowerPoint形式展示。
技术栈:Excel、Python、PowerPoint
import pandas as pd from sklearn.preprocessing import LabelEncoder from datetime import datetime from matplotlib import pyplot as plt old_customer=pd.read_excel('D:/download/data.xlsx',sheet_name='OldCustomer') transaction=data_old=pd.read_excel('D:/download/data.xlsx',sheet_name='Transactions (2)') ''' 如果使用python离散化分类型变量 col=['job_title'] model_le = LabelEncoder() # 建立模型对象 set= model_le.fit_transform(old_customer[col]) # 直接转换 newset=pd.DataFrame(set,columns=col) old_customer[col]=newset[col] ''' #相关性分析 print('{:-^60}'.format('Correlation Analyze:')) short_name = ['id', 'gender', 'p3y', 'age', 'jic', 'ws',
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。