InsideSherpa虚拟实习-数据分析

作者：知新_RL | 2024-05-02 05:50:13

踩

insidesherpa

Module 1:数据质量评估

Sprocket Central Pty Ltd是一家中等规模的自行车和自行车配件销售公司，该公司拥有与客户相关的大型数据集，但是他们的团队不确定如何有效地对其进行分析以帮助优化其营销策略。客户提供的数据集包括：

Customer Demographic 客户属性表
Customer Addresses 客户地址表
Transactions data in the past 3 months 过去三个月的交易表

技术栈：Excel / Python

Customer Demographic

1、DOB出现了1843-12-21的记录，不符合现实，考虑是由于数据录入错误导致的，将其修改为1943-12-21
2、具有缺失值的列:last_name, job_title, job_industry_category, default, tenure，由于这些列对客户价值分群的影响程度未知，因此暂且忽视缺失值
3、gender列出现意义相同的值，为了方便后续分析，建议将F和Femal修改为Female，将M修改为Male

Customer Addresses

1、与客户属性表相比，缺失一条记录
2、由于客户属性表的ID范围是1~4000，而客户地址表出现了三条ID大于4000的记录，检查是否为录入错误，结合地址信息修正客户ID，并联系客户补充缺失的地址信息
3、state列出现意义相同的值，根据邮编可知，VIC和Victoria同属于一个地区，NSW和New South Wales同属于一个地区，因此将Victoria更新为VIC，将New South Wales修改为NSW

Transactions

1、costomer_id列出现9条ID范围之外的记录，由于数据量较大，因此考虑删除异常记录
2、根据列名，product_first_sold_date应该为时间类型
3、product_id为0的交易订单可以单独成组分析或选择删除，这些记录的brand，poduct_line，product_class，product_size，standard_cost，product_first_sold_date都为空
4、online_order缺失值处理为Unknown

Module 2:数据洞察

Sprocket Central Pty Ltd已向我们提供了1000个潜在客户的新列表，其中包括他们的人口统计和属性。但是这些客户在组织中没有交易记录，现要求根据客户的特征和属性定位高价值客户，并以PowerPoint形式展示。

技术栈：Excel、Python、PowerPoint

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from datetime import datetime
from matplotlib import pyplot as plt

old_customer=pd.read_excel('D:/download/data.xlsx',sheet_name='OldCustomer')
transaction=data_old=pd.read_excel('D:/download/data.xlsx',sheet_name='Transactions (2)')
'''
如果使用python离散化分类型变量
col=['job_title']
model_le = LabelEncoder()  # 建立模型对象
set= model_le.fit_transform(old_customer[col])  # 直接转换
newset=pd.DataFrame(set,columns=col)
old_customer[col]=newset[col]
'''

#相关性分析
print('{:-^60}'.format('Correlation Analyze:'))
short_name = ['id', 'gender', 'p3y', 'age', 'jic', 'ws',
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/522485