赞
踩
传送门:
本文运用数据挖掘技术对市财政收入进行分析,挖掘其中的隐藏的运行模式,并对未来两年的财政收入进行预测,希望能够帮助政府合理地控制财政收支,优化财政建设,为制定相关决策提供依据。定义数据挖掘目标如下:
本文数据挖掘主要包括以下步骤:
data.csv数据,提取码:1234
表中各属性名称及属性说明:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
for column in data.columns:
fig,ax = plt.subplots(figsize=(4,4))
sns.boxplot(data.loc[:,column],orient='v')
ax.set_xlabel(column)
会展示出每一个变量的箱型图,可直观看到有无异常点
可通过均值、方差、最大值、最小值看出有些数据存在较大变化。
表格里面都是连续型数据,可以通过distplot
来展示连续变量的直方图与连续概率密度估计
# 画直方图与连续概率密度估计
for column in data.columns:
fig,ax = plt.subplots(figsize=(6,6))
sns.distplot(data.loc[:,column],norm_hist=True,bins=20)
可以发现上述变量除了x11外均与y有强相关性,并且这些属性间存在多重共线性,考虑使用Lasso特征选择模型进行特征选择
绘制相关性热力图,直观显示相关性
# 绘制热力图
plt.style.use('ggplot')
sns.set_style('whitegrid')
plt.subplots(figsize=(10,10))
sns.heatmap(data.corr(method='pearson'),
cmap='Reds',
annot=True, # 诸如数据
square=True, # 正方形网格
fmt='.2f', # 字符串格式代码
yticklabels=corr.columns, # 列标签
xticklabels=corr.columns # 行标签
)
很明显可以看出除了x11外均与y有强相关性,并且这些属性间存在多重共线性。
通过上面分析,我们知道数据中没有缺失值、重复值、异常值(数据来源可靠),发现有多重共线性,我们能做的是:利用Lasso特征选择,去除特征间的多重共线性
import pandas as pd
import numpy as np
from sklearn.linear_model import Lasso
data = pd.read_csv(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。