数据分析：预测汽车违约风险_车辆贷款违约预测

作者：IT小白 | 2024-03-28 19:23:05

踩

车辆贷款违约预测

本文通过分析汽车贷款违约情况，利用多种机器学习模型进行预测。首先，对数据进行预处理，包括处理缺失值、异常值等，然后使用线性回归、决策树、随机森林、支持向量机 (SVM) 和 K-近邻 (KNN) 等模型进行训练和预测。最后，通过绘制 ROC 曲线并计算 AUC 来评估模型的性能。

数据集展示

数据集包含以下特征：

vehicle_year：汽车生产年份
vehicle_make：汽车制造商
tot_rev_line：信用卡总透支额度
...

导入所需库

首先，让我们导入所需的库：


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

数据预处理

在这一部分，我们将对数据进行初步的清洗和预处理，以便进行后续的分析和建模。

导入数据集

我们将使用pandas库来导入数据集，并查看数据的形状和内容：


data = pd.read_csv('data.csv')
data.shape
data.head()

数据初步分析

接下来，我们需要对数据进行初步的分析，找出异常值和空值：


data.describe().T
data.dtypes

根据观察，我们发现application_id和account_number都是唯一的，因此我们只需保留其中一个即可。

划分x与y变量

我们将数据集分为自变量（X）和因变量（Y）：


x_var_list = ['vehicle_year', 'vehicle_make', 'bankruptcy_ind', 'tot_derog', 'tot_tr', 'age_oldest_tr', 'tot_open_tr', 'tot_rev_tr', 'tot_rev_debt', 'tot_rev_line', 'rev_util', 'fico_score', 'purch_price', 'msrp', 'down_pyt', 'loan_term', 'loan_amt', 'ltv', 'tot_income', 'veh_mileage', 'used_ind', 'weight']
data_x = data.loc[:, x_var_list]
data_y = data.loc[:, 'bad_ind']

处理缺失值和异常值

我们将使用不同的方法处理数据中的缺失值和异常值。对于缺失值，需要根据数据的实际分布采取合适的填充方式，例如对于月均收入，由于缺失时客户的违约金和20%的平均违约基本一致，所以可以直接用中位数填充。当然由于缺失的数据较少也可以采用直接丢弃的处理方法。对于破产特征来说，由于属性取值只有两种状态，无法用均值，中位数填充的方式处理，这里用unknown值来替换。

对于其中的异常值，结合实际情况处理数据。例如月均收入存在许多明显过大的数据，计算该属性的理论最大值然后将这些超过理论最大值的异常数据用理论最大值替换。对于汽车制造年份特征而言，数据中“0”“9999”是明显的异常数据，直接用均值填充：

重新划分X与Y变量

在处理完数据中的缺失值和异常值之后，我们将重新划分X与Y变量：


x_var_list = ['tot_derog', 'tot_tr', 'age_oldest_tr', 'tot_open_tr', 'tot_rev_tr', 'tot_rev_debt', 'tot_rev_line', 'rev_util', 'fico_score', 'purch_price', 'msrp', 'down_pyt', 'loan_term', 'loan_amt', 'ltv', 'tot_income', 'veh_mileage', 'used_ind']
data_x = data.loc[:, x_var_list]
data_y = data['bad_ind']

现在，我们已经重新划分了X与Y变量，可以进行接下来的分析。

特征选择

在建立预测模型之前，我们需要确定哪些变量对于预测客户违约的可能性最为重要。为此，我们可以使用特征选择技术来评估每个变量的重要性。


from sklearn.feature_selection import SelectKBest, chi2
 
selector = SelectKBest(chi2, k=10) # 选择最重要的10个特征
selector.fit(data_x, data_y)
scores = selector.scores_
selected_features = selector.get_support(indices=True)
 
selected_x = data_x.iloc[:, selected_features]
print("Selected features:", list(selected_x.columns))

运行上述代码后，我们将得到10个被认为最重要的特征。接下来，我们将使用这些特征来训练和测试我们的预测模型。

模型训练与测试

为了训练和测试我们的预测模型，我们需要将数据集划分为训练集和测试集。这可以通过使用train_test_split函数实现：


from sklearn.model_selection import train_test_split
 
X_train, X_test, y_train, y_test = train_test_split(selected_x, data_y, test_size=0.2, random_state=42)

现在我们已经将数据集划分为训练集和测试集，我们可以选择一个适合的预测模型。在本例中，我们将使用逻辑回归模型：


from sklearn.linear_model import LogisticRegression
 
logreg_model = LogisticRegression(solver='liblinear')
logreg_model.fit(X_train, y_train)

模型训练完成后，我们可以使用测试集评估模型的性能：


from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
 
y_pred = logreg_model.predict(X_test)
 
print("Accuracy score:", accuracy_score(y_test, y_pred))
print("Confusion matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification report:\n", classification_report(y_test, y_pred))