赞
踩
目录
如果我想获得每次迭代的训练数据和测试数据,会在整个交叉验证过程中记录所有得分达到最高得分的训练集和测试集,并在最后输出这些数据或者索引,怎么办呢?
K折交叉验证(K-fold cross-validation)是一种常用的模型评估技术,用于评估机器学习模型在训练数据上的性能。它将原始数据集分成K个子集,称为折(fold)。然后,模型在K个不同的训练集上进行K次训练和验证,在每次训练中,其中一个折被作为验证集,而剩下的K-1个折被用作训练集。这样就产生了K个模型和对应的K个验证分数。
K折交叉验证的步骤如下:
K折交叉验证的优点包括:
K折交叉验证的缺点包括:
比较不同模型的性能:通过比较不同模型在相同数据集上的性能表现,可以帮助您选择最适合特定任务的模型。通过绘制ROC曲线、计算AUC值、精确度、召回率等指标,可以更全面地评估不同模型的性能优劣。
选择最优训练集和验证集训练模型:K折交叉验证可以帮助您更充分地利用有限的数据集,减少因数据划分不合理而引入的偶然性。通过将数据集分成K个子集,依次将每个子集作为验证集,其余作为训练集,可以得到K个模型,进而对模型性能进行更准确的评估。
超参数调优:通过交叉验证,可以帮助您在训练过程中调整模型的超参数,以提高模型的泛化能力和性能。
防止过拟合:K折交叉验证可以减少过拟合的风险,因为模型在多个不同的训练集上进行训练,有助于更好地泛化到未见过的数据。
评估模型的稳定性:通过多次重复K折交叉验证,可以评估模型在不同数据集上的稳定性,从而更全面地了解模型的性能表现。
综上所述,比较不同模型的性能和K折交叉验证是机器学习中常用的重要技术,除了帮助选择最佳模型和训练集外,还有助于超参数调优、防止过拟合、评估模型稳定性等方面的作用。
如五折交叉验证
在K折交叉验证中,每次模型的训练都是独立于上一次的。在五折交叉验证的过程中,首先将整个数据集平均分成五个部分,然后进行五次训练和测试的迭代。在每一次迭代中,使用其中的一部分数据作为测试集,其余的四部分数据合并起来作为训练集。这样保证了每个样本都有一次机会作为测试集出现,而同时在训练集中则不会出现。
以下是该过程的关键要点:
总的来说,五折交叉验证是一种模型验证技术,它通过重复的训练和测试来评估模型的性能,并尽量减小了数据划分带来的偏差。在实际应用中,这种方法有助于更精确地估计模型在未知数据上的表现。
下面是一个简单的Python代码示例,用于比较KNN(K最近邻)和决策树两种模型在K折交叉验证下的性能表现。
首先加载了鸢尾花数据集,然后初始化了K最近邻(KNN)和决策树两种分类模型。接着使用cross_val_score函数进行5折交叉验证,分别得到KNN和决策树在每次验证中的准确率,最后计算并输出它们的平均准确率。通过比较这两个模型的性能表现,可以帮助我们选择更适合的模型用于实际应用。
- from sklearn.datasets import load_iris
- from sklearn.model_selection import cross_val_score
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.tree import DecisionTreeClassifier
- from sklearn.model_selection import KFold
-
-
- # 加载鸢尾花数据集
- iris = load_iris()
- X = iris.data
- y = iris.target
-
- # 初始化KNN和决策树模型
- knn_model = KNeighborsClassifier()
- dt_model = DecisionTreeClassifier()
-
-
- #将数据集划分为5个折叠,对数据进行洗牌,并设置随机种子为0
- kf = KFold(n_splits=5, shuffle=True, random_state=0)
-
- # 使用5折交叉验证比较两个模型的性能
- knn_scores = cross_val_score(knn_model, X, y, cv=kf)
- dt_scores = cross_val_score(dt_model, X, y, cv=kf)
-
- print("KNN模型准确率:", knn_scores.mean())
- print("决策树模型准确率:", dt_scores.mean())
通过这段代码,可以找到在给定参数网格下,K最近邻模型在鸢尾花数据集上的最佳参数组合以及对应的最佳得分(准确率)。这有助于优化模型的性能和泛化能力。
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.model_selection import GridSearchCV, KFold
- from sklearn.datasets import load_iris
-
- # 加载示例数据集(这里以鸢尾花数据集为例)
- data = load_iris()
- X = data.data
- y = data.target
-
- # 定义K最近邻模型
- knn = KNeighborsClassifier()
-
- # 定义参数网格
- param_grid = {
- 'n_neighbors': [3, 5, 7],
- 'weights': ['uniform', 'distance']
- }
- #weights:指定在预测时如何对邻居的权重进行加权,常见取值有uniform(所有邻居权重相等)和distance(权重与距离成反比)。
-
- # 使用GridSearchCV和KFold进行交叉验证
- kf = KFold(n_splits=5, shuffle=True, random_state=0)
- grid_search = GridSearchCV(knn, param_grid, cv=kf, scoring='accuracy')
- grid_search.fit(X, y)
-
- # 输出最佳参数和最佳得分
- print("最佳参数:", grid_search.best_params_)
- print("最佳得分:", grid_search.best_score_)
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.model_selection import GridSearchCV, KFold
- from sklearn.datasets import load_iris
- from sklearn.model_selection import cross_val_score
-
- # 加载示例数据集(这里以鸢尾花数据集为例)
- data = load_iris()
- X = data.data
- y = data.target
-
- # 定义K最近邻模型
- knn = KNeighborsClassifier(n_neighbors=5,weights="distance")
-
-
- kf = KFold(n_splits=5, shuffle=True, random_state=0)
-
- # 使用cross_val_score进行五折交叉验证
- scores = cross_val_score(knn, X, y, cv=kf)
-
- # 输出每折交叉验证的得分
- print("每折交叉验证得分: ", scores)
-
- # 输出平均得分
- print("平均得分: ", scores.mean())
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.model_selection import KFold
- from sklearn.datasets import load_iris
- import numpy as np
-
- # 加载示例数据集(这里以鸢尾花数据集为例)
- data = load_iris()
- X = data.data
- y = data.target
-
- # 定义K最近邻模型
- knn = KNeighborsClassifier(n_neighbors=5, weights="distance")
-
- kf = KFold(n_splits=5, shuffle=True, random_state=0)
-
- train_data_indices = []
- test_data_indices = []
- scores = [] # 存储每折的得分
- max_score = float('-inf')
- best_train_indices = []
- best_test_indices = []
-
- # 使用KFold的split方法进行五折交叉验证
- i = 1 # 计数器
- for train_index, test_index in kf.split(X):
- train_data_indices.append(train_index)
- test_data_indices.append(test_index)
-
- X_train, X_test = X[train_index], X[test_index]
- y_train, y_test = y[train_index], y[test_index]
-
- # 训练模型
- knn.fit(X_train, y_train)
-
- # 在测试集上评估模型
- score = knn.score(X_test, y_test)
-
- # 存储得分
- scores.append(score)
-
- # 如果得分大于或等于最高得分,则更新最高得分及其对应的训练数据和测试数据
- if score >= max_score:
- if score > max_score:
- best_train_indices = []
- best_test_indices = []
- max_score = score
- best_train_indices.append(train_index)
- best_test_indices.append(test_index)
-
- print("第{}次训练数据索引: ".format(i), train_index)
- print("第{}次测试数据索引: ".format(i), test_index)
- print("得分: ", score)
- print("-----------------------------------------")
-
- i += 1
-
- # 输出每折交叉验证的得分
- print("每折交叉验证得分: ", scores)
-
- # 输出平均得分
- print("平均得分: ", np.mean(scores))
-
- # 输出最高得分对应的训练数据和测试数据索引
- print("最高得分对应的训练数据索引: ", best_train_indices)
- print("最高得分对应的测试数据索引: ", best_test_indices)
-
这段代码实现了使用KFold进行五折交叉验证,并在每一折中训练K最近邻模型,并记录每折的得分。最后输出了每折交叉验证的得分、平均得分以及最高得分对应的训练数据和测试数据索引。
结果如下:
- train_num_sublists = len(best_train_indices)
- print("储存train的列表中包含的子列表数量为:", train_num_sublists)
-
- test_num_sublists = len(best_test_indices)
- print("储存test的列表中包含的子列表数量为:", test_num_sublists)
其中最高得分最应的训练集和测试集一共输出了三组,是因为在五折交叉验证中,第一个flod、第三个flod、第四个flod都得到了最高分1.0
那么我们选择得到最高分中对应的的任意一组测试集和训练集即可,这里我们选第一个fold对应的训练集和测试集。
- X_train, X_test = X[best_train_indices[1]], X[best_test_indices[1]]
- y_train, y_test = y[best_train_indices[1]], y[best_test_indices[1]]
- print(X_train.shape)
- print(X_test.shape)
- print(y_train.shape)
- print(y_test.shape)
使用K折交叉交叉验证后,是不是选择最优模型,然后再依照选择的最优模型,将数据按照比例划分为训练集和测试集,然后将数据将训练集和测试集应用到最优模型上。再K折交叉验证时,是不是并没有拟合模型,所以交叉验证之后并不能进行预测。
交叉验证主要用于模型选择和参数调优,完成后会选择最优模型并在全部训练集上进行训练,最后使用测试集评估模型的泛化能力。交叉验证过程中虽然不直接产出可用于预测的模型,但它是指导我们得到最终可用模型的重要步骤。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。