1. 可以保证找到最优的参数。 简单易懂、易于实现。
2. 计算量大,当有多个参数需要调整时,时间复杂度将成指数级别增加,导致模型训练时间较长。当参数空间很大时,很难找到最优解。
1. 擅长处理高维、大数据的情况,计算复杂度低,因此速度较快。可以在限定的时间内找到近似的最优解。
2. 可能会错过最优解,因为随机采样的参数可能不够全面,而且这个方法通常需要多次重复,以期找到较为理想的参数组合。随机性较大,因此每次结果可能不一样。
estimator | 需要搜索的模型 |
param_grid | 需要搜索的参数空间,可以是一个字典或一个列表,每个元素都是一个参数字典 |
cv | 交叉验证的折数 |
scoring | 模型评估指标 |
n_jobs | 并行处理的进程数 |
verbose | 详细程度(0、1、2)默认为0,即不输出如何过程 |
1. accuracy(准确率):计算预测值和真实值相同的样本数除以总样本数来衡量分类模型性能。
2. precision(精确度):在所有预测为正例的样本中,实际为正例的样本数量占比。
3. recall(召回率):在所有实际为正例的样本中,预测为正例的样本数量占比。
4. f1:通过计算准确率和召回率的加权平均来衡量分类模型性能。
5. roc_auc(Area Under the Receiver Operating Characteristic curve):通过计算正例样本的真阳性率和负例样本的假阳性率来衡量分类模型性能。
estimator | 需要搜索的模型 |
param_distributions | 需要搜索的参数分布,可以是一个字典 |
n_iter | 随机搜索的次数 |
cv | 交叉验证的折数 |
scoring | 模型评估指标 |
n_jobs | 并行处理的进程数 |
verbose | 详细程度(0、1、2)默认为0,即不输出如何过程 |
- from sklearn.datasets import load_wine
- from sklearn.ensemble import RandomForestClassifier
- from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
- import time
- data = load_wine()
- X, y = data.data, data.target
- # 网格搜索(GridSearch)
- start_time = time.time()
- param_grid = {'n_estimators': [10, 50, 100, 500],
- 'max_depth': [None, 5, 10, 20],
- 'max_features': [3, 5, 8, 'sqrt', 'log2']}
- clf = RandomForestClassifier(random_state=42)
- grid = GridSearchCV(clf, param_grid=param_grid)
- grid.fit(X, y)
- print("Grid Search - Best Score: %0.3f" % grid.best_score_)
- print("Grid Search - Best Parameters: ", grid.best_params_)
- print("Grid Search - Execution Time: %s seconds" % (time.time() - start_time))
- # 随机搜索(RandomizedSearch)
- start_time = time.time()
- param_dist = {'n_estimators': [10, 50, 100, 500],
- 'max_depth': [None, 5, 10, 20],
- 'max_features': [3, 5, 8, 'sqrt', 'log2']}
- clf = RandomForestClassifier(random_state=42)
- random = RandomizedSearchCV(clf, param_distributions=param_dist, n_iter=10)
- random.fit(X, y)
- print("Random Search - Best Score: %0.3f" % random.best_score_)
- print("Random Search - Best Parameters: ", random.best_params_)
- print("Random Search - Execution Time: %s seconds" % (time.time() - start_time))

- Grid Search - Best Score: 0.978
- Grid Search - Best Parameters: {'max_depth': None, 'max_features': 5, 'n_estimators': 500}
- Grid Search - Execution Time: 67.6649899482727 seconds
- Random Search - Best Score: 0.978
- Random Search - Best Parameters: {'n_estimators': 500, 'max_features': 5, 'max_depth': 10}
- Random Search - Execution Time: 18.016382932662964 seconds
设置参数n_jobs = -1并行计算使用时间比较结果如下,可以看到比单进程快了很多。n_jobs默认值为1,表示使用单个CPU核心。如果将其设置为-1,将使用所有可用的CPU核心。 如果使用多个CPU核心进行并行计算,可能会导致内存使用率增加。
- Grid Search - Best Score: 0.978
- Grid Search - Best Parameters: {'max_depth': None, 'max_features': 5, 'n_estimators': 500}
- Grid Search - Execution Time: 28.384050607681274 seconds
- Random Search - Best Score: 0.978
- Random Search - Best Parameters: {'n_estimators': 500, 'max_features': 5, 'max_depth': 10}
- Random Search - Execution Time: 5.21610426902771 seconds
- Fitting 5 folds for each of 80 candidates, totalling 400 fits
- Grid Search - Best Score: 0.978
- Grid Search - Best Parameters: {'max_depth': None, 'max_features': 5, 'n_estimators': 500}
- Grid Search - Execution Time: 35.06308913230896 seconds
- Fitting 5 folds for each of 10 candidates, totalling 50 fits
- Random Search - Best Score: 0.978
- Random Search - Best Parameters: {'n_estimators': 500, 'max_features': 5, 'max_depth': 10}
- Random Search - Execution Time: 6.050998210906982 seconds
- Fitting 5 folds for each of 80 candidates, totalling 400 fits
- [CV] END ....max_depth=None, max_features=3, n_estimators=10; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=10; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=10; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=10; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=10; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=50; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=50; total time= 0.0s
- [CV] END ....max_depth=None, max_features=3, n_estimators=50; total time= 0.1s
