翻译自: Multinomial Logistic Regression With Python
【说明:Jason Brownlee PhD大神的文章个人很喜欢,所以闲暇时间里会做一点翻译和学习实践的工作,这里是相应工作的实践记录,希望能帮到有需要的人!】
- 多项式逻辑回归是对多元分类进行逻辑回归的扩展。
- 如何开发和评估多项式Logistic回归并开发最终模型以对新数据进行预测。
- 如何为多项逻辑回归模型调整惩罚超参数。
- 多项式Logistic回归
- 评估多项式Logistic回归模型
- 多项逻辑回归的音调惩罚
- 二项式Logistic回归:标准Logistic回归可预测每个输入示例的二项式概率(即针对两个类别)。
- 多项式Logistic回归:Logistic回归的改进版本,可预测每个输入示例的多项式概率(即两个以上类别)。
在本节中,我们将使用scikit-learn Python机器学习库开发和评估多项逻辑回归模型。首先,我们将定义一个综合的多类分类数据集,以用作调查的基础。 这是一个通用数据集,您以后可以轻松地用自己的已加载数据集替换。
make_classification()函数可用于生成具有给定数量的行,列和类的数据集。 在这种情况下,我们将生成一个包含1,000行,10个输入变量或列以及3个类的数据集。下面的示例生成数据集,并总结数组的形状以及示例在三个类中的分布。
- # test classification dataset
- from collections import Counter
- from sklearn.datasets import make_classification
- # define dataset
- X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, n_classes=3, random_state=1)
- # summarize the dataset
- print(X.shape, y.shape)
- print(Counter(y))
- (1000, 10) (1000,)
- Counter({1: 334, 2: 334, 0: 332})
通过LogisticRegression类在scikit-learn库中支持Logistic回归。通过将“ multi_class”参数设置为“ multinomial”,将“ solver”参数设置为支持多项逻辑回归的求解器(例如“ lbfgs”),可以为LogisticRegression类配置多项逻辑回归。
- # define the multinomial logistic regression model
- model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
多项逻辑回归模型将使用交叉熵损失进行拟合,并将预测每个整数编码的类标签的整数值。既然我们熟悉了多项逻辑回归API,我们可以看看如何在合成的多类分类数据集上评估多项逻辑回归模型。优良作法是使用重复的分层k折交叉验证来评估分类模型。 分层可确保每个交叉验证对折在每个班级中的示例分布与整个训练数据集大致相同。我们将使用10折的三个重复,这是一个很好的默认值,并假设类是平衡的,并使用分类精度评估模型性能。
- # evaluate multinomial logistic regression model
- from numpy import mean
- from numpy import std
- from sklearn.datasets import make_classification
- from sklearn.model_selection import cross_val_score
- from sklearn.model_selection import RepeatedStratifiedKFold
- from sklearn.linear_model import LogisticRegression
- # define dataset
- X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, n_classes=3, random_state=1)
- # define the multinomial logistic regression model
- model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
- # define the model evaluation procedure
- cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
- # evaluate the model and collect the scores
- n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
- # report the model performance
- print('Mean Accuracy: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))
注意:由于算法或评估程序的随机性,或者数值精度不同,您的结果可能会有所不同。 考虑运行该示例几次并比较平均结果。
Mean Accuracy: 0.681 (0.042)
- # make a prediction with a multinomial logistic regression model
- from sklearn.datasets import make_classification
- from sklearn.linear_model import LogisticRegression
- # define dataset
- X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, n_classes=3, random_state=1)
- # define the multinomial logistic regression model
- model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
- # fit the model on the whole dataset
- model.fit(X, y)
- # define a single row of input data
- row = [1.89149379, -0.39847585, 1.63856893, 0.01647165, 1.51892395, -3.52651223, 1.80998823, 0.58810926, -0.02542177, -0.52835426]
- # predict the class label
- yhat = model.predict([row])
- # summarize the predicted class
- print('Predicted Class: %d' % yhat[0])
运行示例首先使模型适合所有可用数据,然后定义一行数据,将数据提供给模型以进行预测。在这种情况下,我们可以看到模型为单行数据预测了类“ 1”。
Predicted Class: 1
- # predict probabilities with a multinomial logistic regression model
- from sklearn.datasets import make_classification
- from sklearn.linear_model import LogisticRegression
- # define dataset
- X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, n_classes=3, random_state=1)
- # define the multinomial logistic regression model
- model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
- # fit the model on the whole dataset
- model.fit(X, y)
- # define a single row of input data
- row = [1.89149379, -0.39847585, 1.63856893, 0.01647165, 1.51892395, -3.52651223, 1.80998823, 0.58810926, -0.02542177, -0.52835426]
- # predict a multinomial probability distribution
- yhat = model.predict_proba([row])
- # summarize the predicted probabilities
- print('Predicted Probabilities: %s' % yhat[0])
注意:由于算法或评估程序的随机性,或者数值精度不同,您的结果可能会有所不同。 考虑运行该示例几次并比较平均结果。
Predicted Probabilities: [0.16470456 0.50297138 0.33232406]
调整多项式逻辑回归的重要超参数是惩罚项。该术语对模型施加压力以寻求较小的模型权重。这是通过将模型系数的加权总和添加到损失函数中来实现的,鼓励模型在拟合模型的同时减小权重的大小以及误差。一种流行的惩罚类型是L2惩罚,它将平方系数的(加权)和加到损失函数中。可以使用系数的加权,以将惩罚的强度从完全惩罚降低到非常小的惩罚。默认情况下,LogisticRegression类使用L2惩罚,系数的权重设置为1.0。惩罚的类型可以通过“惩罚”参数设置为值“ l1”,“ l2”,“ elasticnet”(例如,两者),尽管并非所有求解器都支持所有惩罚类型。可以通过“ C”自变量设置惩罚中系数的权重。
- # define the multinomial logistic regression model with a default penalty
- LogisticRegression(multi_class='multinomial', solver='lbfgs', penalty='l2', C=1.0)
惩罚的加权实际上是逆加权,也许惩罚= 1 –C。
- C:浮点型,默认= 1.0
- 正则强度的倒数; 必须为正浮点数。 与支持向量机一样,较小的值指定更强的正则化。
- 这意味着接近1.0的值表示很少的惩罚,接近零的值表示很强的惩罚。 C值为1.0可能表示完全没有损失。
- C接近1.0:轻微。
- C接近0.0:严厉。
- 可以通过将“ penalty”参数设置为字符串“ none”来禁用惩罚。
- # define the multinomial logistic regression model without a penalty
- LogisticRegression(multi_class='multinomial', solver='lbfgs', penalty='none')
现在我们已经熟悉了惩罚,让我们看一下如何探索不同惩罚值对多项式Logistic回归模型的性能的影响。通常,以对数刻度测试惩罚值,以便快速发现对模型有效的惩罚等级。 一旦发现,进一步调整该规模可能会有所帮助。除了无惩罚或0.0之外,我们还将探索L2惩罚,其权重值的对数范围为0.0001至1.0。下面列出了评估L2惩罚值以进行多项逻辑回归的完整示例。
- # tune regularization for multinomial logistic regression
- from numpy import mean
- from numpy import std
- from sklearn.datasets import make_classification
- from sklearn.model_selection import cross_val_score
- from sklearn.model_selection import RepeatedStratifiedKFold
- from sklearn.linear_model import LogisticRegression
- from matplotlib import pyplot
- # get the dataset
- def get_dataset():
- X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=1, n_classes=3)
- return X, y
- # get a list of models to evaluate
- def get_models():
- models = dict()
- for p in [0.0, 0.0001, 0.001, 0.01, 0.1, 1.0]:
- # create name for model
- key = '%.4f' % p
- # turn off penalty in some cases
- if p == 0.0:
- # no penalty in this case
- models[key] = LogisticRegression(multi_class='multinomial', solver='lbfgs', penalty='none')
- else:
- models[key] = LogisticRegression(multi_class='multinomial', solver='lbfgs', penalty='l2', C=p)
- return models
- # evaluate a give model using cross-validation
- def evaluate_model(model, X, y):
- # define the evaluation procedure
- cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
- # evaluate the model
- scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
- return scores
- # define dataset
- X, y = get_dataset()
- # get the models to evaluate
- models = get_models()
- # evaluate the models and store results
- results, names = list(), list()
- for name, model in models.items():
- # evaluate the model and collect the scores
- scores = evaluate_model(model, X, y)
- # store the results
- results.append(scores)
- names.append(name)
- # summarize progress along the way
- print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))
- # plot model performance for comparison
- pyplot.boxplot(results, labels=names, showmeans=True)
- pyplot.show()
注意:由于算法或评估程序的随机性,或者数值精度的差异,您的结果可能会有所不同。 考虑运行该示例几次并比较平均结果。
- >0.0000 0.777 (0.037)
- >0.0001 0.683 (0.049)
- >0.0010 0.762 (0.044)
- >0.0100 0.775 (0.040)
- >0.1000 0.774 (0.038)
- >1.0000 0.777 (0.037)
