赞
踩
1.关于特征选择
简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有用或最相关的那些特征。它是特征工程的一部分,在机器学习中,我们通常会面临非常多的特征变量,几十个甚至上百个。对于这些特征,一方面全部纳入机器学习算法中会导致计算机开销很大,影响训练效率,另一方面,部分特征并不与预测变量有太大相关,纳入算法中反而会降低模型的准确性,特别是在线性回归、逻辑回归等算法中。
特征选择的好处有:
减少过度拟合:减少冗余数据意味着根据噪声做出决策的机会减少。
提高准确度:减少误导性数据意味着提高建模精度。
缩短训练时间:减少数据意味着算法训练更快。
2.机器学习中的特征选择方案以及Python举例
下面以python的sklearn中自带iris鸢尾花数据集为例,来简单演示一些特征选择的案例以及Python实现。该数据集是个二分类问题,且所有属性都是数字。
(1)单变量选择
我们可以采用统计中的一些检验来选择与输出变量最相关的那些特征。比如以卡方检验来检验与数据集预测变量(类别)的最佳特征。
其基本思想:通过观察实际值和理论值的偏差来确定原假设是否成立。首先假设两个变量是独立的(此为原假设),然后观察实际值和理论值之间的偏差程度,若偏差足够小,则认为偏差是很自然的样本误差,接受原假设。若偏差大到一定程度,则否则原假设,接受备择假设。
在这里采用卡方检验来选择与class关系最强的变量。
import pandas as pd
import numpy as np
from
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。