赞
踩
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
谢谢平台提供-http://bjbsair.com/2020-04-13/tech-info/65269.html
上一篇:机器学习实战-特征选择之过滤法
上一篇的过滤法,独立的对每个特征与响应变量之间的关系进行了计算,而本篇的嵌入法,则是采用另外一种方式,基于机器学习模型中的方法。
众所周知,类似于回归,SVM,决策树,随即森林等等算法,是可以运用到特征选择的任务中去的,主要是这些算法里面就包含了对特征进行打分的机制。
本篇中主要运用了SelectFromModel来进行特征选择。
本文章节
1、采用L1进行特征选择
2、采用树进行特征选择
这个算法里面,使用L1范数作为惩罚项的线性模型从而得到稀疏解,此时大部分特征对应的系数都是0。这时候我们希望减少特征的数量,从而方便作用与其他分类器的时候,通过sklearn提供的SelectFromModel来进行那些系数不为0的选择。
数据还是刚刚的数据,参考上一篇文章上的数据,我们直接对数据来进行特征选择
从实验截图中,我们可以发现,在经过特征选择后,只剩下3个特征,其他的全部排除掉了,这里面需要注意的一点,针对SVM与逻辑回归,参数C决定了稀疏性,怎么理解这个东西呢?就是C的值越小,被选中的特征越少,证明一下,我们把C改成5试试看。
此时,我们的特征的数量变成8,这里可以根据不同业务需要,对这个C进行取值。
树是什么?怎么说这个东西,如果学过编程,脑补出一个二叉树,有2个分支,每一个分支都有不同条件,每一次选择的时候,根据不同的条件,进入到不同分支,最终达到末梢,这个末梢,就是这个类别。
目前,在sklearn提供了很多树,sklearn.tree模块,sklearn.ensemble模块,这个主要是森林的,像经常见到的随即森林。这些树,就可以帮我们来计算特征的重要程度,根据重要程度来去除不重要的特征。说到这里,是不是有点熟悉,跟上一篇的过滤法里面的,根据重要程度来进行选择,其实万变不离其中,都是识别不重要的东西,然后排除掉。
下面,我们来看一下,在这方面,sklearn是怎么实现的,数据上还是继续采用我们原来的数据。
经过树特征提取,特征数量从13个变成了3个,算是比较简单快捷,不需要做那么多其他操作。
目前,其他算法也有,这里做介绍引入门,剩下的还是需要靠各位同学自行努力去sklearn去寻找适合自己业务的法门,毕竟机器学习的灵活度非常高,而在业务中,特征的变化频率又非常快,这算是需求变化快。
–END–
原创作品,抄袭必究。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。