赞
踩
1、特征提取
将任意数据 (如文本图像)转换为可用于机器学习的数字特征
2、特征提取分类:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习将介绍 )
3、api
sklearn.feature.extraction
4、字典特征提取
字典特征提取就是对类别数据进行转换
api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
sparse矩阵
属性:DictVectorizer.get_feature_names() 返回类别名称
注意:
对于特种当中存在类别信息的我们都会做one-hot编码处理
5、文本特征提取(英文)
api:
sklearn.feature _extraction.text.CoutVectorizer(stop_words=[])
stop_words — 停用词
注意:没有sparse这个参数
单个字母,标点符号不做统计
6、中文文本特征提取
注意:
1. 在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
2. 里面依旧可以使用停用词,进行词语的限制
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。