赞
踩
1.特征工程直接影响模型预测结果。python用sklearn库做特征工程
两种文本特征抽取方法(Count, tf-idf)
sklearn.feature_extraction
python调用sklearn.feature_extraction 的DictVectorizer实现字典特征抽取
- # 字典特征抽取
- def dictvec():
- # 特征数据是字符串的话不能输入到算法里面,是要进行特征,转换的转换成OneHot编码。有利于机器学习算法分析。
- # 字典数据抽取,把字典中的一些类别特征,转换乘特征(数字),但是字典里面的数字不会进行转换,因为本来就是数据。
- # 如果是数组形式,有类别的这些特征,我们要先转换成字典,再进行数据抽取。
- # 实例化
- dict = DictVectorizer()
-
- # 返回的data是一个sparse矩阵格式
- # sparse节约内存,方便数据处理
- data = dict.fit_transform([{"city": "北京", 'temperature': 100}, {"city": "上海", 'temperature': 60}, {"city": "深圳", 'temperature': 30}])
-
- print(dict.inverse_transform(data))
- print(data)
- # 返回内容列表
- print(dict.get_feature_names())
#文本数据特种抽取
python调用sklearn.feature_extraction.text 的 CountVectorizer实现文本特征抽取
- # 文本特征抽取
- def countvec():
-
- test = CountVectorizer() # 统计次数
- data = test.fit_transform(["life is is short I like python", "life is too long,I dislike python"])
- # 词去重,放在一个列表中
- print(test.get_feature_names())
- # 返回的是sparse格式,toarray手动转成二元组形式,对每篇文章在词的列表里面统计每个词出现的次数(单个字母不统计)
- print(data.toarray())
-
- # ['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
- # [[0 1 1 1 0 1 1 0]
- # [1 1 1 0 1 1 0 1]]
-
- # 中文特征抽取
- # 中文因为没有像英文一样进行分词,所以在做特征抽取前要先用jieba进行分词
- def cutword():
- # 用jieba分词
- cont1 = jieba.cut("今天很残酷,明天很残酷,后天很美好")
- cont2 = jieba.cut("我们看到的从很远星系来的光是几百万年前发出的")
- cont3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解他")
-
- # 转换成列表
- content1 = list(cont1)
- content2 = list(cont2)
- content3 = list(cont3)
- # print(content3)
- # ['如果', '只用', '一种', '方式', '了解', '某样', '事物', ',', '你', '就', '不会', '真正', '了解', '他']
- # 把列表转换成字符串
- c1 = ' '.join(content1)
- c2 = ' '.join(content2)
- c3 = ' '.join(content3)
- # print(c1)
- # 今天 很 残酷 , 明天 很 残酷 , 后天 很 美好
-
- return c1, c2, c3
-
- def hanzivec():
- test = CountVectorizer()
- c1, c2 ,c3 = cutword()
-
- data = test.fit_transform([c1, c2, c3])
- print(test.get_feature_names())
- print(data.toarray())
注:对英文和中文特征抽取过程是不一样的,因为英文单词与单词之间是有空格的,所以不用进行分词。
但是对于中文,词与词之间是没有空格的,所以需要先用jieba进行分词处理,再做特征抽取。
英文特征抽取结果:
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 2 1 1 0 1 1 0]
[1 1 1 0 1 1 0 1]]
中文特征抽取结果:
['一种', '不会', '了解', '事物', '今天', '光是', '几百万年', '发出', '只用', '后天', '如果', '我们', '方式', '明天', '星系', '某样', '残酷', '看到', '真正', '美好']
[[0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 2 0 0 1]
[0 0 0 0 0 1 1 1 0 0 0 1 0 0 1 0 0 1 0 0]
[1 1 2 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0]]
(2)对于以上用统计每个单词数量的方法来做文章的比较,有一个问题就是,每篇文章假如出现了大量的中性词(所以,因为,如果,那么等等),用统计的方法就不再合适。
Tf:term frequency(词的频率)
idf:inverse document frequency(逆文档频率)
统计词每篇文章出现的次数 * log(总文档数量/该词出现的文档数量)=重要性
举例:
假如有三篇文章c1, c2, c3
“所以”一词出现在两篇文章中,c1出现了5次,c2出现了2次
那么对于第一篇文档TF-IDF就是5*log(3/2)
那么对于第二篇文档TF-IDF就是2*log(3/2)
对于原本出现次数比较多的此压缩了权重
对于原本出现次数比较少的此增加了权重
可以得出每个词对于这篇文章的重要性
具体意思就是如果一些词在一篇文章出现频率较高,在其他文章出现频率较低,那么说明这些词对于这篇文章重要程度较高。而对于一些所有文章都出现的词那么重要程度较低。
from sklearn.feature_extraction.text import TfidfVectorizer
- # TFIDF特征抽取
- def tfidfvec():
- test = TfidfVectorizer()
- c1, c2, c3 = cutword()
- data = test.fit_transform([c1, c2, c3])
- print(test.get_feature_names())
- print(data.toarray())
一共三篇文章,结果是每个词在其所在的文章所占的比重。
sklearn必须导入数值型。不能是字符串(可以导入一维数组)。
所以我们需要对目标值进行处理
- from sklearn.preprocessing import LabelEncoder
-
- #去除最后一列,用LabelEncoder转换成编码(0,1,2)
- data.iloc[:, -1] = LabelEncoder().fit_transform(data.iloc[:, -1])
例如:
有两列特征性别(男,女)、学历(初中,高中,大学)
小明是男生,大学。那么做完独热编码后小明的特征就转换成
1,0,0,0,1
- # 取所有行的第一列到倒数第二列
- X = data.iloc[:, 1:-1]
-
- #auto,自动识别有几类
- enc = OneHotEncoder(categories='auto')
-
- # toarray,将结果转换成一个array数组
- result = enc.fit_transform(X).toarray()
-
- # 将OneHot编码后的结果还原
- pd.DataFrame(enc.inverse_transform(result))
-
- # 换回OneHot编码后的分类对照结果
- # enc.get_feature_names()
- # 所有对列处理的方法传入的数值都不能是一维,要转成二维数组
- X = data_2.ilco[:, 0].values.reshape(-1, 1)
-
- transformer = Binarizer(threshold=30).fit_transform(X)
-
- # 将转换后的0,1数值替换掉原来的列
- data_2.iloc[:, 0] = transformer
- from sklearn.preprocessing import KBinsDiscretizer
-
- # 分成3箱,用独热编码,等宽
- est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。