当前位置:   article > 正文

人工智能基础(二十)特征提取_人工智能特征提取

人工智能特征提取

特征工程----特征提取

1、特征提取
将任意数据 (如文本图像)转换为可用于机器学习的数字特征
2、特征提取分类:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习将介绍 )
3、api
sklearn.feature.extraction
4、字典特征提取
字典特征提取就是对类别数据进行转换
api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
sparse矩阵

  1. 节省内存
  2. 提高读写效率

属性:DictVectorizer.get_feature_names() 返回类别名称
注意:
对于特种当中存在类别信息的我们都会做one-hot编码处理
5、文本特征提取(英文)
api:
sklearn.feature _extraction.text.CoutVectorizer(stop_words=[])
stop_words — 停用词
注意:没有sparse这个参数
单个字母,标点符号不做统计

6、中文文本特征提取
注意:

 1. 在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
 2. 里面依旧可以使用停用词,进行词语的限制
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/911405
推荐阅读
相关标签
  

闽ICP备14008679号