当前位置:   article > 正文

sklearn使用FeatureHasher处理字符串特征_sklearn featurehasher

sklearn featurehasher

sklearn使用FeatureHasher处理字符串特征

目录

sklearn使用FeatureHasher处理字符串特征

FeatureHasher编码字典数据

FeatureHasher编码文本数据

DictVectorizer示例

FeatureHasher与DictVectorizer比较


FeatureHasher类是DictVectorizer和CountVectorizer的低内存替代品(low-memory alternative),用于大规模(在线)学习和内存紧张的情况,例如在嵌入式设备上运行预测代码时。

FeatureHasher类是一个高速、低内存的向量化器,它使用一种称为特征散列或“散列技巧”的技术。
FeatureHasher的实例不像向量化器那样构建训练中遇到的特征的哈希表,而是将哈希函数应用于特征,以直接确定它们在样本矩阵中的列索引。
其结果是提高了速度,减少了内存使用,而牺牲了可检查性和反向性(no inverse function),FeatureHasher不记得输入特征是什么样子的,也没有inverse_transform方法。

FeatureHasher编码字典数据

# input_type='dict'

  1. from sklearn.feature_extraction import FeatureHasher
  2. h = Fe
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/988781
推荐阅读
  

闽ICP备14008679号