赞
踩
目录
FeatureHasher与DictVectorizer比较
FeatureHasher类是DictVectorizer和CountVectorizer的低内存替代品(low-memory alternative),用于大规模(在线)学习和内存紧张的情况,例如在嵌入式设备上运行预测代码时。
FeatureHasher类是一个高速、低内存的向量化器,它使用一种称为特征散列或“散列技巧”的技术。
FeatureHasher的实例不像向量化器那样构建训练中遇到的特征的哈希表,而是将哈希函数应用于特征,以直接确定它们在样本矩阵中的列索引。
其结果是提高了速度,减少了内存使用,而牺牲了可检查性和反向性(no inverse function),FeatureHasher不记得输入特征是什么样子的,也没有inverse_transform方法。
# input_type='dict'
- from sklearn.feature_extraction import FeatureHasher
- h = Fe
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。