赞
踩
FeatureHasher 是 Spark MLlib 提供的一种特征转换工具,旨在将类别特征、数值特征等多种类型的数据映射到固定大小的特征向量中。FeatureHasher 与 HashingTF 类似,都是基于哈希技术,但 FeatureHasher 更加通用,支持各种不同类型的数据输入。
FeatureHasher 通过对输入的特征进行哈希化,将它们映射到一个稀疏的特征向量中。它的主要特点是:
• inputCols:指定输入列的列表。可以包含多种类型的列(数值、字符串、布尔值等)。
• outputCol:指定输出列名,这个列将包含哈希化后的特征向量。
• numFeatures:指定输出特征向量的维度,即特征空间的大小。默认值为 2 的 18 次方 (262144)。
• categoricalCols:指定哪些列应该被视为类别特征(可选)。Spark 会将这些列处理为离散值。
Feature
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。