当前位置:   article > 正文

特征工程中常用编码方式优缺点

特征工程中常用编码方式优缺点

 

## 目标编码

优点:

  • 高维数据特征:具有大量类别的不适用One-hot的特征;

  • 领域经验特征:根在特征度量方面得分很低,但IV比较高的特征。

缺点:

  • 长尾类别有过拟合风险;

  • 空值,未知类别不容易填充;

  • 独热编码-One-Hot Encoding

    优点:

    容易实现

    分类很精确

    可用于在线学习

    缺点:

    计算效率不高

    不能适应可增长的类别

    只适用于线性模型

    对于大数据集,需要大规模的分布式优化

    散列编码-Hash encoding

    优点:

    容易实现

    模型训练成本更低

    容易适应新类别

    容易处理稀有类

    可用于在线学习

    缺点:

    只适合线性模型或核方法

    散列后的特征无法解释

    精确度难以保证

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/350358
推荐阅读
相关标签
  

闽ICP备14008679号