当前位置:   article > 正文

【NLP-新闻文本分类】2特征工程_新闻主题分类特征工程

新闻主题分类特征工程

赛题

来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。
【NLP-新闻文本分类】1 数据分析和探索

1 引言

特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征提取、特征处理、特征选择和特征监控。

特征工程的重要性一句话体现:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个极限而已”
在这里插入图片描述

特征工程的处理流程首先是去掉无用特征,接着去除冗余的特征,如共线特征,并利用存在的特征、转换特征、内容中的特征以及其他数据源生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值,缺失值等)以符合模型的使用。

简单来说,特征工程的处理一般包括数据预处理、特征处理、特征选择等工作,而特征选择视情况而定,如果特征数量较多,则可以进行特征选择等操作。

2 数据预处理

在进行特征提取之前,要对数据进行预处理,具体包括数据采集、数据清洗、数据采样

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/366306
推荐阅读
相关标签
  

闽ICP备14008679号