赞
踩
来自阿里天池的新闻文本分类赛题。具体赛题和前序步骤数据分析查看另一篇博客。
【NLP-新闻文本分类】1 数据分析和探索
特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征提取、特征处理、特征选择和特征监控。
特征工程的重要性一句话体现:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个极限而已”
特征工程的处理流程首先是去掉无用特征,接着去除冗余的特征,如共线特征,并利用存在的特征、转换特征、内容中的特征以及其他数据源生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值,缺失值等)以符合模型的使用。
简单来说,特征工程的处理一般包括数据预处理、特征处理、特征选择等工作,而特征选择视情况而定,如果特征数量较多,则可以进行特征选择等操作。
在进行特征提取之前,要对数据进行预处理,具体包括数据采集、数据清洗、数据采样
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。