赞
踩
俗话说,“ 巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法则是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。正如一句业界经典的话所 说,“Garbage in, garbage out"。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。
特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
其实从上述的流程图中我们也能发现,在整个机器学习建模流程中,往往需要大量的时间来进行数据处理。
此流程图使用
Mermaid
绘制, 源代码如下:
```mermaid
graph TD;
开始-->数据采集;
数据采集-->数据分析;
数据分析-->数据清洗;
数据清洗-->采样;
采样-->特征提取;
特征提取-->缺失值处理;
缺失值处理-->对定量特征二值化;
缺失值处理-->对定性特征哑编码;
缺失值处理-->数据变换;
对定量特征二值化-->无量纲化;
对定性特征哑编码-->无量纲化;
数据变换-->无量纲化;
无量纲化-->特征选择;
特征选择-->降维;
降维-->训练;
训练-->预测;
预测-->评估;
评估-->结束;```
作者邮箱: turingscat@126.com
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。