赞
踩
百面机器学习开篇一句话非常经典:对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型和算法的选择及优化则是在逐步接近这个上限。
对原始数据进行一系列的工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程,在世界工作中,特征工程还包括对数据的一些预处理工作。
原始数据类型常用的有两种:
举个例子,
图2-1 特征归一化前 图2-2 特征归一化后
因此,需要需要将所有的特征都统一到一个大致相同的数值区间内,使得不同指标之间具有可比性,更新速度能够保持一致。
对原始数据进行线性变换,使结果映射到[0, 1]区间。假设原始数据最大值为,最小值为
,归一化公式为:
将原始数据映射到均值为0,标准差为1的分布上。假设原始特征的均值为,标准差为
,归一化公式为:
显然不是。
通过梯度下降求解的模型通常是需要归一化的,包括线性回归,逻辑回归,SVM,神经网络等;
对于决策树模型,只要参照特征x的信息增益比进行分裂,则不需要对特征的值进行归一化。
如何选取特征组合:决策树
如何处理高维特征组合:特征降维(矩阵分解)如何有效的构造决策树?梯度提升决策树
注:这里要说三个概念,特征组合,特征交叉(feature crosses),合成特征(synthetic feature)
https://segmentfault.com/a/1190000014799038?utm_source=tag-newest
将每篇文章看做一袋子词,并忽略词出现的顺序。即整篇文章以词为单位切分,并表示为一个长向量。向量的每一维代表一个单词,该维的权重表示每个这个词在文章中的重要程度。这个重要程度通常用TF-IDF(Term Frequency-Inverse Document Frequency)来表示。
(
单词t在文档d中出现的次数,
文档d中单词的总数)
(
文章的总数,
包含单词t的文章总数)
将连续出现的n()组成的词组(N-gram)作为一个单独的特征,放到向量表示中去,构成N-gram模型。
用于从文本中发现有代表性的主题,并能够计算出每篇文章中的主题分布,例如LDA模型
词嵌入模型是词向量化模型的统称,核心思想是将每个词映射为低维空间(通常维)的一个稠密向量。K维空间中的每一维都可以看做一个隐含的主题。
一篇文章有N个词,就要表示成NxK维的矩阵。在实际应用中,如果将NxK维的矩阵直接输入到模型中,很难得到满意的结果。因此需要深度模型自动进行特征工程。
能够很好的对文本进行建模,抽取出一些高层的语义特征。
图像数据不足时容易出现过拟合。
对应的处理方法有两类:
(此处提到了迁移学习,与对抗网络模型,没太看懂 TODO)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。