赞
踩
Connected to:
Anomaly detection
Reinforcement learning
Structured prediction
异常检测 强化学习 结构化预测
特征工程是利用数据领域的知识来创建特征的过程,该过程使得机器学习的算法可以运作。
特征工程是机器学习应用的基础,而且既困难又昂贵。 自动特征学习可以消除对手动特征工程的需求。
特征工程是一个非正式的话题,但它在应用机器学习中被认为是必不可少的。
Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering.
— Andrew Ng, Machine Learning and AI via Brain simulations[1]
特征是由所有要进行分析或预测的独立单元共享的属性或属性。 任何属性都可以是一个特征,只要它对模型有用。
除了作为属性之外,功能的目的在问题的背景下更容易理解。 特征是解决问题时可能有帮助的一个特征。
数据中的特征对于您使用的预测模型非常重要,并且会影响您将要实现的结果。 特征的质量和数量对模型的好坏有很大的影响[3]。
你可以说特征越好,结果就越好。 这并非完全正确,因为所取得的成果还取决于模型和数据,而不仅仅是所选的功能。 也就是说,选择正确的功能仍然非常重要。 更好的功能可以产生更简单和更灵活的模型,并且它们通常会产生更好的结果。[2]
–
1. 头脑风暴或测试功能;
2. 确定要创建的功能;
3. 创建功能;
4. 检查功能如何与您的模型配合使用;
5. 根据需要改进你的功能;
6. 回到头脑风暴/创造更多的功能,直到工作完成。
根据一个特征,它可能是强相关的(具有任何其他特征中不存在的信息),相关的,弱相关的(其他特征包括的一些信息)或不相关的。 创建很多功能非常重要。 即使它们中的一些不相关,你也承担不起其余的失误。 之后,可以使用特征选择以防止过度配合。[8]
特征爆炸可能由特征组合或特征模板引起,这导致特征总数的快速增长。
功能模板 - 实现功能模板,而不是编码新功能
特征组合 - 不能由线性系统表示的组合
有几个解决方案可以帮助阻止特征爆炸,例如:正则化,核方法,特征选择。[9]
特征工程自动化已成为学术界研究的一个新兴课题。 2015年,麻省理工学院的研究人员提出了Deep Feature Synthesis算法,并在其在线数据科学竞赛中展现了其有效性,在该竞赛中击败了906个人力团队中的615个[10] [11]。 Deep Feature Synthesis作为一个名为Featuretools的开源库提供。 其他研究人员,包括IBM的OneBM [12]和伯克利的ExploreKit [13]也接下了这项工作。 IBM的研究人员称,功能工程自动化“帮助数据科学家减少数据探索时间,使他们能够在短时间内尝试和错误地提出许多想法;另一方面,它使非熟悉数据科学的非专家能够快速 只需花费很少的精力,时间和成本从数据中提取价值。“
商业工具已经从包括H20.ai [14]和Feature Labs [15]在内的新型机器学习重点初创公司涌现出来。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。