赞
踩
这是一个预测房价的项目,项目来自kaggle的housing。
项目的目的是预测房价,需要从众多可能的影响因子中挑选出最能预测房价的因子来建立模型,用于预测房价。
1. 理解项目目的,再围绕目的进行分析。本项目的目的根据数据预测房价;
2. 了解数据的分布特征,根据实际项目理解每列数据的意义。在数据分析时,最重要的是要熟悉业务,在业务基础上再分析,事半功倍;
3. 挑选特征。刻画每个特征与目标变量之间的关系,找出最重要的特征;同时,为了避免多重共线性,需剔除掉一个特征与特征之间相关性非常大的特征;
4. 应用交叉验证,对训练集进行建立合适的模型,再在测试集上测试;
5. 最终建立预测房价的模型。
下面是实践部分:
Ask a home buyer to describe their dream house, and they probably won't begin with the height of the basement ceiling or the proximity to an east-west railroad. But this playground competition's dataset proves that much more influences price negotiations than the number of bedrooms or a white-picket fence.
With 79 explanatory variables describing (almost) every aspect of residential homes in Ames, Iowa, this competition challenges you to predict the final price of each home.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。