当前位置:   article > 正文

简要分析上海链家9月二手房

简要分析上海链家9月二手房

简要分析上海链家9月二手房

数据来源

链接:https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1ANh0gv40Osan-A5P5_8NMA
密码:3o3w

个人主页里面有上传处理后的资源,尚待审核

分析目标

  1. 上海当前哪个区域二手房楼市最火?
  2. 上海各个区的房价水平可以分成几个梯队?
  3. 哪里的房子越老越吃香?
  4. 上海的豪宅都分布在哪?
  5. 有什么特点?
  6. 市场上哪个户型最受欢迎?

数据清洗(Excel + python)

去重

  1. 编号 → 查找和选择 → 定位条件 → 空值 ,删除行。
  2. 编号第一行 → Ctrl+Shift+↓ → 验证没有空值,并将编号转换为数值形式 → 单元格格式,数值。
  3. 选中编号这一列 → 数据 → 删除重复值。

提取数据

  1. 分列“基本属性”“交易属性”,然后每个列再用“分列”处理,提取重要信息、并重命名列名。
  2. 不相关或者缺失值多的列直接删除,查找和选择 → 替换 → 把空格全部去除掉。
  3. “室、厅、厨、卫、梯、户、经纬”用中位数或平均数填充空值,“2019 - 建成时间”= “楼龄”,Ctrl+Shift+↓选中用Ctrl+D填充全部。
  4. 得到比较舒服的excel表格。

python清洗

  1. 查看缺失值的列,“朝向、行政区、小区名称”用频数最大填充;“纬度”只有两个缺失值,用均值填充。
  2. drop“编号”,不相关,one-hot-encode也不方便;添加一列“heat_values”,描述房屋单价层级0-5。

数据分析(python)

folium

  1. 依据“heat_values”和“经纬度”,做出folium图,并输出为html,可以随时查看。描述二手房单价热力值。
    参考链接:https://www.cnblogs.com/feffery/p/9288138.html

在这里插入图片描述

豪宅分布

  1. 通过探索数据,找出哪些数据水平之后的二手房比较稀有,就自行评断为豪宅。
  2. 自行定义豪宅:单价> 10万元/m² 或者 面积> 300m²,且总价>1000万元。

在这里插入图片描述

  1. 对比一下总房源。浦东是二手房源最多的。

在这里插入图片描述

  1. 行政区与单价的箱线图。显示了每个区二手房主要单价分布情况,静安的单价相对其他区域会比较高,浦东是被某些极端值拉高了房屋水平均价,实际大部分二手房单价还是算中等。

在这里插入图片描述

楼龄与总价的分布

  1. 楼龄的均值分布。(可以将它做成组合图去体现关系,这里没去做。)

在这里插入图片描述

  1. 总价的均值分布

在这里插入图片描述

最热户型

  1. 由subplot可知,最热户型是2室,2厅,1厨,1卫,1梯,2户。
    在这里插入图片描述

验证总价与面积的关系

  1. 皮尔逊系数p=0.74,接近1,总价与面积呈现正相关关系。通常来说,价格与面积呈正相关,但也有特殊情况,最好验证下。

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/415305
推荐阅读
相关标签
  

闽ICP备14008679号