当前位置:   article > 正文

小项目-数据处理篇:租房信息整理,plotly实现数据可视化_郑州租房数据项目讲解

郑州租房数据项目讲解

接上一章内容,来看一下租房信息,导入数据:

import pandas as pd
import numpy as np
import pymongo
client = pymongo.MongoClient("mongodb://xx:xx@192.168.3.7:2018",connect=False)
db = client["test"]
table = db["zufang"]
df = pd.DataFrame(list(table.find()))
del df["_id"]
df.head()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述
房屋标签和房屋信息没啥用,删掉,信息基本标题里都有:

del df["house_info"]
del df["house_tags"]
df.tail()
  • 1
  • 2
  • 3

这里写图片描述

经过去重发现,数据存在大量重复:
这里写图片描述
爬取的大量数据不能用,可见数据的清洗多么重要,分析了一下原因,原来是page到100多页后就不在出现新的信息,也就是说1000页和2000页是一样的。
于是我们得换一个方式重新爬取,我选着是按照地铁线路爬取,每一个爬100页,这样虽然信息爬取不全,但是相对还算完整。
获取地铁线路名称:

url = 'https://m.fang.com/zf/bj/r9/?jhtype=zf'
response = requests.get(url)
soup = BeautifulSoup(response.content.decode("gbk"),"lxml")
all_dd = soup.find("section",id="railway_section").find_all("dd")
for dd in all_dd[1:]:
    with open("subway.txt","a",encoding="utf-8") 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/661525
推荐阅读
相关标签
  

闽ICP备14008679号