赞
踩
接上一章内容,来看一下租房信息,导入数据:
import pandas as pd
import numpy as np
import pymongo
client = pymongo.MongoClient("mongodb://xx:xx@192.168.3.7:2018",connect=False)
db = client["test"]
table = db["zufang"]
df = pd.DataFrame(list(table.find()))
del df["_id"]
df.head()
房屋标签和房屋信息没啥用,删掉,信息基本标题里都有:
del df["house_info"]
del df["house_tags"]
df.tail()
经过去重发现,数据存在大量重复:
爬取的大量数据不能用,可见数据的清洗多么重要,分析了一下原因,原来是page到100多页后就不在出现新的信息,也就是说1000页和2000页是一样的。
于是我们得换一个方式重新爬取,我选着是按照地铁线路爬取,每一个爬100页,这样虽然信息爬取不全,但是相对还算完整。
获取地铁线路名称:
url = 'https://m.fang.com/zf/bj/r9/?jhtype=zf'
response = requests.get(url)
soup = BeautifulSoup(response.content.decode("gbk"),"lxml")
all_dd = soup.find("section",id="railway_section").find_all("dd")
for dd in all_dd[1:]:
with open("subway.txt","a",encoding="utf-8")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。