当前位置:   article > 正文

Python多线程爬取链家房源,保存表格,实现数据可视化分析!_python 链家房价数据抓取

python 链家房价数据抓取

使用Python来爬取二手房源数据,并保存表格,实现数据分析!

软件环境

Python 3.8

Pycharm

代码展示

模块

  1. # 数据请求模块 --> 第三方模块, 需要安装 pip install requests
  2. import requests
  3. # 解析数据模块 --> 第三方模块, 需要安装 pip install parsel
  4. import parsel
  5. # csv模块
  6. import csv

创建文件

  1. f = open('data.csv', mode='w', encoding='utf-8', newline='')
  2. csv_writer = csv.DictWriter(f, fieldnames=[
  3. '标题',
  4. '小区',
  5. '区域',
  6. '售价',
  7. '单价',
  8. '户型',
  9. '面积',
  10. '朝向',
  11. '装修',
  12. '楼层',
  13. '年份',
  14. '建筑类型',
  15. '详情页',
  16. ])
  17. csv_writer.writeheader()

发送请求, 模拟浏览器 对于 url地址 发送请求

模拟浏览器

  1. headers = {
  2. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
  3. }

请求网址/网站

url = 'https://cs.lianjia.com/ershoufang/'

发送请求

  1. response = requests.get(url=url, headers=headers)
  2. # <Response [200]> 响应对象 200 状态码 表示请求成功
  3. print(response)

获取数据, 获取网页源代码 <获取服务器返回响应数据>

解析数据, 提取我们想要的数据内容

解析方法:

  • re: 对于字符串数据直接进行解析提取

  • css: 根据标签属性提取数据内容

  • xpath: 根据标签节点提取数据内容

使用css: 根据标签属

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/196503
推荐阅读
相关标签
  

闽ICP备14008679号