赞
踩
1、找到自己想爬取的网页内容
这是我从链家网上找的某个小区的页面网址,接下来就爬取这上面的房源信息
url = 'https://sh.lianjia.com/chengjiao/c5011000012404/?sug=%E5%A4%A9%E9%A6%A8%E8%8A%B1%E5%9B%AD%28%E5%85%AC%E5%AF%93%29'
直接开始操作,先导入一些需要的python库
- import requests as rq
- import numpy as np
- from bs4 import BeautifulSoup
然后就可以直接开始爬取数据了
- r = rq.get(url,headers = headers)
- html = r.text
- #用bs4处理爬取的数据
- doc = BeautifulSoup(html,'html.parser')
- #找到需要的数据部分,找到对应的div
- ul_data = doc.find_all('div',class_ = 'info')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。