赞
踩
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情。
爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤
那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:
当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>
# coding=utf-8
import urllib
import re
# 百度贴吧网址:https://tieba.baidu.com/index.html
# 根据URL获取网页HTML内容
def getHtmlContent(url):
page = urllib.urlopen(url)
return page.read()
# 从HTML中解析出所有jpg的图片的URL
# 从HTML中jpg格式为<img ... src = "xxx.jpg" width='''>
def getJPGs(html):
# 解析jpg图片URL的正则表达式
jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"'
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。