赞
踩
声明:本文内容皆来自网上
环境:ubuntu19.04、python3.x
python包:requests、bs4、beautifulsoup、re、urllib、lxml、os
下载方式:$pip install [包名]
ps:部分电脑未安装python-pip,报错后按照系统提示下载python-pip
爬虫过程:
1)模拟浏览器向目标网页发送请求
2)接收响应
3)解析,将响应转为网页代码输出
4)查找代码中需要的部分
5)处理
代码实现:
这里以爬取发表情(https://www.fabiaoqing.com/biaoqing)网页上的图片为例
1、2) url = 'https://www.fabiaoqing.com/biaoqing' #目标网址
response = requests.get(url) #发送访问请求接收
3) soup= BeautifulSoup(response.content.decode('utf-8'), 'lxml') #解析响应,此时soup是目标网页代码
4) gowl = str(soup.findAll('img')) #查找所有图片,gowl即为图片url
#由于我们仅需要其中的表情,所以需要对gowl再进行一次筛选。目标网页表情包url
我们可以发现url分为.jpg和.gif,但它们前面都是
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。