赞
踩
自学Python爬虫,感觉自己的代码没有什么问题,但是输出却没有结果,一开始陷入了沉思,偶然想起,很多网站为了反爬虫,对于没有“头”的爬虫,网站会拒绝请求。于是,抱着试一试的态度,添加了爬虫的“头”,结果能够正常显示。
这里我是在尝试抓取“瞬眼天下”网页的小标题,代码如下:
- #爬取顺眼天下网页一页的标题
- import requests
- from bs4 import BeautifulSoup
-
- headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
-
- resp=requests.get('http://www.tmtpost.com/nictation/1',headers=headers)
- soup=BeautifulSoup(resp.text,'lxml')
-
- alla=soup.find_all('h2',class_='w_tit')
- for a in alla:
- t=a.find('a')
- print(t.get_text())
我一开始的代码是这样的:
- #爬取瞬眼天下网页一页的标题
- import requests
- from bs4 import BeautifulSoup
-
- resp=requests.get('http://www.tmtpost.com/nictation/1')
- soup=BeautifulSoup(resp.text,'lxml')
-
- alla=soup.find_all('h2',class_='w_tit')
- for a in alla:
- t=a.find('a')
- print(t.get_text())
即,缺少了headers的相关信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。