当前位置:   article > 正文

爬取百度搜索结果_爬虫爬取百度搜索结果

爬虫爬取百度搜索结果

为了爬取百度搜索页的结果,我进行了多次(一下午)尝试,算是独立完成的第一段代码,总结出以下要点:

1百度搜索页面地址,每页10条,页码=(n-1)*10;

2百度搜索结果的代码,位于h3标签下;

3每条链接的文字部分,是a标签的text部分;

4百度不允许python直接爬,要加伪装头部;

代码如下:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. key_words = '代码'
  4. #页面深度
  5. depth = 2
  6. #伪装浏览器头部
  7. kv = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"}
  8. #获得每页搜索结果
  9. for i in range(depth):
  10.     url = 'https://www.baidu.com/s?wd=' + key_words + '&pn=' + str(i * 10)
  11.     print(url)
  12.     try:
  13.         r = requests.get(url, headers = kv)
  14.         r.raise_for_status()
  15.         r.encoding = r.apparent_encoding
  16.         html = r.text
  17.     except:
  18.         print("Error1")
  19.     #获得链接及非属性字符串
  20.     soup = BeautifulSoup(html, 'html.parser'
  21.     h3 = soup.find_all('h3')
  22.     for i in h3:
  23.         a = i.a
  24.         try:
  25.             href = a.attrs['href']
  26.             #获取a标签中的文字
  27.             print(a.text, '\n', href)
  28.         except:
  29.             print('Error2')

 

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号