当前位置:   article > 正文

Python网页爬虫selenium,chromedriver之二_browser.set_page_load_timeout

browser.set_page_load_timeout

由于爬虫的敏感性,本文隐藏掉具体的站点信息:

  1. import time
  2. import requests
  3. import random
  4. import logging
  5. from selenium import webdriver
  6. logging.basicConfig(level=logging.DEBUG,
  7. format='%(asctime)s - %(levelname)s - %(message)s')
  8. TIME = 5
  9. #访问具体链接地址。
  10. def selenium_browser(page_number, addr):
  11. option = webdriver.ChromeOptions()
  12. option.set_headless() # 不打开浏览器窗口。
  13. browser = webdriver.Chrome(
  14. options=option, executable_path=r"D:\program\chromedriver_win32\chromedriver.exe")
  15. browser.set_page_load_timeout(60) # 页面加载最大时间为60秒,否则超时。
  16. try:
  17. browser.get(addr)
  18. t = browser.title
  19. time.sleep(random.randint(0, TIME))
  20. browser.close()
  21. logging.info("访问第"+str(page_number)+"页-文章:"+t+"结束 - "+addr)
  22. except:
  23. logging.info("访问第"+str(page_number)+"页- 异常 - "+addr)
  24. browser.close()
  25. #page_number,分页的编码。
  26. def htttp_page(page_number):
  27. u = "http://*************/s/articlelist_**********_0_" + \
  28. str(page_number)+".html"
  29. r = requests.get(u)
  30. logging.info("访问第"+str(page_number)+"页")
  31. r.raise_for_status()
  32. tag = r'href="http://************/s/blog_'
  33. parts = r.text.split()
  34. addrs = []
  35. for part in parts:
  36. if part.startswith(tag):
  37. lnk = part.split()
  38. addr = lnk[0].split('"')[1]
  39. addrs.append(addr)
  40. random.shuffle(addrs)
  41. for addr in addrs:
  42. selenium_browser(page_number, addr)
  43. time.sleep(random.randint(0, TIME))
  44. def start_get_web():
  45. array = list(range(1, 9))
  46. random.shuffle(array) # 随机页码
  47. print("随机后的分页页码:")
  48. print(array)
  49. for i in array:
  50. htttp_page(i)
  51. time.sleep(random.randint(0, TIME))
  52. while True:
  53. try:
  54. start_get_web()
  55. time.sleep(random.randint(0, TIME))
  56. except Exception as e:
  57. logging.error(str(e))

注:本文是研究性质,NOT NO EVIL

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/177877
推荐阅读
相关标签
  

闽ICP备14008679号