当前位置:   article > 正文

python 网络爬虫第一步 根据首页url爬取分类链接_python 爬取网站 分类 地址

python 爬取网站 分类 地址
  1. # coding=utf-8
  2. import urllib.request
  3. import ssl
  4. import re
  5. # 开始调用
  6. def getHtml(url):
  7. ssl._create_default_https_context = ssl._create_unverified_context
  8. page = urllib.request.urlopen(url)
  9. html = page.read()
  10. html = html.decode('utf-8')
  11. return html
  12. def scriptHtmlKind(data, reg):
  13. # data = '11爱woni000'
  14. # reg = r'\d{2}[\u4e00-\u9fa5]+\w{4}\d{3}'
  15. # 编写正则表达式-获取首页所有分类list
  16. kindDomReg = re.compile(reg)
  17. kindDom = re.findall(kindDomReg, data)
  18. return kindDom
  19. # 处理总列表
  20. def kindAllBoss(url):
  21. print(url)
  22. # 获取分类页面节点
  23. # getHtml(url)
  24. if __name__ == '__main__':
  25. # 处理url
  26. url = 'https://www.bxwxorg.com/'
  27. # 获取资源
  28. data = getHtml(url)
  29. # 处理资源,获取分类列表DOM
  30. reg = r'<div class="nav">\s*<ul>[\u4e00-\u9fa50-9a-zA-Z\<\>\\\"\s\=\:\/\/\.]*?</div>'
  31. kindDom = scriptHtmlKind(data, reg)
  32. if len(kindDom) < 1:
  33. AssertionError
  34. # 获取分类列表
  35. reg2 = r'.com/(\w*\/)">([\u4e00-\u9fa5a-zA-Z]*)'
  36. kindList = scriptHtmlKind(kindDom[0], reg2)
  37. # 分类list,存库
  38. kinds = []
  39. for kind in kindList:
  40. kinds.append(kind[0])
  41. # 拼接url,处理分类资源,获取分类页面下所有书本
  42. for kind in kinds:
  43. kindAllBoss(url+kind)
  44. # print(data)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/271209
推荐阅读
相关标签
  

闽ICP备14008679号