当前位置:   article > 正文

Python爬取腾讯视频电影名称和链接(一)

Python爬取腾讯视频电影名称和链接(一)
  1. 1 import requests
  2. 2 import json
  3. 3 from bs4 import BeautifulSoup #网页解析获取数据
  4. 4 import sys
  5. 5 import re
  6. 6 import urllib.request,urllib.error #制定url,获取网页数据
  7. 7 import sqlite3
  8. 8 import xlwt #excel操作
  9. 9
  10. 10 def get_ten():
  11. 11 url="https://v.qq.com/channel/movie?_all=1&channel=movie&listpage=1&sort=18"
  12. 12 headers={
  13. 13 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '+
  14. 14 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'
  15. 15 }
  16. 16 # res = urllib.request.urlopen(url)
  17. 17 res = urllib.request.Request(url=url,headers=headers) #编辑request请求
  18. 18 response=urllib.request.urlopen(res).read().decode() #读取
  19. 19 html=BeautifulSoup(response,"html.parser") #解析
  20. 20 #
  21. 21 # list=html.select(".figure_score")
  22. 22 # for item in list:
  23. 23 # print(item)
  24. 24 dataRes=[]
  25. 25 findLink=re.compile(r'href="(.*?)"') #链接
  26. 26 findName=re.compile(r'title="(.*?)"') #影片名
  27. 27 soup=html.find_all(r"a",class_="figure")
  28. 28 for i in soup:
  29. 29 # print(i)
  30. 30 words=str(i)
  31. 31 dataRes.append(re.findall(findLink,words)) #添加链接
  32. 32 dataRes.append(re.findall(findName,words)) #添加影片名
  33. 33 for i in dataRes:
  34. 34 print(i)
  35. 35 # print(html)
  36. 36 # print(html.head.contents) #输出tag的所有子节点(list)
  37. 37 # print(response)
  38. 38 return res
  39. 39 if __name__ == '__main__':
  40. 40 get_ten()

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/156422
推荐阅读
相关标签
  

闽ICP备14008679号