当前位置:   article > 正文

爬虫学习日记

爬虫学习日记

引言:

1.语言:python

2.预备知识——python:爬虫学习前记----Python-CSDN博客

3.学习资源:【Python+爬虫】

html:

  1. <!DOCTYPE html>
  2. <html>
  3. <head>
  4. <title>czy_demo</title>
  5. <meta charset="UTF-8"> <!-- 指定字符编码 -->
  6. </head>
  7. <body>
  8. <h1>一级标题(h1~h6)</h1>
  9. <p>普通文本<b>加粗</b><i>斜体</i><u>下划线</u></p>
  10. <img src="1.jpg" width="500px">
  11. <br><a href="http://t.csdnimg.cn/DvHJ6" target="_blank">CSDN链接</a>
  12. <p>这是多个span展示:<span style="background-color: bisque">span1</span><span style="background-color: aquamarine">span2</span></p>
  13. <ol>
  14. <li>有序列表</li>
  15. <li>有序列表</li>
  16. <li>有序列表</li>
  17. </ol>
  18. <ul>
  19. <li>无序列表</li>
  20. <li>无序列表</li>
  21. <li>无序列表</li>
  22. </ul>
  23. <table border="1">
  24. <thead>
  25. <tr>头部有几个就写几行tr</tr>
  26. <tr>第二行头部标签</tr>
  27. </thead>
  28. <tbody>
  29. <tr>
  30. <td>第一行*单元格1</td>
  31. <td>第一行*单元格2</td>
  32. <td>第一行*单元格3</td>
  33. </tr>
  34. <tr>
  35. <td>第二行*单元格1</td>
  36. <td>第二行*单元格2</td>
  37. <td>第二行*单元格3</td>
  38. </tr>
  39. </tbody>
  40. </table>
  41. </body>
  42. </html>

爬虫代码

1.两个需要的包

  1. from bs4 import BeautifulSoup
  2. import requests

2.爬原代码

  1. response = requests.get('http:.......')
  2. print(response) # 响应
  3. print(response.status_code) # 状态码---200[ok]
  4. print(response.text) # 打印源码

3.爬指定的内容

  1. response = requests.get('http:........')
  2. content =response.text
  3. soup = BeautifulSoup(content,"html.parser") # 解析器html
  4. all_p=soup.findAll("p",attrs={"class":""})
  5. for p in all_p:
  6. print(p.string)
  7. all_p=soup.findAll("h3")
  8. for p in all_p:
  9. p1=p.findAll("a")
  10. for p2 in p1:
  11. print(p2.string)

3.下载图片

  1. from bs4 import BeautifulSoup
  2. import requests
  3. headers={
  4. 'User-Agent': 【替换成目标网页的User-Agent】
  5. }
  6. response = requests.get('http://data.shouxi.com/item.php?id=1239786',headers=headers)
  7. response.encoding = 'GBK'
  8. response.encoding = 'utf-8'
  9. soup = BeautifulSoup(response.text,"html.parser") # 解析器html
  10. # print(response.text)
  11. i=soup.findAll("img")
  12. num=1;
  13. for Img in i:
  14. img_url=Img.get("src")
  15. if not img_url.startswith('http:'):
  16. img_url="http:....【替换成网页地址】"+img_url # 将相对地址转换成绝对地址
  17. # 发送请求下载图片
  18. img_response = requests.get(img_url, headers=headers)
  19. with open(f'image.{num}.jpg', mode='wb') as f:
  20. f.write(img_response.content)
  21. print(f'图片已保存: images.{num}')
  22. num = num + 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/818941
推荐阅读
相关标签
  

闽ICP备14008679号