当前位置:   article > 正文

python入门--抓取网页文字_python爬取网页文字

python爬取网页文字

要抓取网页文字,我们需要使用Python的一个库,叫做requests。这个库可以帮助我们向网站发送请求,获取网站的内容。

下面是一个简单的示例代码,用于抓取一个网页的文字:

  1. import requests
  2. import re
  3. import os
  4. import io
  5. import sys
  6. import bs4
  7. from bs4 import BeautifulSoup
  8. url = 'https://baijiahao.baidu.com/s?id=1774337207764266892';
  9. response = requests.get(url);
  10. soup=BeautifulSoup(response.text);
  11. textNew=soup.get_text();
  12. text_nospace=textNew.replace('\n','');
  13. d="[\u4e00-\u9fa5]+";
  14. L=[];
  15. for i in text_nospace:
  16. I=re.findall(d,i)
  17. L+=I
  18. textPrint="";
  19. for k in L:
  20. textPrint+=str(k)
  21. print(textPrint);

这个代码将会发送一个GET请求给网站,然后获取网站的内容并存储在变量text中。最后,我们将打印出这个内容。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/838382
推荐阅读
相关标签
  

闽ICP备14008679号