当前位置:   article > 正文

python-爬虫-庆余年小说-词云胡乱分析_python词云甄嬛传

python词云甄嬛传

进入正题,首先要搞到资源,我先去了搜索了一番,找到个网站“落霞”。一言不合就按下了F12,翻了下网页源码,超级简单。


from bs4 import BeautifulSoup
from requests import Session
from re import sub,DOTALL
sess = Session()
txt=[]
url = 'https://www.luoxia.com/qing/48416.htm'
def find(url):
    res = sess.get(url)
    soup = BeautifulSoup(res.content,'html.parser')
    title = soup.find('title')
    div = soup.find('div',id='nr1')
    ps = div.find_all('p')
    page = title.text+'\n'
    print(
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/696876
推荐阅读
相关标签
  

闽ICP备14008679号