当前位置:   article > 正文

爬虫爬取中国大学排名top100并简单可视化分析_爬取中国前100名的大学,并可视化

爬取中国前100名的大学,并可视化

爬虫爬取中国大学排名top100并简单可视化分析。

目标链接
http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
实践环境
pycharm2018+python3.7
实践思路
首先进入目标链接,查看目标数据是否为动态变化。
确认非动态变化后,对页面进行解析,提取需要的相关数据信息。
将数据存入csv文件中并保存。
后对保存的数据进行简单的数据分析并可视化。
实践过程
一、 数据抓取
判断目标数据非动态变化后,可进行数据抓取。
代码如下:
(1)获取网站页面’’’

def getHTMLText(url):
    try:
        resp = request.urlopen(url)
        html_data = resp.read().decode('utf-8')
        return html_data
    except:
        return ""

'''(2)处理页面,提取相关信息'''


def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:  # 搜索'tbody'后面的子节点
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].st
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/798179
推荐阅读
相关标签
  

闽ICP备14008679号