其实特简单，1分钟爬取全国高校信息并制成大屏可视化_爬取大学慕课数据并实现可视化大屏

作者：IT小白 | 2024-04-10 16:20:13

踩

爬取大学慕课数据并实现可视化大屏

大家好，记得当初高考完，我选学校的时候是在书店买的高校信息排名的书，然而书中的信息都是很久之前的，并没有什么太大帮助。

【注】文末提供技术交流群

干货推荐

今天就来带大家爬点真正有用的东西，全国高校信息，涵盖绝大多数高校，并制作可视化看板。话不多说，进入正题！

数据爬取

地址：https://www.gaokao.cn/school/140F12 打开开发者工具，通过抓包工具很轻松就获取到了 json 文件。我们直接对该链接发起请求，就可以获取对应大学的信息。

另外对比发现 https://static-data.eol.cn/www/2.0/school/140/info.json，关键参数 140 为学校ID，但ID不是连续的，所以，我们爬取时只能根据大致的学校数量进行爬取。

爬取代码

导入模块

import aiohttp
import asyncio
import pandas as pd
from pathlib import Path
from tqdm import tqdm
import time
1
2
3
4
5
6

简单说明一下主要模块的用途：

aiohttp：可以实现单线程并发 IO 操作。如果仅用在客户端，发挥的威力不大，只是为了搭配 asyncio 来使用，因为 requests 不支持异步。如果把 asyncio 用在服务器端，例如 Web 服务器，由于 HTTP 连接就是 IO 操作，因此可以用单线程 + coroutine 实现多用户的高并发支持。
asyncio：提供了完善的异步IO支持，可以将多个协程（coroutine）封装成一组 Task 然后并发执行。
pandas：将爬取的数据转为 DataFrame 类型，并生成 csv 文件。
pathlib：面向对象的编程方式来表示文件系统路径。
tqdm：只需使用 tqdm(iterable) 包装任何可迭代对象，就能让你的循环生成一个智能进度条。

生成URL序列

通过指定的 URL 模板与 max_id 生成 URL 序列，这里添加了一个去重操作，如果之前已采集过高校信息，它会根据同目录下的文件，剔除已采集的高校ID，仅采集未获取过的高校信息。

def get_url_list(max_id):
    url = 'https://static-data.eol.cn/www/2.0/school/%d/info.json'
    not_crawled = set(range(max_id))
    if Path.exists(Path(current_path, 'college_info.csv')):
        df = pd.read_csv(Path(current_path, 'college_info.csv'))
        not_crawled -= set(df['学校id'].unique())
    return [url%id for id in not_crawled]
1
2
3
4
5
6
7

采集JSON数据

通过协程对URL序列发出请求，注意要限制并发量，Window：500，Linux：1024。

async def get_json_data(url, semaphore):
    async with semaphore:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        }
        async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=False), trust_env=True) as session:
            try:
                async with session.get(url=url, headers=headers, timeout=6) as response:
                    # 更改相应数据的编码格式
                    response.encoding = 'utf-8'
                    # 遇到IO请求挂起当前任务，等IO操作完成执行之后的代码，当协程挂起时，事件循环可以去执行其他任务。
                    json_data = await response.json()
                    if json_data != '':
                        return save_to_csv(json_data['data'])
            except:
                return None
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

数据解析保存

JSON数据中的字段有很多，大家可以根据自己的情况解析保存自己需要的字段。

def save_to_csv(json_info):
    save_info = {}
    save_info['学校id'] = json_info['school_id']              # 学校id
    save_info['学校名称'] = json_info['name']                  # 学校名字
    level = ""
    if json_info['f985'] == '1' and json_info['f211'] == '1':
        level += "985 211"
    elif json_info['f211'] == '1':
        level += "211"
    else:
        level += json_info['level_name']
    save_info['学校层次'] = level                               # 学校层次
    save_info['软科排名'] = json_info['rank']['ruanke_rank']    # 软科排名
    save_info['校友会排名'] = json_info['rank']['xyh_rank']     # 校友会排名
    save_info['武书连排名'] = json_info['rank']['wsl_rank']     # 武书连排名
    save_info['QS世界排名'] = json_info['rank']['qs_world']     # QS世界排名
    save_info['US世界排名'] = json_info['rank']['us_rank']      # US世界排名
    save_info['学校类型'] = json_info['type_name']              # 学校类型
    save_info['省份'] = json_info['province_name']              # 省份
    save_info['城市'] = json_info['city_name']                  # 城市名称
    save_info['所处地区'] = json_info['town_name']              # 所处地区
    save_info['招生办电话'] = json_info['phone']                # 招生办电话
    save_info['招生办官网'] = json_info['site']                 # 招生办官网


    df = pd.DataFrame(save_info, index=[0])

    header = False if Path.exists(Path(current_path, 'college_info.csv')) else True
    df.to_csv(Path(current_path, 'college_info.csv'), index=False, mode='a', header=header)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

调度程序

调度整个采集程序。获取URL>>限制并发量>>创建任务对象>>挂起任务

async def main(loop):
    # 获取url列表
    url_list =  get_url_list(5000)
    # 限制并发量
    semaphore = asyncio.Semaphore(500)
    # 创建任务对象并添加到任务列表中
    tasks = [loop.create_task(get_json_data(url, semaphore)) for url in url_list]
    # 挂起任务列表
    for t in tqdm(asyncio.as_completed(tasks), total=len(tasks)):
        await t
1
2
3
4
5
6
7
8
9
10