赞
踩
可以看到美国是用英文的USA表示的,那么我们可以单独提取出src属性,然后用正则提取出国家名称就可以了,代码实现如下:
1# 提取国家名称
2def get_country(html):
3 soup = BeautifulSoup(html,'lxml')
4 countries = soup.select('td > a > img')
5 lst = []
6 for i in countries:
7 src = i['src']
8 pattern = re.compile('flag.*\/(.*?).png')
9 country = re.findall(pattern,src)[0]
10 lst.append(country)
11 return lst
然后,我们就可以输出一下结果:
1 world rank university score index_rank year country 20 1 哈佛大学 100.0 1 2018 USA 31 2 斯坦福大学 75.6 2 2018 USA 42 3 剑桥大学 71.8 3 2018 UK 53 4 麻省理工学院 69.9 4 2018 USA 64 5 加州大学-伯克利 68.3 5 2018 USA 75 6 普林斯顿大学 61.0 6 2018 USA 86 7 牛津大学 60.0 7 2018 UK 97 8 哥伦比亚大学 58.2 8 2018 USA 108 9 加州理工学院 57.4 9 2018 USA 119 10 芝加哥大学 55.5 10 2018 USA 1210 11 加州大学-洛杉矶 51.2 11 2018 USA 1311 12 康奈尔大学 50.7 12 2018 USA 1412 12 耶鲁大学 50.7 13 2018 USA 1513 14 华盛顿大学-西雅图 50.0 14 2018 USA 1614 15 加州大学-圣地亚哥 47.8 15 2018 USA 1715 16 宾夕法尼亚大学 46.4 16 2018 USA 1816 17 伦敦大学学院 46.1 17 2018 UK 1917 18 约翰霍普金斯大学 45.4 18 2018 USA 2018 19 苏黎世联邦理工学院 43.9 19 2018 Switzerland 2119 20 华盛顿大学-圣路易斯 42.1 20 2018 USA 2220 21 加州大学-旧金山 41.9 21 2018 USA
数据很完美,接下来就可以按照D3.js模板中的example.csv文件的格式作进一步的处理了。
这里先将数据输出为university.csv
文件,结果见下表:
10年一共5011行×6列数据。接着,读入该表作进一步数据处理,代码如下:
1df = pd.read_csv('university.csv') 2# 包含港澳台 3# df = df.query("(country == 'China')|(country == 'China-hk')|(country == 'China-tw')|(country == 'China-HongKong')|(country == 'China-Taiwan')|(country == 'Taiwan,China')|(country == 'HongKong,China')")[['university','year','index_rank']] 4 5# 只包括内地 6df = df.query("(country == 'China')") 7df['index_rank_score'] = df['index_rank'] 8# 将index_rank列转为整形 9df['index_rank'] = df['index_rank'].astype(int) 10 11# 美国 12# df = df.query("(country == 'UnitedStates')|(country == 'USA')") 13 14#求topn名 15def topn(df): 16 top = df.sort_values(['year','index_rank'],ascending = True) 17 return top[:20].reset_index() 18df = df.groupby(by =['year']).apply(topn) 19 20# 更改列顺序 21df = df[['university','index_rank_score','index_rank','year']] 22# 重命名列 23df.rename (columns = {'university':'name','index_rank_score':'type','index_rank':'value','year':'date'},inplace = True) 24 25# 输出结果 26df.to_csv('university_ranking.csv',mode ='w',encoding='utf_8_sig', header=True, index=False) 27# index可以设置
上面需要注意两点:
打开输出的university_ranking.csv
文件:
结果非常好,可以直接作为D3.js的导入文件了。
2.3.1. 完整代码
将代码再稍微完善一下,完整地代码如下所示:
1import pandas as pd 2import csv 3import requests 4from requests.exceptions import RequestException 5from bs4 import BeautifulSoup 6import time 7import re 8 9start_time = time.time() #计算程序运行时间 10# 获取网页内容 11def get_one_page(year): 12 try: 13 headers = { 14 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36' 15 } 16 # 英文版 17 # url = 'http://www.shanghairanking.com/ARWU%s.html' % (str(year)) 18 # 中文版 19 url = 'http://www.zuihaodaxue.com/ARWU%s.html' % (str(year)) 20 response = requests.get(url,headers = headers) 21 # 2009-2015用'gbk',2016-2018用'utf-8' 22 if response.status_code == 200: 23 # return response.text # text会乱码,content没有问题 24 # https://stackoverflow.com/questions/17011357/what-is-the-difference-between-content-and-text 25 return response.content 26 return None 27 except RequestException: 28 print('爬取失败') 29 30# 解析表格 31def parse_one_page(html,i): 32 tb = pd.read_html(html)[0] 33 # 重命名表格列,不需要的列用数字表示 34 tb.columns = ['world rank','university', 2,3, 'score',5,6,7,8,9,10] 35 tb.drop([2,3,5,6,7,8,9,10],axis = 1,inplace = True) 36 # 删除后面不需要的评分列 37 38 # rank列100名后是区间,需需唯一化,增加一列index作为排名 39 tb['index_rank'] = tb.index 40 tb['index_rank'] = tb['index_rank'].astype(int) + 1 41 # 增加一列年份列 42 tb['year'] = i 43 # read_html没有爬取country,需定义函数单独爬取 44 tb['country'] = get_country(html) 45 # print(tb) # 测试表格ok 46 return tb 47 # print(tb.info()) # 查看表信息 48 # print(tb.columns.values) # 查看列表名称 49 50# 提取国家名称 51def get_country(html): 52 soup = BeautifulSoup(html,'lxml') 53 countries = soup.select('td > a > img') 54 lst = [] 55 for i in countries: 56 src = i['src'] 57 pattern = re.compile('flag.*\/(.*?).png') 58 country = re.findall(pattern,src)[0] 59 lst.append(country) 60 return lst 61 # print(lst) # 测试提取国家是否成功ok 62 63# 保存表格为csv 64def save_csv(tb): 65 tb.to_csv(r'university.csv', mode='a', encoding='utf_8_sig', header=True, index=0) 66 67 endtime = time.time()-start_time 68 # print('程序运行了%.2f秒' %endtime) 69 70def analysis(): 71 df = pd.read_csv('university.csv') 72 # 包含港澳台 73 # df = df.query("(country == 'China')|(country == 'China-hk')|(country == 'China-tw')|(country == 'China-HongKong')|(country == 'China-Taiwan')|(country == 'Taiwan,China')|(country == 'HongKong,China')")[['university','year','index_rank']] 74 # 只包括内地 75 df = df.query("(country == 'China')") 76 77 df['index_rank_score'] = df['index_rank'] 78 # 将index_rank列转为整形 79 df['index_rank'] = df['index_rank'].astype(int) 80 # 美国 81 # df = df.query("(country == 'UnitedStates')|(country == 'USA')") 82 #求topn名 83 def topn(df): 84 top = df.sort_values(['year','index_rank'],ascending = True) 85 return top[:20].reset_index() 86 df = df.groupby(by =['year']).apply(topn) 87 # 更改列顺序 88 df = df[['university','index_rank_score','index_rank','year']] 89 # 重命名列 90 df.rename (columns = {'university':'name','index_rank_score':'type','index_rank':'value','year':'date'},inplace = True) 91 92 # 输出结果 93 df.to_csv('university_ranking.csv',mode ='w',encoding='utf_8_sig', header=True, index=False) 94 # index可以设置 95 96def main(year): 97 # generate_mysql() 98 for i in range(2009,year): #抓取10年 99 # get_one_page(i) 100 html = get_one_page(i) 101 # parse_one_page(html,i) # 测试表格ok 102 tb = parse_one_page(html,i) 103 save_csv(tb) 104 print(i,'年排名提取完成完成') 105 analysis() 106# # 单进程 107if __name__ == '__main__': 108 main(2019) 109 # 2016-2018采用gb2312编码,2009-2015采用utf-8编码
至此,我们已经有university_ranking.csv
基础数据,下面就可以进行可视化呈现了。
首先,到作者的github主页:
https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js
2.4.1. 克隆仓库文件
如果你平常使用github或者Git软件的话,那么就找个合适文件存放目录,然后直接在 GitBash里分别输入下面3条命令就搭建好环境了:
1# 克隆项目仓库
2git clone https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js
3# 切换到项目根目录
4cd Historical-ranking-data-visualization-based-on-d3.js
5# 安装依赖
6npm install
如果你此前没有用过上面的软件,你可以直接点击Download Zip
下载下来然后解压即可,不过还是强烈建议使用第一种方法,因为后面如果要自定义可视化效果的话,需要修改代码然后执行npm run build
命令才能够看到效果。
2.4.2. 效果呈现
好,所有基本准备都已完成,下面就可以试试看效果了。
任意浏览器打开bargraph.html
网页,点击选择文件,然后选择前面输出的university_ranking.csv
文件,看下效果:
https://v.qq.com/x/page/u07783nsta4.html
可以看到,有了大致的可视化效果,但还存在很多瑕疵,比如:表顺序颠倒了、字体不合适、配色太花哨等。可不可以修改呢?
当然是可以的,只需要分别修改文件夹中这几个文件的参数就可以了:
知道在哪里修改了以后,那么,如何修改呢?很简单,只需要简单的几步就可以实现:
右键-检查
,箭头指向想要修改的元素,然后在右侧的css样式表里,双击各项参数修改参数,修改完元素就会发生变化,可以不断微调,直至满意为止。npm run build
,之后刷新网页就可以看到优化后的效果。最后,再添加一个合适的BGM就可以了。以下是我优化之后的效果:
https://v.qq.com/x/page/m1347prd6a3.html
BGM:ツナ覚醒
如果你不太会调整,没有关系,我会分享优化后的配置文件。
以上,就是实现动态可视化表的步骤。 同样地,只要更改数据源可以很方便地做出世界、美国等大学的动态效果,可以看看:
中国(含港澳台)大学排名:
http://pc1lljdwb.bkt.clouddn.com/Greater_China_uni_ranking.mp4
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。