当前位置:   article > 正文

python医药数据分析_Python 数据分析实战,揭秘国内顶尖医院分布现状!

医药数据爬虫可视化

b0eb2b195f4301632ec235bebe60d199.png

作者 | AJ Gordon、June Alice

责编 | 屠敏

声明:本文仅作学习与交流。

在本文中,分析以“春雨医生”平台作为数据来源,通过Python抓取网站数据,结合“地市等级划分”数据,并再利用tableau制作地图和图表进行数据可视化。本文抓取的数据内容主要是全国范围内不同科室的TOP10医院名单,通过展示不同地区医院上榜的数量,以了解目前国内顶尖医疗水平的城市分布情况。由于本文采用的数据维度较少,结论仅供参考作用。

数据采集

首先,导入所需的库,再构建两个字典,一个存放地区编码,一个存放科室编码。利用两个嵌套for循环构建URL后,将全部URL存放到Redis数据库中,进行下一步操作。

import requestsfrom bs4 import BeautifulSoupimport pymysqlfrom concurrent.futures import ThreadPoolExecutor as Poolfrom redis import ConnectionPool, Redisimport warningswarnings.filterwarnings("ignore")# 地区字典area_dict = {'全国': '0','黑龙江省': '230000','吉林省': '220000','辽宁省': '210000','河南省': '410000','湖北省': '420000','湖南省': '430000','四川省': '510000','贵州省': '520000','云南省': '530000','重庆市': '500000','西藏自治区': '540000','陕西省': '610000','甘肃省': '620000','青海省': '630000','宁夏回族自治区': '640000','新疆维吾尔自治区': '650000','上海市': '310000','江苏省': '320000','浙江省': '330000','安徽省': '340000','福建省': '350000','江西省': '360000','山东省': '370000','台湾省': '710000','北京市': '110000','天津市': '120000','山西省': '130000','河北省': '140000','内蒙古自治区': '150000','广东省': '440000','广西壮族自治区': '450000','海南省': '460000','香港特别行政区': '810000','澳门特别行政区': '820000',}# 科室字典department_dict = {'妇科':'1','儿科-小儿科':'fa','儿科-新小儿科':'fb','皮肤性病科-皮肤科':'ha','皮肤性病科-性病科':'hb','内科-呼吸内科':'aa','内科-心血管内科': 'ab','内科-神经内科': 'ac','内科-消化内科': 'ad','内科-肾内科': 'ae','内科-内分泌与代谢科': 'af','内科-风湿免疫科': 'ag','内科-血液病科': 'ah','内科-感染科': 'ai','男科':'8','产科':'21','外科-胸外科&#

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/921390
推荐阅读
相关标签
  

闽ICP备14008679号