赞
踩
多图,请确保在Wi-Fi环境下点开!
主要是爬取数据,并把爬回来的数据进行分析和挖掘,做过的小项目主要有:
扒了扒蔡徐坤100万+微博转发中,假流量占了多少的比例
随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。
发现102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。6916条数据中,除去重复转发的粉丝,真实粉丝数量只剩下3926个。也就是说,真实转发的粉丝数量,占总转发量的3.84%。
与之相比,吴青峰10006条转发数据中,只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。
另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。
爬虫和数据分析代码戳:CaiXuKun,具体的数据分析文章戳:《用大数据扒一扒蔡徐坤的真假流量粉》
2. 爬取英语外籍老师与本土老师招聘数据,分析洋外教是否真的是一群没学历、没教学经验的外国人拿着高工资在我们国家逍遥快活
爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,并分析外教教师的招聘状况。
大部分中教的工资都在10K以内,而大部分的外教工资都在10K以上。中教的月平均工资是8.3K(按照城市为单位平均后是7.9K),而外教的月平均工资是15.7K,大概是中教的2倍。
在国内实习的外教月薪可以轻松破万,入门级的外教更是可以拿到15.8K的高薪。而我们的教师,即使工作了五到十年,还是拿不到入门级外教的工资。
Any education(也就是不管你的学历)的外教,来到中国可以拿的月平均工资是13.9K人民币,比我们硕士毕业的英语老师还要高出不少。有本科学历的外教平均工资是16.3K,硕士毕业的轻松上2万。
我们把外教群里的外教来源省份画了出来,可以看到,有来自美国纽约的、有来自加拿大多伦多的,有来自英格兰的,当然,也有来自法国巴黎的(法语)、有来自土耳其伊斯坦布尔的(土耳其语)、有来自荷兰阿姆斯特丹的(荷兰语),有来自西班牙拉科鲁尼亚的(西班牙语),还有来自其它各种各样地方的,你们自己感受一下。
爬虫和数据分析代码戳:ESL,具体的数据分析文章戳:《没经验没学历的外教为啥能拿1.4W+的高薪?》
3. 爬取最近大火的程序员集体抵制996的项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣
爬取了Github热门项目996.ICU中Issues页面的10037条讨论数据和39987条点了star的程序员Github个人信息数据。
可见,抵制996的程序员,最多的是来自阿里系的公司,有148人,其次是腾讯、百度、京东等,以加班文化著称的华为,排名才第9。当然,还有很多来自小米、微软、谷歌、中兴、联想、ThoughtWorks等各个公司的程序员。
可以看到,浙大以59人star了该repos排名榜首,其次是上海交大、清华、电子科大、北邮、武大、哈工大、中科大、复旦大学。这些大学,都是非常有名的大学啊,也是出产程序员的大学。当然,还有很多人来自于华中科大、卡耐基梅隆大学、北航、北理工、中山大学等学校的学生。
北京以2094人位居榜首!其次是上海、杭州、深圳等等。这些城市,恰恰是国内互联网行业发展得最好的城市。看来这个repos确实在全国程序员界都引起了巨大的反响,乃至新加坡、日本、美国等地的程序员都前来支持。
这群程序员的平均粉丝数为10.9,关注数为14.6,repos数为19.1。从数据可以看出,大部分都是默默无闻又兢兢业业的苦逼基层程序员。
关注996工作制的程序员中,有程序员大牛。排名第一的是一个熟悉的面孔,轮子哥!另外有来自腾讯的Coco,来自滴滴的singwhatiwanna,技术博主颜海镜等,这些人都在关注996。在39987个star了该repos的程序员中,粉丝数大于1000的有47人,大于500的有110,大于100的有598人。说明还是有很多有影响力的程序员在关注996工作制。
爬虫和数据分析代码戳:ICU996,具体的数据分析文章戳:《大胆,都是哪些程序员在反对996?!》
4. 爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境
看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。
相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。
儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。
儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。
相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。
爬虫和数据分析代码戳:Paediatrician,具体的数据分析文章戳:《儿科医生的眼泪,全被数据看见了》
5. 爬取北上广深链家网全部租房数据,并给出租房建议
爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。
把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:
上海的:
广州的:
深圳的:
租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图,先来看北京的。
热力地图还有互动版本,可以随意放大缩小定位到自己感兴趣的区域:北京市每平米租金热力图
上海市:
互动地图点击:上海市每平米租金热力图
广州市:
互动地图点击:广州市每平米租金热力图
深圳市:
互动地图点击:深圳市每平米租金热力图
爬虫和数据分析代码戳:BSGS_Rent,具体的数据分析文章戳:《北上广深租房图鉴》
6. 全国367个城市春节期间的空气质量指数数据爬取和分析
爬了全国367个城市从除夕到初七的空气质量数据,数据有68155条,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效。
可以看到,PM2.5和PM10在除夕晚上六点之后开始飙升
全国大部分城市空气质量指数飙升为原来的1-5倍,有城市甚至飙升到20-25倍!
有些管控严格的城市,虽然除夕当晚管控地很好,可是时间一过就开始反弹飙升。
爬虫和数据分析代码戳:Fireworks_and_Pm2.5,具体的数据分析文章戳:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》
7. 爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因
爬了102580条《流浪地球》的猫眼评论,分析观众打分的时间规律,并对观众的评论做了词云图,分析大家打高分和低分的原因。
晚上21点、22点的时候(也就是观影高峰期)最容易出现低评分。
对高分的评论画了词云图,高分的观众觉得:
1. 这部电影很不错、很好看、很震撼、很感人,会大力推荐;
2. 观众乐于把这部片跟好莱坞的科幻片进行比较,并且认为其特效完美、场面宏大,是中国里程碑式的科幻大片,相比以前有很大进步;
3. 吴京、刘慈欣、导演多次被提及,说明观众对演员、剧本和导演都有很大的认可度,认为演员演技优秀、剧本扎实、导演良心。
对低分的评论也画了词云图,打低分的观众觉得:
1. 这部影片虽然特效很好,但是剧情东拉西扯、强行煽情、年轻演员演技捉急、没有逻辑,是烂片;
2. 吴京的英雄主义和强行的爱国情怀让这部片看起来像太空版的《战狼》,很尴尬;
3. 女主的演讲是本片最大的败笔,年轻演员撑不起这样的巨作。
爬虫和数据分析代码戳:TheWanderingEarth,具体的数据分析文章戳:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》
8. 模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)
爬了一千多张点赞量最高、目前最火的表情包,让自己的表情包库再也不捉襟见肘。
另外还用这个爬虫爬了很多女装大佬的美图,哈哈哈。
以及很多小姐姐的美图。
爬虫代码戳:Weibo_Comment_Pics,具体的爬虫步骤分析文章戳:《开年表情包局部富有指南,盘它!》
9. 分析美国从1920年以来,每个年代的人的流行英文名
总数据有1924665条,通过分析每个年代的流行英文名,为需要取英文名的童鞋提供一些建议。
数据分析代码戳:English_names,具体的数据分析文章戳:《看完这片分析,楼下的Tony和Kevin都改名了!》
10. 分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略
分析了总共20多G、70多万场的绝地求生比赛数据,总结出各种地图哪里跳的人最多、近战最佳武器、狙击最佳武器等,程序员嘛,靠技术吃鸡也很重要。
海岛地图中,跳机场跟学校是死得最快的。
沙漠地图中,跳Pecado、San Martin、Power Grid是死得最快的。
开车对吃鸡很重要!!!
满配的M416是海岛和沙漠地图中最好用的枪。
每场比赛场均有1.47个人自己被自己蠢倒(也就是自毙),自毙的方式中,手榴弹高居榜首!哈哈哈。
数据分析代码戳:PUBG-juediqiusheng-data_analysis,具体的数据分析文章戳:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》
11. 为新媒体运营的女票写了一个公众号文章采集器,一键采集各个行业内公众号发表的文章
整个项目只有50行代码,每天早上9点的时候都把昨天一天以来各个行业内公众号发表的文章的标题、摘要和链接等相关信息爬下来,形成一个文档发给女票,这样可以大大方便阅读。
这是爬回来的文档。
爬虫代码戳:Wechat_article_collector,具体的爬虫步骤分析文章戳:《50行代码教你打造一个公众号文章采集器》
12. 爬取雪球网投资组合的历史调仓记录,以及每日根据模型输出自动化调仓
模拟登录雪球网,爬取特定投资组合的历史调仓记录,实时计算收益率。并且每日根据数据模型的预测输出,进行自动化调仓。
作者:Alfred数据室
链接:https://www.zhihu.com/question/20799742/answer/602006382
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
用法律武器,痛击腾讯侵权行为!!!湾区人工智能可以改善知识产权现状吗?
【免费】某机构最新3980元机器学习/大数据课程高速下载,限量200份
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。