当前位置:   article > 正文

大数据毕业设计hadoop+spark+hive招聘推荐系统 招聘分析可视化大屏 职位推荐系统 就业推荐系统 招聘爬虫 招聘大数据 计算机毕业设计 机器学习 深度学习 人工智能_spark招聘就业类大屏

spark招聘就业类大屏

内容:

爬取拉勾网不同类型的招聘信息数据(java、python、大数据、运维、测试等等)作为数据分析的基础数据集;
搭建Linux数据分析环境,配置hadoop+hive离线数据分析生态圈;
将数据仓库的理论知识应用于实践,进行数据仓库建模;
完成数据清洗、数据分析等数仓流程;
研究FineReport报表技术,进行可视化实现;
拟解决的问题:

拉勾网人机验证反爬问题,数据获取不全面;
数据量较大数仓、MySQL数据库查询缓慢问题;
Hadoop/Hive计算数据倾斜问题、JVM内存计算溢出问题;
可视化指标精度问题;
研究方法
项目整体数通过浏览器开发者模式对拉勾网进行浏览器请求分析,将请求cookie取出,放到requests框架开发的爬虫代码中采集拉勾网数据,将爬取到的数据存入MySQL;
通过sqoop工具将MySQL数据导入到大数据Hadoop平台;
使用Hive并采用数据仓库建设方法对相关指标进行数据分析,将分析出来的结果再次通过sqoop导出到MySQL供给可视化查询使用;
最终通过帆软大屏的方式对结果数据进行展示。
通过调度工具azkaban将整个项目流程串通,一键启动项目即可完成整个数据分析过程。
同时为了方便查hive数据,还采用了目前主流的数据查询工具hue;
————————————————

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/768121
推荐阅读
相关标签
  

闽ICP备14008679号