赞
踩
内容:
爬取拉勾网不同类型的招聘信息数据(java、python、大数据、运维、测试等等)作为数据分析的基础数据集;
搭建Linux数据分析环境,配置hadoop+hive离线数据分析生态圈;
将数据仓库的理论知识应用于实践,进行数据仓库建模;
完成数据清洗、数据分析等数仓流程;
研究FineReport报表技术,进行可视化实现;
拟解决的问题:
拉勾网人机验证反爬问题,数据获取不全面;
数据量较大数仓、MySQL数据库查询缓慢问题;
Hadoop/Hive计算数据倾斜问题、JVM内存计算溢出问题;
可视化指标精度问题;
研究方法
项目整体数通过浏览器开发者模式对拉勾网进行浏览器请求分析,将请求cookie取出,放到requests框架开发的爬虫代码中采集拉勾网数据,将爬取到的数据存入MySQL;
通过sqoop工具将MySQL数据导入到大数据Hadoop平台;
使用Hive并采用数据仓库建设方法对相关指标进行数据分析,将分析出来的结果再次通过sqoop导出到MySQL供给可视化查询使用;
最终通过帆软大屏的方式对结果数据进行展示。
通过调度工具azkaban将整个项目流程串通,一键启动项目即可完成整个数据分析过程。
同时为了方便查hive数据,还采用了目前主流的数据查询工具hue;
————————————————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。