赞
踩
在看着两个哪个好就业之前,我们先来关注一下分别都是做什么的,以及所需要具备的技能~
大数据开发做什么?
大数据开发分两类,编写Hadoop、Spark的应用程序和对大数据处理系统本身进行开发。大数据开发工程师主要负责公司大数据平台的开发和维护、相关工具平台的架构设计与产品开发、网络日志大数据分析、实时计算和流式计算以及数据可视化等技术的研发和网络安全业务主题建模等工作。
大数据开发应具备的技能:
目前从事大数据应用开发的语言包括Java、Python、Scala、R等,需要熟悉Hadoop、HBbase、hive、spark、Flink、ES、Presto、Flume、Kafka生态的原理和使用方法,掌握数据开发、数据挖掘的各项流程。
大数据分析师是做什么的?
大数据分析师在大数据时代受到格外重视的一个岗位,尤其是具备专业技能以及行业经验的大数据分析人才,是企业竞相争抢的香饽饽。随着大数据行业的进一步发展,人才需求增加,大数据分析师培训也多了起来。
大数据分析师,随着企业对数据价值的重视也越发地得到重视,大数据分析师的日常工作,总结为挖掘海量数据当中的价值信息。做大数据分析涉及到数据获取、数据存取、数据预处理、数据建模与分析、数据可视化等环节。
大数据分析师应具备的技能:
熟悉Excel的使用,熟练使用图表及函数功能,掌握VBA编程技能者优先;熟悉MySQL数据库的使用,熟练掌握SQL相关的DML数据操作语言;了解基础的数据分析方法,包含:描述性分析、回归分析、方差分析;有相关数据可视化工作经验、自动化报表开发工作经验者优先。
之前看到过一个行业招聘难度的对比,在这里列一下:(来源是《2021年互联网人才招聘白皮书》)
无论是DBA还是大数据分析师,和java前端后端相比,都不算是最卷的,甚至还算是挺好的, 你看下面这张图,一年以下的Java工程师139竞争1个岗位,大数据开发工程师只有14个。差了10倍。
所以我觉得大数据分析师还有有前景的。
那么数据分析师和大数据工程师有什么区别呢?
从所需掌握的技能维度来看,数据工程师的工作重点在于数据架构、计算、数据存储、数据流等,所以开发能力和大规模的数据处理能力是作为数据工程师的一些必备技能。
因为数据工程师还负责数据库设计、数据仓储,这就意味着他们必须十分熟悉现有的数据库技术和数据管理系统,比如和大数据有关的Hadoop与HBase 等。
而数据分析师更偏重于解决业务问题,所以了解业务、懂常用的分析方法、会跨部门沟通是他们需要的必备技能。
不同行业的数据分析师,是有一定差别的,有的偏研发岗位,比如数据挖掘工程师、机器学习工程师、数据工程师;有的偏业务岗位,比如运营分析专家、用户研究工程师、商业分析师等。
在这些岗位中,都涉及到通过分析数据来解决问题,只是在整个工作流程中的侧重点会稍有不同。
那么,我们现在就来看一下数据分析的工作流程:
我来解释一下这个图:
**第1步:**数据分析最开始是由一个明确的问题来驱动的,比如互联网企业中经常会遇到【上周APP日活人数发生明显增加/下降的现象】,这时候就需要通过数据分析来找答案。
当然有些领域也会出现【在没有明确问题的前提下,拿到数据就开展分析工作】的情况,比如高校等科研院所,领导可能会直接甩给你一批数据,让你挖掘挖掘,看能得到什么结论,其实这类数据分析工作与企业中常说的数据分析工作,存在本质上的区别,对于这方面的内容,以后我可以再单独详细阐述。
**第2步:**这个问题是否能细分为多个小问题。一个大而复杂的问题,通常很难用一种数据分析方法解决,需要细化为多个小问题,每个小问题可以用一个简单的数据分析方法搞定。并且,根据细分的小问题,我们可以知道每个小问题需要收集哪些数据、用什么分析方法、制作什么样的图表等等,这一步在数据分析过程中非常关键,是考察我们研究设计能力高低的重要判断依据。
**第3步:**根据每个细分小问题,收集相应的数据。
**第4步:**根据收集到的数据,相应选择合适的数据分析方法,得到一个个细分小结论。
**第5步:**总结完整的结论。
**第6步:**评估结论是否能合理解释最开始的问题,这一步与第2步同等重要。
在这六个步骤中,第1、2、6步是非常非常关键的
但是,这点往往被数据分析师所忽略,很多人认为第4步最重要,认为用高大上的分析方法、画出酷炫的可视化图表是反应一个人数据分析技术高低的标准。对于这个观点,我表示哭笑不得。我在招人的时候,判断一个人分析技能高低的标准之一是针对第2步的小问题能否选择合适的分析方法。
说完数据分析的流程,再回过来说下数据分析师的工作内容。当前互联网企业中数据分析师的岗位,70%的工作量主要集中在数据采集、整理和预处理上,这是数据分析这项工作的属性决定的,必须得先收集到数据,再清洗数据才能做后面的分析工作,而收集数据、清洗数据又是数据分析中最累的活。
剩下30%的工作包括设计指标、使用工具(Excel、Tableau、SPSS、R、Sass、Python、EViews、Stata等)分析数据、写报告、开会等等。
但是,很多刚入行数据分析的人,在面对整天处理大量数据的重复性工作时,总是感到厌倦、失望、崩溃,甚至在还没有接触到后面30%的工作时,就萌生了转行的想法…
其实,这些都属于数据分析师的“份内事”,只有把前期的工作做扎实,后期的分析工作才能完成的更漂亮。
相对来讲,大数据工程师的工资更高一些,而掌握的知识无非就是多几个大数据框架而已。
我觉得传统的数据分析师确实没什么前景,可以往大数据的方向发展。
而今年的招聘数据显示:人工智能,大数据是招聘需求增长最快的岗位了。
所以数据行业可以入,但最好还是入大数据工程师,起步无需算法、无需数学。
任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标。Python+大数据所需学习的内容纷繁复杂,难度较大,为大家整理了一个全面的Python+大数据学习路线图,帮大家理清思路,攻破难关!
学前导读:从传统关系型数据库入手,掌握数据迁移工具、BI数据可视化工具、SQL,对后续学习打下坚实基础。
1.大数据数据开发基础MySQL8.0从入门到精通
MySQL是整个IT基础课程,SQL贯穿整个IT人生,俗话说,SQL写的好,工作随便找。本课程从零到高阶全面讲解MySQL8.0,学习本课程之后可以具备基本开发所需的SQL水平。
2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
学前导读:学习Linux、Hadoop、Hive,掌握大数据基础技术。
2022版大数据Hadoop入门教程
Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门,是为后期的Spark、Flink打下坚实基础的课程。掌握课程三部分内容:Linux、Hadoop、Hive,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发。
2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
学前导读:本阶段课程以真实项目为驱动,学习离线数仓技术。
数据离线数据仓库,企业级在线教育项目实战(Hive数仓项目完整流程)
本课程会、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 ;目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 ;掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)
学前导读:Spark官方已经在自己首页中将Python作为第一语言,在3.2版本的更新中,高亮提示内置捆绑Pandas;课程完全顺应技术社区和招聘岗位需求的趋势,全网首家加入Python on Spark的内容。
1.python入门到精通(19天全)
python基础学习课程,从搭建环境。判断语句,再到基础的数据类型,之后对函数进行学习掌握,熟悉文件操作,初步构建面向对象的编程思想,最后以一个案例带领同学进入python的编程殿堂。
全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
2.python编程进阶从零到搭建网站
学完本课程会掌握Python高级语法、多任务编程以及网络编程。
Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
3.spark3.2从基础到精通
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发,课程的讲解注重理论联系实际,高效快捷,深入浅出,让初学者也能快速掌握。让有经验的工程师也能有所收获。
Spark全套视频教程,大数据spark3.2从基础到精通,全网首套基于Python语言的spark教程
4.大数据Hive+Spark离线数仓工业项目实战
通过大数据技术架构,解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据,基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。