赞
踩
在上一讲中,我就什么是大数据做了简要的介绍,涉及大数据的主要步骤,以及每个步骤要解决什么样的问题。相信你对大数据已经有了一个初步的认知。这一讲,让我们一起来探讨下大数据的发展过程,看看大数据这个词最初起源于哪里,经历了什么样的变化,最后,随着大数据的发展,我们该如何选择学习路径。
说起萌芽,一般都是这样的一个“套路”:某位知名人士首先创造性地使用了一个新的词汇,然后这个词逐渐流传开来,成为某件重要的事情。大数据也不例外。
早在 1980 年,大数据这个词被阿尔文·托夫勒写在了他的新书《第三次浪潮》里,不仅如此,他还声称大数据是第三次浪潮的华彩乐章,这就是大数据一词的由来。阿尔文·托夫勒是一位著名的未来学家,他非常成功地预测了大数据的爆发。
随着时间的推移,到 2000 年,最早在网络上兴起的论坛和博客开始引起大众的兴趣,随后,各种社交网络、自媒体逐渐开始壮大,2008 年 9 月《自然》杂志也推出了名为“大数据”的封面专栏。象征着大数据概念已经成为大家普遍认同的事实。这个阶段,大数据正式诞生了。在这个时间段的中国,以腾讯、网易、新浪、搜狐、百度为代表的主流互联网公司,依赖社交、搜索、门户等产品迅速崛起。
虽然说大数据这个词已经成为科技行业的热门词汇,但是面对技术的变革,很多公司还没有明白,自己做的事情跟大数据到底有什么关系,大数据该如何从一个概念落地到工程生产中。2004 年前后,谷歌发表了三篇论文,也就是我们常说的大数据三驾马车:
分布式文件系统GFS;
大数据分布式计算框架MapReduce;
NoSQL 数据库系统BigTable。
这 3 篇论文的发表惊醒了很多懵懂的人,也解决了大数据体系中最核心的 3 个问题:
GFS 文件系统解决了数据的底层存储问题;
计算框架 MapReduce 解决了数据的处理运算问题;
BigTable 数据库系统解决了数据的有序组织问题。
但论文的公布,只是一种思想和方案的共享,谷歌并没有公开自己的技术细节。
随后一个叫作 Doug Cutting 的码农开了一家小公司,想要做一个超越谷歌搜索的开源搜索引擎,尽管当时的谷歌搜索基本是独步天下的状态了。他先是开发了一个叫 Nutch 的项目,但随着谷歌公布的三驾马车论文,他将目标转向实现 GFS 和 MapReduce 方案,并想办法融合进自己的 Nutch 项目里。后来这个模块被雅虎看中了,于是 Doug Cutting 带着他的项目加入了雅虎,顺手拿了他儿子的一个大象玩具给这个项目命名为 Hadoop。
由于 Hadoop 是一个开源项目,在那个大数据技术刚刚兴起的时间点,受到了众多公司的追捧,并在 2008 年成了 Apache 的顶级项目。至此,大数据生态体系逐渐形成,主流互联网公司开始上马相关的项目。
很快,移动互联网时代到来了。2007 年,苹果推出了第一代 iPhone,开创了智能手机的先河。同年底,谷歌也发布了 Android 手机操作系统。2008 年支持 3G 网络的 iPhone 问世,并加入了 App Store 功能。随后,各大互联网公司将自己的战略重心由 PC 端转移到移动端,实时,大批量的数据源源不断地产生。
随着网络、存储、计算等硬件的成熟;
智能手机成为移动业务的标配;
Hadoop 项目不断成熟。
大量依赖大数据的个性化 App 在这个阶段如雨后春笋般涌出,并迅速壮大。做社交的Facebook,做云服务的亚马逊,做内容服务的今日头条等等都在这个时间内发展起来,赚得盆满钵满。
在这个阶段,大数据迎来了第一次发展的小高潮,世界各个国家纷纷布局大数据战略规划,将大数据作为国家发展的重要标准之一,同时这也意味着大数据时代正在悄然开启。
最近这几年,大数据基本上渗透到了人们生活的方方面面。比如说:
无处不在的交通违法监控;
前面介绍过的天气预测;
疫情之下的健康码。
这些都是大数据的产物。
同时,当前优秀的互联网公司都已经建设起了比较完善的大数据体系架构,并且在各自的业务中进行应用。各种新的数据库、计算引擎、数据流转框架喷涌而出,并随着新的需求不断迭代。伴随着互联网的成熟和发展,这充分说明了技术对于大数据行业发展的重要性,随着人工智能、云计算、区块链等新科技和大数据的融合,大数据将释放更多的可能,迎来全面的爆发式增长。
说了这么多大数据总体的发展过程,那么大数据体系在互联网中到底是一个什么状态呢?
就我而言,我所接触的大数据体系可以说是伴随着推荐系统而来的。推荐系统可以看作是一种信息筛选的机制,与搜索系统等待用户主动检索不同,推荐系统则会主动把信息推荐给用户。
PC 时代虽然就已经有了推荐技术,但是 PC 网页面积巨大,门户网站精心编辑的分类整整齐齐排放在网站上供大家自行查阅,用户对推荐的需求不是很大。
而来到了移动时代,一个屏幕的空间很小,如果在手机 App 上面星罗棋布各种信息,那估计再好的眼神也得变成近视眼,所以简洁成了移动端追求的目标。
那么如何能够又简捷又精准地抓住用户兴趣,于是推荐系统迎来了春天。
那么,推荐系统中需要解决的问题,就成了公司中大数据体系需要处理的问题。
推荐系统需要使用大量用户信息,那么大数据体系建设就需要解决用户信息的采集、存储问题;
推荐系统需要计算每个用户与任意商品或者资讯的匹配程度,那么大数据体系建设就需要解决大规模计算与建模的问题;
推荐系统需要更加快速响应,那么大数据体系建设就需要朝着实时的方向解决问题。
所以,围绕推荐系统的大数据体系,有了以下 3 个大的工作方向:
大数据架构
大数据分析
大数据开发
接下来,让我们看一下如果在这几个方向中谋取一份工作,应该去学习一些什么样的知识。
(1)大数据架构方向
大数据架构方向涉及偏向大数据底层与大数据工具的一些工作。做这一方向的工作更注重的是:
Hadoop、Spark、Flink 等大数据框架的实现原理、部署、调优和稳定性问题;
在架构整合、数据流转和数据存储方面有比较深入的理解,能够流畅地落地应用;
熟知各种相关工具中该如何搭配组合才能够获取更高的效率,更加符合公司整体的业务场景。
从事这一方向的工作,需要具备以下技术。
大数据框架:Hadoop、Spark、Flink、高可用、高并发、并行计算等。
数据存储:Hive、HDFS、Cassandra、ClickHouse、Redis、MySQL、MongoDB 等。
数据流转:Kafka、RocketMQ、Flume 等。
(2)大数据分析方向
这里所说的大数据分析方向是一个广义上的大数据分析,在这个方向上,包含了各类算法工程师和数据分析师,一方面要熟练掌握本公司业务,一方面又具备良好的数学功底,能够使用数据有针对性的建设数据指标,对数据进行统计分析,通过各类数据挖掘算法探寻数据之间的规律,对业务进行预测和判断。
从事这一方向的工作,需要具备以下技术。
数据分析:ETL、SQL、Python、统计、概率论等。
数据挖掘:算法、机器学习、深度学习、聚类、分类、协同过滤等。
(3)大数据开发方向
大数据开发是大数据在公司内使各个环节得以打通和实施的桥梁和纽带,爬虫系统、服务器端开发、数据库开发、可视化平台建设等各个数据加工环节,都离不开大数据开发的身影。大数据开发需要具备 2 方面的能力:
要了解大数据各类工具的使用方法;
要具备良好的代码能力。
从事这一方向的工作,需要具备的技术有这些:数仓、推荐引擎、Java、Go、爬虫、实时、分布式等。
当然,除了上面这三个大的方向,在整个互联网大数据体系中,还有非常多的细分方向,甚至每一个关键词都可以作为一个方向考虑。随着大数据的发展,我想在未来还会有更多各式各样的岗位等待着你。
这一讲我们主要学习了大数据的发展过程。总的来说,大数据并不是一个特别的东西,而是在互联网时代必然的产物。从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。
同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作方向,如果你对其中的内容感兴趣,抑或是想入行大数据,可以选择一个方向深入地了解和学习。在此过程中,有任何问题都可以在交流区留言。
希望通过这一讲的学习,你对大数据的了解又深入了一个层次。下一讲,我们将学习“为了追赶当下趋势,我们要做什么思想准备”。
迫不及待学习,什么时候更新完
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/389997?site
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。