当前位置:   article > 正文

Hadoop时代落幕,开源大数据将何去何从?

Hadoop时代落幕,开源大数据将何去何从?


1、Hadoop潮起潮落


2021年10月8日,大数据行业的一个标志性事件发生:Cloudera正式宣布完成了从纳斯达克摘牌和私有化退市

Cloudera的私有化,也标志着以Hadoop为代表的大数据时代落幕了

言Cloudera必言Hadoop。十几年前,三家资金雄厚的初创公司Cloudera、Hortonworks和MapR开始围绕Hadoop开源生态系统中进行产品和服务商业化。有关Hadoop的炒作在2014年达到了巅峰

阅读本文之前,建议先阅读Hadoop与Cloudera的发展史:传送门

2、Hadoop何去何从?


大数据大概是从2003年开始发展的,开始的标志是《MapReduce》、《GFS》、《BigTable》三篇论文的发表。如果从时间维度上对比来看,数据库从70年代起步,至今大概是50年的历史;大数据至今的历史是20年;深度学习是2013年左右开始发展的,至今刚好10年

我们可以将大数据技术的发展分成三个阶段:孕育期、发展期和普惠期

  • 第一阶段,从2003年到2013年是孕育期。大家只听过一些耳熟能详的大厂在做大数据相关的建设,比如谷歌做搜索引擎后台数据处理

  • 第二阶段,之后的8-10年,即从2013年到2023年是发展期。发展期有两个关键事项推动了大数据的发展:其一是以Hadoop为核心的开源技术;其二是云计算。云计算相关技术的发展极大程度上降低了大数据平台的建设门槛。所以,大家可以看到目前主流的大数据平台都是在2012年前后开始发展的,例如Snowflake在那时候成立,阿里巴巴大概那个时候开始做阿里云和飞天大数据平台等

  • 第三个阶段,普惠期。普惠期的特点有两个:其一是千帆竞发后,大部分企业被淘汰,少数企业通过竞争最终占领市场,然后逐步形成规模;其二从技术角度来看,部分技术的发展趋于成熟,如批计算、流计算和分析的一些范式被固定并广泛应用。同时,一些外延的技术比如跟AI相关技术的会持续发展

而Hadoop大数据时代刚好经历了第一阶段和第二阶段,准确的来说,Hadoop大数据时代结束于第二阶段的2021年

众所周知,此前,CDH是市场上最受欢迎的免费Hadoop版本之一。市场上免费的Hadoop版本主要有三个,分别是Apache版本(开源社区版)、Cloudera版本(简称CDH)、Hortonworks版本(简称HDP,2018年Cloudera与Hortonworks合并后归属于Cloudera)。Cloudera对HDP的技术支持已经于2021年12月结束,Cloudera还宣布今后将不再推出新版本的CDH和HDP,也就是这两个Hadoop版本不会再演进了。这就意味着,今后企业想要部署免费的Hadoop平台只能选择社区版本,这显然这会提高Hadoop部署和运维的难度和技术门槛

在Hadoop大数据时代里,企业都是自己购买机器,自己部署Hadoop及生态圈组件,自己运维管理大数据平台,自建数据中心。开源组件自建可以随业务需求修改,定制化程度较高

随着大数据新生力量云计算的崛起,以S3为代表的对象存储开始流行,云服务商结合对象存储推出的各种Hadoop云服务,相比于传统方式部署的Hadoop更简单易用,且具有更低廉的成本。购买商业服务通常意味着企业希望数据平台做到一体化、更简单、免运维

目前,国内的云平台主要有:阿里云、腾讯云、华为云等,国外有:AWS(亚马逊云)、Microsoft Azure(微软云)、Google GCP(谷歌云)等

在大数据领域,主流的云平台均提供了相应的解决方案,从分布式存储到分布式计算,从批处理框架到流式计算,从ETL到数据管道,从BI分析到数据挖掘等方面均有对应的产品来解决企业的需求

当下Hadoop主要面向的还是拥有海量数据的私有云环境,金融、电信以及部分互联网才是Hadoop真正的重度用户,它们对大数据应用需求的复杂性是云服务商比较难满足的,一般来说其应用很难迁移到公有云上

而目前,Hadoop生态体系中的很多组件正在或已经被新的技术替换,例如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn等,而替代之后的Hadoop早已不是原来的Hadoop了

Hadoop不会消失,也不是所有的数据工作负载都会迁移到云端,但公有云和Kafka、Spark、Flink等技术将越来越多地定义大数据

云计算与云服务简介见文章:传送门

3、大数据的新宠儿:数据湖


从HDFS到对象存储,抛弃Hadoop,数据湖才能重获新生?Hadoop与数据湖的关系详见文章:传送门

4、大数据与云原生简介


随着大数据技术的融合发展,企业对数据平台的要求越发多元:不仅要能够整合集成、存储、管理海量的多源异构数据,还要能够提供连通业务的多样化数据服务能力,并且能够支持不同应用、不同场景中的落地。从Hadoop到Snowflake,数据平台的发展呈现出清晰的路径,在与云的结合上也探索了丰富的技术实践

目前,大数据行业内的技术路线仍然有开源组装自建,主要基于原生大数据生态组件

而企业云计算与云服务,则代表着新的一类技术方向

云原生(Cloud Native)是一种基于云计算的软件开发和部署方法论,它强调将应用程序和服务设计为云环境下的原生应用,以实现高可用性、可扩展性和灵活性

云原生的核心理念包括以下几个方面:

  • 容器化:云原生使用容器化技术将应用程序和服务打包成容器,以实现应用程序的可移植性和可扩展性

  • 微服务架构:云原生采用微服务架构,将应用程序和服务拆分成多个小的服务单元,从而提高应用程序的可维护性和可扩展性

  • 自动化管理:云原生使用自动化管理技术,通过自动化的方式管理和部署应用程序和服务,从而提高效率和可靠性

  • 分布式架构:云原生采用分布式架构,将应用程序和服务部署在多个地理位置的云环境中,从而实现高可用性和容错性

  • 持续交付:云原生采用持续交付的方法,将应用程序和服务快速地交付给用户,以满足用户的需求

云原生的优势有:

  • 高可用性:云原生可以实现应用程序的高可用性和容错性,以保证应用程序的稳定性和可靠性

  • 可扩展性:云原生可以根据应用程序的需求动态地扩展计算资源,提高资源的灵活性和可用性

  • 灵活性:云原生可以根据应用程序的需求选择不同的云服务和云平台,提高资源的灵活性和可用性

  • 高效性:云原生可以通过自动化管理和持续交付的方法提高效率,从而节省时间和成本

  • 安全性:云原生可以提供多层次的安全保障,保护企业的数据和隐私

云原生的应用场景有:

  • 云原生应用开发

    云原生技术可以帮助开发人员更快、更安全地构建和部署云原生应用

  • 智能物联网

    云原生技术也可以应用于智能物联网领域,通过使用容器和Kubernetes等技术,可以构建高性能、可扩展的物联网平台,实现数据处理和分析、设备管理等功能

  • DevOps

    云原生技术也是DevOps实践的核心组成部分,通过使用云原生工具和流程,可以实现自动化的应用程序开发、测试和部署,从而加快软件交付速度,提高应用程序质量和稳定性

  • 云原生区块链应用

    云原生架构可以帮助区块链应用实现快速部署、弹性扩展、自动化运维等功能,从而提高应用程序的可靠性和可用性

  • 大数据和机器学习

    云原生技术可以帮助构建大规模、高性能的数据和机器学习平台,通过使用容器和Kubernetes等技术,可以实现更好的资源管理和弹性伸缩,从而提高应用程序性能和可靠性

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/199560
推荐阅读
  

闽ICP备14008679号