赞
踩
在 Hadoop1.0 中,JobTracker 没有将资源管理相关功能与应用程序相关功能拆分开,逐 渐成为集群的瓶颈,进而导致集群出现可扩展性变差、资源利用率下降以及多框架支持不 足等多方面的问题。
在 MapReduceV2 中,Yarn 负责管理 MapReduce 中的资源(内存、CPU 等)并且将其 打包成 Container。这样可以使 MapReduce 专注于它擅长的数据处理任务,而不需要考虑资源调度。这种松耦合的架构方式实现了 Hadoop 整体框架的灵活性。
Hive 是基于Hadoop 的数据仓库基础构架,它利用简单的 SQL 语句(简称 HQL)来查询、分析存储在 HDFS 中的数据,并把 SQL 语句转换成 MapReduce 程序来进行数据的处理。Hive与传统的关系型数据库的主要区别体现在以下几点。
HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。它底层的文件系统使用 HDFS, 使用ZooKeeper 来管理集群的 HMaster 和各RegionServer 之间的通信,监控各RegionServer 的状态,存储各 Region 的入口地址等。
1)大:一个表可以有上亿行,上百万列(列多时,插入变慢)。
2)面向列:面向列(族)的存储和权限控制,列(族)独立检索。
3)稀疏:对于空(null)的列,并不占用存储空间,因此,表可以设计得非常稀疏。
4)每个单元格中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入 时的时间戳。
5)HBase 中的数据都是字节,没有类型定义具体的数据对象(因为系统需要适应不同 类型的数据格式和数据源,不能预先严格定义模式)。
这里需要注意的是,HBase 也是基于 HDFS,所以也具有默认 3 个副本、数据冗余的特 点。此外 HBase 也是利用 WAL 的特点来保证数据读写的一致性。
此外,由于相同类型的数据被统一存储,因此在数据压缩的过程中压缩算法的选用以 及效率将会进一步加强,这也进一步降低了分布式计算中对于资源的要求。
列式存储的方式更适合 OLAP 型的应用场景,因为这类场景具有数据量较大以及查询字段较少(往往都是聚合类函数)的特点。例如最近比较火的 ClickHouse 也是使用列式存储的方式进行数据的存储。
Spark 由 Twitter 公司开发并开源,解决了海量数据流式分析的问题。Spark 首先将数据 导入 Spark 集群,然后通过基于内存的管理方式对数据进行快速扫描,通过迭代算法实现 全局 I/O 操作的最小化,达到提升整体处理性能的目的。这与 Hadoop 从“计算”找“数据” 的实现思路是类似的,通常适用于一次写入多次查询分析的场景。
Spark Streaming 是基于 Spark 的一个流式计算框架,它针对实时数据进行处理和控制, 并可以将计算之后的结果写入 HDFS。它与当下比较火的实时计算框架 Flink 类似,但是二者在本质上是有区别的,因为 Spark Streaming 是基于微批量(Micro-Batch)的方式进行数据处理,而非一行一行地进行数据处理。
李杨,资深数据架构师,在数据相关领域有10年以上工作经验。头部保险资管公司科技平台交易系统团队开发组负责人,负责多个应用以及数据平台的建设、优化以及迁移工作。曾担任某数据公司技术合伙人,负责多个金融机构的数据仓库或数据平台相关的工作。《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》作者。
本文摘编于《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》作者。(书号:9787111746829),经出版方授权发布,转载请标明文章出处。
一部从企业架构视角系统讲解企业级数据架构的著作,系统梳理和阐述了企业架构的基础知识,以及数据架构的组成要素、架构模型、数据治理和数据资产管理的理论知识。
本文详细介绍了Hadoop生态系统的三大核心部件:Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架(MapReduce)和Hadoop分布式存储和计算平台(YARN)。通过这三个部件的协作,Hadoop生态系统能够实现高效、可扩展的大数据处理和分析。
首先,我们了解了HDFS,它为海量数据的存储提供了可靠的解决方案。HDFS采用分布式存储的方式,将数据划分为块并在集群中进行分布存储,从而实现了数据的高可用性和高吞吐量。
其次,我们介绍了MapReduce框架。MapReduce是一种分布式计算模型,能够将大规模的数据分割成小块,并通过并行处理来提高计算速度。通过Map和Reduce两个阶段的任务分配和结果汇总,MapReduce能够有效地进行数据处理和分析。
最后,我们了解了YARN平台。YARN是Hadoop的资源管理系统,它负责集群中的资源调度和任务管理。YARN将计算和存储分离,使得Hadoop集群能够更好地适应不同类型的应用需求,并提高集群资源的利用率。
通过研究和理解Hadoop生态系统的这三大部件,我们可以更好地利用Hadoop生态系统来应对大数据挑战。无论是数据存储、计算还是资源管理,Hadoop生态系统提供了一套完整的解决方案,帮助企业和个人实现高效的大数据处理和分析。随着技术不断发展,Hadoop生态系统也在不断演进和壮大,为大数据行业的发展做出了巨大贡献。相信通过不断探索和实践,Hadoop生态系统将在未来的数据世界中发挥更加重要的作用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。