当前位置:   article > 正文

大数据相关框架及其功能_大数据框架

大数据框架
  • Hadoop:是一个开源分布式计算平台用于处理大规模数据集的存储和处理。由 Apache 软件基金会开发和维护,并提供了一个可靠、可扩展的框架用于在集群中存储和处理大量的结构化和非结构化数据

    Hadoop的核心组件包括:

    • HDFS(Hadoop Distributed File System):是一个分布式文件系统用于存储大规模数据集。它【将数据划分为多个块并复制到不同的计算节点上,以实现高可靠性高容错性】。

    • MapReduce:是一种编程模型和执行引擎用于在分布式环境中进行数据处理和计算。MapReduce 将任务分解为 Map 和 Reduce 阶段,并自动处理数据的分区、排序和并行计算等细节。

    • Yarn(Yet Another Resource Negotiator):是Hadoop中的资源管理器用于调度和管理集群中的计算资源。【YARN 可以 动态分配和管理计算任务所需的资源,并确保在集群上有效地运行各种应用程序。】

  • Hadoop中的重要组件

    • NameNode(NN):它是HDFS的元数据服务器。NN负责存储文件系统的元数据,包括文件和目录信息、文件的副本情况以及数据块的位置等,它还负责处理客户端的文件操作,例如,读取、写入和删除问阿金等。NameNode是单点故障,因此它的高可用性可通过使用Standby NameNode来增强。

    • DataNode(DN):它是实际存储数据的节点。每个DN负责存储一部分数据块,并定期向NN报告所存储的数据块信息。当哭护短需要读取或写入文件时,DN会根据NN的指示进行数据的读取或写入。

    • Secondary NameNode(2NN):并不是NameNode的热备份,它是NameNode的辅助节点。它的主要作用是协助NN进行元数据的合并和检查点操作。它定期从NN获取文件系统的编辑日志和内存经相关,然后通过合并它们来生成新的检查点。这样可以减轻NN的压力,加快故障恢复速度,并降低NN的启动时间。

    • ResourceManager(RM):是Yarn框架的关键组件,负责集群资源的分配和任务调度。RM接收客户端提交的作业,并根据集群的可用资源对任务进行调度,将它们分配给合适的NM执行。RM还负责监控NM的状态和资源使用情况,以及对容器进行分配和释放。

    • NodeManager(NM):是Yarn框架的重要组件,运行在每个节点上。它负责管理该节点上的计算资源,并执行和监控由RM分配的容器。NM会周期性地向RM报告其节点的资源使用情况和容器的运行状态,通过接收来自RM的指令,如启动、停止和重新启动容器等。【默认最大内存是8G】

            这些组件共同协作,构成了Hadoop分布式文件系统和分布式计算框架的核心基础设施。NN和2NN管理文件系统的元数据和检查点DN存储实际的数据块RM负责集群资源的分配和任务调度NM管理节点上的资源和容器的执行。通过这些组件的协调工作,Hadoop实现了高性能、高可用性和可扩展性的大规模数据存储和处理。

  • Zookeeper:是一个开源分布式协调服务用于管理和协调分布式系统中的各种配置信息、元数据和状态。Zookeeper提供了一个高性能的层次化命名空间(类似于文件系统),以及一组简单而强大的原语用于处理分布式应用程序中的数据同步、通知和一致性问题。它被设计为轻量级、可靠和易于使用的工具,用于解决分布式系统中的一些典型问题,如【分布式锁、选举算法、配置管理】 等。

    • 高可用性:Zookeeper使用多台服务器构成一个集合,通过复制数据和状态来提高高可用性。若其中一台服务器宕机,其他服务器可以继续提供服务。

    • 有序性:Zookeeper对客户端请求进行顺序化处理,并为每个操作分配一个全局唯一且有序的标识符。这可以帮助分布式应用程序实现同步和顺序访问。

    • 数据(发布/订阅):Zookeeper提供的机制,使得客户端可以注册监听器并接收关于数据变化的通知。这使得分布式应用程序可以实时感知到配置变更和状态更新。此机制是运用到23种开发模式中的 “订阅者模式”。

    • 分布式锁:Zookeeper提供了临时节点和有序节点的支持,可以用于实现分布式锁。应用程序可以使用这些锁来协调对共享资源的访问。

    • 配置管理:Zookeeper可以 用作集中式配置存储和管理工具。应用程序可以将其配置信息存储在Zookeeper中,并通过监听机制来感知配置的更改。

    • 选举算法:Zookeeper提供一些原语,用于实现分布式系统中的领导者选举算法。对于需要选举一个领导者节点的场景,Zookeeper可以提供可靠的选举机制。

  • Hive:是一个开源数据仓库工具用于在大规模数据集上进行数据存储、查询和分析。它是在Hadoop生态系统中构建的,利用了Hadoop的分布式文件系统(HDFS)和计算框架(如MapReduce或Apache Tez)来处理和分析数据。

    ​           Hive提供了类似于穿透关系数据库的SQL查询语言(称为HiveQL或HQL),使得用户可以使用类似SQL的语法进行数据查询和转换操作。Hive还提供一种将SQL查询转换为底层MapReduce或Tez作业的机制,以便在分布式环境中执行查询并处理大规模数据。Hive的一些关键特性:

    • 数据存储和表:Hive 使用类似于关系型数据库的表概念来组织和管理数据。用户可以通过定义表结构和模式来创建表,并将数据加载到这些表中。Hive 支持多种数据存储格式,包括文本、序列化、列式存储等。

    • 扩展SQL查询语言:HiveQL 允许用户使用类似于 SQL 的查询语言来分析和处理数据。HiveQL 支持常见的查询操作(例如 SELECT、JOIN、GROUP BY),并提供丰富的内置函数和扩展功能。

    • 延迟优化和执行计划生成:Hive 在执行查询之前会生成执行计划,并尝试优化查询以提高性能。这包括选择最佳的数据读取方式、合并操作、推测执行和自动分区等。

    • 用户定义函数(UDF):Hive允许用户编写自定义函数来扩展查询功能。用户可以使用 Java 或其他编程语言编写 UDF,并在 HiveQL 查询中调用这些函数。

    • 数据传输和集成:Hive提供了与其他数据处理和分析工具的集成能力。它可以与Apache Spark、Apache Kafka、Apache HBase等组件进行集成,以支持更复杂的数据流处理和分析需求。

    Hive 的设计目标:是为那些对 SQL 查询熟悉而不熟悉编写 MapReduce 作业的用户提供一种简单且易于使用的接口。Hive 被广泛应用于大数据领域,用于各种任务,如数据仓库、数据分析、ETL(Extract, Transform, Load)等。

  • Flume:是一个分布式、可靠且可扩展日志收集和聚合系统,帮助用户高效地管理和处理大量的日志数据。它是Apache软件基金会的开源项目,用于高效可靠地收集、聚合和传输大量的日志和事件数据,旨在帮助用户方便地收集、聚合和移动大量的日志数据。

    Flume的设计理念:通过定义可配置的数据流管道(pipeline),将数据从源(source)收集并传输到目的地(sink)。源可以是多种类型的数据源,如日志文件、网络端口、数据库等;目的地可以是HDFS、HBase、Kafka等。在数据流管道中,还可以通过使用拦截器(interceptor)进行数据转换和过滤。

    Flume的架构包含三个主要组件

    • Source(数据源):负责从各种来源收集数据,并将其传递给后续的Channel。常见的Source包括Avro Source、Netcat Source和Spooling Directory Source等。

    • Channel(通道):作为Source和Sink之间的缓冲区域,负责存储传输的事件数据。Flume提供了多种类型的Channel实现,如Memory Channel、File Channel和Kafka Channel等。

    • event(事件) :是指要传输和处理的数据单元。它是一个抽象概念,表示待收集和传输的数据。每个事件都由一条记录(record)组成,而记录可以是文本、二进制数据或其他形式的数据。事件还可以携带与记录相关的元数据,如时间戳、源信息等。事件还可以携带可选的事件头(event headers)

    • Sink(目的地):将数据从Channel取出并传输到最终的存储或处理系统。Flume提供了丰富的Sink实现,如HDFS Sink、HBase Sink和Kafka Sink等。

    • Interceptor(拦截器):可以在数据流管道中进行数据转换和过滤的组件。用户可以自定义拦截器来处理特定的数据需求。

    • Agent:负责接收、转换和传输数据

    使用Flume,可以配置多个Agent来收集不同源的日志数据,并将其发送到不同的目标位置进行存储和分析。这种分布式且可扩展的架构使得Flume适用于处理大规模的日志数据。Flume提供了各种插件和工具,可以方便与其他系统集成,如Hadoop、Kafka、Elasticsearch等。通过这些插件,用户可以根据自己的需求灵活地定制和扩展Flume的功能。

  • Kafka:是一个高性能、分布式的流处理平台,最初由LinkedIn开发并开源。它被设计用于处理大规模的实时数据流,被设计为一个高吞吐量、可扩展、持久化的消息队列系统。并且具备可扩展性、容错性和持久性等特点。

    Kafka的核心概念消息传递生产者消费者主题分区消费者组

        主题(Topic):生产者将消息发布到特定的主题上。主题是消息的分类标识,可以理解为消息的容器。
    ​
        生产者(Producer):生产者负责将消息发布到主题上。它可以将消息发送到一个或多个主题,并且可以根据需要指定分区和键(Key),以控制消息的路由和顺序。
    ​
        分区(Partition):每个主题可以被分为多个分区,用于水平拓展和提高并行处理能力。每个分区在物理上都对应着一个日志文件,其中包含按顺序存储的消息。
    ​
        消费者组(Consumer Group):多个消费者可以组成一个消费者组,共同消费主题中的消息。每个消费者组在逻辑上订阅了整个主题,但在实际情况下,每个分区只会被同一个消费者组中的一个消费者进行消费。
    ​
        消费者(Consumer):消费者通过订阅特定的主题或主题的分区来接收消息。消费者可以以不同的方式进行消息消费,例如实时处理、批量处理或按时间间隔轮询。
    ​
        通过订阅者模式,Kafka实现了高可靠性、低延迟的分布式消息传递。生产者发布消息到主题上,而消费者根据自己的需求和订阅关系来消费消息。这种模式使得 `消息的生产者和消费者之间解耦`,提供了灵活性和可伸缩性。

    主要特点包括:

    • 可靠性:Kafka将消息持久化到磁盘上,并允许数据在分布式环境中进行备份和故障恢复,确保数据不会丢失。

    • 可扩展性:Kafka可以在多个机器上进行水平扩展,以处理大量的消息流,并能够支持高并发的读写操作。

    • 高吞吐量:Kafka能够处理每秒数十万甚至上百万的消息,使其成为处理实时数据流的理想选择。

    • 分布式:Kafka通过将数据分割成多个分区并在多个服务器上进行复制来实现分布式存储和处理,提供了高可用性和负载均衡的能力。

    • 消息发布-订阅模型:Kafka使用发布-订阅模型,其中生产者(Producer)将消息发布到主题(Topic),而消费者(Consumer)则订阅感兴趣的主题并消费消息。【采用了“订阅者模式”:在Kafka中,消息的生产者(Producer)将消息发布到一个或多个主题(Topic),而消费者(Consumer)则订阅感兴趣的主题并消费消息。】

        Kafka的应用场景,常用于以下方面:

    • 构建实时数据流应用程序:Kafka作为高吞吐量、可靠性消息系统,可以用于构建实时数据处理和流式计算应用,如实时分析、实时监控等。

    • 日志聚合:Kafka适用于日志收集和聚合,它能够接收大量的日志数据并将其持久化,供后续处理和分析使用。

    • 消息队列:Kafka可以作为分布式消息队列,用于解耦应用组件之间的通信,实现异步处理和提高系统的可伸缩性。

    • 事件驱动架构:Kafka的发布-订阅模型适合构建事件驱动的架构,可以通过消息交换实现不同组件之间的解耦和扩展。

  • Spark:是一个开源分布式计算系统/框架,提供了强大的数据处理和分析能力。用于处理大规模数据集和执行并行计算任务​。

    Spark提供了一个统一的编程模型,可以支持多种计算任务,包括批处理、交互式查询、流处理和机器学习等。它的核心抽象弹性分布式数据集(Resilient Distributed Dataset,简称RDD),它是一个可并行操作的可容错数据集合

    • 主要特点包括:

      1. 高速性能:Spark通过将数据存储在内存中进行计算,能够比传统的磁盘存储系统(如Hadoop MapReduce)快上数十倍甚至更多。它还利用了弹性分布式数据集(Resilient Distributed Datasets,简称RDD)来实现高效的数据处理和转换操作。

      2. 多语言支持:Spark提供了对多种编程语言的支持,包括Java、Scala、Python和R。这使得开发人员能够使用自己熟悉的编程语言来编写Spark应用程序。

      3. 强大的扩展性:Spark支持在大规模集群上进行分布式计算。它可以与Apache Hadoop、Apache Mesos和Standalone等集群管理器集成,以实现资源管理和任务调度。

      4. 多种计算模型:Spark提供了丰富的计算模型,包括批处理、交互式查询(Spark SQL)、流处理(Spark Streaming)和机器学习(Spark MLlib)。这使得Spark能够满足不同场景下的数据处理和分析需求。

      5. 生态系统丰富:Spark拥有一个庞大的生态系统,包括各种扩展库和工具,例如图处理(GraphX)、流式机器学习(Structured Streaming)和深度学习框架(TensorFlow on Spark)。这些扩展使得Spark能够应对更多的应用场景。

    • Spark与MapReduce比较:

      相比于传统的MapReduce计算模型,Spark具有更高的性能和灵活性。它将数据存储在内存中,并使用内存计算来加速数据处理操作,从而大大缩短了作业的执行时间。此外,Spark还提供了丰富的库和工具,如 Spark SQL、Spark Streaming、GraphX和MLlib 等,以满足不同计算任务的需求。

      Spark可以在各种集群管理器上运行,如 Hadoop YARN、Apache Mesos和Standalone 等。它还支持多种编程语言,包括 Java、Scala、Python和R ,并提供了交互式的Shell界面和可编程的API,方便用户进行开发和调试

    小结:Spark是一个快速、可扩展且易用的分布式计算框架,适用于大规模数据处理和复杂计算任务。​

  • Sqoop:(SQL to Hadoop)是一个用于在Apache Hadoop和关系型数据库之间传输数据的工具。它允许用户轻松地将结构化数据从关系型数据库(如MySQL、Oracle、SQL Server等)导入到Hadoop中的分布式文件系统(如HDFS),或者将数据从Hadoop导出到关系型数据库中进行分析和处理。

    Sqoop提供了命令行接口和API,使用户能够定义数据抽取和加载的任务,并在Hadoop集群上进行执行。它支持各种数据导入导出操作,包括全表导入、增量导入、条件筛选和分区导入等。

    使用Sqoop,你可以很方便地将关系型数据库中的数据导入到Hadoop生态系统中进行大数据处理。这对于进行数据仓库构建、离线分析、数据挖掘和机器学习等任务非常有用。同时,Sqoop也支持将Hadoop中的数据导出到关系型数据库中,从而实现与传统数据分析工具的集成。

    小结:​ Sqoop是一个强大而灵活的工具,用于在Hadoop和关系型数据库之间进行数据传输。它简化了大数据处理和关系型数据库之间的集成,并为用户提供了高效、可靠的数据导入导出功能。

  • Azkaban:是一个 开源工作流调度和管理系统用于在大数据环境中调度和执行批处理作业

    Azkaban提供了易于使用的Web界面使用户能够定义、调度和监控复杂的工作流工作流由多个作业组成每个作业可以是Shell脚本、Java程序、Hive查询等用户可以通过可视化界面创建和配置工作流,并设置依赖关系和调度规则

    • 主要特点包括:

      • 工作流调度:Azkaban支持将作业组织成工作流,通过定义依赖关系和调度规则来控制作业的执行顺序和频率。它提供了灵活的调度选项,如定时调度、手动触发和事件驱动等。

      • 可视化界面:Azkaban提供了直观的Web界面,使用户能够轻松创建、编辑和管理工作流。用户可以通过拖放操作定义作业间的依赖关系,查看和监控作业执行状态,并在需要时手动触发作业的执行。

      • 权限管理:Azkaban支持基于角色的访问控制,可以将用户分为不同的角色并为每个角色分配不同的权限。这样可以确保只有授权人员能够管理和执行作业,提高系统的安全性。

      • 可扩展性:Azkaban可以与Hadoop生态系统中的其他工具和服务进行集成,如HDFS、YARN、Hive和Pig等。它还支持自定义插件,使用户能够根据自己的需求扩展和定制Azkaban的功能。

    小结:​ Azkaban是一个强大的工作流调度和管理系统适用于在大数据环境中管理和执行批处理作业。它提供了简单易用的界面和丰富的功能,帮助用户简化作业的调度和监控,并提高工作效率。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/647206
推荐阅读
相关标签
  

闽ICP备14008679号