吐血整理：盘点19种大数据处理的典型工具

作者：不正经 | 2024-06-14 06:28:58

踩

大数据处理工具

导读：本文讨论大数据处理的生命周期和典型工具。

作者：高聪王忠民陈彦萍

来源：大数据DT（ID：hzdashuju）

大数据的生命周期分为数据获取（data acquisition）、数据存储（data storage）、数据分析（data analysis）以及结果（result），并且将前述大数据处理的三代技术中相关的工具映射至数据获取、数据存储和数据分析三个环节来进行分类讨论，详情如表1-2所示。

▲表1-2 大数据处理的典型工具

在数据获取阶段，通常涉及从多源异构的数据源获取数据，这些数据源可能是批处理数据源，也有可能是实时流数据源；
在数据存储阶段，需要对前一阶段已经获取到的数据进行存储，以便进行后续的分析与处理，常见的存储方式有磁盘（disk）形式和无盘（diskless）形式。
在数据分析阶段，针对不同的应用需求，会运用各类模型和算法来对数据进行分析与处理。

在表1-2中，三代技术中不同的处理阶段所涉及的工具存在重叠。此外，对于混合计算技术，其本身同时涉及批处理技术和实时处理技术，实现混合计算模型的技术也要比单纯的批处理技术和实时处理技术更加复杂；鉴于混合计算技术的上述特点，这里不对在数据的获取、存储与分析方面所涉及的具体工具做特别的划分。

01 HDFS

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）目前是Apache Hadoop项目的一个子项目，与已有的分布式文件系统有很多相似之处。

此外，作为专门针对商业化硬件（commodity hardware）设计的文件系统，HDFS的独特之处也很明显：首先其具有很高的容错性，其次可以部署在较为廉价的硬件上，最后能够提供高吞吐量的应用数据访问能力。

对于终端用户而言，HDFS就是一个传统的文件系统，具有文件和目录的创建、修改、删除等常规操作。

HDFS采用主/从（Master/Slave）体系结构。单个HDFS集群仅包含一个名称节点（NameNode），其提供元数据服务，管理文件系统的命名空间（namespace），并引导用户对文件的访问。此外，单个HDFS集群可以包含多个数据节点（DataNode），数据节点负责管理与自身相关联的存储空间。

HDFS对外给出文件系统的命名空间作为用户对数据进行访存的接口。

在HDFS内部，单个文件通常被分割成多个块（block），这些块存储在一系列数据节点上。由名称节点在整个HDFS集群的命名空间上执行文件和目录的打开、读取和关闭等操作。文件的块与数据节点之间的映射也是由名称节点管理的。数据节点基于名称节点的指令来实施块的创建、复制和删除等。

02 Sqoop

Sqoop是一个在Hadoop和关系数据库服务器之间传送数据的工具，方便大量数据的导入导出工作，其支持多种类型的数据存储软件。

Sqoop的核心功能为数据的导入和导出。

导入数据：从诸如MySQL、SQL Server和Oracle等关系数据库将数据导入到Hadoop下的HDFS、Hive和HBase等数据存储系统。
导出数据：从Hadoop的文件系统中将数据导出至关系数据库。

Sqoop的一个显著特点是可以使用MapReduce将数据从传统的关系数据库导入到HDFS中。Sqoop作为一个通用性的工具，只需要在一个节点上安装，因此安装和使用十分便捷。

03 Flume

Flume是由Hadoop生态系统中著名的软件公司Cloudera于2011年发布，该软件能够支持分布式海量日志的采集、集成与传输，以实时的方式从数据发送方获取数据，并传输给数据接收方。

Flume具有两个显著的特点：可靠性和可扩展性。

针对可靠性，其提供了从强到弱的三级保障，即End-to-end、Store on failure和Best effort。
针对可扩展性，其采用三层的体系结构，即Agent、Collector和Storage，每层都可以在水平方向上进行扩展。

Flume以Agent的方式运行，单个Agent包含Source、Channel和Sink三个组件，由Agent对数据进行收集，然后交付给存储机制。从多个数据源收集到的日志信息依次经过上述三个组件，然后存入HDFS或HBase中。因此，通过Flume可以将数据便捷地转交给Hadoop体系结构。

04 Scribe

Scribe是由Facebook开发的分布式日志系统，在Facebook内部已经得到了广泛的应用。Scribe能够针对位于不同数据源的日志信息进行收集，然后存储至某个统一的存储系统，这个存储系统可以是网络文件系统（Network File System，NFS），也可以是分布式文件系统。

Scribe的体系结构由三部分组成：Scribe Agent、Scribe和Storage。

第一部分Scribe Agent为用户提供接口，用户使用该接口来发送数据。
第二部分Scribe接收由Scribe Agent发送来的数据，根据各类数据所具有的不同topic再次分发给不同的实体。
第三部分Storage包含多种存储系统和介质。

Scribe的日志收集行为只包括主动写入的日志，Scribe自身没有主动抓取日志的功能。因此，用户需要主动向Scribe Agent发送相关的日志信息。

05 HBase

HBase的全称为Hadoop Database

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/716807