Spark，Hbase和Hadoop之间的关系_hbase、hadoop、spark关系

作者：知新_RL | 2024-06-08 15:42:54

踩

hbase、hadoop、spark关系

简单的介绍：

Spark：

Aparche Shark是专为大规模数据处理而设计的快速通用的计算引擎。由UC Berkeley AMP Lab所开源的类Hadoop MapReduce的通用并行框架。

HBase：

HBase是一个分布式的、面向列的开源数据库，该技术来源于Fay Chang所撰写的Google论文BigTable（一个结构化数据的分布式存储系统）。HBase是Apache的Hadoop项目的子项目。Hbase不同于一般的关系数据库，它是一个非结构化数据存储的数据库。另一个不同的是HBase是基于列的，而不是基于行的模式。

Hadoop是一个有Apache基金会所开发的分布式系统基础架构。

正文：

对于数据的处理，归结于三个问题：数据从哪儿来，要对数据做什么，数据到哪儿去。

大数据，是多类数据的复杂集合体。大数据之大，在于两点：种类多（大类），数量多（大量）。

关于大数据的这两点，在计算机操作技术上讲，是如何存储/读取大数据，以及如何对大数据进行操作。

对大数据的操作包括：抓取大数据，挖掘大数据，计算大数据。

对于大数据的去处：依据行业分为【舆情】、【金融】、【科技】、【文化】等方面。

Spark作为计算引擎，是承载大数据操作的框架媒介。作为程序体的框架，调用配置所处位置下的机器的硬件设施来实现调用配置。

HBase作为数据库，是大数据存储和读取的存储（读取）媒介。

Hadoop作为分布式系统架构，则是对大量机器进行管理控制的管理者。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/690250