关于大数据生态与Spark简介（一）_大数据不仅仅数据的大量化

作者：神奇cpp | 2024-07-20 04:18:40

踩

大数据不仅仅数据的大量化

大数据不仅仅是数据的“大量化”，而是包含“快速化”、“多样化”和“价值化”等多重属性。

大数据是由结构化和非结构化数据组成的

在思维方式方面，大数据完全颠覆了传统的思维方式：

大数据技术的不同层面及其功能
在这里插入图片描述
两大核心技术为分布式存储和分布式处理

代表性大数据技术
Hadoop、Spark、Flink、Beam

Hadoop是Apache软件基金会下用Java语言开发的一个开源分布式计算平台, 实现在大量计算机组成的集群中对海量数据进行分布式计算，适合大数据的分布式存储和计算平台，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

Hadoop生态系统
在这里插入图片描述

MapReduce是一种基于java的分布式计算的处理技术和程序模型

MapReduce工作流程
在这里插入图片描述

YARN是Hadoop集群的资源管理系统

在YARN上部署各种计算框架
在这里插入图片描述

概念：Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
Spark是当前热门的大数据处理技术

特点：

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

Spark架构图
在这里插入图片描述

Hadoop的缺点：

Hadoop与Spark的对比

Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题

相比于Hadoop MapReduce，Spark主要具有如下优点：

Hadoop与Spark的执行流程对比
在这里插入图片描述
Hadoop与Spark执行逻辑回归的时间对比

Spark没有存储，借助于Hadoop的HDFS、HBase等来完成数据的存储，然后，由Spark完成数据的计算

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/855107