当前位置:   article > 正文

大数据技术原理_大数据工作原理

大数据工作原理

 

HDFS:H是hadoop   分布式文件系统  分布式文件系统。

 

Hdfs是Hadoop分布式文件系统的简称,它是Hadoop实现的一个分布式文件系统。

 

纱线:管理资源调度

 

mycat:中间件

 

MapReduce的:分布式,并行处理的编译原理

 

 

 

 https://i-blog.csdnimg.cn/blog_migrate/89b1a9b151410b84dd93010e3fda1143.png

 

伪分布式:纱和HDFS部署在同一台机器上

 

组件介绍:

 

 

Hadoop的核心组件

HDFS ---- Hadoop生态圈的基本组成部分Hadoop分布式文件系统(HDFS).HDFS是数据分析式保存机制,数据被保存在计算机集群上。数据写入一次.HDFS为HBase等工具提供了基础。

MapReduce ----- Hadoop的主要执行框架MapReduce,它是一个分布式,并行处理的编程模型.MapReduce把任务分为Map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据(可实现快速存储),编写的Hadoop的MapReduce的任务。由于MapReduce的工作原理的特效,Hadoop的能以并行的方式访问数据,从而实现快速访问数据。

Hbase ---- HBase是一个建立HDFS之上,面向列的NoSQL数据库,用于快速读/写大量数据。

Zookeeper ----用于Hadoop的分布式协调服务.Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。

Oozie ---- Oozie是一个可扩展的工作体系,集成于Hadoop的堆栈,用于协调多个MapReduce作业的执行,它能够管理一个复杂的系统,基于外部事件来执行,外部事件包括数据的定时和数据的出现。

Hive ----- Hive类似于SQL高级语言,用于运行存储在Hadoop上的查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。像Pig一样,Hive作为一个抽象层工具,吸引了很多熟悉SQL而不是Java的编程的数据分析师。

Hadoop的的生态圈还包括以下几个框架,用来与其他企业融合

Sqooop是一个连接工具,用于在关系数据库,数据仓库和Hadoop的之间转移数据.Sqoop利用数据库技术描述架构进行数据的导入/导出;利用MapReduce的实现并行化运行和容错技术。

水槽提供了分布式,可靠,高效的服务,用于收集,汇总大数据,并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构,并提供了数据流的流。它利用简单的可扩展的数据模型,将企业中多台计算机上的数据转移到Hadoop的。

除核心部件外,Hadoop的生态圈正在不断增长,以提供更新功能和组件,如以下内容:

Mahout ------- Mahout是一个机器学习和数据挖掘库,它提供的MapReduce包含很多实现,包括聚类算法,回归测试,统计建模。通过使用Apache Hadoop库,可以将Mahout有效地扩展到云中。

 

Spark生态圈

 

https://i-blog.csdnimg.cn/blog_migrate/ddfbabed6a429511ceb9e8febec89676.png

 

 

Spark特点

Spark是伯克利大学AMPLab压法的一套开源的数据处理软件栈,也是当前领域内最活跃,最热门,最高效的大数据通用计算平台。

快速

易用

通用

集成的Hadoop

Spark组件

SparkCore

 

RDD弹性数据集,RDD编程接口,RDD关系依赖,StageDAG

 

SparkStreaming

 

Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据,它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。

 

Spark SQL:

 

Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等),执行ETL,将其转化,然后暴露给特定的查询。

 

Spark MLlib

 

MLlib是一个可扩展的Spark机器学习库,有通用的学习算法和工具组成,包括二分个,分类,线性回归,聚类协同过滤,梯度下降以及底层优化原因。用于机器学习和统计等场景

 

Spark GraphX:

 

GraphX是用于图计算和并行计算的新的(alpha)Spark API。

 

通过引入弹性分布式属性图(Reslient Distributed Property Geaph),一种顶点和边都带有属性的有向多重图,扩展火花RDD。为了支持图计算,GraphX暴露了一个基础操作符集合(如子图, joinVertices和aggregateMeassages)和一个经过优化的Pregel API变体。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建起集合。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/911786
推荐阅读
相关标签
  

闽ICP备14008679号