赞
踩
HDFS:H是hadoop 分布式文件系统 分布式文件系统。
Hdfs是Hadoop分布式文件系统的简称,它是Hadoop实现的一个分布式文件系统。
纱线:管理资源调度
mycat:中间件
MapReduce的:分布式,并行处理的编译原理
伪分布式:纱和HDFS部署在同一台机器上
组件介绍:
Hadoop的核心组件
HDFS ---- Hadoop生态圈的基本组成部分Hadoop分布式文件系统(HDFS).HDFS是数据分析式保存机制,数据被保存在计算机集群上。数据写入一次.HDFS为HBase等工具提供了基础。
MapReduce ----- Hadoop的主要执行框架MapReduce,它是一个分布式,并行处理的编程模型.MapReduce把任务分为Map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据(可实现快速存储),编写的Hadoop的MapReduce的任务。由于MapReduce的工作原理的特效,Hadoop的能以并行的方式访问数据,从而实现快速访问数据。
Hbase ---- HBase是一个建立HDFS之上,面向列的NoSQL数据库,用于快速读/写大量数据。
Zookeeper ----用于Hadoop的分布式协调服务.Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。
Oozie ---- Oozie是一个可扩展的工作体系,集成于Hadoop的堆栈,用于协调多个MapReduce作业的执行,它能够管理一个复杂的系统,基于外部事件来执行,外部事件包括数据的定时和数据的出现。
Hive ----- Hive类似于SQL高级语言,用于运行存储在Hadoop上的查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。像Pig一样,Hive作为一个抽象层工具,吸引了很多熟悉SQL而不是Java的编程的数据分析师。
Hadoop的的生态圈还包括以下几个框架,用来与其他企业融合
Sqooop是一个连接工具,用于在关系数据库,数据仓库和Hadoop的之间转移数据.Sqoop利用数据库技术描述架构进行数据的导入/导出;利用MapReduce的实现并行化运行和容错技术。
水槽提供了分布式,可靠,高效的服务,用于收集,汇总大数据,并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构,并提供了数据流的流。它利用简单的可扩展的数据模型,将企业中多台计算机上的数据转移到Hadoop的。
除核心部件外,Hadoop的生态圈正在不断增长,以提供更新功能和组件,如以下内容:
Mahout ------- Mahout是一个机器学习和数据挖掘库,它提供的MapReduce包含很多实现,包括聚类算法,回归测试,统计建模。通过使用Apache Hadoop库,可以将Mahout有效地扩展到云中。
Spark生态圈
Spark特点
Spark是伯克利大学AMPLab压法的一套开源的数据处理软件栈,也是当前领域内最活跃,最热门,最高效的大数据通用计算平台。
快速
易用
通用
集成的Hadoop
Spark组件
SparkCore
RDD弹性数据集,RDD编程接口,RDD关系依赖,StageDAG
SparkStreaming
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据,它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。
Spark SQL:
Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等),执行ETL,将其转化,然后暴露给特定的查询。
Spark MLlib
MLlib是一个可扩展的Spark机器学习库,有通用的学习算法和工具组成,包括二分个,分类,线性回归,聚类协同过滤,梯度下降以及底层优化原因。用于机器学习和统计等场景
Spark GraphX:
GraphX是用于图计算和并行计算的新的(alpha)Spark API。
通过引入弹性分布式属性图(Reslient Distributed Property Geaph),一种顶点和边都带有属性的有向多重图,扩展火花RDD。为了支持图计算,GraphX暴露了一个基础操作符集合(如子图, joinVertices和aggregateMeassages)和一个经过优化的Pregel API变体。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建起集合。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。