赞
踩
它实现了MapReduce计算模型和分布式文件系统HDFS等功能,在业内得到广泛应用。 借助于Hadoop,程序员可以轻松编写分布式并行程序,将其运行于计算机集群上,完成海量数据的存储与处理分析。
简介:HDFS是Hadoop项目两大核心组件之一,是针对谷歌文件系统(GFS)的开源实现。采用主从(Master/Slave)结构模型。HDFS集群包含一个名称节点(作为中心服务器,管理文件系统的命名空间及客户端对文件的访问)和若干个数据节点(一般是一个结点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作)。
优点:支持流数据读取和处理超大规模文件,并能够运行在由廉价的普通机器组成的集群上。HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。
设计目标:
兼容廉价的硬件设备
HDFS设计了快速检测硬件故障和进行自动恢复的机制,可以实现持续监听、错误检查、容错处理和自动恢复,从而在硬件出错的情况下也能实现数据的完整性。
实现流数据读写
HDFS放松了一些POSIX的要求,从而能够以流失方式来访问文件系统数据。
大数据集
HDFS中的文件系统通常可以到达GB甚至TB级别,一个数百台服务器组成的集群都可以支持千万级别这样的文件。
简单的文件模型
HDFS采用了“一次写入,多次读取”的简单文件模型,文件一旦完成写入,关闭后就无法再次写入。只能被读取。
强大的跨平台兼容性
HDFS是采用Java实现的,具有很好的跨平台兼容性,支持JVM的机器都可以运行HDFS。
局限性:
简介:MapReduce是谷歌的核心计算模型。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数:Map和Reduce。适合用MapReduce来处理的数据集需要满足一个前提条件:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
核心思想:“分而治之”
不足
简介:
HBase是Google Bigtable(分布式存储系统)的开源实现,主要用来存储非结构化和半结构化的数据,是一个高可靠、高性能、面向列、可伸缩的分布式数据库。
目标:处理非常庞大的表
与其他部分的关系
HBase数据模型
HBase服务器集群
一个Master服务器:负责表和Region的管理工作
多个Region服务器:负责维护分配给自己的Region并响应用户的读写请求
简介:
Hive是一个基于Hadoop的数据仓库工具,可对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。HIve定义了简单的类似SQL的查询语言——HiveQL,它与大部分SQL语法兼容。
Hive系统架构
Pig是一种流数据语言和运行环境,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。Pig的出现大大简化了Hadoop常见的工作任务,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近SQL的接口。采用Pig编写只需要一个简单的脚本在集群中自动并行处理与分发。
功能:提供一些可扩展的机器学习领域经典算法的实现,包含许多实现,如聚类、分类、推荐过滤、频繁子项挖掘等。此外,通过使用Apache Hadoop库,Mahout可以有效地扩展到云中
目的:旨在帮助开发者更加方便快捷地创建智能应用程序
功能:是高效和可靠的协同工作系统,提供分布式锁之类的基本服务(如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等)用于构建分布式应用,减轻分布式应用程序承担的协调任务。
简介:使用Java编写,容易编程接入,使用了一个和文件树结构相似的数据模型,可以使用Java或者C来进行编程接入。
简介:Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统。
功能:Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理并写到各种数据接收方的能力。
功能:主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。Sqoop是专门为大数据集设计的,支持增量更新,可以将新纪录添加到最近一次导出的数据源上,或者指定上次修改的时间戳。
是一种基于web的工具,支持Apache Hadoop集群的安装、部署、配置和管理。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop等。
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。