赞
踩
Apache Hadoop项目开发用于可靠、可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。 它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。 库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
此文是Hadoop相关项目的简介,重点关注自由/开源软件。
相关文章
The Hadoop Ecosystem Table
HADOOP ECOSYSTEM
几个有关hadoop生态系统的架构图
你也能看懂Hadoop——Hadoop生态体系
HADOOP生态圈介绍
Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商用硬件上运行。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的差异很大。 HDFS具有高度容错能力,旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。 HDFS放宽了一些可移植性操作系统接口(POSIX)要求,以实现对文件系统数据的流式访问。 HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的。 HDFS是Apache Hadoop Core项目的一部分。
GlusterFS是一个免费的开源可扩展网络文件系统。使用常见的现成硬件,你可以为流媒体、数据分析以及其他数据和带宽密集型任务创建大型分布式存储解决方案。
GlusterFS最初由Gluster,然后由Red Hat(2011年购买Gluster)开发。2012年6月,Red Hat Storage Server被宣布为商业支持的GlusterFS与Red Hat Enterprise Linux的集成。 Gluster文件系统,现在称为Red Hat Storage Server。
Quantcast File System (QFS) 是一个高性能、容错、分布式的文件系统,其开发是用于支持 MapReduce 处理或者需要顺序读写大文件的应用。QFS是用C++编写的,是一个开源的文件系统,和Hadoop Distributed File Syetem (HDFS)文件系统兼容,更优于HDFS。他采用Reed-Solomon 擦出编码方式,即6(数据块)+3(校验块)替代了HDFS的3倍复制策略,因此,有如下优势:
Ceph是一个免费的软件存储平台,旨在从单个分布式计算机集群中呈现对象,块和文件存储。 Ceph的主要目标是完全分发、没有单点故障、可扩展到艾字节级别(exabytes=EB,1EB=1024PB=2^60字节),并且可以自由使用。 数据被复制,使其具有容错能力。
与当今可用的许多对象存储系统相比,Ceph的对象存储系统提供了重要的功能&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。