在学习了hadoop2.2一个月以来,我重点是在学习hadoop2.2的HDFS。即是hadoop的分布式系统,看了很久的源代码看的我真的想吐啊,感觉看源码还是没什么劲,于是心血来潮看到可百度的网盘挺有意思(其实我一直都在用百度的网盘)对里面的功能的实现很好奇,于是我就突发奇想,能不能用hadoop来做个呢?答案是肯定的。于是我就开始了,但是实际中,没有人用hadoop来做网盘,因为hadoop不适合存放小文件。当然办法总是有的,比如小文件可以存入HBase中。hadoop2.2.0这个版本与hadoop1的版本有不同,且在源码上也有很大的差别。引入了Yarn这个资源管理框架,目前YARN可以管理的资料类型包括了CPU和内存,未来可能会加入对磁盘和网络等类型的支持。目前YARN可以支持的框架包括:MapReduce(批处理框架)、Storm(流式处理框架,项目为Stormon YARN,主要由Hortonworks在推进。正式版本未出但可用,yahoo和淘宝等在内部已经大规模使用)、Spark(内存处理框架,项目为Spark on YARN,主要由Cloudera在推进。正式版本未出但可用,淘宝等在内部也已经大规模使用)。 正在YARN上开发且未来比较靠谱的框架有:Tez(DAG框架,继承自MapReduce,性能有巨大提升)、Hoya(将HBase运行在YARN上,主要由Hortonworks在推进)。