赞
踩
看视频:
http://study.163.com/course/courseMain.htm?courseId=1002887002
个人笔记 视频笔记
大数据 思路的转变:
全样而非抽样
效率而非精确
相关而非因果
分布式存储 和 分布式处理
解决了:分布式存储 、 分布式处理、虚拟化和多租户;
YARN 简称“样” 作用是起到 调度作用;因为在版本1时 MapReduce 即处理 又负责调度;版本2进行拆分;
(集群资源管理)
解决海量数据分布式存储问题
几个重要的概念:1、块(block)2、name node 和 data node
数据节点会定期发送自己存储的块的列表给主节点(名称节点)。
FsImage文件记录:文件的复制等级、修改和访问时间、访问权限,块大小以及组成文件的块。对于目录,则存储修改时间、权限和配额元数据。
1、频繁的读写 使用键值数据库更好些
其实就是分布式并行编程
Hadoop MapReduce
是其具体实现。
计算向数据靠拢
1、Client
2、JobTracker
3、TaskTracker
4、Task
1、不同的Map任务之间不会进行通信
2、不同的Reduce任务之间也不会进行通信
分区、排序、合并、归并
之后再分发给Reduce
。
合并(Combine)和归并(Merge)的区别:
两个键值对
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。