赞
踩
大数据: 就是对海量数据进行分析处理,得到一些有价值的信息,然后帮助企业做出判断和决策.\
处理流程:1:获取数据 2:处理数据, 展示结果
大数据存储 :HDFS hadoop Distributed file System
大数据计算:MapReduce
大文件怎么存储?
为了保存大文件, 需要把文件放在多个机器上 这就是分步式文件系统
以文件系统的形式提供海量的数据存储服务:
文件要分块 block(128M)
HDFS
节点有一个统一的 HDFS 主从 Master/slave 结构
名字节点 NameNode 分布式文件的管理者 它负责文件系统的命名空间
集群配置和数据块的复制等
数据节点 DataNode 文件存储的基本单元 数据块的形式保存了HDfsd
文件的内容和数据块大小是64mb
为保证容错 一般副本数为3 一份数据保存在3 个不同的地方
对用户是透明的
的数据校验信息
文件 以块的放在磁盘中的
和客户端 Client 三个角色
它保存整个系统的文件信息
所有的文件元数据的修改都从 Master
支持超大文件 这里指 Mb GB hadoop 文件会v存储 TB = 1024GB
P =1024T 能够支持这种级别的数据。
检测和快速应对应对硬件故障。一般 Hdfs 系统存储在百台千台存储文件的
服务期组成,意味着会出现很高的故障 。 有自动回复。
流式访问数据。HDFS 处理数据规模的都比较大 注重的是数据的处理
不是数据的访问速度
一致性模型。大多都是一次写入 多次读取。
HDFS 不适合 延迟 数据反问 和 数据大量的小文件
多用户写入放修改文件。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。