赞
踩
大数据的核心主要解决两个问题 :
(一) 数据存储
分布式存储: 相对于本地文件系统,分布式文件系统是一种通过网络实现文件在多台主机上进行存储的文件系统。成千上万的计算机节点构成计算机集群。
一般采用客户/服务器的模式实现。
1.1 分布式存储
硬盘不够大, 文件在一台计算机里放不下,就需要拆分放到不同计算机节点里面。
如上图:一个6G的文件要存储,但每个硬盘只有2G的空间,一个硬盘放不下, 需要把文件拆分,每个节点存放部分文件。
1.2 数据安全
如果机集群节点有的坏了,或者硬盘物理损坏,如何保证数据完整性,如何保证数据安全。
数据冗余:同一份数据同时保存到多个节点上。如下图:
1、不是一个客户端同时上传3份文件到不同的计算机。 是只上传到一台服务器中, 然后有分布式文件系统决定复制的分数,并做水平复制。
2、客户端往服务单上传数据,是按数据快传输,会把文件拆分较小的数据块传输。优点:如果中间传输异常,可以续传,不用从头开始。
(二)分布式计算
分布式计算核心: 任务拆分 。把大任务拆分成一个个的小任务,让小任务可以在一台普通的计算机上就可以执行。执行完后在对结果汇总。
拆分步骤:
比如计算 10 + 20 + ....+ 90 = ? 分布式计算拆分过程:
拆分出的小任务在不同的 计算机/节点 上执行, 分布式计算。效率非常高。
(三 )技术标签
Hadoop: Apache软件基金会下一个开源分布式计算平台:
HDFS :Hadoop 的分布式文件管理系统HDFS ( Hadoop Distributed File System ) 。是对谷歌的GFS系统的开源实现。管理大数据分布式存储问题
MapReduce :针对谷歌的MapReduce的开源实现,解决大数据分布式计算的问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。