赞
踩
大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。
大数据是由结构化和非结构化数据组成的
在思维方式方面,大数据完全颠覆了传统的思维方式:
大数据技术的不同层面及其功能
两大核心技术为分布式存储和分布式处理
代表性大数据技术
Hadoop、Spark、Flink、Beam
Hadoop是Apache软件基金会下用Java语言开发的一个开源分布式计算平台, 实现在大量计算机组成的集群中对海量数据进行分布式计算,适合大数据的分布式存储和计算平台,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop生态系统
MapReduce是一种基于java的分布式计算的处理技术和程序模型
MapReduce工作流程
YARN是Hadoop集群的资源管理系统
在YARN上部署各种计算框架
概念:Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
Spark是当前热门的大数据处理技术
特点:
Spark架构图
Hadoop的缺点:
Hadoop与Spark的对比
Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题
相比于Hadoop MapReduce,Spark主要具有如下优点:
Hadoop与Spark的执行流程对比
Hadoop与Spark执行逻辑回归的时间对比
Spark没有存储,借助于Hadoop的HDFS、HBase等来完成数据的存储,然后,由Spark完成数据的计算
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。