赞
踩
参考《Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社》
Spark的核心是RDD弹性分布式数据集,可以导入HDFS、HBase、Hadoop的数据源
RDD、DataFrame、SparkSQL(难度RDD>DataFrame>SparkSQL)
使用RDD必须有Map/Reduce的概念
DataFrame与SparkSQL使用速度比RDD快
代码简单、高生产力、面向对象和函数式动态语言、数据分析模块(Numpy、Matplotlib、Pandas、scikit-learn)
存储与处理大量数据的平台
利用HDFS,可以将单台服务器扩充到数千台服务器
以HDFS命令存储文件时,系统会将文件切割成多个区块(A.B.C)
MapReduce可在上千台服务器上并行处理巨量数据
Hadoop MapReduce在运算时产生的数据需要存储在硬盘中,磁盘I/O读取会产生数据延迟,Spark是基于内存的计算框架,不会有磁盘I/O读写数据延迟
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。