赞
踩
学习Spark的方法 dblab.xmu.edu.cn/blog/spark-quick-start-guide/ spark.apache.org/docs/1.6.2/mllib-collaborative-filtering.html 1 开始去spark官网下载源码 2 安装步骤 3 运行Spark自带的例子 4 根据业务来 5 了解RDD原理 MASTER,WORKER 6 了解Spark的各个组件,sparksql,ml ,mllib,sparkStreaming,hive, Spark1和Spark2区别 1 Spark2 Apache Spark作为编译器:增加新的引擎Tungsten执行引擎,比Spark1快10倍 2 ml做了很大的改进,支持协同过滤 http://spark.apache.org/docs/latest/ml-collaborative-filtering.html 3 spark2 org.apache.spark.sql加了SparkSession把Spark的SQLcontext和hiveContext整合 dataFrame去掉了,统一采用dataset 4 做流的方式,例如设置10秒钟一批,5秒钟处理 5 R语言API加入了很多机器学习的算法 Spark2.x引入了很多优秀特性,性能上有很大提升,API更易用。实现了离线计算和流计算的统一,实现了Spark sql和Hive Sql操作API的统一。 Spark 2.x基本上是基于Spark 1.x进行了更多的功能和模块的扩展,及性能的提升 Spark 2.x新特性 1)Spark Core/SQL 在内存和CPU使用方面进一步优化Spark引擎性能,支持SQL 2003标准,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升 2)sparksession Spark2.0 中引入了 SparkSession 的概念,它为用户提供了一个统一的切入点来使用 Spark 的各项功能,统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API,学习 Spark2 的难度也会大大降低。 3)统一 DataFrames 和 Datasets 的 API 它们都是提供给用户使用,包括各类操作接口的 API,1.3 版本引入 DataFrame,1.6版本引入Dataset,在 spark 2.0 中,把 dataframes 当作是一种特殊的 datasets,dataframes = datasets[row],把两者统一为datasets。 4) strutured Streaming Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API,使得Spark Streaming充分受益Spark SQL的易用性和性能提升。 5) 其它特性 mllib里的计算用 DataFrame-based aPI替代以前的RD计算裸机,提供更多的R语言算法,默认使用Scala 2.11编译与运行
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。