赞
踩
• Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。
• 除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shark上
• Shark底层依赖于Hive的解析器,查询优化器,但正是由于SHark的整体设计架构对Hive的依赖性太强,难以支持其长远发展,比如不能和Spark的其他组件进行很好的集成,无法满足Spark的一栈式解决大数据处理的需求
–SparkSQL产生的根本原因,其完全脱离了Hive的限制
–SparkSQL支持查询原生的RDD,这点就极为关键了。RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础
–能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用
–SparkSQL on Hive
•Hive只是作为了存储的角色
•SparkSQL作为计算的角色
–Hive on Spark
•Hive承担了一部分计算(解析SQL,优化SQL...)的和存储
•Spark作为了执行引擎的角色
•Spark SQL是Spark的核心组件之一,于2014年4月随Spark 1.0版一同面世,在Spark 1.3当中,Spark SQL终于从alpha(内测版本)阶段毕业。
•Spark 1.3更加完整的表达了Spark SQL的愿景:让开发者用更精简的代码处理的数据,同时让Spark SQL自动优化执行过程,以达到降低开发成本,提升数据分析执行效率的目的。
•与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上 看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低
•DataFrame创建的方式
–读json文件(不能是嵌套格式的json)
•sqlContext.read().format(“json”).load(“path”)
•sqlContext.read().json(“path”)
–读取json格式的RDD
•RDD的元素类型是String,但是格式必须是JSON格式
–读取parquet文件创建DF
–RDD<String>
•通过非json格式的RDD来创建出来一个DataFrame
–通过反射的方式
–动态创建schema的方式
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。