赞
踩
A.Spark Streaming B Mlib C Graphx D Spark R
A.8080 B.4040 C.8090 D.18080
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配
A FIFO B FAIR C 无 D 运行时指定
A spark.localExecution.enabled=true B 显式指定本地运行 C finalStage 无父 Stage D partition默认值
A. 可分区 B 可序列化 C 可修改 D 可持久化
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
A 支持加法 B 支持数值类型 C 可并行 D 不支持自定义类型
A standalone B spark on mesos C spark on YARN D Spark on local
A Partition B Job C Stage D TaskScheduler
A join B filter C group D sort
A map B flatMap C reduceByKey D sample
A http B nio C netty D Akka
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
A.ZooKeeper B. FileSystem D NONE D hadoop
A persist() B Cache() C Memory()
A Driver program B. spark master C.worker node D Cluster manager
A.没区别 B.多会话 C.支持网络环境 D数据库的区别
A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE
A.数据切分 B.为应用程序申请资源,并进一步分配给内部任务C.任务监控与容错D.所有应用的管理者
A.位置优先B.分布式C.弹性D.固定大小
A.保存计算的RDD分区数据B.向Driver反向注册C.接受Driver端发送来的任务Task,作用在RDD上进行执行D.做资源调度任务
A.Partition B.Job C.Stage D.TaskScheduler
A. 快速 B. 通用 C. 可延伸 D. 兼容性
A.Driver program B.spark master C.worker node D.Cluster manager
A.在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依赖于其他节点
B.宽依赖开销更大
C.Checkpoint可以节约大量的系统资源
D.RDD的容错机制是基于Spark Streaming的容错机制
A. map B. filter C. mapPartitions D. collect
A. 8080 B. 4040 C. 8090 D. 18080
A. key本身分布不均衡 B. 计算方式有误 C. 过多的数据在一个task里面 D. shuffle并行度不够
A. 是作业的主进程 B. 负责了作业的调度 C. 负责向HDFS申请资源 D. 负责作业的解析
A. 通知 driver B. 通知 worker C. 注册 application D. 直接 ALIVE
A:数据量大;B数据类型多;C:处理速度快;D:价值密度高
A:数据量大;B数据类型单一;C:处理速度快;D:价值密度低
A:批处理计算;B:流计算;C:图计算;D:云计算
A:离线处理计算;B:流计算;C:图计算;D:查询分析计算
A、函数式编程语言 B、汇编语言 C、机器语言 D、多范式编程语言
A、val words:String=“Hello World”
B、val number = 12
C、var number:String = None
D、var apple:Double = 2
A、随处运行
B、代码简洁
C、使用复杂
D、运行快速
A、run-example SparkPi 2
B、Spark-shell SparkPi 2
C、hadoop-daemon jar SparkPi 2
D、yarn jar Spark 2
A、.class
B、.bash
C、.pyc
D、.sc
A、命令式编程
B、函数式编程
C、静态类型
D、不可扩展性
A、count()
B、take(1)
C、tail( )
D、length( )
def getPageNum(file:String) = {
var bookMap = Map(“Chinese” -> 164,“Math” -> 180,“English” -> 150,“Geography” -> 120)
book.getOrElse(file,0)
}
A、getPageNum(“Math”)=180
B、getPageNum(“English”)=150
C、getPageNum(“Physics”)=164
D、getPageNum(“Geography”)=120
A、val list = List(12,2,3)
B、val list = List(“Hello World”)
C、val list:String = List(“a”,“b”,“c”)
D、val list = ListInt
A、Set(3,0,1,2)
B、Set(3,0,1)
C、Set(3,0)
D、以上均不正确
scala> val tuple=(“Bigdata”,2015,45.0)
Scala> val (t1,t2,t3)=tuple
A、t1:string=Bigdata
B、t2:Int=2015
C、t3:Int=45.0
D、t3:Double=45.0
大数据的基本处理流程主要包括数据采集、存储管理、处理分析、结果呈现等环节。
简洁、兼容、可扩展和静态类型
scala> import scala.collection.mutable.ListBuffer
scala>val mutableL1=ListBuffer(1,2,3)//初始长度为3的变长列表
写出下列语句的作用。
(1)mutableL1+=5 mutableL1-=3
答:在列表的尾部增加一个元素5,删除值为3的第一个元素
(2)mutalbeL1.insert(2,5,6)
答:从第2个缩影位置开始,插入5和6
将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并保存命名为 employee. json。
{ “id”:1 ,“name”:" Ella",“age”:36 }
{ “id”:2,“name”:“Bob”,“age”:29 }
{ “id”:3 ,“name”:“Jack”,“age”:29 }
{ “id”:4 ,“name”:“Jim”,“age”:28 }
{ “id”:5 ,“name”:“Damon” }
{ “id”:5 ,“name”:“Damon” }
首先为
employee. json 创建 DataFrame,代码如下。
scala> import org. apache. spark. sql. SparkSession
scala> val spark=SparkSession. builder(). getOrCreate()
scala> import spark. implicits. _
scala> val df = spark. read. json(“file:///usr/local/spark/employee. json”)
df.show()
df.distinct.show()
df.drop("id").show()
df.filter(df("age")>30).show()
df.groupBy("age").count().show()
df.orderBy("naem").show()
或者df.sort(df("name").asc).show()
df.limit(4).show()
或者df.take(4)
df.select(df("name").as("username")).show()
df.agg("agg"->"avg").show()
df.agg("agg"->"min").show()
操作 | 含义 |
---|---|
filter(func) | 筛选出满足函数func的元素,并返回一个新的数据集 |
map(func) | 将每个元素传递带函数func中,并将结果返回为一个新的数据集 |
flatMap(func) | 与map()相似,但每个输入元素都可以映射到0或多个输出结果 |
groupByKey() | 应用于(K,V)键值对的数据集时,返回一个新的 (K,Iterable)形式的数据集 |
reduceByKey(func) | 应用于(K,V)键值对的数据集时,返回一个新的 (K,V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果 |
操作 | 含义 |
---|---|
count() | 返回数据集中的元素个数 |
collect() | 以数组的形式返回数据集中的所有元素 |
first() | 返回数据集中的第一个元素 |
taken(n) | 以数组的形式返回数据集总共的前n个元素 |
reduce(func) | 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素 |
foreach(func) | 将数据集中的每个元素传递到函数func中运行 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。