赞
踩
Spark 的四大组件下面哪个不是 ( D )
A.Spark Streaming B Mlib
C Graphx D Spark R
下面哪个端口不是 spark 自带服务的端口 ( C )
A.8080 B.4040 C.8090 D.18080
spark 1.4 版本的最大变化 ( B )
A spark sql Release 版本 B 引入 Spark R
C DataFrame D 支持动态资源分配
Spark Job 默认的调度模式 ( A )
A FIFO B FAIR
C 无 D 运行时指定
哪个不是本地模式运行的个条件 ( D )
A spark.localExecution.enabled=true B 显式指定本地运行
C finalStage 无父 Stage D partition 默认值
下面哪个不是 RDD 的特点 ( C )
A. 可分区 B 可序列化 C 可修改 D 可持久化
关于广播变量,下面哪个是错误的 ( D )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
关于累加器,下面哪个是错误的 ( D )
A 支持加法 B 支持数值类型
C 可并行 D 不支持自定义类型
Spark 支持的分布式部署方式中哪个是错误的 ( D )
A standalone B spark on mesos
C spark on YARN D Spark on local
Stage 的 Task 的数量由什么决定 ( A )
A Partition B Job C Stage D TaskScheduler
下面哪个操作是窄依赖 ( B )
A join B filter
C group D sort
下面哪个操作肯定是宽依赖 ( C )
A map B flatMap
C reduceByKey D sample
spark 的 master 和 worker 通过什么方式进行通信的? ( D )
A http B nio C netty D Akka
默认的存储级别 ( A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
spark.deploy.recoveryMode 不支持那种 ( D )
A.ZooKeeper B. FileSystem
D NONE D Hadoop
下列哪个不是 RDD 的缓存方法 ( C )
A persist() B Cache() C Memory()
Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C )
A Driver program B. spark master
C.worker node D Cluster manager
hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B )
A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别
DataFrame 和 RDD 最大的区别 ( B )
A. 科学统计支持 B. 多了 schema
C. 存储方式不一样 D. 外部数据源支持
Master 的 ElectedLeader 事件后做了哪些操作 ( D )
A. 通知 driver B. 通知 worker
C. 注册 application D. 直接 ALIVE
Spark 是什么 () ? 正确答案:A,C,D
spark 的数据,可以存储在哪些地方?正确答案:A,B,C,D
大数据处理主要的三种场景为() 正确答案:A,B,C
以下对 Spark Core 描述正确的有?正确答案:A,B,C,D
以下对 Spark SQL 的描述正确的有?正确答案:A,B,C
以下哪些是 Spark 的组件?正确答案:A,B,C
Spark 的运行模式有哪些?正确答案:A,B,C,D
spark 运行模式中,on yarn 这种模式,可以应用于生产环境中。 正确答案:A
spark 运行模式中,local 这种模式,可以应用于生产环境中。 正确答案:B
Spark 使用的资源管理器有哪些?正确答案:A,B,C,D
spark 都有哪些组件? 正确答案:A,B,C,D
Spark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架 正确答案:A
下列对 spark 描述正确的有? 正确答案:A,B,C,D
spark 是由 java 语言开发 正确答案:B
Spark 的容错机制是 ()。 正确答案:A,D
Spark 与 Hadoop 的区别 ()。 正确答案:A,C
spark 基本特点有哪些?正确答案:A,B,C,D
可以使用哪些语言来编写 spark 应用程序? 正确答案:A,B,C,D
spark 和 hadoop 对比,说法正确的是? 正确答案:A,B,C
Spark 常见组件描述错误的是 ()。 正确答案:B
A. NameNode B.Jobtracker
C. Datanode D. secondaryNameNode
A. 3 份 B. 2 份
C. 1 份 D. 不确定
A. 32MB B. 64MB
C. 128MB D. 256MB
A. NameNode B. Jobtracker
C. TaskTracker D. secondaryNameNode
A. 先进先出调度器 B. 计算能力调度器
C. 公平调度器 D. 优先级调度器
A. 数据经过 NameNode 传递给 DataNode
B. Client 端将文件切分为 Block,依次上传
C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D. 以上都不正确
A. Namenode,Datanode, TaskTracker
B. Namenode,Datanode, secondaryNameNode
C. Namenode,Datanode, HMaster
D. Namenode,JobTracker, secondaryNameNode
A. Max B. Min
C. Count D. Average
A.WritableComparable B. Comparable
C. Writable D. LongWritable
A. 企业 ERP 数据 B. 财务系统数据
C. 视频监控数据 D. 日志数据
A. –ROOT - 表 B. .META. 表
C. HFile index D. 普通的数据块
A. 列族 B. 列
C. 行 D. 不确定
A. StoreFile B. MemStore
C. HFile D. MetaStore
A. .META. B. –ROOT-
C. 用户表 D. 信息表
15、设计分布式数据仓库 hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 ( A )
A. 分桶 B. 分区
C. 索引 D. 分表
大数据的特点:Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性)
大数据的性质:非结构性、不完备性、时效性、安全性、可靠性
大数据处理的全过程:数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释
大数据的关键技术:流处理、并行化、摘要索引、可视化
科学研究范式:第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)
CAP理论:Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。
HDFS 目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性
流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性
Storm 特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列,快
搜索引擎的工作过程:爬行 -> 抓取存储 -> 预处理 -> 排名
搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性
数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。
Hadoop 的三种安装模式:单机 伪分布式 完全分布式
yarn 配置后的 web 监控的默认端口是 8088
HDFS web 界面的默认端口为 50070
目前得到广泛应用的分布式文件系统主要包括 GFS 和 HDFS。
HDFS 采用 “一次写入,多次读取” 的简单文件模型。
HDFS 采用了 主从结构模型。
Hase 3 个主要功能组件:库函数,Master 主服务器,Region 服务器
MapReduce 模型的核心是 Map 函数和 Reduce 函数。
YARN 的目标就是实现 “一个集群,多个框架”。
Hadoop 支持数据的随机读写。(hbase 支持,hadoop 不支持) ( 错 )
NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 )
MapReduce 的 input split 一定是一个 block。 (默认是) ( 错)
MapReduce 适于 PB 级别以上的海量数据在线处理。 (离线) ( 错 )
链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。 ( 对 )
MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。( 对 )
HBase 对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 )
HBase 可以有列,可以没有列族(column family)。 (有列族) ( 错 )
Volume(大体量):即可从数百 TB 到数十数百 PB、甚至 EB 规模。
Variety(多样性):即大数据包括各种格式和形态的数据。
Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。
Veracity(准确性):即处理的结果要保证一定的准确性。
Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。
答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager
(1)列式存储
(2)表数据是稀疏的多维映射表
(3)读写的严格一致性
(4)提供很高的数据读写速度
(5)良好的线性可扩展性
(6)提供海量数据
(7)数据会自动分片
(8)对于数据故障,hbase 是有自动的失效检测和恢复能力。
(9)提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。
科学研究第一范式、第二范式、第三范式、第四范式。
第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)
第一范式:经验范式,以观察和实验为依据的研究。
第二范式:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。
第三范式:以模拟复杂现象为基础的计算科学范式,又称为模拟范式。
第四范式:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据。
分布式系统的 CAP 理论。
CAP 一致性:所有节点在同一时间具有相同的数据。
可用性:保证每个请求的成功或失败都有相应。
分区容错性:系统中任意信息的丢失或失败不影响系统的继续运行。
CAP 定理:一个分布式系统不可能同时满足一致性、可用性、和分区容错性,最多只能同时满足两个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。
CAP 选择:1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。
函数式语言的概念及特点,Map 及 Reduce 过程的含义及功能,Hadoop 分布式平台特点。
函数式语言的概念和特点:函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构,对调用块的调用者来说,每个块都有输入数据和经过加工处理后的输出数据。
Map 及 Reduce 过程的含义及功能:Map(映射)Reduce(化简)。Map 函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中,通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对,Reduce 函数用来对同一个键的值进行合并。
Hadoop 分布式平台特点:方便,健壮,可横向扩展,简单。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。