大数据采集与处理期末复习题_大数据期末考试试题

作者：我家小花儿 | 2024-07-06 06:34:23

踩

大数据期末考试试题

填空：

数据产生方式经历的阶段：运营式系统阶段、用户原创内容阶段和感知式系统阶段
大数据的四个特点：数据量大、数据类型繁多、处理速度快和价值密度低。
大数据的四种范式：实验、理论、计算、数据密集型
大数据计算模式：批处理计算、流计算、图计算、查询分析计算
Hadoop的特性：高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言
Hadoop的核心：HDFS和MapReduce
分布式文件系统的节点：一类叫主节点（名称节点）或从节点（数据节点）
Hbase：采用行键、列族、列限定符和时间戳进行索引
Hbase：三个主要的功能组件：库函数，链接到每个客户端；一个Master主服务器；许多个Region服务器
Hbase：三层结构 Zookeeper文件 -ROOT-表 .META.表
Hbase系统架构：客户端、Zookeeper服务器、Master主服务器、Region服务器，一般采用HDFS作为底层数据存储
NoSQL数据库三个特点：灵活的可扩展性、灵活的数据模型、与云计算紧密融合
关系数据库无法满足Web2.0的需求的三个方面：无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可扩展性和高可用性的需求。
NoSQL的四大类型：键值数据库、列族数据库、文档数据库、图数据库
NoSQL三大基石：CAP、BASE和最终一致性
CAP指的是：C 一致性 A 可用性 P 分区容忍性三选二
数据库事务具有ACID四性：A 原子性、C 一致性、I 隔离性、D 持久性
BASE基本含义：基本可用、软状态、最终一致性
云数据库具有以下特性：动态可扩展、高可用性、较低的使用代价、易用性、高性能、免维护、安全
YARN体系机构中包含了三个组件：ResourceManager、 ApplicationMaster、 NodeManager
Spark四个特点：运行速度快、容易使用、通用性、运行模式多样
Spark具有以下优点：Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多数据集操作类型，编程模型比 MapReduce
Sperk提供了内存计算，中间结果之间放在内存中，带来了更高的迭代执行机制
Sperk基于DAG的任务调度执行机制，要优于MapReduce的迭代执行机制
数据的两种类型：静态数据和流数据
计算模式：批量计算和实时计算
Storm主要术语：Streams、Spouts、Bolts、Topology、Stream Groupings
Spark Streaming和Storm最大的区别在于，Spark 无法实现毫秒级的流计算，而Storm则可以实现毫秒级响应。
Pregel图计算模型：有向图和顶点、顶点之间的消息传递、Pregel的计算过程
推荐方法：专家推荐、基于统计的推荐、基于内容的推荐、协同过滤推荐、混合推荐

名词解释：

分布式文件系统的概念：是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
HDFS：是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。
名称节点：负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，即FsImage和EditLog
数据节点：是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。
第二名称节点：是HDFS架构的一个重要组成部分，具有两个方面的功能：首先，可以完成EditLog与FsImage的合并操作，减小EditLog文件大小，缩短名称节点重启时间；其次，可以作为名称节点的“检查点”。
Zookeeper服务器：Zookeeper服务器并非一台单一的机器，可能是由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper不仅能够帮助维护当前集群中机器的服务状态，而且能够帮助选出一个“总管”。让这个总管来管理集群。
云数据库的概念：云数据库是部署和虚拟化在云计算环境中的数据库，云数据库是在云计算的大背景下发展起来的一种新兴的共享基础结构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易，同时也虚拟化了许多后端功能。
RDD概念：是弹性分布式数据集的英文缩写，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
窄依赖：父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖
宽依赖：父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖
什么是数据可视化：数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。
协同过滤推荐：是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度，最后根据这一喜好程度对目标用户进行推荐。

简答题：

数据存取策略原理：数据存取策略包括数据存放、数据读取和数据复制等方面，它在很大程度上会影响到整个分布式文件系统的读写性能，是分布式文件系统的核心内容。
Region服务器的工作原理：Region服务器内部管理一系列Region对象和一个Hlog文件，其中，Hlog是磁盘上面的记录文件，它记录着所有的更新操作，每个Region对象又是由多个Store组成的，每个Store对应了表中的一个列族的存储。每个Store又包含了MemStore和若干个StoreFile，其中，MemStore是在内存中的缓存。
Map函数的输入来自于分布式文件系统的文件块，这些文件块的格式是任意的，可以是文档，也可以是二进制格式的。文件块是一系列元素的集合，这些元素也是任意类型的，同一个元素不能跨文件存储。Map函数将输入的元素转换成<key,value>形式的键值对，键和值的类型也是任意的，其中键不同于一般的标志属性，即键没有唯一性，不能作为输出的身份标识，即使是同一输入元素，也可通过一个Map任务生成具有相同键的多个<key,value>
Reduce函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来，输出处理后的键值对，输出结果会合并成一个文件。用户可以指定Reduce任务的个数，并通知实现系统，然后主控进程通常会选择一个Hash函数，map任务输出的每个键都会经过Hash函数计算，并根据哈希结果将该键值对输入相应的Reduce任务来处理。对于处理键为k的Reduce任务的输入形式为<k,<v1,v2,…vn>>,输出为<k,v>.
Map端的Shuffle过程：Map端的输出结果首先会被与入到缓存中（比磁盘效率高），
当缓存满时（80%写入后），就会启动流与掷作；溢写操作会清空内容，把内容写入到磁盘空间。每次溢写操作会写一个磁盘文件(key,value)，当Map程序运行完成后，会把这个Map程序产生的溢写文件归并成一个大的文件(key,value1,value2,…)，然后通知Reduce端来取数据
HDFS HA新特性：在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃”状态，另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则作为备用节点，保存了足够多的系统元数据，当名称节点出现故障时提供快速回复能力也就是说，在HDFS HA中，处于待命状态的名称节点提供了“热备份”，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点，不会影响到系统的正常对外服务。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/792105