IT小白

这个屌丝很懒，什么也没留下！

热门标签

林子雨大数据技术原理与运用期末复习_大数据技术原理与应用林子雨期末考试

作者：IT小白 | 2024-06-22 23:08:06

踩

大数据技术原理与应用林子雨期末考试

一、填空题

1.大数据的数据结构类型包括结构化数据、半结构化数据和___非结构化数据____。

2.大数据的4V10是（只填英文）__数据量大__Volume____、_数据类型多_Variety____、_处理速度快_Velocity____、__价值密度低_Value____和___On-Line____。(5.0分）

大数据预处理方法包括___数据清洗___、___数据集成_____、___数据变换___和___数据规约_____。

4.四种大数据分析处理系统是批量数据处理（如Hadoop_______)、流式数据处理（如 Storm_____)、交互式数据处理（如Spark________)和图数据处理（如Trinity)。

5.Tableau是一个功能强大的__可视化_____数据分析软件。

6.相比Hadoop1.0,Hadoop2.0引入___Yarn___，用于管理资源和调度任务。

7.HDFS是Hadoop的__分布式文件__系统，负责__存储____和管理数据。

Hadoop文件系统的元数据Metadata包括＿_____名称空间_______、文件到文件块的映射和文件块到＿__DataNode___＿的映射三部分。

9、分布式文件系统HDFS由以下组成（只填英文）：

1客户端Client,负责把文件切分成小的Block,获取文件的位置信息，读取或者写入数据等等。

2文件目录营理节点___NameNode___，负责整个分布式文件系统的元数据(MetaData)管理。

3.文件存储节点___DataNode___，负责文件数据的存储和读写操作，HDFS将文件数据分割成若干块

(block),每个文件存储节点存储一部分block,这样文件就分布存储在整个HDFS服务器集群中。

4检查点节点____SecondaryNamenode____，是文件存储节点的冷备份，辅助、分担文件目录管理节点工作量。在HA架构里它不存在了，取而代之是热备份，提供高可用性，解决单点故障问题。

10MapReduce采用分而治之的思想，___Maper___是一个映射函数，对列表的

每一个元素进行指定的操作。____Reducer____是一个化简函数，对列表的元素进行合并、归约。

11.NoSQL的四种类型：___键值___存储，如Redis;___列___存储，如HBase;___面向文档___存储，如MongoDB;___图形___存储，如Neo4J。

12相比Hadoop1.0,Hadoop2.0引入___Yarn___，用于营理资源和调度任务。

13.HDFS是Hadoop的___分布式文件___系统，负责___存储___和管理数据。

14.HBase是Hadoop的数据库，是利用Hadoop的___HDFS___作为其文件存储系统，利用Hadoop的___MapReduce___处理Hbase中的海量数据。利用___Zookeeper___作为其协调工具。HBase的体系结构是一个主从式的结构，主节点___HMaster___在整个集群当中只有—个在运行，从节点HRegionServer有很多个在运行。

15.Spark尤其适合__迭代____运算和交互式数据分析，能够提升大数据处理的实时性和准确性，一个主要原因是没有用HDFS,而是用__内存____存储中间结果。

16.HBase是Hadoop的数据库，是利用Hadoop的______作为其文件存储系统，利用Hadoop的______来处理Hbase中的海量数据。利用______作为其协调工具HBase的体系结构是一个主从式的结构，主节点______在整个集群当中只有一个在运行，从节点HRegionServer有很多个在运行。

17CAP原则又称CAP定理，指的是在一个分布式系统中有三个特性（填中文）：___一致性___(Consistency)、___可用性___ (Availability) ___分区容错性___(Partition tolerance)。CAP原则指的是，这三个要素最多只能同时实现___两___个，不可能三者兼顾。

18Spark室用三种编程语言、和___Scala___，___Java___和__Python____。

19.RDD执行过程为一个DAG,根据RDD之间的依赖关系将DAG图划分为不同的阶段，RDD之间的依赖关系分为：___窄依赖___和___宽依赖___。

20在HadoopMapReduce1.0,jobtracker负责资源管理和job掉度/监视，2.0采用Yarn架构，将jobtracker的功能拆分成两个部分（只填英文）__ResourceManager____（英文），负责资源管理，和ApplicationMaster,负责管理整个任务的生命周期。另外，将TaskTracker用___NodeManager___（英文）取代，负责管理集群中单个计算节点的任务。

21创建HDFS的路径/aa,从本地当前目录上传文件abc.txt到HDFS的路径/aa下，SHELL命令

Hdfs dfs-mkdir______/aa

hdfsdfs-put___abc.txt___/aa

22Hive的___元数据___信息存储在MySQL上，另一部分实际的数据文件存放在HDFS上。

二解答题：

15从本地当前目录上传文件abc.txt到HDFS的路径/aa下，SHELL命令是： (10.0分）

____hdfs__dfs-put abc.txt/aa

或者

Hdfs dfs-copyFromLocal______abc.txt/aa

16运行scala程序计算SPARK_HOME路径下的README文件中包含"a"的行数和包含"b"的行数。

写出scala程序，并上传运行结果截图。

17补充程序，实现把本地某目录下的文件abc.txt上传到HDFS某个目录下。

public class HDFSUpload{

private static InputStream input

private static OutputStream output;

public static void main(String[] args)throws IOException{

//创建HDFS连接对象client

Configuration conf=new Configuration();

conf.set("fs.defaultFS","hdfs://bigdata128:9000"); FileSystem client=FileSystem.get(_conf__);

//创建本地文件的输入流

input=new FileinputStream(“c:\hdfs\abc.txt”);

//创建HDFS的输出流

output=client._create__(new Path("/adir/aaout.txt"));

//写文件到HDFS

IOUtils.copy(input,output);

//防止输出数据不完整

output.flush();

//关闭输入输出流

input.close();

output.close();

}

第一章

1.4V1O:数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）、价值密度低（Value）。On-Line。

2.大数据的数据结构类型包括：结构化数据、半结构化数据、非结构化数据

3.大数据关键技术：数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。

4.大数据预处理方法：数据清洗、数据集成、数据变换、数据规约。

6.四种大数据分析处理系统是批量数据处理（如Hadoop）、流式数据处理（如Storm）、交互式数据处理（如Spark）和图数据处理（如Trinity）。

第二章

6.Hadoop是基于Java语言开发的。

7.Tableau是一个功能强大的可视化数据分析软件。

8.Hadoop的特性：高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言。

9.Hadoop的核心是分布式文件系统（HDFS）和MapReduce。HDFS负责存储和管理数据。

10.MapReduce采用分而治之的思想，Maper是一个映射函数，对列表的每一个元素进行指定的操作。Reducer是一个化简函数，对列表的元素进行合并、归约。

11.Hadoop生态系统：HDFS、Hbase、MapReduce、Hive、Pig、Mahout、ZooKeeper、Flume、Sqoop、Ambari。

12.谷歌的三驾马车：GFS、MapReduce、BigTable。

13. Hadoop伪分布式运行启动后所具有的进程：NodeManager、 Jps NameNode 、DataNode、 SecondaryNameNode、 ResourceManager

第三章

14.Client客户端，HDFS的主节点Master Node，名称节点NameNode，

从节点Slave Node，数据节点DataNode。

块64MB

第四章

15.Hbase表由行和列组成，列分为若干个列族。表由若干行组成，每个行由行键标识。

16.行键，列族，列限定符，时间戳

17.访问表中的行三种方法：通过单个行键访问、通过一个行键的区间来访问，全表扫描

18.Hbase三级寻址：首先访问ZooKeeper,获取-ROOT-表的位置信息；访问-ROOT-表，获得.META表的信息；访问.META表，找到所需的Region位于哪个Region服务器，到该服务器读取数据（用户数据表）

19.Hbase系统架构：客户端、ZooKeeper服务器、Master主服务器、Region服务器。HDFS为底层数据存储系统

第七章

20.MapReduce：工作流程：Map任务运行在数据存储节点上，Map任务结束，生成中间结果，中间结果分发到Reduce任务，相同key的<key,value>发送到同一个Reduce任务，Reduce任务对中间结果汇总计算得到结果，输出

21. MapReduce各个执行阶段：InputFormatàInputSplitàRecordReader(RR)àMapàShuffleàReduceàOutputFormat

第八章

22.Hadoop1.0不足

（1）抽象层次低（2）表达能力有限（3）开发者自己管理作业之间的依赖关系（4）难以看到程序整体逻辑（5）执行迭代操作效率低（6）资源浪费（7）实时性差

23. Hadoop1.0问题

HDFS（1）单一名称节点，存在单点失效问题（2）单一命名空间，无法实现资源隔离

MaoReduce（3）资源管理效率低

Hadoop2.0改进

HDFS（1）HDFS HA，提供名称节点热备份机制（2）HDFS联邦，管理多个命名空间

MapReduce（3）设计了新的资源管理框架Yarn

第九章

24.Hive系统架构主要由三个模块组成：用户接口模块、驱动模块以及元数据存储模块（Metastore）

第十章

25.Spark生态系统包含Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib、GraphX

26.Spark架构：集群管理器Cluster Manager、工作节点Work Node、任务控制节点Driver、执行进程Executor

27.RDD依赖关系：窄依赖和宽依赖

第十一章

28.数据分为静态数据和流数据，静态数据用批量计算，流数据用实时计算

29.流计算：高性能、海量式、实时性、分布式、易用性、可靠性

30.流计算框架：IBM InfoSphere Streams商业级高级计算平台、IBM StreamBase商业流计算系统。

开源流计算框架Twitter Storm、Yahoo!S4.

公司为支持自身业务开发的流计算框架:DStream（百度开发）、银河流数据处理平台（淘宝）、Super Mario

第十二章

31.大数据Lambda架构：批处理层（MapReduce,Spark），实时处理层（Storm,Spark Streaming）

32.Flink核心组件栈：物理部署层、Runtime核心层、API&Libraries层

33.Flink体系架构JobManager，TaskManager

Flink编程模型：SQL，Table API，DataStream/DataSet API（核心API），有状态数据流处理

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/747923