赞
踩
hadoop-env.sh
一次写入,多次读
Jobtracker
core-site.xml
hdfs namenode -format
hadoop namenode -format
128MB
core-site.xml
的配置:
Jobtracker
磁盘
HDFS
押题:
HBase系统基本架构中主服务器Master的作用是()
分布式并行编程模型
分布式编程模型和计算框架,解决分布式门槛高的问题,基于其框架对分布式计算的抽象map和reduce,可以实现分布式计算程序
核心(基础)组件: ["HDFS","MapReduce","yarn"]
getSplit()
Zookeeper
region
1)NameNode它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。
2)SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。
3)DataNode它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。
4)ResourceManager(JobTracker)JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。
5)NodeManager(TaskTracker)执行任务 6)DFSZKFailoverController高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。
7)JournalNode 高可用情况下存放namenode的editlog文件.
NameNode,元数据,hdfs-site.xml
数量:多个Map任务,多个Reduce任务
主要包括两部分:Map任务和Reduce任务.
(1) Map任务服务对数据的获取、分割与处理,其核心执行方法为map()方法。
(2) Reduce任务负责对Map任务的结果进行汇总,其核心执行方法为reduce()方法。
WritableComparable
面向列的分布式数据库
不能
对
不支持
对
不需要
ssh-keygen –t rsa
ssh-copy-id localhost
错
GFS
3份
错
抛出一个异常,然后退出
hdfs fsck /
结构化 半结构化 非结构化
Partitioner
Jobtracker
TextInputFormat
存储元数据(选择题)
HMaster节点、HRegionServer节点
根数据
-ROOT-表和.META.表是hbase的元数据表,
在-ROOT-表中保存有.META.表的相关信息,
在.META.表中保存有业务表的region相关信息
一个键值对
Doug cutting
错(Jobtracker)
错
对
错
不是 是datanode定期向namenode发送心跳消息
错
Jobtracker
使用Mapreduce实现的
选择10道
选1 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。
选2 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?
选3 下列哪个程序通常与NameNode 在同一个节点启动?
选4 更改NameNode访问地址的配置文件是哪个?
选5 格式化HDFS的命令是哪个?
? 6 一个block是多少字节?对于指定大小的文件,按照这个大小,能够创建多少块。
选7 NameNode的端口号是多少?
选8 下列哪个程序通常与NameNode在一个节点启动?
选9 哪个部件通常是集群的最主要瓶颈。
选10 HBase采用哪种结构作为底层数据存储?
填空10道
选/填11 在Hadoop项目结构中,MapReduce指的是什么?
填空/多选12 Hadoop的核心是由什么哪些组件组成?
填空13 数据分片是由哪个函数完成的?
填空14 HBase 的客户端并不依赖Master,而是通过什么结构来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
填空/选择15 HBase中客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的哪种结构的位置信息,用来加快后续数据访问过程。
填空/多选16 一个基本的Hadoop集群中的节点主要包括哪些进程?
填空? 17 运行HDFS程序之前,需要先初始化什么对象,该对象的主要作用是读取HDFS的什么信息,也就是安装Hadoop时候的什么文件。
填空/选择18 一个MapReduce任务主要包括哪两部分?
填空 19 MapReduce编程模型,键值对<key,value>的key必须实现什么接口?
填空? 20 HBASE是一个疏松的、分布式的、已排序的多维度持久化的什么数据库?
判断5道
判断F21 Hadoop处理平台能够完成在线处理吗?
? 22 伪分布式Hadoop是指在一台主机上通过虚拟机配置的集群模式?
判断F23 Hadoop 支持数据的随机读写吗?
判断T24 MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理吗?
判断F(不需要)25 HBase对于空(NULL)的列,需要占用存储空间吗?
简答5道
简答/填空(答出两条命令)26 如何实现服务器之间的免密登录?
简答HDFS读数据流程?
简答28 Mapreduce中,Partitioner操作的作用?
简答29 Hadoop怎么样实现二级排序?
简答30 Hadoop集群中Hadoop需要启动哪些进程,它们的作用分别是什么?
选择判断F32 互联模式属于Hadoop 可以运行的模式吗?
选择33 与HDFS类似的框架是哪些?
选择/填空35 HDFS 中的 block 默认保存几份?
选择36 Hadoop平台中执行一个job,如果这个job的输出路径已经存在,那么程序会怎样?
选择/填空37 哪个HDFS命令可用于检测数据块的完整性?
选择/填空38 Hadoop可以处理哪种类型的数据?
选择/填空39 哪个组件可以指定对key进行Reduce分发的策略?
选择/填空40 哪个进程负责 MapReduce 任务调度?
选择41 在Hadoop中定义的主要公用InputFormat中,默认是哪一个?
选择43 在HDFS中,NameNode的主要功能是什么?
选择45 Hadoop运行的模式有哪些?
选择46 Hadoop集群搭建中常用的4个配置文件为哪些?
选择47 HBase架构采用主从(master/slave)方式,由ZooKeeper集群和哪两种类型的节点组成?这种模式类似于HDFS的NameNode与 DataNode。
简答48 在HBase中,Root表是存储什么的表,存储了.META.表在什么上的信息?
选择/填空49 Mapreduce操作数据的最小单位是什么?
选择/填空61 Hadoop的作者是哪一位?
/选择判断F53 TaskTracker进程负责 MapReduce 任务调度吗?
判断5道
判断F34 MapReduce程序只能用Java语言编写吗?
判断T50 HDFS以流的形式访问文件系统中的数据吗?
判断F51 HDFS既适合超大数据集存储,也适合小数据集的存储吗?
判断F52 HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行吗?
判断F54 Namenode启动时会自动进入安全模式,在此阶段,文件系统允许有修改吗?
简答5道
简答55HDFS中的写数据流程。
简答56 使用start-all.sh命令启动Hadoop时,请给出启动进程名称和各进程启动顺序。
简答57 HDFS里的edit log和fs image作用?
简答58 NameNode与SecondaryNameNode 的区别与联系?
简答59 在CentOS环境下,按照伪分布方式安装和配置Hadoop平台的主要过程。
加油!
感谢!
努力!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。