当前位置:   article > 正文

大数据面试经验之Hadoop Spark(一)_spark 大数据面试

spark 大数据面试


前言


一、面试经验

1、Hadoop简介

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。

1、Hadoop的优势

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,方便扩展。
3)高效性:Hadoop是并行工作的,以加快任务处
理速度。
4)高容错性:能够自动将失败的任务重新分配。

3、Hadoop1.x、2.x、3.x的区别?

1)Hadoop 1.x阶段,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大;
2)Hadoop 2.x阶段,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算;
3)Hadoop 3.x相比于Hadoop 2.x阶段在组成上没有变化。

4、搭建Hadoop集群的xml文件有哪些?

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
	 <property>
		 <name>fs.defaultFS</name>
		 <value>hdfs://hadoop102:8020</value>
	 </property>
	 <!-- 指定 hadoop 数据的存储目录 -->
	 <property>
		 <name>hadoop.tmp.dir</name>
		 <value>/opt/module/hadoo
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/545799
推荐阅读
相关标签
  

闽ICP备14008679号