当前位置:   article > 正文

Hadoop伪分布式集群搭建过程及避坑指南_hadoop伪分布式搭建页面里summary都是0

hadoop伪分布式搭建页面里summary都是0

一个偶然的机会,让我进了hadoop这个坑。我不得不说,Google真是个非常厉害的公司。为计算机行业贡献了很多亮瞎双眼额技术。初入Hadoop一般都要了解HDFS,YARN,Mapreduce。

现在来总结一下Hadoop分布式集群的搭建过程。

1.首先准备好相应的安装包,同时在你的服务器上配置好jdk。


完成后通过tar -zxvf jdk.tar.gz(文件名)进行解压
进入jdk 目录 输入pwd 得到当前路径拷贝下来。
使用命令vi /etc/profile 命令配置jdk

在文件的末尾 添加上

  1. export JAVA_HOME=/apps/adf/java/jdk版本号
  2. export PATH=$JAVA_HOME/bin:$PATH
  3. export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
然后使用 source   /etc/profile  使配置文件生效 
输入java  -version  如果能输出的配置成功不能输出成功代表注册失败

配置成功后,一方面可以执行 echo $JAVA_HOME 测试一下,看看路径是否正确。接下来可以将hadoop的压缩包解压。然后对其内部一些文件进行配置。

2.配置

1.配置host:

vi /etc/hosts
192.168.1.221 hadoop
vi /etc/sysconfig/network
NETWORKING=yes

HOSTNAME=hadoop(修改为 ip对应的名字)

重启一次服务器

这里很容易出错的。

2.配置ssh

sudo yum install ssh
ssh-keygen -t rsa
将公钥移动到另一个地方
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

执行完上述三条命令后 可以ssh 自身的hostname 测试

3.修改其余配置

要修改下面几个文件

1.core-site.xml

添加:

  1. <property>
  2. <name>fs.defaultFS</name>
  3. <value>hdfs://hadoop:8020</value>
  4. </property>

2.hdfs-site.xml

  1. <property>
  2. <name>dfs.replication</name>
  3. <value>1</value>
  4. </property>
  5. <property>
  6. <name>dfs.name.dir</name>
  7. <value>/home/hadoop/app/namenode</value>
  8. </property>
  9. <property>
  10. <name>dfs.data.dir</name>
  11. <value>/home/hadoop/app/datanode</value>
  12. </property>
  13. <property>
  14. <name>dfs.tmp.dir</name>
  15. <value>/home/hadoop/app/tmp</value>
  16. </property>

3.mapred-site.xml

  1. <property>
  2. <name>mapreduce.framework.name</name>
  3. <value>yarn</value>
  4. </property>

4.yarn-site.xml

  1. <property>
  2. <name>yarn.nodemanager.aux-services</name>
  3. <value>mapreduce_shuffle</value>
  4. </property>
  5. <property>
  6. <name>yarn.resourcemanager.hostname</name>
  7. <value>hadoop</value>
  8. </property>


3.启动

格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format

启动Hadoop守护进程:
$ bin/start-all.sh

启动后,使用jps命令查看是否启动 namenode,datanode,secondarynamenode。这三个进程,缺一不可。

  1. jps
  2. 4230 SecondaryNameNode
  3. 5530 Jps
  4. 5306 DataNode
  5. 3947 NameNode

也可以通过网页访问:http://hadoop:50070(这里的hadoop我是用的是我的阿里云服务器的公网)

4.停止hdfs
    sbin目录下  ./stop-dfs.sh

 

当然这其中肯定会报很多次错误。比如,上面的三个进程有时候会缺失,需要你学会去看日志。



声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/843296
推荐阅读
相关标签
  

闽ICP备14008679号