当前位置:   article > 正文

分布式Hadoop环境的安装与搭建

分布式Hadoop环境的安装与搭建

Hadoop学习笔记

初步了解Hadoop

一、 认识Hadoop

1) Hadoop是一个处理海量数据的框架

2) 可以分布式的处理海量数据

3) 为海量数据提供高效的处理

二、 什么是大数据

1) 单位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb

2) 数据类型:结构化数据、半结构化数据、非结构化数据

3) 特点:价值低密度(检索了很多信息才能找到对自己有用的信息)

4) 意义:预测作用

三、 Hadoop的优点与缺点

优点:

1) 低成本

2) 高可靠性

3) 高容错性

4) 高效率

5) 高扩展性 (可随时的添加新的集群来提高存储和计算的能力)

6) 不适合处理小文件

缺点:

1) 不适合处理小文件

2) 无法实时计算(实时是马上处理的意思,离线是延迟晚一点处理)

3) 安全性较低

四、建立集群,并设置免密登录,然后设置映射(vi /etc/hosts)

修改完/etc/profile文件后记得用source /etc/profile 刷新文件,才能生效

在这里插入图片描述

五、 安装jdk

1)创建存储数据的目录

2) 创建存放安装程序的目录

3) 创建存放安装包的目录

上传并解压安装包后

配置系统环境变量

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

六、分布式Hadoop

上传安装成功后,检查是否安装成功

在这里插入图片描述

配置环境(用tab键补全,打开文件后按2下大写的GG跳转文件最后一行,节省时间)

1)配置运行环境,先进入以下目录

cd /export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
vi hadoop-env.sh   # 在文件底部添加内容
  • 1
  • 2

​ 需要添加:

export JAVA_HOME=/export/servers/jdk1.8.0_241
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

2)配置Hadoop

# 直接按向上方向键,然后把文件名修改为core-site.xml
# 然后在<configuration>标签里添加
  • 1
  • 2

​ 需要添加:

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop1:9000</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/export/dara/hadoop-wfb-3.3.0</value>
</property>
<property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
</property>
<property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
</property>
<property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
</property>
<property>
        <name>fs.trash.interval</name>
        <value>1440</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

3)配置HDFS

# 同理,把文件名修改为hdfs-site.xml
# 然后在<configuration>标签里添加
  • 1
  • 2

​ 需要添加:

<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop1:9868</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

4)配置MapReduce

# 同理,把文件名修改为mapred-site.xml
# 然后在<configuration>标签里添加
  • 1
  • 2

​ 需要添加:

</property>

<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
<property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop1:10020</value>
</property>
<property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop1:19888</value>
</property>
<property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26

5)配置YARN

# 同理,把文件名修改为 yarn-site.xml
#  然后在<configuration>标签里添加
  • 1
  • 2

​ 需要添加:

<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop1</value>
</property>
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
</property>
<property>
        <name>yarn.log-server.url</name>
        <value>http://hadoop1:19888/jobhistory/logs</value>
</property>
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
</property>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28

6)配置Hadoop节点运行的服务器

# 同理,把文件名修改为 workers
# 然后把默认的内容,修改成Hadoop1
  • 1
  • 2

格式化HDFS文件系统

# 接着上面的内容,你现在所处的位置是/export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
# 先运行2次,cd .. 退回到/export/servers/wfb-hadoop/hadoop-3.3.0
# 最后再格式化
bin/hdfs namenode -format
  • 1
  • 2
  • 3
  • 4

启动Hadoop

# 启动 HDFS
sbin/start-dfs.sh
# 启动YARN
sbin/start-yarn.sh
  • 1
  • 2
  • 3
  • 4

查看运行状态

# 输入jps
jps
  • 1
  • 2

​ 效果如下:

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/513238
推荐阅读
相关标签
  

闽ICP备14008679号