当前位置:   article > 正文

Hadoop大数据处理与分析教程_基于hadoop的大数据分析和处理

基于hadoop的大数据分析和处理

本文所需文件(Vmware虚拟机、密匙、乌班图系统、JDK、Hadoop)

链接:https://pan.baidu.com/s/1yU5s36Rgl_jE_mAmHsJBfQ?pwd=i5s6 
提取码:i5s6

一、Linux操作系统的安装

二、Hadoop的伪分布式安装

1.配置ssh无密登录

(1)安装ssh

sudo apt-get install ssh

(2)产生SSH Key

ssh-keygen -t rsa

(3)将公钥放到许可证文件中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

(4)更改权限

  1. chmod 755 ~
  2. chmod 700 ~/.ssh
  3. chmod 600 ~/.ssh/authorized_keys

(5)验证是否可以免密登录本机(下图为登录成功界面)

ssh 本机名

 (6)退出ssh连接

exit

2.JDK的安装

(1)查看Vmware网络配置(配置IP地址)

 

(2) 配置虚拟机静态IP

sudo vi /etc/netplan/01-network-manager-all.yaml

     依据Vmware网络配置编辑

  1. network:
  2. ethernets:
  3. ens33:
  4. dhcp4: no
  5. dhcp6: no
  6. addresses: [192.168.186.130/24,]
  7. gateway4: 192.168.186.2
  8. nameservers:
  9. addresses: [114.114.114.114, ]
  10. version: 2
  11. renderer: NetworkManager

      更新网络配置(若没报错,即配置成功)

sudo netplan apply

      测试连接

ping www.baidu.com

     修改主机名(本文修改为master),并把主机名和IP地址写进/etc/hosts配置文件(如图所示)

  1. sudo vi /etc/hostname
  2. sudo vi /etc/hosts

     重启虚拟机使配置生效

(3)连接xshell (提前安装Xshell、Xftp)

(4)新建文件传输(导入JDK、hadoop压缩包)

 

(5)解压jdk

tar -zxvf jdk-8u171-linux-x64.tar.gz

 (6)配置环境变量

sudo vi /etc/profile

     在文本末添加以下命令(添加的命令如下图所示)

  1. export JAVA_HOME=./jdk1.8.0_171
  2. export JRE_HOME=${JAVA_HOME}/jre
  3. export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}lib
  4. export PATH=${JAVA_HOME}/bin:$PATH

 (7)重新加载配置文件,验证jdk配置是否成功(下图即为配置成功)

  1. source /etc/profile
  2. java -version

 3.Hadoop的安装

(1)解压hadoop安装包

tar -zxvf hadoop-3.2.4.tar.gz

(2)配置hadoop环境变量

sudo vi ~/.bashrc

     在文尾添加以下代码

  1. export JAVA_HOME=/home/wenzi/jdk1.8.0_171
  2. export HADOOP_HOME=/home/wenzi/hadoop-3.2.4
  3. export PATH=$PATH:$HADOOP_HOME/bin
  4. export PATH=$PATH:$HADOOP_HOME/sbin
  5. export HADOOP_MAPRED_HOME=$HADOOP_HOME
  6. export HADOOP_COMMON_HOME=$HADOOP_HOME
  7. export HADOOP_HDFS_HOME=$HADOOP_HOME
  8. export YARN_HOME=$HADOOP_HOME
  9. export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
  10. export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
  11. export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

     更新配置

source ~/.bashrc

(3)测试是否配置成功(下图即配置成功)

hadoop version

4.修改Hadoop配置文件

(1)修改hadoop-env.sh

sudo vi ./hadoop-3.2.4/etc/hadoop/hadoop-env.sh

     找到以下命令进行修改(如图)

(2)修改core-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/core-site.xml
  1. <configuration>
  2. <!-- 配置HDFS的主节点,nameNode -->
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://192.168.186.130:9000</value>
  6. </property>
  7. <!-- 配置HADOOP运行时产生文件的储存目录 -->
  8. <property>
  9. <name>hadoop.tmp.dir</name>
  10. <value>/home/wenzi/hadoop-3.2.4/dataNode_1_dir</value>
  11. </property>
  12. </configuration>

 (3)修改yarn-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/yarn-site.xml
  1. <configuration>
  2. <!--配置ReourceManager的地址-->
  3. <property>
  4. <name>yarn.resourcemanager.hostname</name>
  5. <value>192.168.186.130</value>
  6. </property>
  7. <!--配置NodeManager执行任务的方式shuffle:洗牌 -->
  8. <property>
  9. <name>yarn.nodemanager.aux-services</name>
  10. <value>mapreduce_shuffle</value>
  11. </property>
  12. </configuration>

(4)修改mapred-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/mapred-site.xml
  1. <configuration>
  2. <property>
  3. <name>mapreduce.framework.name</name>
  4. <value>yarn</value>
  5. </property>
  6. </configuration>

(5)修改hdfs-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
  1. <configuration>
  2. <!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
  3. <property>
  4. <name>dfs.replication</name>
  5. <value>1</value>
  6. </property>
  7. <!-- 指定namenode数据存储目录 -->
  8. <property>
  9. <name>dfs.namenode.name.dir</name>
  10. <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/namenode</value>
  11. </property>
  12. <property>
  13. <name>dfs.datanode.data.dir</name>
  14. <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/datanode</value>
  15. </property>
  16. <property>
  17. <name>dfs.http.address</name>
  18. <value>wenzi:50070</value>
  19. </property>
  20. </configuration>

(6)修改/etc/profile文件

sudo vi /etc/profile
  1. :$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  2. export HAOOP_HOME=./hadoop-3.2.4

     修改成如图所示

 (7)创建并格式化文件系统

  1. mkdir -p ./hadoop-3.2.4/hadoop_data/hdfs/namenode
  2. mkdir -p ./hadoop-3.2.4/hadoop_data/hdfs/datanode
  3. mkdir -p ./hadoop-3.2.4/dataNode_1_dir/datanode
  4. hdfs namenode -format

5.启动Hadoop

(1)启动

start-all.sh

(2)查看hadoop全部的守护进程(全部启动即为成功)

 (3)查看HDFS WEB 页面

打开火狐浏览器输入:192.168.186.130:50070 

如图所示:

 (4)查看YARN WEB页面

打开火狐浏览器输入:192.168.186.130:8088

如图所示:

 三、Hadoop集群的搭建与配置

1.修改配置文件

(1)修改hdfs-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
  1. <configuration>
  2. <!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
  3. <property>
  4. <name>dfs.replication</name>
  5. <value>1</value>
  6. </property>
  7. <!-- 指定namenode数据存储目录 -->
  8. <property>
  9. <name>dfs.namenode.name.dir</name>
  10. <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/namenode</value>
  11. </property>
  12. <property>
  13. <name>dfs.http.address</name>
  14. <value>master:50070</value>
  15. </property>
  16. </configuration>

(2)修改core-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/core-site.xml
  1. <configuration>
  2. <!-- 配置HDFS的主节点,nameNode -->
  3. <property>
  4. <name>fs.defaultFS</name>
  5. <value>hdfs://master:9000</value>
  6. </property>
  7. <!-- 配置HADOOP运行时产生文件的储存目录 -->
  8. <property>
  9. <name>hadoop.tmp.dir</name>
  10. <value>/home/wenzi/hadoop-3.2.4/dataNode_1_dir</value>
  11. </property>
  12. </configuration>

(3)修改yarn-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/yarn-site.xml
  1. <configuration>
  2. <!--配置ReourceManager的地址-->
  3. <property>
  4. <name>yarn.resourcemanager.hostname</name>
  5. <value>master</value>
  6. </property>
  7. <!--配置NodeManager执行任务的方式shuffle:洗牌 -->
  8. <property>
  9. <name>yarn.nodemanager.aux-services</name>
  10. <value>mapreduce_shuffle</value>
  11. </property>
  12. </configuration>

(4)修改mapred-site.xml文件(对照以下代码进行修改)

sudo vi ./hadoop-3.2.4/etc/hadoop/mapred-site.xml
  1. <configuration>
  2. <property>
  3. <name>mapred.job.tracker</name>
  4. <value>master:54311</value>
  5. </property>
  6. </configuration>

(5)修改/etc/hosts文件(内容如图所示)

sudo vi /etc/hosts

两个slave节点IP需要与后面保持一致

(6) 编辑masters文件(在文件中输入主机名master)

sudo vi ./hadoop-3.2.4/etc/hadoop/masters

(7)编辑workers文件(删除local host添加slave1、slave2)

sudo vi ./hadoop-3.2.4/etc/hadoop/workers

 (8)删除临时文件夹

  1. rm -rf ./hadoop-3.2.4/dataNode_1_dir
  2. rm -rf ./hadoop-3.2.4/logs

2.复制虚拟机

(1)复制主机master到slave1、slave2(下图为复制步骤)

 

 (2)设置slave服务器

下面为设置slave1、同理设置salve2,

1、修改IP地址(IP与上文保持一致,slave1:192.168.186.131 slave2:192.168.186.132)

打开slave1虚拟机进行以下配置

sudo vi /etc/netplan/01-network-manager-all.yaml
  1. network:
  2. ethernets:
  3. ens33:
  4. dhcp4: no
  5. dhcp6: no
  6. addresses: [192.168.186.131/24,]
  7. gateway4: 192.168.186.2
  8. nameservers:
  9. addresses: [114.114.114.114, ]
  10. version: 2
  11. renderer: NetworkManager
sudo netplan apply

2、修改主机名(分别把master改为slave1、slave2)

sudo vi /etc/hostname

3、重启虚拟机使配置生效

sudo reboot

 4.修改hdfs-site.xml文件

sudo vi ./hadoop-3.2.4/etc/hadoop/hdfs-site.xml
  1. <configuration>
  2. <!-- 指定HDFS储存数据的副本数目,默认情况下时3份 -->
  3. <property>
  4. <name>dfs.replication</name>
  5. <value>1</value>
  6. </property>
  7. <!-- 指定namenode数据存储目录 -->
  8. <property>
  9. <name>dfs.datanode.data.dir</name>
  10. <value>file:///home/wenzi/hadoop-3.2.4/hadoop_data/hdfs/datanode</value>
  11. </property>
  12. <property>
  13. <name>dfs.http.address</name>
  14. <value>master:50070</value>
  15. </property>
  16. </configuration>

5.格式化文件系统

hdfs namenode -format

3.启动Hadoop集群

start-all.sh

(1)分别查看三个虚拟机进程

jps

ssh slave2
jps

ssh slave1
jps

(1)查看HDFS WEB 页面

打开火狐浏览器输入:http://master:50070 

如图所示:

(2)查看YARN WEB页面

打开火狐浏览器输入:http://master:8088

如图所示:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/389011
推荐阅读
相关标签
  

闽ICP备14008679号