大数据比赛组件搭建常见题目总结_开启hadoop集群,在yarn上以per job模式(即job 分离模式,不采用session模式

作者：人工智能uu | 2024-07-24 09:55:33

踩

开启hadoop集群,在yarn上以per job模式(即job 分离模式,不采用session模式)运行 $

任务一：Hadoop 完全分布式安装配置

任务二：Spark on Yarn安装配置

任务三：Flink on Yarn安装配置

任务一：Hadoop 完全分布式安装配置

本环节需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。命令中要求使用绝对路径，具体要求如下:

从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linux-x64.tar.gz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将master节点JDK安装包解压到/opt/module路径中(若路径不存在，则需新建)，将JDK解压命令复制并粘贴至对应报告中；
修改容器中/etc/profile文件，设置JDK环境变量并使其生效，配置完毕后在master节点分别执行“java -version”和“javac”命令，将命令行执行结果分别截图并粘贴至对应报告中；
请完成host相关配置，将三个节点分别命名为master、slave1、slave2，并做免密登录，用scp命令并使用绝对路径从master复制JDK解压后的安装文件到slave1、slave2节点（若路径不存在，则需新建），并配置slave1、slave2相关环境变量，将全部scp复制JDK的命令复制并粘贴至对应报告中；
在master将Hadoop解压到/opt/module(若路径不存在，则需新建)目录下，并将解压包分发至slave1、slave2中，其中master、slave1、slave2节点均作为datanode，配置好相关环境，初始化Hadoop环境namenode，将初始化命令及初始化结果截图（截取初始化结果日志最后20行即可）粘贴至对应报告中；
启动Hadoop集群（包括hdfs和yarn），使用jps命令查看master节点与slave1节点的Java进程，将jps命令与结果截图粘贴至对应报告中。

任务二：Spark on Yarn安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop2.7.tgz复制到容器master中的/opt/software（若路径不存在，则需新建）中，将Spark包解压到路径/opt/module路径中(若路径不存在，则需新建)，将完整解压命令复制粘贴至对应报告中；
修改容器中/etc/profile文件，设置Spark环境变量并使环境变量生效，在/opt目录下运行命令spark-submit --version，将命令与结果截图粘贴至对应报告中；
完成on yarn相关配置，使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_3.11-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi，将运行结果截图粘贴至对应报告中（截取Pi结果的前后各5行）。

（运行命令为：spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_3.11-3.1.1.jar）

任务三：Flink on Yarn安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件flink-1.14.0-bin-scala_2.12.tgz复制到容器master中的/opt/software（若路径不存在，则需新建）中,将Flink包解压到路径/opt/module中(若路径不存在，则需新建)，将完整解压命令复制粘贴至对应报告中；
修改容器中/etc/profile文件，设置Flink环境变量并使环境变量生效。在容器中/opt目录下运行命令flink --version，将命令与结果截图粘贴至对应报告中；
开启Hadoop集群，在yarn上以per job模式（即Job分离模式，不采用Session模式）运行 $FLINK_HOME/examples/batch/WordCount.jar，将运行结果最后10行截图粘贴至对应报告中。


示例 ：
 
flink run -m yarn-cluster -p 2 -yjm 2G -ytm 2G $FLINK_HOME/examples/batch/WordCount.jar

任务四：Hive安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件apache-hive-3.1.2-bin.tar.gz、mysql-connector-java-5.1.47.jar复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Hive安装包解压到/opt/module目录下，将命令复制并粘贴至对应报告中；
设置Hive环境变量，并使环境变量生效，执行命令hive --version并将命令与结果截图容复制并粘贴至对应报告中；
完成相关配置并添加所依赖包，将MySQL数据库作为Hive元数据库。初始化Hive元数据，并通过schematool相关命令执行初始化，将初始化结果截图（范围为命令执行结束的最后10行）复制粘贴至对应报告中。

任务五：Kafka安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件zookeeper-3.4.6.tar.gz、kafka_2.12-2.4.1.tgz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Zookeeper、kafka安装包解压到/opt/module目录下，将kafka解压命令复制并粘贴至对应报告中；
配置好zookeeper，其中zookeeper使用集群模式，分别将master、slave1、slave2作为其节点（若zookpeer已安装配置好，则无需再次配置），配置好kafka的环境变量，使用kafka-server-start.sh --version查看kafka的版本内容，并将命令和结果截图粘贴至对应报告中；

完善其他配置并分发kafka文件到slave1、slave2中，并在每个节点启动Kafka，创建Topic，其中Topic名称为installtopic，分区数为2，副本数为2，将创建命令和创建成果截图粘贴到对应报告中。

任务六：Flume安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件apache-flume-1.9.0-bin.tar.gz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Flume安装包解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，Hive环境变量，并使环境变量生效，执行命令flume-ng version并将命令与结果截图粘贴至对应报告中；
启动Flume传输Hadoop日志（namenode或datanode日志），查看HDFS中/tmp/flume目录下生成的内容，将查看命令及结果（至少5条结果）截图粘贴至对应报告中。

任务七：ClickHouse单机安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件ClickHouse 21.9.4的相关依赖包复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，启动clickhouse，将执行命令和结果截图粘贴至对应报告内；
连接clickhouse的客户端，将执行命令和结果截图粘贴至对应报告内。

任务八：Hbase完全分布式安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件hbase-2.2.3-bin.tar.gz安装包复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点hbase-2.2.3-bin.tar.gz安装包解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，Hbase环境变量，并使环境变量生效，执行命令./bin/hbase shell，将命令和结果截图粘贴至对应报告内；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/873985