赞
踩
1、整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度, 2、处理客户端的请求: submit, kill监控我们的NM,一旦某个NM挂了,那么该NM上运行的任务需要告诉我们的AM来如何进行处理
整个集群中有多个,负责自己本身节点资源管理和使用,定时向RM汇报本节点的资源使用情况,接收并处理来自RM的各种命令:启动Container处理来自AM的命令
每个应用程序对应一个:MR、Spark,负责应用程序的管理
为应用程序向RM申请资源(core、memory),分配给内部task, 需要与NM通信:启动/停止task,task是运行在container里面,AM也是运行在container里面
sbin目录下
./ start-yarn.sh
验证
[hadoop@hadoop000 sbin]$ jps
13000 ResourceManager
13199 Jps
13104 NodeManager
停止
./ stop-yarn.sh
yarn提交MapReduce作业演示,我们接下来使用hadoop进行π值的计算
在/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce
找到示例jar包hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar
执行以下命令进行π值计算
[hadoop@hadoop000 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 2 3
2 是执行任务次数 3是执行每次任务投递次数
http://10.25.187.18:8088/cluster
分布式处理框架 MapReduce
编写WordCountApp
package com.neusoft.hadoop.mapreduce; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.FileInputStream; import java.io.IOException; /** * @author Eric Lee * @date 2020/10/28 11:16 * 使用Mapreduce 开发 WordCountApp */ public class WordCountApp { /** * Map阶段: 读取输入文件 */ public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{ LongWritable one = new LongWritable(1); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 接受每一行数据 String line = value.toString(); // 按照指定分隔符进行拆分 String[] words = line.split(" "); // 遍历 for(String word: words){ // 通过上下文把map的处理结果进行输出 context.write(new Text(word), one); } } } /** * Reduce阶段: 归并操作 */ public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{ @Override protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { long sum = 0; for (LongWritable value: values){ // 求出key出现的次数总和 sum += value.get(); } // 最终的统计结果进行输出 context.write(key, new LongWritable(sum)); } } /** * 定义main函数 使用Driver封装Maoreduce作业的所有信息 */ public static void main(String[] args) throws Exception { // 创建Configuration对象 Configuration configuration = new Configuration(); // 创建Job Job job = Job.getInstance(configuration, "wordcount"); // 设置job处理类 job.setJarByClass(WordCountApp.class); // 设置作业的输入路径 args[0] 将命令行的第一个值传给 Path FileInputFormat.setInputPaths(job, new Path(args[0])); // 设置 map 相关参数 job.setMapperClass(MyMapper.class); job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); // 设置 reduce 相关参数 job.setReducerClass(MyReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); // 设置作业的输出路径 args[1] 将命令行的第二个值传给 Path FileOutputFormat.setOutputPath(job, new Path(args[2])); System.exit(job.waitForCompletion(true)? 0: 1); } }
mvn clean package -DskipTests
使用 maven进行打包 hadoop_java_op_hdfs-1.0-SNAPSHOT.jar 上传到 用户目录的lib文件夹下进行命令操作
接下来在命令行下进行操作(类似计算π值)
hadoop jar 主函数全限定名 输入 输出
hadoop jar shenyangbig_data_hadoop-1.0-SNAPSHOT.jar com.neusoft.hadoop.mapreduce.WordCountApp 输入 输出
相同的脚本和代码在这里执行会报错;
hadoop fs -rm -r /output/wc
参考命令
hadoop jar shenyangbig_data_hadoop-1.0-SNAPSHOT.jar com.neusoft.hadoop.mapreduce.WordCountApp hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/output/wc
打开http://192.168.1.109:8088/cluster
查看词频统计结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。