当前位置:   article > 正文

Hadoop之MR运行流程_hadoop的mr过程

hadoop的mr过程

1.MR运行原理图

在这里插入图片描述

2.MapTask的详细流程:

1.提交相应的信息到mr appmaster

(1)都回提交哪些信息?

  • split.xml 配置信息
  • jar包
  • 切片信息.mrappmaster根据切片信息开启对应数量的maptask
(2) 切片信息怎么得到?
  • 1

默认TextInputFormat调用父类FileInputPutFormat 中getSplits方法得到切片信息。
再调用createRecordReader 返回RecordReader对象读取切片记录。默认使用LineRecordreader 读取切片信息。行偏移量作为key,内容作为value。RecordReader会在输入块上被反复调用,直到整个输入块被处理完毕,每一次调用RecordReader都会调用Mapper类的map()函数。

InputFormat<?, ?> input =  ReflectionUtils.newInstance(job.getInputFormatClass(), conf);
    List<InputSplit> splits = input.getSplits(job)
  • 1
  • 2

类之间的关系:在这里插入图片描述
InputFormat只定义了规范。没有添加实现方法
在这里插入图片描述

public abstract class InputFormat<K, V> {
   
                 //输入数据切分成splits
    public abstract List<InputSplit> getSplits(JobContext context) 
             throws IOException, InterruptedException;         
    //返回一个能够读取分片记录的RecordReader  默认是 LineRecordReader 每行的偏移量作为map的key,每行的内容作为map的value;   
    //SequenceFileInputFormat的RecordReader是SequenceFileRecordReader;      public abstract RecordReader<K,V> createRecordReader(InputSplit split,
       TaskAttemptContext context) throws IOException, InterruptedException;
}

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

getSplits的源码:默认是TextInputForamt

public class TextInputFormat extends FileInputFormat<LongWritable, Text> {
   

  @Override
  public RecordReader<LongWritable, Text> 
    createRecordReader(InputSplit split,
                       TaskAttemptContext context) {
   
    String delimiter = context.getConfiguration().get(
        "textinputformat.record.delimiter");
    byte[] recordDelimiterBytes = null;
    if (null != delimiter)
      recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
    return new LineRecordReader(recordDelimiterBytes);
  }

  @Override
  protected boolean isSplitable(JobContext context, Path file) {
   
    final CompressionCodec codec =
      new CompressionCodecFactory(context.getConfiguration()).getCodec(file);
    if (null == codec) {
   
      return true;
    }
    return codec instanceof SplittableCompressionCodec;
  }

}


*********<
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/777798
推荐阅读
相关标签
  

闽ICP备14008679号