赞
踩
MapReduce 是一种分布式编程模型,用来解决海量数据计算的问题。程序员使用它可以更关注业务逻辑的实现,而不需要花费大量精力在因分布式上运行而带来的问题。
MapReduce 采用分治法的思想,把一个大的任务切分为很多小的任同时执行(Map 阶段),汇总所有的执行结果(Reduce 阶段)。
用户以 kv 对的形式把数据提交给 map,map 处理完后以 kv 对的形式提交给 reduce,reduce 处理以后以 kv 对的形式输出给用户。
要想使用 MapReduce 必须要启动 dfs 和 yarn 才可以。
dfs 提供输入和输出
yarn 提供执行程序的必要资源
start-dfs.sh:
NameNode+DataNode+SecondaryNamenode
start-yarn.sh:
ResourceManager+NodeManager
在master主机上启动的节点进程:
NameNode+SecondaryNameNode+ResourceManager
在slave机上启动节点:
DataNode+NodeManager
注:::::::::::::::::::::::::::::::::::::::::::::::::::
在分布式的系统中,主从设备模式(Master-Slave)模式还是比较常用的,简单的说,主从(Master-Slave)与进程-线程的关系类似,Master只有一台机器作为Master,其他机器作为Slave,这些机器同时运行组成了集群.Master作为任务调度者,给多个Slave分配计算任务,当所有的Slave将任务完成之后,最后由Master汇集结果,这个其实也是MapReduce思想所在.
例如在Hadoop中,HDFS采用了基于Master/Slave主从架构的分布式文件系统,一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器,这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。一个逻辑的Master节点可以包括两台物理主机,即两台Master服务器、多台Slave服务器。一台Master服务器组成单NameNode集群,两台Master服务器组成双NameNode集群,并且同时被多个客户端访问,所有的这些机器通常都是普通的Linux机器,运行着用户级别(user-level)的服务进程.
NameNode 作为 Master 服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息,包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说,HDFS通过NameNode对用户提供了一个单一的命名空间。DataNode作为slave服务,在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给NameNode。
wordcount 统计数据中单词出现的次数 ---> hello world
整篇文章按行拆分
key: 行首第一个字母在整篇文章中的位置
value:这一行文字
偏移量 文字
0 This distribution may
20 include materials developed by third parties.
55 For license and attribution notices for these materials,
注意:map 拆分出每一个单词后以单词作为 key,数字 1 作为 value 输出
有几个单词就输出几组 kv
eg:文字是:hello hello world hello 就输出 hello 1
world 1
hello 1
hello 1
在 map 的输出到达 reduce 的过程中会有一下操作:
1. 所有 key 相同的 kv 对会发送到同一个 reduce 上
2. key 还是相同的 key,value 合并在一个迭代器
eg:hello 1
hello 1
hello 1
hello <1, 1, 1>
reduce 遍历 value 迭代器,统计出个数,即我们这个单词的出现次数
在package cn.itcast.centosdvd.mr.wordcount;下
WCMapper.java
- package cn.itcast.centosdvd.mr.wordcount;
-
- import java.io.IOException;
-
- import org.apache.commons.lang3.StringUtils;
- import org.apache.hadoop.io.LongWritable;
- import org.apache.hadoop.io.Text;
- import org.apache.hadoop.mapreduce.Mapper;
-
- //4个泛型中,前两个是指定mapper输入数据的类型,KEYIN是输入的key的类型,VALUEIN是输入的value的类型
- //map和reduce的数据输入输出都是以key-value对的形式封装的
- //默认情况下,框架传递给我们的mapper输入数据中,key是要处理的文本中一行的起始偏移量,这一行内容作为value
- //此处的LongWritable与Text都是mapreduce自己的类型,为了简化在网络中传输添加的附加包,使速度更快
- public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
-
- //mapreduce框架每读一行数据就调用一次该方法
- @Override
- protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
- throws IOException, InterruptedException {
- // TODO Auto-generated method stub
-
- //具体业务逻辑就写在这个方法中,而且我们业务逻辑要处理的数据已经被框架传递进来,在方法的参数中key-value
- //key是这一行数据的起始偏移量,这一行内容作为value
-
- //将这一行的内容转换为string类型
- String line = value.toString();
-
- //对这一行的文本按特定分隔符切分
- String[] words = StringUtils.split(line, " ");
-
- //遍历这个单词数组输出为KV形式 K:单词 V:1
- for(String word : words) {
- context.write(new Text(word), new LongWritable(1));
- }
- }
-
-
- }

WCReducer.java
- package cn.itcast.centosdvd.mr.wordcount;
-
- import java.io.IOException;
-
- import org.apache.hadoop.io.LongWritable;
- import org.apache.hadoop.io.Text;
- import org.apache.hadoop.mapreduce.Reducer;
-
- public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
-
-
- //框架在map处理完成之后,讲所有的kv对缓存起来,进行分组,然后传递一个组<key,value{}>,调用一次reduce方法
- //<hello,{1,1,1,1,1.....}>
- @Override
- protected void reduce(Text key, Iterable<LongWritable> values,
- Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
-
- long count=0;
- //遍历value的list,进行累加求和
- for(LongWritable value:values) {
-
- count+=value.get();
- }
- //输出这一个单词的统计结果
-
- context.write(key, new LongWritable(count));
- }
- }

WCRunner.java
- package cn.itcast.centosdvd.mr.wordcount;
-
- import java.io.IOException;
-
- import org.apache.hadoop.conf.Configuration;
- import org.apache.hadoop.fs.Path;
- import org.apache.hadoop.io.LongWritable;
- import org.apache.hadoop.io.Text;
- import org.apache.hadoop.mapreduce.Job;
- import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
- import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
-
- /**
- * 用来描述一个特定的作业
- * 比如,该作业使用哪个类作为逻辑处理中的map,哪个作为reduce
- * 还可以指定该作业要处理的数据所在的路径
- * 还可以指定该作业输出的结果放到哪个路径
- * 。。。
- * @author 李景欣
- *
- */
- public class WCRunner {
-
- public static void main(String[] args) throws Exception {
-
- Configuration conf = new Configuration();
- Job wcjob = Job.getInstance(conf);
-
- //设置整个job所用的那些类在哪个jar包
- wcjob.setJarByClass(WCRunner.class);
-
- //本job使用的mapper和reducer的类
- wcjob.setMapperClass(WCMapper.class);
- wcjob.setReducerClass(WCReducer.class);
-
- //指定reducer的输出数据kv类型
- wcjob.setOutputKeyClass(Text.class);
- wcjob.setOutputValueClass(LongWritable.class);
-
- //指定mapper的输出数据kv类型
- wcjob.setMapOutputKeyClass(Text.class);
- wcjob.setMapOutputValueClass(LongWritable.class);
-
- //指定要处理的输入数据存放路径
- FileInputFormat.setInputPaths(wcjob, new Path("/wc/srcdata/"));
-
- //指定处理结果的输出数据存放路径
- FileOutputFormat.setOutputPath(wcjob, new Path("/wc/output/"));
-
- //将job提交给集群运行
- wcjob.waitForCompletion(true);
- }
- }

以上注意选下图中下边那个新的,上边那个是老版本的
编写完成后将项目导出(项目右键Export选择jar file)成jar包放到f盘并用sftp命令put上传到服务器
vi words.log
启动hdfs和yarn
在hdfs上新建目录并把words.log上传到hdfs
注意此处只建了输入数据存放路径,并没有建立输出数据存放路径,其实不需要建立输出数据存放路径,如果建了反而会报错提示此路径已经存在。
运行:hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner
此处我的jar包程序报错有问题
报错:Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was:java.lang.ClassCastException: class com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text
原因是我误把import org.apache.hadoop.io.Text;
导成了import com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider.Text;
所以我重新更改了代码,并删除之前的文件与output路径(只是删除output,wc还在)重新put wc.jar
重新运行:hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner
所以让我们来看一下运行结果:
hadoop fs -ls /wc/output
hadoop fs -cat /wc/output/part-r-00000
完成!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。