当前位置:   article > 正文

wordcount单词词频统计_第1关:wordcount词频统计

第1关:wordcount词频统计

词出的总

1、WordCount概述

WordCount算是大数计算域经的入案例相当Hello World

虽然WordCount业务极其简,但希望够通案例受背MapReduce的执行流程和默认行为,这 才是关键。

 

 

 2、WordCount编程实现思路

map阶段的核心:把输入数据过切,全标记1此输就是<,1>shuffle阶段核心:MR程序内部自默认排序组等能,key相同的单词会作为一组数构成kv

lreduce阶段核心:处理shuffle完的一组数,该数据是该词所的键对。所有1行累求和就是 单词的总次数。

 3、WordCount程序提交

上传课程资料中的文本文件1.txt到HDFS文件系统的/input目录下,如果没有个目,使用shell创建

hadoop fs -mkdir /input  

hadoop fs -put 1.txt /input

准备好之后,执行官方 MapReduce 实例,对上述 件进 单词 数统计 第一个参数 :wordcount 表示执行 词统 任务;

第二个参数:指定输入件的径;

第三个参数:指定输出果的径(路径能已在);

h

  1. [root@node1 mapreduce]# pwd
  2. /export/server/hadoop-3.3.0/share/hadoop/mapreduce
  3. [root@node1 mapreduce]# hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount
  4. /input /output

4、WordCount执行结果

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/388239
推荐阅读
相关标签
  

闽ICP备14008679号