当前位置:   article > 正文

项目一:利用Spark RDD实现词频统计_在spark中怎么做词云图

在spark中怎么做词云图

一、提出任务

  • 单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
  • 在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。
  • 预备工作:启动集群的HDFS与Spark
    在这里插入图片描述
  • HDFS上的单词文件 - words.txt
    在这里插入图片描述

二、完成任务

(一)新建Maven项目

  • 新建Maven项目,基于JDK1.8
    在这里插入图片描述
  • 设置项目信息(项目名称、保存位置、组编号以及项目编号)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/945522
推荐阅读
相关标签
  

闽ICP备14008679号