当前位置:   article > 正文

5.7 Spark简单算子案例(Python版)_第1关:wordcount词频统计

第1关:wordcount词频统计

第一关 WordCount - 词频统计

  • 编程要求
  1. 对文本文件内的每个单词都统计出其出现的次数。
  2. 按照每个单词出现次数的数量,降序排序。

        文本文件内容如下(单词与单词之间以空格进行分割):

hello java

hello python java

hello python python

hello flink

scala scala scala scala scala

        预期输出: (scala,5) (hello,4) (python,3) (java,2) (flink,1) 

  • 代码实现
  1. # -*- coding: UTF-8 -*-
  2. from pyspark import SparkContext
  3. if __name__ == "__main__":
  4. """
  5. 需求:对本地文件系统URI为:/root/wordcount.txt 的内容进行词频统计
  6. """
  7. # ********** Begin **********#
  8. sc = SparkContext("local","pySpark")
  9. rdd = sc.textFile("/root/wordcount.txt
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/388242
推荐阅读
相关标签
  

闽ICP备14008679号