当前位置:   article > 正文

03 使用spark进行词频统计【python】_spark实战 第3关:wordcount词频统计

spark实战 第3关:wordcount词频统计

本节将展示如何在spark中通过python进行词频统计。

1 系统、软件以及前提约束

  • CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置
  • 已完成scala方式的词频统计
    https://www.jianshu.com/p/92257e814e59
  • 已经有待统计的文件word上传到HDFS,名字为/word
  • 为去除权限对操作的影响,所有操作都以root进行

2 操作

  • 1.使用xshell以root登录到192.168.100.200
  • 2.进入spark的bin目录,新建一个wordcount.py,内容如下:
  1. from operator import add
  2. from pyspark import SparkContext
  3. def word_count():
  4. sc = SparkContext(appName="wordcount")
  5. textFile= sc.textFile("/word")
  6. result = textFile.flatMap(lambda x: x.split(" ")) \
  7. .map(lambda x: (x, 1)) \
  8. .reduceByKey(add) \
  9. .sortBy(lambda x: x[1], False).take(3)
  10. for k, v in result:
  11. print k, v
  12. if __name__ == '__main__':
  13. word_count()

保存退出。

  • 3.执行
./spark-submit --master local wordcount.py

等待,查看结果。
以上,就是我们在spark当中使用python进行词频统计的过程,请读者特别注意文中的python语法约束。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/701121
推荐阅读
相关标签
  

闽ICP备14008679号