赞
踩
本节将展示如何在spark中通过python进行词频统计。
- from operator import add
- from pyspark import SparkContext
-
- def word_count():
- sc = SparkContext(appName="wordcount")
- textFile= sc.textFile("/word")
- result = textFile.flatMap(lambda x: x.split(" ")) \
- .map(lambda x: (x, 1)) \
- .reduceByKey(add) \
- .sortBy(lambda x: x[1], False).take(3)
- for k, v in result:
- print k, v
- if __name__ == '__main__':
- word_count()
保存退出。
./spark-submit --master local wordcount.py
等待,查看结果。
以上,就是我们在spark当中使用python进行词频统计的过程,请读者特别注意文中的python语法约束。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。