当前位置:   article > 正文

SparkSql学习---单词词频统计案例_使用spark sql实现单词统计

使用spark sql实现单词统计

数据源:words.txt

  1. hello spark
  2. hello hadoop
  3. hello flink

代码:

  1. # coding:utf8
  2. from pyspark.sql import SparkSession
  3. from pyspark.sql.types import StructType, StringType, IntegerType
  4. import pandas as pd
  5. from pyspark.sql import functions as F
  6. if __name__ == '__main__':
  7. # 0. 构建执行环境入口对象SparkSession
  8. spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
  9. sc = spark.sparkContext
  10. # TODO 1: SQL 风格进行处理
  11. rdd = sc.textFile("../data/input/words.txt").flatMap(lambda x: x.split(" ")).map(lambda x: [x])
  12. print(rdd.collect())
  13. df = rdd.toDF(["word"])
  14. # 注册DF为表格
  15. df.createTempView("words")
  16. spark.sql("SELECT word, COUNT(*) AS cnt FROM words GROUP BY word ORDER BY cnt DESC").show()
  17. # TODO 2: DSL 风格处理
  18. df = spark.read.format("text").load("../data/input/words.txt")
  19. # withColumn方法
  20. # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
  21. df2 = df.withColumn("value", F.explode(F.split(df['value'], " ")))
  22. df2.groupBy("value").count().withColumnRenamed("value", "word").withColumnRenamed("count", "cnt").\
  23. orderBy("cnt", ascending=False).show()

运行结果:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/779960
推荐阅读
相关标签
  

闽ICP备14008679号