当前位置:   article > 正文

Spark中SQL与DSL编程风格的使用(附花式查询与单词记数案例)_spark dsl 风格处理

spark dsl 风格处理

Spark 中 DataFrame 的常用操作:

1、DSL风格:

简单来说就是 DataFrame 对象调用 API,这些 API 有的和 RDD 同名,有的和 SQL 关键词同名。

调用 DataFrame 中 API 进行数据分析,DataFrame 中涵盖很多函数,大致分类如下:
1、选择函数 select:选取某些列的值
2、过滤函数 filter / where:设置过滤条件,类似 SQL 中 WHERE 语句
3、分组函数 groupBy / rollup  /cube:对某些字段分组,在进行聚合统计
4、聚合函数 agg:通常与分组函数连用,使用一些 count、max、sum 等聚合函数操作
5、排序函数 sort / orderBy:按照某写列的值进行排序(升序 ASC 或者降序 DESC)
6、限制函数 limit:获取前几条数据,类似 RDD 中 take 函数
7、重命名函数 withColumnRenamed:将某列的名称重新命名
8、删除函数 drop:删除某些列
9、增加列函数 withColumn:当某列存在时替换值,不存在时添加此列
上述函数在实际项目中经常使用,尤其数据分析处理的时候,其中要注意,调用函数时,通常指定某个列名称,传递 Column 对象,通过隐式转换转换字符串 String 类型为 Column 对象。

2、SQL风格:

两个步骤:

  • 将 DataFrame 注册成一个
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/656963
推荐阅读
相关标签
  

闽ICP备14008679号