赞
踩
简单来说就是 DataFrame 对象调用 API,这些 API 有的和 RDD 同名,有的和 SQL 关键词同名。
调用 DataFrame 中 API 进行数据分析,DataFrame 中涵盖很多函数,大致分类如下:
1、选择函数 select:选取某些列的值
2、过滤函数 filter / where:设置过滤条件,类似 SQL 中 WHERE 语句
3、分组函数 groupBy / rollup /cube:对某些字段分组,在进行聚合统计
4、聚合函数 agg:通常与分组函数连用,使用一些 count、max、sum 等聚合函数操作
5、排序函数 sort / orderBy:按照某写列的值进行排序(升序 ASC 或者降序 DESC)
6、限制函数 limit:获取前几条数据,类似 RDD 中 take 函数
7、重命名函数 withColumnRenamed:将某列的名称重新命名
8、删除函数 drop:删除某些列
9、增加列函数 withColumn:当某列存在时替换值,不存在时添加此列
上述函数在实际项目中经常使用,尤其数据分析处理的时候,其中要注意,调用函数时,通常指定某个列名称,传递 Column 对象,通过隐式转换转换字符串 String 类型为 Column 对象。
两个步骤:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。