当前位置:   article > 正文

优化spark sql读取 kudu数据_spark kudu参数

spark kudu参数

1.背景

通过 spark sql 读取 kudu 数据,由于 kudu 表 只有 6 个 tablet ,所以 spark 默认只能启动 6 个 task,读取 kudu 数据,通过界面可以看到 kudu 的 scan 维持在 143M/s ,想要增大 spark 读取 kudu 的效率。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png)

2.修改

通过追踪 kudu-spark.jar 的源码知道
在这里插入图片描述kudu.batchSize: 默认为 20M batchSize Sets the maximum number of bytes returned by the scanner, on each batch.
splitSizeBytes sets the target number of bytes per spark task. If set, tablet’s primary key range will be split to generate uniform task sizes instead of the default of 1 task per tablet

调参为:

val sqlDF = spark.sqlContext.read.options(
          Map("kudu.master" -> kuduMasters,
            "kudu.table" -> kuduTableName,
            //200M
            "kudu.batchSize" -> "419430400",
            //10G
            "kudu.splitSizeBytes" -> "10737418240")).format("kudu").load.cache()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

3.最终的结果

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/417493
推荐阅读
相关标签
  

闽ICP备14008679号