当前位置:   article > 正文

spark 读取hdfs文件的速度 耗时_spark.hadoop.dfs.client.readslow

spark.hadoop.dfs.client.readslow

概述 1.3TB 读取+简单filter耗时21min

集群4TB磁盘56块

>>> 1.3 * 1024 * 1024 / 21 / 60 / 56
19.319002267573698

每块磁盘平均21MB/s  该结论受到hdfs文件个数影响 不同环境可能有所不同,这里只是提供一个简单的耗时参考

1.3TB:如果hive表字符串列有5列 每列长度20 大概4-6亿行数据

读取速度

 

 

环境信息

-

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/662975
推荐阅读
相关标签
  

闽ICP备14008679号