这个屌丝很懒，什么也没留下！

spark 读取hdfs文件的速度耗时_spark.hadoop.dfs.client.readslow

作者：我家小花儿 | 2024-06-02 13:56:50

spark.hadoop.dfs.client.readslow

概述 1.3TB 读取+简单filter耗时21min

>>> 1.3 * 1024 * 1024 / 21 / 60 / 56
19.319002267573698

每块磁盘平均21MB/s 该结论受到hdfs文件个数影响不同环境可能有所不同,这里只是提供一个简单的耗时参考

1.3TB:如果hive表字符串列有5列每列长度20 大概4-6亿行数据

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/662975