当前位置:   article > 正文

python 链式计算框架_Python的分布式计算框架——Dask调度器简介

python调度框架 dask

Dask是Python的分布式计算框架,它支持分布式的DataFrame,也就是pandas的DataFrame,二者接口完美兼容,但Dask是分布式计算的框架,可以支持内存无法装载的数据,进行计算,它也支持对一般的python程序进行分布式计算。是非常优秀的Python框架。本文主要介绍Dask的几种不同的调度器的使用。

Dask支持多种调度器,从单线程、多线程、多进程到本地分布式和集群分布式,各种调度器在不同情况下有不同的作用,本文来源于Dask官方文档的翻译,主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

  • 一、本地线程(Local Threads)
  • 二、本地进程(Local Process)
  • 三、单线程(Single Thread)
  • 四、Dask本地分布式(Dask Distributed (local))
  • 五、Dask集群分布式(Dask Distributed (Cluster))
  • 六、调度器配置

所有大型的Dask集合变量(例如Dask Array,Dask DataFrame和Dask Bag)以及细粒度的API(例如Delay和Future)都会生成任务图,其中图中的每个节点都是常规的Python函数,而节点之间的边缘是常规的Python对象,由一个任务创建为输出,并在另一任务中用作输入。 在Dask生成这些任务图之后,它需要在并行硬件上执行它们。这就是任务调度。Dask存在不同的任务调度,每个调度程序将使用一个任务图并计算得到相同的结果,但是它们的性能差别很大。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/526156
推荐阅读
相关标签
  

闽ICP备14008679号