赞
踩
Dask是Python的分布式计算框架,它支持分布式的DataFrame,也就是pandas的DataFrame,二者接口完美兼容,但Dask是分布式计算的框架,可以支持内存无法装载的数据,进行计算,它也支持对一般的python程序进行分布式计算。是非常优秀的Python框架。本文主要介绍Dask的几种不同的调度器的使用。
Dask支持多种调度器,从单线程、多线程、多进程到本地分布式和集群分布式,各种调度器在不同情况下有不同的作用,本文来源于Dask官方文档的翻译,主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。
所有大型的Dask集合变量(例如Dask Array,Dask DataFrame和Dask Bag)以及细粒度的API(例如Delay和Future)都会生成任务图,其中图中的每个节点都是常规的Python函数,而节点之间的边缘是常规的Python对象,由一个任务创建为输出,并在另一任务中用作输入。 在Dask生成这些任务图之后,它需要在并行硬件上执行它们。这就是任务调度。Dask存在不同的任务调度,每个调度程序将使用一个任务图并计算得到相同的结果,但是它们的性能差别很大。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。