当前位置:   article > 正文

阿里云Arena:深度学习的开源工具_arena 阿里

arena 阿里

From https://dzone.com/articles/alibaba-cloud-arena-an-open-source-tool-for-deep-l

阿里云在2018年7月向开源社区引入了深度学习工具Arena。现在,数据科学家可以在云上运行深度学习,而无需学习操纵低级IT资源。他们可以在一分钟内启动深度学习任务,并在十五分钟内创建异构计算集群。

为什么要像竞技场一样构建工具

今天,KubeFlow是Kubernetes社区中最受欢迎的深度学习解决方案,所以不是竞技场只是重新发明轮子吗?KubeFlow是一种基于Kubernetes的可组合,便携,可扩展的机器学习技术堆栈。它是一个端到端的解决方案,支持Jupyter Hub开发,TFJob模型培训到TF服务,以及Seldon预测。但是,KubeFlow需要掌握Kubernetes。例如,编写yaml文件来部署TFJob对于机器学习平台的主要用户来说是非常具有挑战性的 - 数据科学家。

这些任务与数据科学家的期望背道而驰,数据科学家只关心三件事:

  1. 数据来自何处。
  2. 如何运行机器学习代码。
  3. 如何检查培训结果(模型和日志)。

数据科学家熟悉并喜欢在桌面上编写一些简单脚本和运行机器学习代码的工作方法。但是,硬盘驱动器的空间限制限制了它们可以处理的数据量,并且当它们无法利用分布式培训时,它们的计算能力有限。

这就是我们开发竞技场的原因。此命令行工具使您免受低级资源,环境管理,任务调度以及GPU调度和分配的复杂性的影响。Arena帮助数据科学家提交培训任务,并以他们熟悉的直接方式检查培训进度。当数据科学家致电竞技场时,他们可以指定数据源,下载代码以及是否使用TensorBoard来检查培训结果。

Arena的作用是什么?

Arena目前支持独立培训和PS-Worker模型分布式培训。在后端,它依赖于KubeFlow提供的TFJob。很快,它将扩展到支持MPIJob和PytorchJob。

图片标题

它还支持实时培训操作和维护,包括:

  1. 利用“top”命令监控GPU资源的分配和调度。
  2. CPU和GPU资源监控。
  3. 实时检查培训日志。

在未来,我们希望通过Arena提供涵盖整个过程的深度学习生产线,包括集成的培训数据管理,实验管理,模型开发,持续培训,评估和在线预测。

Arena的目标是让数据科学家像在桌面上进行培训一样轻松释放KubeFlow的强大功能,同时让他们控制群集级别的调度和管理。我们已经在GitHub上发布了我们的源代码,以便更好地与开源社区分享和合作:https//github.com/AliyunContainerService/arena。欢迎大家查看并使用它。如果你喜欢它,请加注吧。我们也欢迎您对代码的贡献。

竞技场背后的故事

开源工具Arena诞生于阿里云的深度学习解决方案。它已经支持许多深度学习框架(如TensorFlow,Caffe,Hovorod和Pytorch),它从头到尾支持整个深度学习生产线(包括集成培训数据管理,实验管理,模型开发,连续的步骤)培训和评估,以及在线预测)。

该解决方案深度整合了阿里云的资源和服务。它有效地利用了CPU和GPU等异构资源,集中了集装箱化,编排和管理,还提供监控警告和操作维护平台。

结论

阿里云的高级技术解决方案架构师张凯表示,“深度学习带来了人工智能发展的革命性飞跃,但它也大大增加了我们对计算和数据资源的依赖。阿里云提供了终端 - 对大规模培训的最终支持,我们不断完善这一深度学习解决方案,使其更易于使用,并赋予其更强大的功能。“

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/1014679
推荐阅读
相关标签
  

闽ICP备14008679号