分布式机器学习概述

作者：盐析白兔 | 2024-05-02 21:19:25

踩

分布式机器学习

这学期学习的scalable machine learning 可以由分布式implement, 是现在发展的趋势，如何在HPC上部署是很重要的知识，希望这学期这门课能有很多收获。

分布式机器学习也称分布式学习，是指利用多个计算节点（也称工作节点，Worker）进行机器学习或者深度学习的算法和系统，旨在提高性能、保护隐私，并可扩展至更大规模的训练数据和更大的模型。

联邦学习可以看作分布式学习的一种特殊类型，它可以进一步解决分布式机器学习遇到的一些困难，从而构建面向隐私保护的人工智能应用和产品。

近年来，新技术的快速发展导致数据量空前增长。机器学习算法正越来越多地用于分析数据集和建立决策系统。而由于问题的复杂性，例如控制自动驾驶汽车、识别语音或预测消费者行为（参考Khandani等人2010年发表的文章），算法解决方案并不可行。

在某些情况下，单个机器上模型训练的较长运行时间促使解决方案设计者使用分布式系统，以增加并行度和I/O带宽总量，因为复杂应用程序所需的训练数据可以很容易就达到TB级。

在其他情况下，当数据本身是分布式的或量太大而不能存储在单个机器上时，集中式解决方案甚至不可取。例如，大型企业对存储在不同位置的数据进行事务处理，或者由于数据量太大而无法移动和集中。

为了使这些类型的数据集可以作为机器学习问题的训练数据被访问，必须选择并实现能够并行计算、适应多种数据分布和拥有故障恢复能力的算法。

近年来，机器学习技术得到了广泛应用。虽然出现了各种相互竞争的方法和算法，但使用的数据表示在结构上非常相似。机器学习工作中的大部分计算都是关于向量、矩阵或张量的基本转换，这些都是线性代数中常见的问题。

几十年来，对这种操作进行优化的需求一直是高性能计算（High Performance Computing，HPC）领域高度活跃的研究方向。因此，一些来自HPC社区的技术和库&#x

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/526151