赞
踩
作者:禅与计算机程序设计艺术
近几年,随着深度学习模型复杂度的不断提升和数据量的增加,人们越来越关注如何提升深度学习模型的训练速度和性能。深度学习模型的训练通常采用批梯度下降法(batch gradient descent)或随机梯度下降法(stochastic gradient descent),前者利用整个训练集的数据,后者只用一个样本,并通过计算每次迭代需要更新的参数的梯度而减少计算量。但是,由于每次更新参数时都需要向所有的神经元发送信号,因此在多线程或多处理器系统上进行批量训练速度慢且耗费资源过多。另一方面,对于单个神经网络而言,其参数规模和结构也存在制约。为了解决这一问题,一些研究人员开始探索并行化、分布式化、异构计算等方法。这些方法的目标是在相对较小的代价下,通过并行、分布式的方式,将复杂的深度学习模型快速训练到足够精确。本文介绍了在GPU上进行高效加速深度学习模型训练的基本方法,包括如何充分利用并行计算和分布式计算的优势,以及常见并行计算框架、分布式计算框架及硬件选型时的指导意义。
GPU(Graphics Processing Unit)是由NVIDIA公司设计和生产的用于图形渲染和游戏编程的处理器芯片。其在20世纪90年代成为图像显示领域的一项热门话题,从此席卷了游戏界的各个方面。目前,绝大多数个人电脑都配备了GPU,用于加速视频游戏渲染、动画制作、图像编辑、CAD绘图、建模、科学仿真等领域的计算任务。而深度学习模型的训练则可以利用GPU进行加速。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。