赞
踩
联邦学习的目标是最小化全局损失函数,即所有参与设备上的本地模型损失的总和。
数据异构性是威胁联邦学习效果的主要原因。FedAvg 的一般步骤:在每个 Communication Round 内,参与更新的K个设备在本地 SGD 迭代
E个epochs,然后将模型上传到 Server 端进行聚合。大量研究表明,传统的fedavg1在异构数据上准确性的恶化几乎不可避免。
本文分析较有影响力的解决non-iid问题的文献。这几篇文献都是从范式角度出发,通过增加惩罚项或正则化项的方式优化本地模型参数和全局聚合函数。
数据异构性的对联邦学习的影响是局部模型进行过多的更新可能会导致全局模型不收敛。而加入近端项可以对偏离全局模型太多的局部模型进行惩罚以避免局部模型偏离全局模型太多。
FedProx2在FedAvg的基础上,局部模型的目标函数在原损失函数基础上引入了proximal term。通过修改原损失函数可以使得本地更新不要太过远离初始 global model。
另外,FedProx允许出现训练不充分的局部模型(γ-inexact solution ),以此替代之前固定的epoch。每个客户端不用都完成相同的Epoch的本地训练,而是根据自己的算力去决定自己在当前轮完成几个Epoch的本地训练。当然此处是为了缓解系统异构性影响而非数据异构性问题。
那么在论文中,fedprox的过程如下图:
这个工作是存在比较大问题的,首先论文中写的fedprox和fedavg在聚合都使用直接平均而非加权平均,是严重失误。另外FedProx的proximal term会阻碍全局模型到达平稳点。尽管在论文提到的数据集中尽管该方法对数据异构性的影响有所缓解,但后续很多文献指出其在其他non-iid数据集上没取得明显优势。
SCAFFOLD3为客户端和服务器设置了控制变量ci和c,在FedAvg的基础上增加了一个修正项c-ci,其可以理解为全局模型相对于本地模型的client-drift值,修正模型向真正的最优解移动。
每一轮通信中,server的参数(x, c)(模型+控制变量)都被发送到被选中的客户端初始化本地模型yi。
本地更新公式:
模型控制变量c的update公式:
其中II比I具有更低的计算成本。
服务端对参数和控制变量的更新公式为:
注意,若ci始终置0,则SCAFFOLD等效于Fedavg。
FedDyn4对FedProx稍加修改,使用动态正则化的方式增加惩罚项。其模型更新函数增加了一项:梯度与模型参数的内积。基于先前模型状态的梯度线性近似。该项引入了对先前设备状态的考虑,促使新模型状态与上一轮的梯度方向一致。
一阶最优条件:
局部损失的梯度变化:
正则化项的梯度:
这个条件实际上是通过将目标函数的梯度设为零来找到局部最优解的。这是标准的优化实践,确保找到的解是一个临界点,也就是局部最小值。
聚合函数:
实验结果精度比FedProx和SCAFFOLD优。
FedDC5在局部训练阶段引入轻量级修改,其中每个客户端使用一个辅助的局部漂移变量来跟踪局部模型参数和全局模型参数之间的差距。
数据漂移: hi = w − θi (w为全局模型参数,θi 为客户端模型参数)
因此可以设置惩罚项:
那么客户端的总损失函数如下:
G为梯度修正项(确保收敛)
理想的漂移更新公式为
其中 ,w是理想中训练了全部数据集的全局模型,但联邦学习不可能使用所有数据集,所以只能用局部模型参数θi +对替代全局模型参数wi +。
在模型聚合的时候,需要将本地模型和局部漂移累加获得全局聚合公式。
由于hi的取值依赖其他参数,所以作者使用EM分布训练,在客户端执行M-step,在server执行E-step。
实验结果表明FedDC展现了比以往框架更出色的准确性,并且更快达到了收敛。
还有FedNova、Moon等框架,不展开了。
Li X, Huang K, Yang W, et al. On the convergence of fedavg on non-iid data[J]. arXiv preprint arXiv:1907.02189, 2019. ↩︎
Li T, Sahu A K, Zaheer M, et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine learning and systems, 2020, 2: 429-450. ↩︎
Karimireddy S P, Kale S, Mohri M, et al. Scaffold: Stochastic controlled averaging for federated learning[C]//International conference on machine learning. PMLR, 2020: 5132-5143. ↩︎
Acar D A E, Zhao Y, Navarro R M, et al. Federated learning based on dynamic regularization[J]. arXiv preprint arXiv:2111.04263, 2021. ↩︎
Gao L, Fu H, Li L, et al. Feddc: Federated learning with non-iid data via local drift decoupling and correction[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10112-10121. ↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。