pytorch实现联邦学习中state_dict()与named_parameters()的差异_bert.state_dict()含义

作者：很楠不爱3 | 2024-04-11 19:41:58

踩

bert.state_dict()含义

1. `state_dict()`与`named_parameters()`的区别

state_dict()返回的是一个字典，键是层的名字，值是层对应的内容。
named_parameters()直接返回的就是一个元组，第一个元素是层的名字，第二个元素是层的内容。
如果你使用了batchnorm，你会发现会有一些层，例如：running_mean，running_var和num_batches_tracked。这些层属于训练时的一些记录层，没有梯度，不会进行BP。

2. 这些层有什么意义？

在PyTorch神经网络中，running_mean、running_var和num_batches_tracked是Batch Normalization（批归一化）层的重要属性。Batch Normalization是一种常用的正则化技术，用于加速神经网络的训练和提高模型的性能。

running_mean（运行均值）和running_var（运行方差）是Batch Normalization层内部的统计量。它们用于在训练过程中跟踪每个特征的均值和方差的移动平均值。这些统计量的更新基于当前小批量输入数据的均值和方差，以及之前的运行均值和方差。

在训练过程中，running_mean和running_var会被不断更新，从而对整个训练数据集的统计信息进行估计。这样，即使在每个小批量数据上计算均值和方差时存在一定的噪声，模型仍然可以受益于对整体分布的更好估计。

num_batches_tracked（已追踪的批次数）是一个计数器，用于跟踪已处理的小批量数量。它在每个小批量数据的正向传播过程中自增。这个属性主要用于控制running_mean和running_var的更新方式，确保在训练开始时较大的学习率下，统计量的估计相对较稳定。

在推理阶段，running_mean和running_var会被用于标准化输入数据，以便使模型对未见过的样本具有更好的泛化能力。

总结一下，running_mean、running_var和num_batches_tracked在PyTorch神经网络中的作用如下：

running_mean：跟踪特征的运行均值，用于标准化输入数据。
running_var：跟踪特征的运行方差，用于标准化输入数据。
num_batches_tracked：记录已处理的小批量数量，用于控制统计量的更新方式。

3. 联邦学习处理

在使用联邦学习的FedAvg（Federated Averaging）算法时，running_mean、running_var和num_batches_tracked的处理稍有不同。由于联邦学习的特性，数据被分布在多个参与方（例如设备、客户端）上，而不是集中存储在一个中央服务器上。因此，每个参与方在本地执行模型训练时，会有自己的running_mean、running_var和num_batches_tracked。

在FedAvg算法中，模型参数的更新是通过参与方之间的模型参数平均来实现的。为了处理running_mean和running_var，可以采取以下策略：

初始同步：在联邦学习的初始阶段，当参与方开始训练时，可以将每个参与方的running_mean和running_var初始化为全局模型的均值和方差。这样可以确保每个参与方的初始统计量相对一致，从而提供一个良好的起点。
局部更新：在每个参与方的本地训练过程中，根据本地的小批量数据计算新的running_mean和running_var。这些统计量是基于本地数据计算得到的，并与之前的running_mean和running_var进行更新。
模型聚合：在每个轮次或一定的训练间隔之后，参与方将本地训练得到的模型参数进行聚合。在模型参数聚合的过程中，可以选择仅考虑模型参数，而不包括running_mean和running_var。这是因为running_mean和running_var是局部统计量，对于全局模型的训练而言并不是必需的。

需要注意的是，num_batches_tracked参数在FedAvg中通常不参与模型参数的传递和更新，因为它只是一个计数器，记录参与方处理的小批量数量。在联邦学习中，每个参与方的小批量数量可能不同，因此无需在模型聚合过程中对num_batches_tracked进行特殊处理。

综上所述，在联邦学习的FedAvg算法中，running_mean和running_var应该在每个参与方的本地训练中进行更新，但在模型聚合过程中，通常只考虑模型参数的传递和更新，而不考虑running_mean和running_var。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/407007

pytorch实现联邦学习中state_dict()与named_parameters()的差异_bert.state_dict()含义

1. state_dict()与named_parameters()的区别

2. 这些层有什么意义？

3. 联邦学习处理

1. `state_dict()`与`named_parameters()`的区别