GRAWA：基于梯度的加权平均方法用于分布式训练深度学习模型

我们研究了在时间受限环境下的分布式深度学习模型训练，提出了一种新算法，通过按照工作节点的梯度范数的倒数进行加权平均来推动工作节点接近计算得出的中心变量，以优先恢复优化景观中的平坦区域。我们开发了两种异步变体的算法，分别称为模型级梯度加权平均算法（MGRAWA）和层级梯度加权平均算法（LGRAWA），其不同之处在于加权方案是针对整个模型还是逐层应用。在理论方面，我们证明了该方法在凸性和非凸性设...

该研究提出了一种在时间受限环境下的分布式深度学习模型训练算法，通过加权平均推动工作节点接近计算得出的中心变量，以优先恢复平坦区域。实验证明该算法收敛速度更快，质量更好，且需要较少的通信频率和分布式更新。