小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了局部SGD在凸设置中的性能,证明其优于小批量SGD,并提供了总体上至少有时优于小批量SGD的第一个保证。同时,发现局部SGD存在一种性能下限,比小批量SGD保证更差。

🎯

关键要点

  • 本文研究局部SGD(并行SGD和联邦平均)在凸设置中的性能。

  • 局部SGD在凸设置中严格优于小批量SGD。

  • 局部SGD在凸二次目标上加速是最小极值最优的。

  • 提供了局部SGD总体上至少有时优于小批量SGD的第一个保证。

  • 局部SGD存在性能下限,比小批量SGD的保证更差。

➡️

继续阅读