小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究了局部SGD在凸设置中的性能,证明其优于小批量SGD,并提供了总体上至少有时优于小批量SGD的第一个保证。同时,发现局部SGD存在一种性能下限,比小批量SGD保证更差。
🎯
关键要点
-
本文研究局部SGD(并行SGD和联邦平均)在凸设置中的性能。
-
局部SGD在凸设置中严格优于小批量SGD。
-
局部SGD在凸二次目标上加速是最小极值最优的。
-
提供了局部SGD总体上至少有时优于小批量SGD的第一个保证。
-
局部SGD存在性能下限,比小批量SGD的保证更差。
➡️