随机梯度下降的不同制度

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究研究了教师-学生感知器分类模型,得出了一个相图,分为三个动力学相,分别对应不同的泛化误差区域。研究发现,批次大小B*与训练集大小P呈比例,其中的指数表征了分类问题的难度。

🎯

关键要点

  • 研究了教师-学生感知器分类模型。
  • 在 B-η 平面上获得了一个相图,分为三个动力学相。
  • 三个动力学相分别是:由温度控制的噪声主导的 SGD、由大步长主导的 SGD 和 GD。
  • 不同相对应着不同的泛化误差区域。
  • 批次大小 B* 与训练集大小 P 呈比例,指数表征了分类问题的难度。
➡️

继续阅读