利用连续时间控制和摄动理论解锁最佳批处理大小日程

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

通过研究教师-学生感知器分类模型,得出了三个动力学相图,分别是由温度控制的噪声主导的SGD,由大步长主导的SGD和GD。这些相对应不同的泛化误差区域。分析发现,批次大小B*与训练集大小P呈比例,指数表征了分类问题的难度。

🎯

关键要点

  • 研究教师-学生感知器分类模型,获得三个动力学相图。

  • 三个相分别是:由温度控制的噪声主导的SGD、由大步长主导的SGD和GD。

  • 不同的相对应不同的泛化误差区域。

  • 批次大小B*与训练集大小P呈比例,指数表征分类问题的难度。

➡️

继续阅读