利用连续时间控制和摄动理论解锁最佳批处理大小日程

我们推导了随机梯度下降和类似算法的最优批次大小计划，通过近似离散参数更新过程为一族随机微分方程，进而使用学习率展开进行优化处理。我们应用这些结果于线性回归任务中。

通过研究教师-学生感知器分类模型，得出了三个动力学相图，分别是由温度控制的噪声主导的SGD，由大步长主导的SGD和GD。这些相对应不同的泛化误差区域。分析发现，批次大小B*与训练集大小P呈比例，指数表征了分类问题的难度。