小红花·文摘

本文研究了批次大小对神经网络训练时间和模型性能的影响，发现增加批次大小不会降低性能。提出了新的理论框架，探讨模型规模、训练时间和数据量的关系，并提出HyperCloning方法以提高大型模型的预训练效率。此外，研究揭示了学习率与批次大小的优化关系，推动了数据与模型缩放的统一理论发展。

临界批量大小在预训练中的扩展性研究

BriefGPT - AI 论文速递 ·

通过研究教师-学生感知器分类模型，得出了三个动力学相图，分别是由温度控制的噪声主导的SGD，由大步长主导的SGD和GD。这些相对应不同的泛化误差区域。分析发现，批次大小B*与训练集大小P呈比例，指数表征了分类问题的难度。

利用连续时间控制和摄动理论解锁最佳批处理大小日程

BriefGPT - AI 论文速递 ·

本文研究了在线测试时间适应（OTTA）的机器学习模型在新数据分布上的适应能力，分类为三个主要类别，并使用 Vision Transformer（ViT）基础模型进行基准测试。研究结果表明，变换器表现出对不同领域转换的高度弹性，批次大小对 OTTA 方法的功效至关重要，优化的稳定性和对干扰的抵抗力也很重要。

寻找失落的在线测试时间自适应：一项调查

BriefGPT - AI 论文速递 ·

该研究研究了教师-学生感知器分类模型，得出了一个相图，分为三个动力学相，分别对应不同的泛化误差区域。研究发现，批次大小B*与训练集大小P呈比例，其中的指数表征了分类问题的难度。

随机梯度下降的不同制度

BriefGPT - AI 论文速递 ·