小红花·文摘

本研究探讨了学习率预热在大批量训练中的应用，提出了更新大小的新指标分析方法。研究表明，通过优化器显式归一化更新，可以显著减少预热需求，显示出优化策略对训练动态的影响。

分析与减少GPT训练中学习率预热的需求

BriefGPT - AI 论文速递 ·

AdaScale SGD是一种适应大批量训练学习率的算法，可加速训练并保持模型质量，适用于机器翻译、图像分类、目标检测和语音识别任务。该算法具有可忽略的计算开销和无需新的超参数，适合大规模训练。

通过缩放进行自适应的本地方法

BriefGPT - AI 论文速递 ·

小批量随机梯度下降（SGD）训练深度神经网络（DNNs）具有卓越的测试性能。差分隐私（DP）确保 DNN 的训练时，DP-SGD 会向截断梯度添加高斯噪声。大批量训练仍然导致性能下降，因为强 DP 保证需要使用大规模批次。无噪声 SGD 也存在隐式偏差，加入额外噪声会放大偏差。大批量 DP-SGD 训练的性能问题根源于 SGD 的潜在原则，为大批量训练策略的改进提供了希望。

重尾扰动下的噪声 (S) GD 的差分隐私

BriefGPT - AI 论文速递 ·