小红花·文摘

The New Stack ·

机器之心 ·

本研究分析了语言模型在推理任务中的性能差异，强调学习率与批量大小比率的重要性。通过开发SmolTulu模型，优化了这两者的关系，显著提升了模型在指令跟随和数学推理方面的表现。

BriefGPT - AI 论文速递 ·

本研究解决了深度神经网络模型在训练中寻找平坦局部最小值的能力不足的问题。通过理论分析，论文提出了锐度感知最小化算法（GSAM），在使用逐步增大的批量大小或衰减学习率的情况下，GSAM能够更有效地收敛。数值比较表明，使用GSAM方法能够找到更平坦的局部最小值，相比于使用恒定批量大小和学习率的方法。

BriefGPT - AI 论文速递 ·

KDnuggets ·

研究发现，批量大小对DP-SGD中的总梯度方差有影响。子抽样引起的方差随批量大小增加而减小，大批量可以减小有效总梯度方差。实验证实了渐近区域的相关性，并发现总梯度方差随大批量增加而进一步减小。找到了大批量同样可以减小DP-SGD迭代的有效随机噪声方差的条件。

BriefGPT - AI 论文速递 ·