小红花·文摘

本研究分析了语言模型在推理任务中的性能差异，强调学习率与批量大小比率的重要性。通过开发SmolTulu模型，优化了这两者的关系，显著提升了模型在指令跟随和数学推理方面的表现。