本文探讨了大型语言模型(LLMs)在下游任务性能上的缩放特性,提出了一种框架来根据训练预算预测基准性能。研究发现,在固定的令牌与参数比率下,简单的幂律可以准确描述多个下游任务的准确率缩放行为。该方法优于传统的两阶段程序,并提供了预测准确率的功能形式。研究团队还发布了完整的预训练损失和下游评估结果,以支持可重复性。
本研究提出了一种多幂律经验法则,揭示了大型语言模型在不同学习率调度下的预训练损失演变,能够有效预测损失曲线并优化学习率调度,超越传统方法。
本文探讨大型语言模型(LLM)在数学推理中的挑战,研究预训练损失、监督数据和增强数据对模型性能的影响。结果表明,预训练损失是更好的性能指标,数据量与模型性能呈对数线性关系。通过合成数据和负面样本微调,模型在多步推理任务中表现出色,并提出了一种新评估方法以识别数学误解,从而提升推理能力。这些研究为LLM的有效训练提供了新见解。
清华大学和智谱AI团队的研究发现,大模型的涌现能力与预训练损失的关系比模型参数更紧密。解锁涌现能力的关键在于优化预训练损失至关键值以下。
本论文提出了一种阶段递增训练的替代框架RaPTr,通过逐步增加路径长度,在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能,对QA任务和SuperGLUE的改进幅度可达1-5%。理论基础证明了子网络在各阶段的复杂性递增,以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。
完成下面两步后,将自动完成登录并继续当前操作。