本文探讨了大型语言模型(LLMs)在下游任务性能上的缩放特性,提出了一种框架来根据训练预算预测基准性能。研究发现,在固定的令牌与参数比率下,简单的幂律可以准确描述多个下游任务的准确率缩放行为。该方法优于传统的两阶段程序,并提供了预测准确率的功能形式。研究团队还发布了完整的预训练损失和下游评估结果,以支持可重复性。
本研究提出了一种多幂律经验法则,揭示了大型语言模型在不同学习率调度下的预训练损失演变,能够有效预测损失曲线并优化学习率调度,超越传统方法。
本研究探讨了扩散变换器(DiT)的模型规模和数据需求,首次确认了DiT的规模定律,展示了预训练损失与计算量的幂律关系。这些定律帮助确定最优模型规模和数据需求,并预测文本到图像生成的损失,为评估模型性能和数据质量提供基准。
清华大学和智谱AI团队的研究发现,大模型的涌现能力与预训练损失的关系比模型参数更紧密。解锁涌现能力的关键在于优化预训练损失至关键值以下。
本论文提出了一种阶段递增训练的替代框架RaPTr,通过逐步增加路径长度,在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能,对QA任务和SuperGLUE的改进幅度可达1-5%。理论基础证明了子网络在各阶段的复杂性递增,以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。
完成下面两步后,将自动完成登录并继续当前操作。