小红花·文摘

重新审视大型语言模型训练中下游指标的缩放特性

Apple Machine Learning Research ·

本研究提出了一种多幂律经验法则，揭示了大型语言模型在不同学习率调度下的预训练损失演变，能够有效预测损失曲线并优化学习率调度，超越传统方法。

A Multi-Power Law Model for Predicting Loss Curves under Different Learning Rate Schedules

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型（LLM）在数学推理中的挑战，研究预训练损失、监督数据和增强数据对模型性能的影响。结果表明，预训练损失是更好的性能指标，数据量与模型性能呈对数线性关系。通过合成数据和负面样本微调，模型在多步推理任务中表现出色，并提出了一种新评估方法以识别数学误解，从而提升推理能力。这些研究为LLM的有效训练提供了新见解。

通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍

BriefGPT - AI 论文速递 ·

清华大学和智谱AI团队的研究发现，大模型的涌现能力与预训练损失的关系比模型参数更紧密。解锁涌现能力的关键在于优化预训练损失至关键值以下。

大模型的涌现能力与预训练loss的关系比模型参数更紧密 - 蝈蝈俊

蝈蝈俊 ·

本论文提出了一种阶段递增训练的替代框架RaPTr，通过逐步增加路径长度，在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能，对QA任务和SuperGLUE的改进幅度可达1-5％。理论基础证明了子网络在各阶段的复杂性递增，以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

通过渐进子网络实现高效的分步预训练

BriefGPT - AI 论文速递 ·