小红花·文摘

本文研究了语言模型性能与交叉熵损失的关系，发现损失与模型和数据集大小呈幂律关系。提出了时间缩放定律，探讨了预训练数据对下游性能的影响，并确认了扩展定律在大型模型中的有效性，为模型优化和预训练流程提供了指导。

BriefGPT - AI 论文速递 ·

本文探讨了大规模语言模型的缩放定律，研究了模型大小、数据集和计算量之间的幂律关系。发现语言模型在不同令牌位置的学习均匀，网络宽度或深度变化对性能影响较小。提出了时间缩放定律，并通过实验验证了多尺度变压器模型的优势。

BriefGPT - AI 论文速递 ·