小红花·文摘

本文探讨了大规模语言模型的缩放定律，研究了模型大小、数据集和计算量之间的幂律关系。发现语言模型在不同令牌位置的学习均匀，网络宽度或深度变化对性能影响较小。提出了时间缩放定律，并通过实验验证了多尺度变压器模型的优势。