小红花·文摘

唐巧的博客 ·

Databricks ·

本文研究了语言模型性能与交叉熵损失之间的关系，发现损失与模型大小、数据集大小和计算量呈幂律关系。研究表明，训练大型模型并合理使用数据可以提高计算效率。通过对104个模型的测试，提出了新的缩放定律，强调计算预算对模型性能的影响，并建议在推理需求大的情况下，训练较小且更长的模型以优化性能。

BriefGPT - AI 论文速递 ·

本文探讨了大规模语言模型的缩放定律，研究了模型大小、数据集和计算量之间的幂律关系。发现语言模型在不同令牌位置的学习均匀，网络宽度或深度变化对性能影响较小。提出了时间缩放定律，并通过实验验证了多尺度变压器模型的优势。

BriefGPT - AI 论文速递 ·

本文探讨了神经网络的缩放定律，指出模型性能与训练时间、数据集大小和计算量之间存在幂律关系。研究表明，训练大型模型并适时停止训练可以实现最佳性能。同时，分析了自回归生成模型和声学模型的性能与规模关系，强调了在数据受限情况下的训练方法和计算优化的重要性。

BriefGPT - AI 论文速递 ·

本文探讨了低秩训练技术，介绍了新方法ReLoRA，适用于350M参数的预训练transformer模型，表现出与常规训练相当的性能。ReLoRA在模型增大时效率提升，适合训练十亿参数网络，展示了低秩训练的潜力及其对缩放定律的影响。

BriefGPT - AI 论文速递 ·

本文研究了使用单个消费级GPU训练一天的遮蔽语言模型的下游性能，并通过修改预训练流程证明了性能与大型计算环境下的缩放定律密切相关。

BriefGPT - AI 论文速递 ·