本文探讨了语言模型的优化分割,提出了一种通过独立预训练多个模型并利用缩放法则优化计算分配的方法。这种方法在不同模型规模和计算预算下,能有效提升模型在常识知识和推理基准上的表现。
完成下面两步后,将自动完成登录并继续当前操作。