叠加导致神经网络的稳健缩放 本研究解决了当前大型语言模型(LLMs)中神经缩放规律的起源不明的问题,提出了一个基于叠加和特征频率的玩具模型。研究发现,当叠加效应强烈时,损失与模型维度成反比关系,并且在分析开源LLMs时,这种预测得到了验证,表明叠加表示是神经缩放规律的重要机制,有望启发新的训练策略和模型架构。 本研究探讨了大型语言模型中神经缩放规律的起源,提出了基于叠加和特征频率的模型,发现损失与模型维度成反比,验证了叠加表示的重要性。 叠加表示 损失 神经缩放 神经网络 维度 语言模型