叠加导致神经网络的稳健缩放

本研究解决了当前大型语言模型（LLMs）中神经缩放规律的起源不明的问题，提出了一个基于叠加和特征频率的玩具模型。研究发现，当叠加效应强烈时，损失与模型维度成反比关系，并且在分析开源LLMs时，这种预测得到了验证，表明叠加表示是神经缩放规律的重要机制，有望启发新的训练策略和模型架构。

本研究探讨了大型语言模型中神经缩放规律的起源，提出了基于叠加和特征频率的模型，发现损失与模型维度成反比，验证了叠加表示的重要性。

叠加表示损失神经缩放神经网络维度语言模型