关于联想记忆的缩放定律

通过学习高维矩阵和内层变换器语言模型，研究关联记忆机制、标度定律和统计效率的优化算法，通过数值实验验证理论结果和存储记忆联想的细粒度可视化。

本文研究了参数稀疏性对Transformer模型在大规模数据集上训练的影响，并确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律。研究发现，在非零参数数量固定时，最佳稀疏度随着用于训练的数据量增加而增加。同时，研究还将扩展到了不同的稀疏结构和策略，揭示了权重稀疏性的能力和局限性，为提高计算效率提供了理论理解和实际意义。