关于特征叠加的缩放规律影响

通过尺度定律的结果，本理论笔记论证了以下两个陈述不能同时成立：1. 稀疏特征在层间线性表示的叠加假设是特征表示的完整理论。2. 特征是普遍的，意味着在相同数据上训练且达到相等性能的两个模型将学习相同的特征。

本文研究了参数稀疏性对大规模数据集上Transformer模型的影响，发现最佳稀疏度随着训练数据量增加而增加。研究还涉及不同的稀疏结构和策略，揭示了权重稀疏性的能力和局限性，为提高计算效率提供了理论理解和实际意义。