BriefGPT - AI 论文速递 ·

关于特征叠加的缩放规律影响

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文研究了神经缩放定律，揭示了在无限宽度的两层神经网络中，数据与模型大小之间的关系大致呈线性。探讨了参数稀疏性对Transformer模型的影响，提出了描述权重稀疏性与训练数据量关系的扩展定律，并验证了最佳稀疏度的概念。此外，分析了最近邻分类器的缩放定律，指出数据分布对泛化误差的影响。

🎯

❓

神经缩放定律揭示了在无限宽度的两层神经网络中，数据与模型大小之间的关系大致呈线性。

参数稀疏性影响Transformer模型的扩展行为，最佳稀疏度随着训练数据量的增加而增加。

通过实证研究，确定了最佳稀疏度，即在给定有效模型大小和训练预算下获得最佳性能的稀疏度水平。

最近邻分类器的缩放定律分为两个阶段，第一阶段泛化误差多项式依赖于数据维度，第二阶段则是指数级依赖。

良好的数据分布可以使最近邻分类器的泛化误差呈多项式依赖，从而降低误差。

神经网络的表现随着训练时间、数据集大小和模型大小的增加而提高，体现了神经缩放定律的特征。

🏷️