随机特征优于线性模型:尖峰协方差数据中强输入-标签相关性的影响

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

文章利用随机矩阵理论和自由概率工具推导高维岭回归模型的性能,提供公式识别性能的幂律缩放来源。研究发现,$S$变换与训练-测试泛化差距相关,并类比广义交叉验证。通过这些技术,分析随机特征模型的偏差-方差,揭示特征方差和权重结构对性能的限制,扩展对神经缩放定律的理解。

🎯

关键要点

  • 利用随机矩阵理论和自由概率工具推导高维岭回归模型的训练和泛化性能。
  • 通过自由概率的$S$变换特性获得训练和泛化误差的解析公式,识别模型性能的幂律缩放来源。
  • 计算广义类随机特征模型的泛化误差,发现$S$变换与训练-测试泛化差距相关。
  • 提供广义交叉验证估计器的类比,分析随机特征模型的偏差-方差。
  • 揭示特征方差和权重结构对随机特征模型性能的限制。
  • 发现超参数设置中特征的方差限制了性能,异向权重结构也限制性能。
  • 结果扩展了对早期神经缩放定律模型的理解,提供统一视角。
➡️

继续阅读