SGD 在两层神经网络中寻找并调整特征,具有近乎最优的样本复杂度:以 XOR 问题为案例研究

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了使用SGD训练任意宽度的两层神经网络,证明了第一层权重将收敛于真实模型的k维主子空间,使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标,其样本复杂度与d成线性关系。

🎯

关键要点

  • 研究使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN)。
  • 输入 x 是高斯分布,目标 y 遵循多指数模型。
  • 证明了NN的第一层权重将收敛于真实模型的k维主子空间。
  • 建立了一个独立于NN宽度的一般化误差边界。
  • 使用SGD训练的ReLU NNs可以通过恢复主方向来学习单指标目标。
  • 样本复杂度与d成线性关系,而不是通过已知的p次多项式样本要求。
  • 表明初始化时使用SGD训练的NNs可以胜过神经切向核。
➡️

继续阅读