小红花·文摘

本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距，揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定。此外，在合理假设下，随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点，此结果相对现有结果而言具有指数级改进，并对解释局部梯度方法为何行之有效提供了新的见解。