本文研究了两层ReLU网络在权重衰减正则化下与其凸松弛的最优性差距。结果显示,在随机数据下,原问题与松弛问题的最优性差距可用O(√log n)界定。简单算法能在多项式时间内解决非凸问题。合理假设下,随机初始化的局部梯度法几乎总能收敛到低训练损失点,改进了现有结果并提供新见解。
完成下面两步后,将自动完成登录并继续当前操作。