小红花·文摘

本文研究了两层ReLU网络在权重衰减正则化下与其凸松弛的最优性差距。结果显示，在随机数据下，原问题与松弛问题的最优性差距可用O(√log n)界定。简单算法能在多项式时间内解决非凸问题。合理假设下，随机初始化的局部梯度法几乎总能收敛到低训练损失点，改进了现有结果并提供新见解。