用广义的布雷格曼散度驯服非凸随机镜像下降

该论文重新审视了当今非凸优化设置中随机镜像下降（Stochastic Mirror Descent，SMD）的收敛性。通过支持一般距离生成函数（distance generating function，DGF）的新的非凸 SMD 收敛分析，该论文克服了先前结果对于具有光滑连续的梯度的可微性 DGF 的限制，并仅依赖于标准假设。此外，该论文通过 Bregman 前向 -...

该论文重新审视了非凸优化设置中随机镜像下降（SMD）的收敛性，并克服了先前结果的限制。通过新的非凸SMD收敛分析，将结果扩展到高概率收敛和全局收敛。研究表明，改进的SMD理论在非凸机器学习任务中具有优势。同时，开发了可证明收敛的随机算法用于训练线性神经网络。

全局收敛收敛性镜像随机镜像下降非凸SMD 非凸优化