用广义的布雷格曼散度驯服非凸随机镜像下降
原文中文,约500字,阅读约需2分钟。发表于: 。该论文重新审视了当今非凸优化设置中随机镜像下降(Stochastic Mirror Descent,SMD)的收敛性。通过支持一般距离生成函数(distance generating function,DGF)的新的非凸 SMD 收敛分析,该论文克服了先前结果对于具有光滑连续的梯度的可微性 DGF 的限制,并仅依赖于标准假设。此外,该论文通过 Bregman 前向 -...
该论文重新审视了非凸优化设置中随机镜像下降(SMD)的收敛性,并克服了先前结果的限制。通过新的非凸SMD收敛分析,将结果扩展到高概率收敛和全局收敛。研究表明,改进的SMD理论在非凸机器学习任务中具有优势。同时,开发了可证明收敛的随机算法用于训练线性神经网络。