用广义的布雷格曼散度驯服非凸随机镜像下降
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该论文重新审视了非凸优化设置中随机镜像下降(SMD)的收敛性,并克服了先前结果的限制。通过新的非凸SMD收敛分析,将结果扩展到高概率收敛和全局收敛。研究表明,改进的SMD理论在非凸机器学习任务中具有优势。同时,开发了可证明收敛的随机算法用于训练线性神经网络。
🎯
关键要点
- 该论文重新审视了非凸优化设置中随机镜像下降(SMD)的收敛性。
- 通过新的非凸SMD收敛分析,克服了先前结果的限制,支持一般距离生成函数(DGF)。
- 建立了基于Bregman前向-后向包络的收敛性,该包络比常用的梯度映射的平方范数更强。
- 将结果扩展到高概率收敛和全局收敛,适用于次高斯噪声和广义Bregman Proximal Polyak-Lojasiewicz条件。
- 展示了改进的SMD理论在非凸机器学习任务中的优势,尤其是在非凸差分隐私学习中。
- 开发了可证明收敛的随机算法用于训练线性神经网络。
➡️