用广义的布雷格曼散度驯服非凸随机镜像下降

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该论文重新审视了非凸优化设置中随机镜像下降(SMD)的收敛性,并克服了先前结果的限制。通过新的非凸SMD收敛分析,将结果扩展到高概率收敛和全局收敛。研究表明,改进的SMD理论在非凸机器学习任务中具有优势。同时,开发了可证明收敛的随机算法用于训练线性神经网络。

🎯

关键要点

  • 该论文重新审视了非凸优化设置中随机镜像下降(SMD)的收敛性。
  • 通过新的非凸SMD收敛分析,克服了先前结果的限制,支持一般距离生成函数(DGF)。
  • 建立了基于Bregman前向-后向包络的收敛性,该包络比常用的梯度映射的平方范数更强。
  • 将结果扩展到高概率收敛和全局收敛,适用于次高斯噪声和广义Bregman Proximal Polyak-Lojasiewicz条件。
  • 展示了改进的SMD理论在非凸机器学习任务中的优势,尤其是在非凸差分隐私学习中。
  • 开发了可证明收敛的随机算法用于训练线性神经网络。
➡️

继续阅读