本文研究了非凸和高维环境中梯度下降的优化动力学,以相位恢复问题为例。通过分析局部曲率的变化,发现在下降的第一个阶段中,Hessian矩阵显示出朝向好的极小值的下降方向,然后被困在坏的极小值中。成功的相位恢复通过梯度下降在达到坏的极小值之前朝向好的极小值实现。这种机制解释了为什么在高维极限对应的算法过渡之前就能成功恢复。分析揭示了这种新机制在有限但非常大的维度下促进梯度下降动力学,并强调了初始化谱特性对于在复杂高维地形中的优化的重要性。
本文提出了两种新的拜占庭容错化方法,通过压缩和收敛速率来改善收敛速度,并在非凸和 Polyak-Lojasiewicz 平滑优化问题中表现出更好的性能。同时,还开发了带有压缩和误差反馈的第一种拜占庭容错化方法,并推导了在非凸和 Polyak-Lojasiewicz 平滑情况下的收敛速率。通过数值实验证明了理论发现。
该论文提出了一种适应性方法,用于非凸连续学习的收敛性分析。该方法通过调整先前和当前任务的梯度步长,以达到与SGD方法相同的收敛速度,并在减轻灾难性遗忘项的情况下改进了连续学习在图像分类任务中的性能。
通过对基于 Transformer 架构的大型语言模型进行研究,本文证明了在均场动力学中,无论高度非凸的参数分布的无限维损失曲面,均很温和,而 Wasserstein 梯度流几乎总是避免鞍点,这是对均场动力学的第一次鞍点分析,相关技术具有独立的研究价值。
该研究提出了一种名为Newton Sketch的随机化二阶优化方法,可用于近似牛顿步。该算法证明具有超线性收敛和指数高概率,与条件数和相关问题独立的收敛和复杂度保证。该方法可应用于多种问题,如线性程序、带凸约束的二次程序、逻辑回归和其他广义线性模型以及半定规划的扩展问题。
本文重新审视了基于信号的方法,并在更现实的一阶和二阶平滑性的假设下分析了其收敛性。对最近开发的 LION 算法的计算优势有了深入了解。在分布式环境中,证明了这种非凸加速度随着节点数量的线性加速性仍然存在。
该研究提出了两种新的拜占庭容错化方法,能够在非凸和 Polyak-Lojasiewicz 平滑优化问题中具有更好的收敛速率、更小的邻域大小以及更能容忍拜占庭节点。同时,还开发了带有压缩和误差反馈的第一种拜占庭容错化方法,并推导了这些方法在非凸和 Polyak-Lojasiewicz 平滑情况下的收敛速率,并通过数值实验证明了理论发现。
非凸高性能日志库ftlog...
完成下面两步后,将自动完成登录并继续当前操作。