本文探讨了基于牛顿方法的优化算法在非凸机器学习中的应用,强调其利用曲率信息逃离平坦区域和鞍点的能力。研究提出了多种改进的二阶优化算法,如TKFAC和Eva,显示出在深度学习任务中优于传统方法的性能,尤其在训练时间和收敛性方面表现突出。
本文提出了一种基于子采样的立方正则化牛顿方法,旨在降低计算复杂度并确保全局收敛性。研究表明,该方法在非凸优化问题中表现优越,尤其在高维情况下收敛速度快。通过随机变体和自适应方差调整,优化了算法的效率,并成功应用于机器学习问题。
K-FAC是一种高效的逆近似方法,用于近似神经网络的Fisher信息矩阵,表现比先前的近似自然梯度/牛顿方法更好。
本文介绍了两种简单的随机二阶方法,用于最小化光滑和强凸函数的平均值。这些方法包括牛顿方法的随机变体(SN)和具有立方正则化的牛顿方法的随机变体(SCN)。与现有的随机二阶方法不同,这些方法每次迭代只需要计算一个随机选择函数的梯度和海森矩阵,避免了其他方法的缺点。与大多数现有的随机牛顿和拟牛顿方法相比,这些方法保证了比一阶 oracle 更快的本地收敛,并适应了问题的曲率。虽然这些方法不是无偏的,但为设计新的随机方法提供了新的直觉。
完成下面两步后,将自动完成登录并继续当前操作。