本研究通过降噪核近似和收敛性分析的方法,对SGD算法在过参数化的两层神经网络中的收敛速度进行了研究,提供了对其收敛行为的深入理解,并探索了核方法和优化过程之间的相互作用。研究还在神经元数量约束上取得了进展,使神经网络的设计和扩展更加灵活。
本文分析了用于训练过参数化的两层物理信息神经网络的隐性梯度下降法的收敛性,证明了平滑激活函数的 Gram 矩阵是正定的。通过过参数化,随机初始化的隐性梯度下降法以线性收敛速率收敛于全局最优解,并且可以独立于样本大小和 Gram 矩阵的最小特征值选择学习率。
该论文提出了一种适应性方法,用于非凸连续学习的收敛性分析。该方法通过调整先前和当前任务的梯度步长,以达到与SGD方法相同的收敛速度,并在减轻灾难性遗忘项的情况下改进了连续学习在图像分类任务中的性能。
本文提出了一种具有优越性能的Riemannian随机拟牛顿算法,能够在不确定性的情况下实现多个梯度的加、减、平均,并对非凸和收缩凸函数进行了收敛性分析。实验结果表明该算法在计算Karcher平均值和低秩矩阵时优于当前最先进的批量和随机梯度算法。
完成下面两步后,将自动完成登录并继续当前操作。