训练两层物理引导神经网络的隐式梯度下降收敛性
原文中文,约300字,阅读约需1分钟。发表于: 。本文提供了用于训练过参数化的两层物理信息神经网络的隐性梯度下降法的收敛性分析,证明了常见的平滑激活函数(如 sigmoid 函数、softplus 函数、tanh 函数等)的 Gram 矩阵是正定的。通过过参数化,随机初始化的隐性梯度下降法以线性收敛速率收敛于全局最优解,并且由于不同的训练动态,可以独立于样本大小和 Gram 矩阵的最小特征值选择学习率。
本文分析了用于训练过参数化的两层物理信息神经网络的隐性梯度下降法的收敛性,证明了平滑激活函数的 Gram 矩阵是正定的。通过过参数化,随机初始化的隐性梯度下降法以线性收敛速率收敛于全局最优解,并且可以独立于样本大小和 Gram 矩阵的最小特征值选择学习率。