本文分析了用于训练过参数化的两层物理信息神经网络的隐性梯度下降法的收敛性,证明了平滑激活函数的 Gram 矩阵是正定的。通过过参数化,随机初始化的隐性梯度下降法以线性收敛速率收敛于全局最优解,并且可以独立于样本大小和 Gram 矩阵的最小特征值选择学习率。
完成下面两步后,将自动完成登录并继续当前操作。