用于稀疏线性系统迭代解的图神经预处理器
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种新的方法,通过利用曲率信息加速随机梯度下降(SGD)。该方法使用两个预条件器,并使用稳健的在线更新来保持对称性和不变性。该方法在多个深度学习任务上优于现有方法。
🎯
关键要点
- 提出了一种新的方法,通过利用曲率信息加速随机梯度下降(SGD)。
- 该方法使用两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。
- 采用稳健的在线更新方法,避免了线性搜索或阻尼的需求。
- 预条件器被约束在某些连通的李群,以保持对称性和不变性。
- 李群的等变性质简化了预条件器拟合过程,消除了二阶优化器中通常需要的阻尼需求。
- 参数更新的学习率和预条件器拟合的步长在自然数值化,默认值在大多数情况下表现良好。
- 该方法在多个现代深度学习架构上优于现有方法,尤其在视觉、自然语言处理和强化学习任务上。
- 提供了复现玩具和大规模实验的代码。
🏷️
标签
➡️