用于稀疏线性系统迭代解的图神经预处理器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种新的方法,通过利用曲率信息加速随机梯度下降(SGD)。该方法使用两个预条件器,并使用稳健的在线更新来保持对称性和不变性。该方法在多个深度学习任务上优于现有方法。

🎯

关键要点

  • 提出了一种新的方法,通过利用曲率信息加速随机梯度下降(SGD)。
  • 该方法使用两个预条件器:一个矩阵无关的预条件器和一个低秩近似预条件器。
  • 采用稳健的在线更新方法,避免了线性搜索或阻尼的需求。
  • 预条件器被约束在某些连通的李群,以保持对称性和不变性。
  • 李群的等变性质简化了预条件器拟合过程,消除了二阶优化器中通常需要的阻尼需求。
  • 参数更新的学习率和预条件器拟合的步长在自然数值化,默认值在大多数情况下表现良好。
  • 该方法在多个现代深度学习架构上优于现有方法,尤其在视觉、自然语言处理和强化学习任务上。
  • 提供了复现玩具和大规模实验的代码。
🏷️

标签

➡️

继续阅读