关于Kolmogorov--Arnold网络的(随机)梯度下降收敛性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究分析了随机梯度下降(SGD)及其变种在非光滑激活函数神经网络中的收敛性,提出了一个新的框架,通过更新动量项和不同时间尺度的变量分配。在温和条件下,证明了该框架的全局收敛性,并能找到目标函数的Clarke稳定点。数值实验表明这些方法效率高。

🎯

关键要点

  • 研究探讨了随机梯度下降(SGD)及其变种在非光滑激活函数神经网络中的收敛性质。
  • 提出了一种新的框架,更新动量项和变量分配不同的时间尺度。
  • 在温和条件下证明了框架的全局收敛性,适用于单一和双时间尺度情况。
  • 框架包含多种著名的SGD类型方法,如heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。
  • 证明了在有限和形式的目标函数下,这些SGD类型方法的收敛性质。
  • 在温和假设条件下,随机选择步长和初始点能找到目标函数的Clarke稳定点。
  • 初步数值实验表明这些SGD类型方法的高效性。
➡️

继续阅读