基于平稳终端吸引子的动态解耦梯度下降算法

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质。提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。证明了该框架在单一和双时间尺度情况下的全局收敛性。实验证明了该框架包含了许多著名的SGD类型方法,并且在目标函数采用有限和形式时具有收敛性质。初步的数值实验表明了该框架的高效性。

🎯

关键要点

  • 本研究探讨了随机梯度下降(SGD)及其变种在训练非光滑激活函数神经网络中的收敛性质。
  • 提出了一种新的框架,为更新动量项和变量分配不同的时间尺度。
  • 在温和条件下证明了该框架在单一和双时间尺度情况下的全局收敛性。
  • 该框架包含了多种著名的SGD类型方法,如heavy-ball SGD、SignSGD、Lion、normalized SGD和clipped SGD。
  • 证明了在目标函数为有限和形式时,这些SGD类型方法的收敛性质。
  • 在温和假设条件下,证明了这些方法能找到目标函数的Clarke稳定点。
  • 初步数值实验表明了所分析SGD类型方法的高效性。
🏷️

标签

➡️

继续阅读