利用合适的缩放因子提高深层宽残差网络的泛化能力

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文研究了深度残差神经网络(ResNets)中的缩放因子(α)对泛化能力的影响。研究发现,当α是常数时,深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是不可学习的。然而,当α与深度L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率。模拟研究支持了对α选择的理论标准。

🎯

关键要点

  • 深度残差神经网络(ResNets)在实际应用中取得显著成功。
  • 适当的缩放因子(α)对于深度宽 ResNets 的残差分支至关重要。
  • 如果α是常数,深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是渐近不可学习的。
  • 即使允许α随着深度L的增加而减小,退化现象仍可能发生。
  • 当α与深度L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率。
  • 目标回归函数需位于与无穷深度RNTK相关联的再生核希尔伯特空间中。
  • 模拟研究支持了对α选择的理论标准,包括合成数据和实际分类任务(如MNIST、CIFAR10和CIFAR100)。
➡️

继续阅读