利用合适的缩放因子提高深层宽残差网络的泛化能力
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文研究了深度残差神经网络(ResNets)中的缩放因子(α)对泛化能力的影响。研究发现,当α是常数时,深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是不可学习的。然而,当α与深度L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率。模拟研究支持了对α选择的理论标准。
🎯
关键要点
- 深度残差神经网络(ResNets)在实际应用中取得显著成功。
- 适当的缩放因子(α)对于深度宽 ResNets 的残差分支至关重要。
- 如果α是常数,深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是渐近不可学习的。
- 即使允许α随着深度L的增加而减小,退化现象仍可能发生。
- 当α与深度L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率。
- 目标回归函数需位于与无穷深度RNTK相关联的再生核希尔伯特空间中。
- 模拟研究支持了对α选择的理论标准,包括合成数据和实际分类任务(如MNIST、CIFAR10和CIFAR100)。
➡️