本文研究了深度残差神经网络(ResNets)中的缩放因子(α)对泛化能力的影响。研究发现,当α是常数时,深度趋于无穷时,由残差神经切向核(RNTK)引起的函数类是不可学习的。然而,当α与深度L迅速减小时,使用深度RNTK进行早停止的核回归可以达到最小最大速率。模拟研究支持了对α选择的理论标准。
本研究在简化环境中研究了大规模语言模型的模型崩溃现象,并提出了自适应正则化策略来减轻影响。
本论文提供了一种统一的理论来上界核回归的超额风险,并揭示了核矩阵的特征值尾部分布形成一种隐式正则化现象,从而实现良好的泛化。该研究结果适用于高输入维度的良性过拟合、固定维度的近似过拟合以及正则化回归的明确收敛速率。
该论文研究了神经网络在有噪声的情况下如何拟合数据并防止测试性能严重下降,提出了'良性过拟合'与'温和过拟合'的新概念。论文还系统性地分析了这些概念在核回归和深度神经网络中的应用效果。
完成下面两步后,将自动完成登录并继续当前操作。