深度神经网络的光谱复杂度
内容提要
本文探讨了深度神经网络的频率偏向、Jacobian谱结构及超参数对性能的影响。研究发现,深度网络在学习高频函数时受参数扰动影响,且不同非线性函数具有普适极限谱分布。此外,随机初始化和稀疏神经活动显著影响网络性能,并提出了新的核函数以优化学习速度和泛化能力。
关键要点
-
深度 ReLU 网络偏向于低频函数,学习高频函数时受参数扰动影响。
-
不同非线性函数符合新的普适极限谱分布,深度接近无穷时分布集中于 1 附近。
-
神经网络的训练过程可以沿神经切向核的不同方向分解,每个方向的收敛率由特征值决定。
-
随机初始化的宽神经网络通过高斯过程近似,收敛速度受激活函数次数和函数平滑度影响。
-
稀疏神经活动提高了具有修正线性单元激活的神经网络的泛化性能,浅层稀疏网络优于非稀疏网络。
-
谱偏差研究表明,当表现能力受限时,混淆程度增加导致收敛速度变慢。
-
共轭内核和神经切向内核的特性分析提供了关于初始化分布和训练、泛化特性的新见解。
-
深度神经网络的可连接性和内存需求的基本下限适用于广泛的函数类,随机梯度下降算法能够学习近乎最优的函数逼近。
延伸问答
深度神经网络偏向于学习什么类型的函数?
深度神经网络偏向于学习低频函数,但在数据流形复杂性增加时,学习高频函数变得更容易。
超参数如何影响深度神经网络的性能?
超参数如非线性函数、权值和偏置分布等会影响深度网络的Jacobian谱结构,从而影响网络性能。
随机初始化对神经网络的收敛速度有什么影响?
随机初始化的宽神经网络通过高斯过程近似,其收敛速度受激活函数次数和函数平滑度的影响。
稀疏神经活动如何影响网络的泛化性能?
稀疏神经活动提高了具有修正线性单元激活的神经网络的泛化性能,浅层稀疏网络优于非稀疏网络。
谱偏差对神经网络的收敛速度有什么影响?
谱偏差研究表明,当表现能力受限时,混淆程度增加会导致收敛速度变慢。
深度神经网络的可连接性和内存需求有什么基本下限?
深度神经网络的可连接性和内存需求的基本下限适用于广泛的函数类,且随机梯度下降算法能够学习近乎最优的函数逼近。