小红花·文摘

通过发现神经网络中的“消散输入”现象，揭示了残差学习背后的原理，解决了深度可扩展的神经网络训练中的挑战。提出了“普通神经网络假设”（PNNH），支持无残差连接的深度神经网络训练。通过评估PNNH启用的CNN架构和Transformers，展示了与ResNets和视觉Transformers相比的准确性、训练吞吐量和参数效率的提升。