Normalization-Free Transformers
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出动态双曲正切(DyT)作为变换器中归一化层的替代,证明无归一化的变换器仍可实现相同或更优的性能,挑战了传统归一化层的地位。
🎯
关键要点
- 本研究提出动态双曲正切(DyT)作为变换器中归一化层的替代。
- 无归一化的变换器仍可实现相同或更优的性能。
- DyT的引入使得变换器在多个学习设置中表现优异。
- 本研究挑战了传统归一化层在深度网络中的地位。
➡️