Normalization-Free Transformers

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出动态双曲正切(DyT)作为变换器中归一化层的替代,证明无归一化的变换器仍可实现相同或更优的性能,挑战了传统归一化层的地位。

🎯

关键要点

  • 本研究提出动态双曲正切(DyT)作为变换器中归一化层的替代。
  • 无归一化的变换器仍可实现相同或更优的性能。
  • DyT的引入使得变换器在多个学习设置中表现优异。
  • 本研究挑战了传统归一化层在深度网络中的地位。
➡️

继续阅读