Transformer 过度平滑的真相

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种参数化方法,用于控制Transformer模型的频谱,避免过度平滑输入,提高表达能力。该方法在更多层次、更少数据点和受损数据的训练情况下仍然有效。

🎯

关键要点

  • Transformer模型在不同领域取得了巨大的成功。
  • 近期研究发现,Transformer本质上是低通滤波器,可能导致输入过度平滑,降低表达能力。
  • 本研究提出了一种参数化方法,控制Transformer的频谱,避免过度平滑。
  • 该方法提高了泛化性能,适用于更多层次、更少数据点和受损数据的训练情况。
➡️

继续阅读